2015年6月3日 星期三

Coursera The Data Scientist’s Toolbox Week1 心得筆記

數據科學家的工具箱
約翰霍普金斯大學 公共衛生學院
The Data Scientist’s Toolbox
Johns Hopkins Bloomberg School of Public Health

Week 1
課程介紹、第一週學習筆記

2015年6月1日 - 2015年6月29日

大體了解數據分析師和數據科學家處理的數據、問題以及使用的工具。本課程是約翰霍普金斯(Johns Hopkins)數據科學專項課程的第一門課程。

課程類型
Statistics and Data Analysis

教授
Jeff Leek, PhD - Johns Hopkins University
Roger D. Peng, PhD - Johns Hopkins University
Brian Caffo, PhD - Johns Hopkins University

課程簡介
課程長度:4 weeks、1-4小時/週
語言:English
字幕:Português, English, ελληνικά, 中文 & Pусский язык

課程概述
本課程將簡要介紹數據師的工具箱的主要工具和概念。通過本課程,你可以大體了解數據分析師和數據師處理的數據、問題以及使用的工具。課程由兩部分構成。第一部分介紹將數據轉化為實際知識所運用的概念。第二部分實際介紹在version control、markdown、git、GitHub、R和RStudio等程序中使用的工具。

授課大綱
完成本課程後,你將有能力識別數據科學問題並將其分類。同時,你也將創建好Github帳戶、創建自己的首個資源庫,並將自己的首個markdown文件推送至帳戶。

先修知識
無需預修課程。之前的編程經驗會對課程十分有用。

授課形式
本課程包括每週課程視頻、每週測驗以及最後的同伴互評作業項目。

常見問題解答
數據科學專項課程之間有什麼樣的依賴關係? 
我們創建了一個簡便的課程依賴關係圖表以幫助你查看專項課程中的九門課程之間的依賴關係。 

完成本課程後,我會得到完成聲明嗎? 
是的。成功完成本課程的學生將得到由授課教師簽發的完成聲明。 

完成本課程所需的資源有哪些? 
對於本課程,你只需擁有互聯網連接和Github的訪問權限。 

本課程在數據科學專項課程中的位置是什麼? 
按先後順序,這是本專項課程的第一課。我們建議你在學習R編程或本專項課程的其他課程之前,首先學習本課程。


We believe that the key word in Data Science is "science". Our course track is focused on providing you with three things:
(1) an introduction to the key ideas behind working with data in a scientific way that will produce new and reproducible insight,
(2) an introduction to the tools that will allow you to execute on a data analytic strategy, from raw data in a database to a completed report with interactive graphics, and
(3) on giving you plenty of hands on practice so you can learn the techniques for yourself. 
Jeff Leek and the Data Science Track Team
Mon 1 Jun 2015 9:20 PM CST

Video Lectures
Week 1 (49:53)

Completed Series Motivation (12:03)

數據氾濫、Big Data、Heritage Health Prize

Why R ?
  • It is free
  • It has a comprehensive set of packages
    • Data access
    • Data cleaning
    • Analysis
    • Data reporting
  • It has one of the best development enviroments(最好的開發環境IDE) - Rstudio
  • It has an amazing ecosystem of developers(擁有良好的開發者生態圈:有很多人在開發我們使用的套件,而且可以與他們聯絡並了解這些正在開發的套件的最新消息)
  • Packages are easy to install and "play nicely together"(套件安裝容易而且兼容度很高)
  • 漸漸成為數據科學裡最常使用的語言
Who is a data scientist?
  • Daryl Morey(NBA火箭隊總經理)
  • Hilary Mason(曾任Bentley的數據科學家)
  • Daphne Koller(Coursera創辦人之一)
  • Nate Silver(美國的統計學家和作家,著《精準預測》)
Our goal
  • Drew Conway
    • Hacking Skills
    • Math & Statistics Knowledge
    • Substantive Expertise
不要輕易從數據中下定論

This course
  • Introducing you to the track
  • Getting tools set up
  • Giving you basic background

The Data Scientist's Toolbox (5:09)

What do data scientists do?
  • 定義一個感興趣的問題
  • 確定理想數據集來嘗試回答這些問題
  • 看看能否獲取這些數據
  • 從數據網或網站取得數據
  • 經過清理就可以用於處理和分析
  • 進行一定的探索性分析,包刮繪製圖表和劃分群組
  • 進行統計預測或建模,試著對下一組可能的樣本情況進行預測
  • 詮釋你的結論
  • 驗證它們
  • 整合結論
  • 撰寫報告,並與他人分享,要讓別人能依照你的報告進行可重複性操作
  • 通過交互圖形、報告、發布會和基於R語言的交互應用程序來展示你的結果
R script (.R)、R markdown (.Rmd)、Distributed version control (use Github&Git)、Shell

Getting Help (8:52)

use Google or Stack Overflow

Some important R functions

Finding Answers (4:35)

Otherwise Google "[data type] data analysis" or "[data type] R package"
Try to identify what data analysis is called for your data type
  • Biostatistics
  • Data Science
  • Machine learning
  • Natural language processing
  • Signal processing
  • Business analyics
  • Econometrics
  • Statistical process control

R Programming Overview (2:12)

> readLines
> lapply: The actual looping is done internally in C code.

Getting Data Overview (1:34)

Exploratory Data Analysis Overview (1:21)
  • Plotting Systems in R
    • base
    • lattice
    • ggplot 2
  • Hierarchical clustering
  • K-Means clustering:假如你收集了一堆數據,如何按照數據之間的相似性來進行分類,這就是分析數據和問題結構的方法。
  • Dimension reduction

Reproducible Research Overview (1:27)

可重複性研究是研究如何生成一些代碼和資料,使它們能完整清晰地再現你所做的分析,方面你和他人交流。
  • Markdown
  • LaTex
  • R Markdown
  • Evidence-based data analysis(基於證據的數據分析)
  • RPubs(向外界發布你的數據)

Statistical Inference Overview (1:06)

統計推斷是一門如何從數據中提煉出可歸納訊息的課程,它涵蓋許多基本概念。
  • Basic probability
  • Likelihood
  • Common distributions
  • Asymptotics
  • Confidence intervals
  • Hypothesis tests
  • Power
  • Bootstrapping
  • Non-parametric tests
  • Basic bayesian statistics

Regression Models Overview (1:46)

迴歸模型是一種較易於解釋和使用的工具,可幫助你向非專業人士說明你的結果。
  • Linear regression
  • Multiple Regression
  • Confounding
  • Residuals and diagnostics
  • Prediction using linear models
  • Model misspecification
  • Scatterplot smoothing/splines
  • Machine learning via regression
  • Resampling inference in regression, bootstrapping, permutation tests
  • Weighted regression
  • Mixed models (random intercepts)
Regression to the Mean

Basic regression model with additive Gaussian errors

Multivariable regression analysis

Practical Machine Learning Overview (1:31)
  • Prediction study design
  • Types of Errors
  • Cross validation
  • The caret package
  • Plotting for prediction
  • Preprocessing
  • Prediction with regression
  • Predicting with trees
  • Boosting
  • Bagging
  • Model blending
  • Forecasting
true positive / false positive / true negative / false negative

sensitivity / specificity

Building Data Products Overview (1:19)
  • R packages
    • devtools
    • roxygen
    • testthat
  • rCharts
  • Slidify
  • Shing
Installing R on Windows (3:20)

Install R on a Mac (2:02)

Installing Rstudio (1:36)