067-069 データクリーニングの全体像とtidyデータ
データクリーニングの全体像
全体像
>
tidy vs messyデータ
- tidy = 整頓、整理された
- messy = やっかいな
tidyデータとは
- 1列が1変数に対応している
- 1行が1観察に対応している
- (1観察単位が1つの表を形作る)
Wickham H (2014). “Tidy Data” Journal of Statistical Software, 59(10), 2014.
よくあるmessyなデータ
- コラム名が変数名でなく、値である。
- 複数の変数が1つのコラムに含まれている
- 変数が行と列両方に含まれている
- 複数の観察単位が同じテーブルに含まれている
- 1つの観察単位が複数のテーブルに分かれて含まれている
- 人にとってはこのmessyな形の方が理解しやすかったりします。(天気予報とか)