R言語による医療データ分析

R言語によるデータ分析のオンラインコースを中心に、さまざまなデータ分析について記載してあります。

067-069 データクリーニングの全体像とtidyデータ

まとめ一覧

データクリーニングの全体像

全体像

f:id:tentencon:20191221163054j:plain
dc全体像
>

tidy vs messyデータ

  • tidy = 整頓、整理された
  • messy = やっかいな

tidyデータとは

  • 1列が1変数に対応している
  • 1行が1観察に対応している
  • (1観察単位が1つの表を形作る)

Wickham H (2014). “Tidy Data” Journal of Statistical Software, 59(10), 2014.

よくあるmessyなデータ

  • コラム名が変数名でなく、値である。
  • 複数の変数が1つのコラムに含まれている
  • 変数が行と列両方に含まれている
  • 複数の観察単位が同じテーブルに含まれている
  • 1つの観察単位が複数のテーブルに分かれて含まれている

f:id:tentencon:20191221163144j:plain
messydata

  • 人にとってはこのmessyな形の方が理解しやすかったりします。(天気予報とか)

まとめ一覧