101-103 リレーションとXXX_join関数

医師が教えるR言語での医療データ分析入門

まとめ一覧リレーションとXXX_join関数リレーションをイメージで把握する基本的に、「表で保存されている」データは、「リレーショナルデータベース」に保存されています。データ分析を行うにあたって、必要な考え方のみイメージでお伝えします left_joi…

2019-12-22

098-100 gather&spread

医師が教えるR言語での医療データ分析入門

まとめ一覧データの方向の転換 gatherとspreadの解説を行います。ただし、tidyrのV1.1以降では、pivot_longer, pivot_widerという新しい関数が導入されています考え方はほぼ一緒ですが、pivot_XXX系の関数の方ができることが増えているので、これから学ば…

2019-12-21

097 特殊加工:separateで列をわける

医師が教えるR言語での医療データ分析入門

まとめ一覧 separateで列をうめる練習問題を再度みてみましよう。任意の文字列で列を分割するseparate関数を利用してみましょう。 dft <- tibble( target3 = c( "ope:A 4.5hr 80ml", "ope:B 3hr 10ml", "ope:C 12.5hr 100ml" ) ) dft separate(data, col, …

2019-12-21

096 特殊加工:fillで列をうめる

医師が教えるR言語での医療データ分析入門

まとめ一覧 fillで列をうめるこれまでは、mutate filter arrange等の列や行を操作する関数は、dplyrパッケージ、 strではじまる正規表現を利用できる関数は、stringrパッケージの解説を行ってきました残りはfill separate gather spreadはtidyrパッケージ…

2019-12-21

093-095 if_else, case_when:列内での条件分岐

医師が教えるR言語での医療データ分析入門

まとめ一覧列内での条件分岐 if_else dfif <- tibble(num =c(1:10)) dfif <- dfif %>% mutate(bool = num>5) if_elseはBooleanを判断して、TRUEとFALSEで処理をわける関数です。 if_else(FALSE, "trueです", "falseです") if_else(c(TRUE,TRUE,FALSE), "tru…

2019-12-21

088-090 練習課題

医師が教えるR言語での医療データ分析入門

まとめ一覧練習課題次のデータについて、 dft <- tibble( target1 = c("abc500ml 3unit" ,"def250ml 4unit","ghi100ml 5unit" ), target2 = c("AST 50IU" ,"HbA1c 5.0%" ,"BMI 23.1kg/m^2" ), target3 = c("ope:A 4.5hr 80ml","ope:B 3hr 10ml","ope:C 12.…

2019-12-21

087 filterで行の絞り込み

医師が教えるR言語での医療データ分析入門

まとめ一覧 filterで行の絞り込み filterの説明です。 test <- tibble(umare = c(1990, 1992, 1997, 1991), height = c(180.0, 176.2, 165.5, 172.3), weight = c(70.2, 80.3,65.3,61.1)) test test$umare > 1995 このBooleanをfilterはtibbleの列に適応して…

2019-12-21

086 str_extractとmutate

医師が教えるR言語での医療データ分析入門

まとめ一覧 str_exrtactとmutate str_extract ここまでは、booleanで正規表現を返す、str_detect()で話を進めてきました。行操作には、str_detectで引っかけるという作業が必要ですが、例えば、 prac <- tibble(target = vec) View(prac) というデータがあ…

2019-12-21

081-085 正規表現

医師が教えるR言語での医療データ分析入門

まとめ一覧正規表現さあ、filterへ！といきたいところでえすが、もう一山、Booleanが「しるし」になることを理解したあと、文字列に「しるし」をつける方法を学びましょう。正規表現というものですが、これは、多分、このコースでもかなりとっつきにくい…

2019-12-21

077-080 Logical/Boolean型

医師が教えるR言語での医療データ分析入門

まとめ一覧 Logical/Boolean型これまでの型：数字：1, 2, 3, 10.4, 100 … 文字列: “Rは楽しい”, “Hi there!”… Logical/Boolean: TRUE か FALSEの二通りのみをとれる型 TRUE/FALSEで真偽の「判定」を行うのに活用単独での動作 TRUE FALSE TRUE + TRUE TRUE…

2019-12-21

076 arrange:行の並び替え

医師が教えるR言語での医療データ分析入門

まとめ一覧 arrange:行の並び替え arrangeは、行方向でのソート(並び替え)を行う関数 test #このtibbleを、身長順に並び替えるには？ test %>% arrange(height) #昇順 test %>% arrange(desc(height)) #降順 desc = descending(下降する) <=> ascending(上昇…

2019-12-21

073-075 列の操作(mutate、rename、select)

医師が教えるR言語での医療データ分析入門

まとめ一覧列の操作 mutate:列の作成 library(tidyverse) test <- tibble(umare = c(1990, 1992, 1997, 1991), height = c(180.0, 176.2, 165.5, 172.3), weight = c(70.2, 80.3,65.3,61.1)) test mutateは、新しい列をつくる関数です。 mutate(.data = <tibble>, <</tibble>…

2019-12-21

072 パイプ

医師が教えるR言語での医療データ分析入門

まとめ一覧パイプ(%>%) Ctrl + Shift + M で入力可能。 library(tidyverse) diamonds$carat summary(diamonds$carat) # 上の行と下の行は同じ処理 diamonds$carat %>% summary() パイプを利用すると何が嬉しいかというと、 add(multiply(subtract(divide(3,…

2019-12-21

070 messy->tidyへの変換イメージ

医師が教えるR言語での医療データ分析入門

まとめ一覧 messyデータをtidyデータに変換するイメージこのデータを frommessy こんな感じになるようにします。 (詳細なステップは、動画で確認ください) 今後、解説する関数は次のような形ですまとめ一覧

2019-12-21

067-069　データクリーニングの全体像とtidyデータ

医師が教えるR言語での医療データ分析入門

まとめ一覧データクリーニングの全体像全体像 dc全体像> tidy vs messyデータ tidy ＝整頓、整理された messy ＝やっかいな tidyデータとは 1列が1変数に対応している 1行が1観察に対応している (1観察単位が1つの表を形作る) Wickham H (2014). “Tidy D…

2019-12-21

065 補足:X軸のラベルの回転

医師が教えるR言語での医療データ分析入門

まとめ一覧補足：themeでX軸のラベルを回転させる themeでの個別設定が必要になる場合について解説します table <- data.frame( item_name = c("究極のマスクメロンアイスクリーム", "イチゴたっぷりショートケーキイタリア風", "和栗の贅沢ブラックモンブ…

2019-12-21

064 補足:集計済みデータの描画

医師が教えるR言語での医療データ分析入門

まとめ一覧補足：集計済みデータの描画～statオプション~ 集計済みのデータを表示したい： library(ggplot2) table <- data.frame( age_group = c("~20","21~40","41~60","61~80","81~100","100~"), yearly_admission = c(39,42,73,88,93,132) ) ggplot(tab…

2019-12-21

061-062 ggplotのテーマ設定方法

医師が教えるR言語での医療データ分析入門

まとめ一覧 Theme 設定単純にグラフにtheme_XXX()を足すだけで、お手軽にテーマ設定ができます。 text_label_of_clarity <- c("含まれる", "わずかにSI2","わずかにSI1", "ほんのわずかにVS2","ほんのわずかにVS1", "ごくごくわずかにVVS2","ごくごくわずか…

2019-12-21

056-059 凡例の設定

医師が教えるR言語での医療データ分析入門

まとめ一覧凡例操作 library(tidyverse) graph <- ggplot(diamonds) + geom_histogram(aes(x = price, fill = clarity)) graph まず、凡例をけしてみる guide = FALSE graph + scale_fill_discrete(guide = FALSE) タイトルをいじる graph graph + scale_fi…

2019-12-21

053-055 タイトルとラベルの指定

医師が教えるR言語での医療データ分析入門

まとめ一覧 ggplot(diamonds) + geom_histogram(aes(x = price, fill = color)) タイトル：「ダイアモンドの値段分布」 X軸：「値段(ドル)」 Y軸：「件数」とつけてみましょう。 ggplot(diamonds) + geom_histogram(aes(price, fill=color)) + labs(title = …

2019-12-21

050-052 ggplotでの色の指定

まとめ一覧演習問題で作ったグラフを塗り分けて、より「意味を感じられる」グラフを作ってみましょう。 library(ggplot2) Q1: ダイヤモンドの重さと値段の関係を、散布図で描画してください。 ggplot(data = diamonds) + geom_point(mapping = aes(x = cara…

2019-12-21

044-063 ggplotでの描画のまとめ

まとめ一覧 ggplotとは「グラフの文法」を使って、データを簡単にキレイに可視化するためのツールです ggplotの書き方テンプレート基本的な構成は、次の表のような指定をして、そのスクリプトを+でつないでいきます。この表は、このような棒グラフを作成…

2019-12-21

044-049 ggplotでの基本的なグラフの作成と演習

まとめ一覧 ggplotで基本的なグラフを描画する！ library(ggplot2) #これで、 diamonds economics msleep #等のデータセットが利用できるようになっていると思うので、これらを利用します。 diamonds：50000個のダイヤモンドのデータ price -> 値段(ドル) ca…

2019-12-21

040-043 因子型の説明(S4)

まとめ一覧因子型とは男/女のようにいわゆる、カテゴリカル変数と呼ばれるものをRで現すときに使われる型です。 as.factor(文字列型のベクトル)で作れます。レベル(数字)とそれに対応したラベル(文字)で表現されています factor_table <- data.frame( sei…

2019-12-21

034-036 パース(parse)（S3)

まとめ一覧パースとは parseとは、プログラミング言語であつかえる形にデータを変換するという意味がある英単語です。 parse_number(c("a",1,2,3)) parse_character(c("a","b","c",1,2,3)) #ベクトルは基本的には同じ型である必要がありました c(1,2,3,"a")…