3週間前からマイペースに、データ分析の勉強を始めており、現在統計学の学習中。
現在、下記の2のフェーズで、統計学を学習中です。
2. もう少し踏み込んでRと統計学を学んでみる
3. 一回Kaggleにチャレンジしてみる
4. 挫折する
6. Kaggleにチャレンジと統計学・機械学習の勉強を往復する
7. 自称Kagglerになる
また以前、東京大学の講義をご紹介しました。こちらで学習を進めようと思った時もありましたが、www.eggineer.info
動画の倍速再生が出来ない事が自分にとっては、やはりネックでした。
時間対効果の観点から自分は動画との相性があまり良くない気がしており、少なくとも基本的な内容は写経の方が効果的なように感じたため、「Rによるやさしい統計学」 を購入。
簡単に感想を書きます。
良い点
- 統計・検定の説明が丁寧
- 写経できる
の2点が素晴らしいと感じました。
自分は大学・大学院と生命科学を専攻しており、t検定、分散分析、単回帰分析といった検定は使用したことがあるのですが、これらの原理を事細かに理解していたかと言われるとそうでもなかったんですよね。
自分のよく使用していた実験系だと、大抵のことはt検定か二元配置分散分析で対応できてしまっていたため、統計ソフトに値をいれて考察、の流れを繰り返すだけで、統計手法を深掘りして学んだ記憶があまりなく。
もちろん自分が使用する手法はブラックボックスにならないようにはしていましたが、得意とは言えないレベルでしたし、学んでいた教材も「Rによるやさしい統計学」に比べて、かなりイマイチだったなと感じます。
そういう意味で、卒業研究を行なっていた頃の自分にプレゼントしたいなと思いました。
またサンプルコードが書かれているので基本的に自分の手で動かしながら学べます。
写経したい箇所は思う存分写経していました。
たまにサンプルコードの値を自分で少し変えて学べることでより理解が深まったように思いますし、少しはRのコーディングに慣れてきたように感じます。
惜しい点
- サンプルデータは自作する必要がある
- サンプルコードは全て英語にしてほしかった
この2点が個人的に惜しい点でした。
サンプルデータですが、いちいち入力するのが手間でしたし、サンプルデータの有無が写経のモチベーションに与える影響は想像を超えたものでした。
サンプルデータ、重要です。
下記ブログには一部サンプルコードへのリンクが貼ってあり、参考になりました。
nekomosyakushimo.hatenablog.comまたサンプルコードの変数が基本的に日本語なのがイマイチでした。わざわざ全角/半角切り替えながらコーディングするのもめんどくさく。
今後の勉強の進め方
過去の自分のブログを見てみると、
2. もう少し踏み込んでRと統計学を学んでみる
3. 一回Kaggleにチャレンジしてみる
4. 挫折する
6. Kaggleにチャレンジと統計学・機械学習の勉強を往復する
7. 自称Kagglerになる
次のフェーズはKaggleにチャレンジなのですが、ちょっと現段階では難しそうですね。
一旦さらっと読んだデータサイエンティスト養成読本をゴリゴリ写経しつつ、また今後の進め方を考えていこうと思います。
データサイエンティスト養成読本も下記記事の要領で、緩めに読書・写経していたので。