クリプキクローネ日記帳

ある種の音楽と数学とランニングはミニマルなところが似ていると思う。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

データサイエンティスト養成読本 - R活用編 (技術評論社)

最近はやりの「データサイエンティスト」という謎の職業について
何かわかるのかなと思って読んでみました。
結局いまいちピンと来ず。

たぶん統計とかプログラミングとか超できるよ、みたいな人のことでしょうか。
中でも特にビッグデータ解析で並列計算とか分散コンピューティングとかしまくるよ、
みたいな人のことだと思っていたんですが、今回の本では並列計算まわりはほぼノータッチでした。
というのも、Rという言語がどちらかというと純粋な統計のための言語なので、
大きいデータにはあまり強くないようです。
「R活用編」というサブタイトルまで気にして本を借りてくるべきでした。

でもRのことがちょっとわかってよかったです。
というか、大学時代に授業で少し触ったはずなのに全然覚えてなかったです。



Rは一発でいろんなことができるらしいのでかっこいい。
クラスタ分類のk-meansとか
ジニ係数でルールを抽出する決定木CARTとか
マージン最大で直線で区切るSVMとか
ツリーをたくさん作って平均するランダムフォレストとか
どれも数行ですぐ書けるからすごい。
そしてデータ用意するのが大変そう。(R関係ないけど)

SVMはいつも直線で区切るのかと勝手に思ってたけど、カーネルトリック楽しい。

トレーニング用と評価用を入れ替えながら何度もやるクロスバリデーションはデータ足りないときによさそうだけど、
ある意味では評価用でトレーニングしているようなものなのでそれってありなんだろうか。

曜日とか季節とか、周期のあるデータに対する時系列分析(ARIMAX)は使いこなせると便利そう。
ちょっとしたデータでもエクセルで雑にグラフ作ると周期と全体の傾向が同時に出てきて分かりづらいとかよくある。

.NET Frameworkとの連携はすごいけど、名前がR.NETってそのまんますぎる。
開発環境になんでもStudio付けちゃう流れと同じか。
ちなみにRの開発環境はRStudioらしい。

そして「R活用編」というサブタイトルの本なのに、
最後の章がまるごとJuliaという言語の紹介に費やされている。
技術計算が得意な上に計算が高速、というのがウリらしい。
フィボナッチとかマンデルブロ集合のベンチマーク表がなかなかショッキング。
R、MATLAB、Pythonより圧倒的に速くてC言語と同レベルの速さ。
Julia公式サイトのベンチマーク表だから素直に鵜呑みにしちゃいけない気がするけど、
本当だったらすごいな。
ライブラリが発展途上らしいので楽しみ。
でもC言語と同じ速さになってしまったらC言語がかわいそう。(謎のC目線)
そのままアセンブラも越えてしまったらすごいけど、
アセンブラは相対性理論の光速cみたいな位置付けなわけで、
越えたらチューリングかノイマンあたりから怒られるだろう。

RもMATLABもPythonもあんまり使ったことないので野次馬な気持ちで読みました。
Rはプログラミング言語っていうより統計ツールっぽくて、
他の言語とは性格がだいぶ違うということがわかった。
データ処理以外の部分も含めた扱いやすさだとPythonの方がよさそうだけど、
ニッチな統計をやろうと思うとRはやっぱり強いんだろうか。
  1. 2016/09/22(木) 02:19:15|
  2. | トラックバック:0
  3. | コメント:0
<<信号処理プロセッサ[青山友紀・小野定康(著)] (オーム社) | ホーム | Javaの鉄則 [ピーター・ハガー(著)] (ピアソン・エデュケーション)>>

コメント

コメントの投稿


管理者にだけ表示を許可する

トラックバック

トラックバックURLはこちら
http://myumbrella.blog42.fc2.com/tb.php/322-02c29f87
この記事にトラックバックする(FC2ブログユーザー)
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。