Pages

2011年10月30日日曜日

統計計算言語 R を試す

統計処理を扱う言語としては、商用のS、S-Plusが有名だが、オープンソースのRも負けていない。先日も丸善の数学コーナに顔を出したが、本棚の二段分はR関連の本が並んでいます。非常に多機能だ。まだ、チュートリアルを試してみただけだが、その可能性に驚いています。

R ホームページ
http://www.R-project.org/

テキストからのデータの取込み、データ構造として、ベクトル、マトリックス、リスト、複数のデータ形式を扱うデータフレームなどのデータ構造を扱うことができる。各種のグラフの出力も可能。手続きはインタラクティブに操作できるほか、もちろん、バッチ処理可能。Windows, Linux , MacOSXのパッケージが存在しています。

普通の人がデータ処理を扱うソフトとしては、ExcelやAccessが有名だが、Excelは、ドキュメント作成ソフトに成り下がっており、Accessは、アプリケーション開発環境に自分の行く末を決めたようだ。大量の企業データを黙々と自動的に処理し、有意義な結果を導き出すツールとして、Rは非常に好都合なのだ。

さて、インストール

OSXへのインストールは簡単。以下のサイトからダウンロードして、インストール・パッケージを実行。もちろん、他のOSもある。
http://cran.md.tsukuba.ac.jp/
すでに、Lionでの検証も済んでいるようで、すばやいなあ。

実行は、一文字 r と打てばOK
baker$ r

R version 2.13.2 (2011-09-30)
Copyright (C) 2011 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)
Rは、自由なソフトウェアであり、「完全に無保証」です。 
一定の条件に従えば、自由にこれを再配布することができます。 
配布条件の詳細に関しては、'license()'あるいは'licence()'と入力してください。 

Rは多くの貢献者による共同プロジェクトです。 
詳しくは'contributors()'と入力してください。 
また、RやRのパッケージを出版物で引用する際の形式については 
'citation()'と入力してください。 

'demo()'と入力すればデモをみることができます。 
'help()'とすればオンラインヘルプが出ます。 
'help.start()'でHTMLブラウザによるヘルプがみられます。 
'q()'と入力すればRを終了します。 

データファイルの取込から演算まで

総務省・統計局のダウンロードから、「平成17年の福岡県人口統計」を入手。
http://www.stat.go.jp/data/guide/download/index.htm

本当は時系列データのほうが、面白そうなのだけど、この手のデータはワークシート毎に年度でまとめられている。とりあえず、平成17年の市町村別人口統計を使ってみる。

Appleご用達のNumberで整形。あまり、使っていないので使い方が判らん。最終的に、一行目をヘッダー(項目名)として、二行目以降をデータ部とする典型的なデータファイルにした。

なお、一行目の項目名は、以下のようにした。(日本語でも問題ないのだが、コンソールで操作するので、日本語変換は面倒だったため)

  • No -- 市町村番号(らしい)
  • Name -- 市町村名
  • m.u15 , f.o15 -- 男性15歳未満、女性15歳未満
  • m15.65 , f15.65 -- 15歳以上65歳以内 それぞれ男性、女性
  • m.o65, f.o65 -- 65歳以上。それぞれ、男性、女性

# 変数 fukuoka に、csvファイル "fukuoka-h17-x.csv"を読み込む read.csv()
> fukuoka <- read.csv("fukuoka-h17-x.csv")

fukuokaは、マトリックス型で登録されています。マトリックス型は、行列です。

> fukuoka
      NO     Name m.u15 m15.64 m.o65 f.u15 f15.64 f.o65
1  40101   門司区  6618  31509 11515  6288  34673 18044
2  40103   若松区  6081  26608  8181  5876  28214 12357
3  40105   戸畑区  4044  21171  5714  3896  20130  8743
4  40106 小倉北区 10798  58329 15939 10461  63276 24305
5  40107 小倉南区 16805  68123 17238 15836  73155 23348
6  40108 八幡東区  4154  22722  8345  3959  23557 13077
(省略)

このあたり、ちょっと疑問。チュートリアルでは、ベクトルもマトリックスも、その要素は全て同じ型です。数字と文字を混ぜることができません。なので、それを可能にするためにデータフレームがあるのですが、上記のように変数fukuokaには、一見 文字と数字が混在しているようにみえます。

実は、この取込は一度失敗しています。取込ファイルの各要素が”double quotation”で囲まれていたため、全て文字として扱われてしまい、演算ができなくなりました。もしかすると、上記の状態はマトリックス型なのかもしれません。

要素の名称を調べてみます。

> dimnames(fukuoka)
[[1]]
 [1] "1"  "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10" "11" "12" "13" "14" "15"
[16] "16" "17" "18" "19" "20" "21" "22" "23" "24" "25" "26" "27" "28" "29" "30"
[31] "31" "32" "33" "34" "35" "36" "37" "38" "39" "40" "41" "42" "43" "44" "45"
[46] "46" "47" "48" "49" "50" "51" "52" "53" "54" "55" "56" "57" "58" "59" "60"
[61] "61" "62" "63" "64" "65" "66" "67" "68" "69" "70" "71" "72" "73" "74" "75"
[76] "76" "77" "78" "79" "80" "81" "82" "83" "84" "85" "86" "87" "88" "89" "90"
[91] "91" "92" "93" "94" "95" "96" "97"

[[2]]
[1] "NO"     "Name"   "m.u15"  "m15.64" "m.o65"  "f.u15"  "f15.64" "f.o65" 

[[1]]は、縦の要素をしめしています。特に指定していないため、登録順に番号が夫番されているようです。例えば、fukuoka[18,]と指定すると、18番目の行のデータすべてが表示されます。
[[2]]は、列要素の名前。csvファイルの一行目が指定されています。
名前要素は、例えば fukuoka$Name とすると、Name列の値一覧を表示しますし、Name列のみの行列(1列、x行の行列)として取り扱うことができます。
ただ、いちいち変数名を指定するのも面倒なので、attach()してやると、直接列名を使うことができます。つまり、fukuoka$f.u15 + fukuoka$m.u15は、 f.u15 + m.u15 と書けます。

以下は、attach()して、15歳以上65歳以下の比率を計算し、変数 rate.workersに格納しています。

> attach(fukuoka)
> workers <- m15.64 + f15.64
> total <- m.u15 + f.u15 + m.o65 + f.o65 + workers
> rate.workers<-workers/total

そうそう、Rの変数名は、.が使えますが、-+/*はつかえません。これらは、演算として処理されます。csvで取り込んだ時には、ご丁寧に、-は、.に置換されていました。(ヘッダー行のみ)

グラフをプロットする

簡単にできます。OSXでは、X11アプリケーションが起動し、表示します。

> hist(rate.workers , main="Histgram Rate of workers")



バッチ処理

処理を記述したファイルを実行することができる。他の言語などと組み合わせて利用すると、とても面白いことができそうだ。

以下のスクリプトは、パラメータを受け取って、上記の計算を実行した後、グラフはpdfに出力するようになっている。注意しなければならないのは、引数の扱い。引数は、ベクトルargsにセットするが、その添え字は、プログラム本体を1番目して順に格納されることだ。なんか、--argsオプションが意味ないような気がするが、このオプションのお陰で、それ以降の値は、何らかの意味を持たない(例えばオプションではない)値としてプログラムには無視されるのだろう。また、引数は文字列型なので、数字で扱いたい場合は、変換する必要がある。

# file name test.R
# パラメータを受け取る
args <- commandArgs()
# なぜ五番目なのかは、あとのコマンドをみてほしい
file <- args[5]
# pdfファイルを用意する。この時点でグラフの出力先は変更される。
pdf(file)

fukuoka <- read.csv("fukuoka-h17-x.csv")
attach(fukuoka)
workers <-m15.64 + f15.64
total <- m.u15 + f.u15 + m.o65 + f.o65 + workers
rate.workers<-workers/total
hist(rate.workers , main="Histgram Rate of workers")

# たぶん、出力デバイスの終了 pdfファイルのクローズか。
dev.off()

以下のように実行します。vanillaオプションはバッチモードを指定し、quietオプションは標準出力の制御、argsオプション以降にパラメータを書きます。Rは、基本インタラクティブなプログラムらしく、標準入力にスクリプトを食わせます。

> R --vanilla --quiet --args test1.pdf < test.R 

Rは、歴史もあり、機能も豊富で、多くのノウハウも公開されています。これからの勉強や仕事への応用がとても楽しいことになりそうです。

0 件のコメント:

コメントを投稿