Pages

ラベル mongodb の投稿を表示しています。 すべての投稿を表示
ラベル mongodb の投稿を表示しています。 すべての投稿を表示

2012年9月17日月曜日

Mongodbを使いTwitterデータをRで解析する

「Twitterから取得したデータを解析し、mongodbに格納し、Rで分析する」Node.jsアプリケーションを開発するための実験。プロトタイピング。Pragmatic Programmer流儀であれば、曳光弾プログラムでしょうか。

実験の環境

  • OSX 10.8.1 Mountain Lion
  • node.js 0.8.7
  • R 2.13.2
  • mongodb 2.0.7

内容

  • Twitter開発者登録
  • Streaming APIの利用
  • P.O.S parts of speech 単語解析
  • mongodbへのデータ登録
  • Rからmongodbを利用

twitterの開発者登録

TwitterAPIの利用は、OAuthが推奨されている(Basic認証でも今のところは大丈夫だが、いずれダメになる)ので、OAuth認証を行うため、twitterの開発者登録を行い、アプリを登録しなければならない。

Twitter開発サイト Streaming API パラメータの扱い

Twitter開発者アカウント登録の手順

http://ratememo.blog17.fc2.com/blog-entry-967.html を参考にしました。

  1. Twitterアカウントを用意する (mailアカウントが必要、既に登録済みのものはダメ)
  2. http://dev.twitter.com/ に取得したTwitterアカウントで、ログインする
  3. 「My Applicationの登録」リンクがあるhttps://dev.twitter.com/apps/new ので、その画面に移動しアプリを登録
  4. access level を "read" から "read & write"に変更
  5. Access Token (Access Token key と Access Token Secret)を取得し、控えておく

ntwitterライブラリを使いstreaming APIへのアクセスをテスト

OAuthのサンプルのほとんどが、ユーザサイドから利用するWebアプリの認証に関するもので混乱。(OAuthの構造を良く理解していない自分が悪い)

今にして思へば、Twitterの開発者登録の時に、取得した"Access Token"は、「自分自身(自分のアプリ)がtwitterAPIにアクセスするための暗号キー」で、アプリを利用するユーザ(consumer)が使用するものではないのです。随分と混乱してます。

結局、ntwitterライブラリのサンプルソースを使う。

twitter API利用Node.jsライブラリ ntwitter

エラーイベントが起きる。調査

前回のサンプルを作った時にはエラー発生しなかったのに。なぜだろう。
events.js:68
        throw new Error("Uncaught, unspecified 'error' event.");

https://github.com/AvianFlu/ntwitter/issues/57

とりあえず、エラーイベントを回避するため、サンプルコードに以下を追加。

    scream.on("error", function(error){
        console.log(arguments);
    });

再度、何度か実行してみると、成功する場合とエラーが返ってくる場合(argumentsを表示している)があるが、理由は不明。Twitter側の問題だろうか?

失敗した場合

$ node sample/ntwitter_sample.js 
{ '0': 'http', '1': 401 }

P.O.S moduleを組み込んで実行してみた結果

英語専用の形態要素分析 "part-of-speach POS Tagging"のライブラリpos-jsを使い、単語の分解と品詞のタグ付けを試みる。POS Taggingとpos-jsライブラリについては、以前 記事を書いたので見ていただけますと幸いです。

http://tech-baker.blogspot.jp/2012/06/part-of-speech-tagging.html

ここまでのプログラムソースは、以下の通り。

var twitter = require('ntwitter');    // twitter API用ライブラリ

// Twitter開発者登録の結果
var twit = new twitter({
    consumer_key        : 'xxxxxxxxxxxxxxxxxxxx',
    consumer_secret     : 'xxxxxxxxxxxxxxxxxxxx',
    access_token_key    : 'xxxxxxxxxxxxxxxxxxxx',
    access_token_secret : 'xxxxxxxxxxxxxxxxxxxx'
});

var pos = require('pos');             // POS Tagging用ライブラリ  

// 検索キーは、とりあえず appleで :-p
twit.stream('statuses/filter', {'track':'apple'}, function(stream) {
    stream.on('data', function(data) {
        // この行は日本語を省くため 結構いい加減
        if(data.text.toLowerCase().indexOf('apple') > 0){
            console.log(data.text);                        // オリジナルを表示
            var words = new pos.Lexer().lex(data.text);    // 単語分解
            var taggedWords = new pos.Tagger().tag(words); // 品詞のタグ付け jsonで返す
            for(i in taggedWords){
                var taggedWord = taggedWords[i];
                var word = taggedWord[0];
                var tag  = taggedWord[1];
                console.log(word + " : " + tag);
            }
        }
    });

    stream.on('end', function(response){
        //console.log('');
    });

    stream.on('destroy', function(response){
        //console.log('');
    });

    // エラーイベント対処
    stream.on('error', function(error){
        console.log(arguments);
    });

    // 5000ミリ秒で終了イベントを発生させた。これをしないと何時までのTwitterからのpushを受け続ける
    setTimeout(stream.destroy, 5000);
});

実行してみると

$ node sample/s_api_with_pos.js 
(途中省略)
@WhipeeDip One fifty and Apple will hand you a new phone. Though that thing is probably pushing “catastrophic damage ineligible for swap.”
@WhipeeDip : NN
One : NN
fifty : NN
and : CC
Apple : NNP
will : MD
hand : NN
you : PRP
a : DT
new : JJ
phone : NN
. : .
Though : IN
that : IN
thing : VBG
is : VBZ
probably : RB
pushing : VBG
“catastrophic : NN
damage : NN
ineligible : JJ
for : IN
swap : NN
. : .
” : NN


形態要素分析結果をmongodbに保存する

Node.js用のmongodb接続ライブラリ mongooseをインストールする。 # npm install mongoose 一発。

mongooseの使い方については、いずれまとめたいと思います。以下のサイトを参考にしました。

mongoose 本家 github

node.js + mongoose + mongodbで遊ぶ

上記のプログラムを改造して、mongodbに登録を行うように改造してみる。出来たプログラムを動かしてみると?

  • 終了しない。プログラムが。
  • でも、保存されたもよう。

mongodbのクライアントアプリ mongoで直接データを覗いてみます。

$ mongo
MongoDB shell version: 2.0.7
connecting to: test
> show dbs
local   (empty)
posdb   0.203125GB
test    (empty)
> use posdb
switched to db posdb
> show collections
postags
system.indexes
> db.postags.find()
{ "word" : "@PissWizardCunt", "tag" : "NN", "_id" : ObjectId("50557db5da8a0357b8000001"), "__v" : 0 }
{ "word" : "not", "tag" : "RB", "_id" : ObjectId("50557db5da8a0357b8000006"), "__v" : 0 }
(途中省略)
{ "word" : "5", "tag" : "CD", "_id" : ObjectId("50557db5da8a0357b800005b"), "__v" : 0 }
{ "word" : ".", "tag" : ".", "_id" : ObjectId("50557db5da8a0357b8000060"), "__v" : 0 }
has more
> exit
bye

has more が表示されているけど、残りのデータは、どのように表示させたら良いのかな?

// (途中まで同じ)

var pos = require('pos');            // POS Taggingライブラリを呼び出す
var mongoose = require('mongoose');  // mongodb接続用ライブラリを呼び出す

// スキーマの定義 mongooseは、ORMのように振る舞う。modelを定義する訳ですね。 
var Schema = mongoose.Schema;
var PosSchema = new Schema({
    tag: String,
    word: String
});
mongoose.model('PosTag', PosSchema);
// 接続
mongoose.connect('mongodb://localhost/posdb');
var PosTag = mongoose.model('PosTag');

twit.stream('statuses/filter', {'track':'apple'}, function(stream) {
    // TwitterからTweetを取得し
    stream.on('data', function(data) {
        if(data.text.toLowerCase().indexOf('apple') > 0){   // 日本語は省き
            var words = new pos.Lexer().lex(data.text);     // 単語に分解し
            var taggedWords = new pos.Tagger().tag(words);  // 品詞タグをつけ
            for(i in taggedWords){
                var postag = new PosTag();                  // 新規レコードを用意?
                postag.tag = taggedWord[1];                 // 値をセット
                postag.word = taggedWord[0];                // 値をセット
                postag.save(function(err){                  // 登録エラー処理
                    if(err){ console.log(err);}
                });
            }
        }
    });

// (後半省略)

});

統計解析環境Rからmongodbのデータを呼び出す

OSXはパッケージを本家からダウンロードして使っている。

mongodb接続ライブラリrmongodbをインストールするため、

  1. メニューのパッケージインストーラを起動
  2. ダウンロード先のミラーサイトを指定し
  3. rmongodb を検索し、インストール


 httpdヘルプサーバーを起動...   完了 
 URL 'http://cran.md.tsukuba.ac.jp/bin/macosx/leopard/contrib/2.13/rmongodb_1.0.2.tgz' を試しています 
Content type 'application/x-gzip' length 733855 bytes (716 Kb)
 開かれた URL 
==================================================
downloaded 716 Kb
 
ダウンロードされたパッケージは、以下にあります /var/folders/cw/qznw_j_1313d3stpq5zc34240000gn/T//RtmpAbXBrm/downloaded_packages
console画面から、rmongodbを読み込んでみて、テストしてみる。
> library(rmongodb)
rmongodb package (mongo-r-driver) loaded
Use 'help("mongo")' to get started.

うまく、rmongodbライブラリはインストールされたので、恐る恐るtwitterデータを確認してみる。

保存されているデータの構成(私の現在のdb, collection構成)

  ---------     ------------  
  database      collections
  ---------     ------------

  posdb ------> postags
  test (empty)
  local(empty)


$ r

R version 2.13.2 (2011-09-30)
Copyright (C) 2011 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)
(途中省略)

> library(rmongodb)
rmongodb package (mongo-r-driver) loaded
Use 'help("mongo")' to get started.

> db <- mongo.create()
> mongo.find.one(db,'posdb.postags')
    word : 2     @PissWizardCunt
    tag : 2      NN
    _id : 7      50557db5da8a0357b8000001
    __v : 16     0
> mongo.find.one(db, 'posdb.postags', list(tag='NN'))
    word : 2     @PissWizardCunt
    tag : 2      NN
    _id : 7      50557db5da8a0357b8000001
    __v : 16     0
> mongo.find.one(db, 'posdb.postags', list(tag='CD'))
    word : 2     13
    tag : 2      CD
    _id : 7      50557db5da8a0357b800001a
    __v : 16     0
> mongo.find.one(db, 'posdb.postags', list(tag='RB'))
    word : 2     not
    tag : 2      RB
    _id : 7      50557db5da8a0357b8000006
    __v : 16     0
> quit()
Save workspace image? [y/n/c]: n

無事、データをRで処理することが出来るところまで、たどり着きました。今回の実験は終了。

2012年9月16日日曜日

山ライオンのmongodbをアップグレード

OSXを Mountain Lion に入れ替えて、それに対応するmacports のアップデートをやったのは、8月の末。 しかし、いくつかのソフトが動作しない、インストール出来ないなどが被害が続いた。 不具合は、すぐに解決するだろうとたかをくくっていたが、一向に新しいmacportsのバージョンが出ないので、少しづつ対応してみたので以下、まとめ。

  • w3m
  • gaushe
  • mongodb

w3m のアップグレード

原因が不明。以下のサイトを参考にして、とりあえずインストール (Mountain Lionでw3mがコンパイルできない件)[http://d.hatena.ne.jp/kimuraw/20120730/p1]

$ sudo port -f uninstall boehmgc
$ sudo port -s install boehmgc configure.optflags=-O0
$ sudo port clean w3m
$ sudo port install w3m

gaushceのインストール

これは、諦めて本家からソースをダウンロードし、コンパイルした。./configure , make , sudo make install でOK。

mongodb のアップグレード

  • mongodb は、boost に依存している
  • boost が、version 1.5 ではダメらしい。しかし、port インストーラでは
  • 普通にinstallすると boostのversion 1.5 を (これが最新版なので) インストールしようとする

なので、(googleさんにお世話になった結果)

  1. mongodb , boost を uninstall する
  2. boost は、1.49 のソースを取得し、インストールする
  3. mongodbは、依存関係を無視してインストールする -n オプションでインストールする

ことにした。

$ sudo port uninstall mongodb
$ sudo port uninstall boost
$ svn co -r 93341 http://svn.macports.org/repository/macports/trunk/dports/devel/boost/
$ cd boost/
$ sudo port install
(コンパイル完了まで1時間ぐらいかかったかな)

$ port installed | grep boost
  boost @1.49.0_0 (active)

$ sudo port -n install mongodb
--->  Computing dependencies for mongodb
--->  Configuring mongodb
--->  Building mongodb
--->  Staging mongodb into destroot
--->  Creating launchd control script
###########################################################
# A startup item has been generated that will aid in
# starting mongodb with launchd. It is disabled
# by default. Execute the following command to start it,
# and to cause it to launch at startup:
#
# sudo port load mongodb
###########################################################
--->  Installing mongodb @2.0.7_0
--->  Activating mongodb @2.0.7_0
--->  Cleaning mongodb

mongodbを起動する

$ sudo port load mongodb
Password:
Warning: port definitions are more than two weeks old, consider using selfupdate
$ ps ax | grep mongo
46294   ??  Ss     0:00.01 /opt/local/bin/daemondo --label=mongodb --start-cmd sudo -u _mongo /opt/local/bin/mongod --dbpath /opt/local/var/db/mongodb --logpath /opt/local/var/log/mongodb/mongodb.log --logappend ; --pid=exec
46295   ??  S      0:00.00 sudo -u _mongo /opt/local/bin/mongod --dbpath /opt/local/var/db/mongodb --logpath /opt/local/var/log/mongodb/mongodb.log --logappend
46296   ??  S      0:00.10 /opt/local/bin/mongod --dbpath /opt/local/var/db/mongodb --logpath /opt/local/var/log/mongodb/mongodb.log --logappend
46306 s000  S+     0:00.00 grep mongo

とりあえず、これで終了だが。


うっかりアップグレードすると、boostをアップグレードしてしまいそうだ。忘れないようにするには、どうしたらよいのだろうか?


2012年6月3日日曜日

Webな統計分析環境 RStudio とMongodb

さくらVPS に、NoSQLデータベース Mongodbをデータの取得・保存先に使い、統計分析を行う為の環境を用意した。
  • 統計解析ツール R
  • データベース Mongodb
  • Rとmongodbを連携させるためのRライブラリ rmongodb
  • R利用のためのユーザインターフェース R Studio
最終的に目指しているのは、データを自動で定期的にmongodbにため込み、RStudioで適宜分析する環境だ。
インターネットのデータ -- (Spidering Tool) -- mongodb -- rmongodb -- R -- R Studio

R & R Studioのインストール

既に拡張パッケージ EPEL(Extra Packages for Enterprise Linux)を利用して入れば、Rのインストールはyumを使うだめの簡単作業だ。
http://fedoraproject.org/wiki/EPEL
依存しているパッケージが20ぐらいあったような。
R Studioは、統計解析ソフトRのためのIDE(統合開発環境)だ。Rの為のEclipseやVisualStudioと言ったところか。サーバ版をインストールした。
http://rstudio.org/
# Rをインストールする
# EPELを使っていることが前提  
  $ sudo yum install R
# RStudioのrpmパッケージを取得し、インストール
  $ wget http://download2.rstudio.org/rstudio-server-0.96.228-x86_64.rpm
  $ sudo rpm -Uvh rstudio-server-0.96.228-x86_64.rpm 
インストールすると、サーバが起動し、起動スクリプトもセットされる。RStudioは、初期設定ポートが8787なので、8787ポートは開けてあげること。 http://yoursite.com:8787/ にアクセスするとログイン画面が表示されるはず。ユーザ情報は、Linuxユーザ情報をそのまま利用している。




rmongodb

Mongodbのインストールは、随分前にインストールしていたので、省略。yumでインストール出来たはず。コンパイルとか、随分とインストールに時間が掛かったような記憶がある。
rmongodbは、Rのライブラリで、Rに、mongodbへの接続機能を追加するものだ。R本体はデータの取得先に対する機能は充実しておらず、その当たりはライブラリで頑張ってくださいと言う姿勢らしい。
githubで公開しているrmongodbは、上手くコンパイル出来なかった。CRAN(the Comprehensive R Archive Network)から取得すると上手くらしい。
# mongodbとRを接続するためのライブラリ rmongodbをインストールする
# githubに配布されているものは、なぜかインストールに失敗するので、CRANから取得しインストール
 $ wget http://cran.r-project.org/src/contrib/rmongodb_1.0.3.tar.gz 
 $ sudo R CMD INSTALL rmongodb_1.0.3.tar.gz 

R Studioを実行してみる

まず、コマンドラインからrmongodbが動作するか確認してみた。
> R                 # コマンドラインからRを起動
(途中省略)
> library(rmongodb) # rmongodbをロードする
rmongodb package (mongo-r-driver) loaded
Use 'help("mongo")' to get started.

R Studioから、同じ事をやってみる。
  1. http://yoursite.com:8787/ にアクセス
  2. linuxユーザでログイン
  3. 右下のペインのPackages タブを選択
  4. rmongodb にチェックを入れる
すると、右のコンソールに上記のコマンドラインと同じメッセージが表示される。(当たり前だけど)
なかなか、使い勝手がよさそう。




Mongodbへのデータ登録と取得

サンプルソースをみて、Rからmongodbを利用する方法など確認してみた。
# insert
mongo <- mongo.create()                            # 接続
if (mongo.is.connected(mongo)) {                   # 接続確認
    buf <- mongo.bson.buffer.create()              # bson用の1レコードバッファをR内に用意
    mongo.bson.buffer.append(buf, "name", "baker") # レコードバッファに属性と値をセット
    mongo.bson.buffer.append(buf, "age", 50L)
    b <- mongo.bson.from.buffer(buf)               # レコードバッファをbson形式に変更
    mongo.insert(mongo, "test.people", b)          # db:test, collection:peopleに追加
}

# select
mongo <- mongo.create()
if (mongo.is.connected(mongo)) {
    buf <- mongo.bson.buffer.create()
    mongo.bson.buffer.append(buf, "age", 18L)
    query <- mongo.bson.from.buffer(buf)

    # Find the first 100 records
    #    in collection people of database test where age == 18
    # queryの内容は、{age:18L}
    # レコードコレクションに対するカーソルが提供される
    cursor <- mongo.find(mongo, "test.people", query, limit=100L)
    # Step though the matching records and display them
    # nextメソッドで、カーソルを順に動かしていく
    while (mongo.cursor.next(cursor))
        print(mongo.cursor.value(cursor))
    mongo.cursor.destroy(cursor)                  # カーソルの開放
    # 現在、100件も入っていないので表示されませんが :-p
}
実際にMongodbにデータが格納されていることを、mongodbのクライアントソフトmongoで確認してみる。
# mongo (クライアントソフトから実行結果を確認してみる)
> show dbs     # データベース一覧をみる
admin
error_logger
local
test
> use test     # データベース test に移動
switched to db test
> show collections   # 現在のデータベース内のコレクションをみる
foo
people
system.indexes
users
> db.people.find()   # test.people を全件検索してみる
{ "_id" : ObjectId("4fcb042f3eee4d39039e1b87"), "name" : "baker", "age" : 50 }
>