のんびり読書日記

日々の記録をつらつらと

久しぶりに開発環境を整理してみる

普段使ってるdotfileをgithubに上げるために、Linuxの開発環境を少し整理してみた。 vimrcを整理 vimrcはかなり前に整理したものをずっと使ってたんだけど、周りの人の環境を聞いたり、VIMテクニックバイブルを読んだり>して以下のように設定を追加してみた…

ブログ再開

2年ほどブログを放置していましたが、そろそろ再開させます。 今回は自分用のメモのような、ゆるいものをちょこちょこを書いていく感じになるかと。前のブログとは少し毛色が違うものになりそうなので、とりあえず前のブログはそのまま残しておきます。

確率的勾配降下法による行列分解を試してみた

前々回のNMF(Non-negative Matrix Factorization)に続いて行列分解ネタです。言語処理学会全国大会のチュートリアル「推薦システム -機械学習の視点から-」で紹介されていた、確率的勾配降下法による行列分解を試してみました。チュートリアルの資料は公開さ…

Bayesian Setsの特許について

別にブログに書いてもしょうがないかなーと思っていたのですが、同じような目に遭う方がいるかもしれないのでちょろっとだけ書いておきます。先日Stupaという関連文書検索システムを公開したのですが、その中で使用していたBayesian Setsというアルゴリズム…

NMF(Non-negative Matrix Factorization)を試してみた

先週は言語処理学会の全国大会に参加してきたのですが、チュートリアル「推薦システム -機械学習の視点から-」で紹介されていた行列分解に興味が湧いたので実装しようと奮闘中です。とりあえず行列いじりの練習に、手元の本に説明があるNMF(Non-negative mat…

Twitter Streaming APIでデータ収集

Twitterからデータを引っ張ってきたいと前から思ってたので、TwitterのStreaming APIを試し中。とりあえず1日分(2010/02/10 12:00 〜 2010/02/11 12:00)のデータを引っ張ってきてみました。ドキュメントはほとんど読んでないままやってるので、いろいろ間違…

bayonを使って画像からbag-of-keypointsを求める

クラスタリングツールbayonとOpenCVを使って、画像からbag-of-keypointsを特徴量として抽出する手順について書きたいと思います。bag-of-keypointsは自然言語処理でよく使用されるbag-of-words(文章を単語の集合で表現したもの)と同じようなもので、画像中の…

COP-KMEANS(Constrained K-means)を試してみた

制約付きクラスタリング・半教師ありクラスタリングは、クラスタリングをする際に制約を与えることで精度を向上させる手法です。制約は2つのデータ間の関係を定義した、以下がよく使われるようです。 must-link 同じクラスタに所属しなければならない cannot…

K-meansをOpenMPで並列化

昨年末に「平行コンピューティング技法」を読んで勉強していたのですが、せっかくなのでK-meansにOpenMPを使って高速化してみようと思います。OpenMPは簡単な構文を挿入することで、自動的にループの繰り返しを分割し、複数のスレッドにタスクを割り当ててく…

Variable Byte codeを試してみた

最近転置インデックスをゴニョゴニョしているのですが、インデックスの圧縮をするためにVariable Byte codeでの数字列の圧縮部分を作ってみました。アルゴリズムはIntroduction to Information Retrievalの5章Index compressionを参考にしています。 Introdu…

Perlでconstantを使うときの注意

この前CPANにアップしたモジュールでCPAN Testersの結果を見てたら、Perlのversion5.6.2で毎回テストに失敗してて、何でだろう?と思っていたらbug reportがきていた。 The syntax you are using to declare constants was not always supported. perl 5.6.2…

Algorithm::FuzzyCmeans と Algorithm::Kmeanspp を作った

なんとなくCPANにもっと上げてみたくなったので、昔書いたネタをパッケージングして上げてみました。とりあえず今回はFuzzy c-means clusteringと、K-means++。 Algorithm::FuzzyCmeans Fuzzy c-meansを試してみた - のんびり読書日記 Algorithm::Kmeanspp k…

freshmeatに登録してみた

せっかくオープンソースのプロダクトを作ったので、freshmeatにbayonを登録してみました。説明文をもっと分かりやすく、キャッチーにしないとダメですねぇ。 Bayon – Freecode 大したプロダクトでもないのでちょっと恥ずかしいですが、これ見て海外の人も使…

Algorithm::BayesianSetsモジュールをアップした

前回のエントリでBayesian Setsを試してみたのですが、その時に書いたコードをAlgorithm::BayesianSetsというモジュールにまとめて、CPANにアップしました。生まれて初めてのCPANアップです。 http://search.cpan.org/~fujisawa/Algorithm-BayesianSets-0.01…

Bayesian Setsを試してみた

この前YAPC Asia 2009に参加してきたのですが、そこで「はてなブックマークのシステムについて」の発表の中で、「はてブの関連エントリはBayesian Setsを使って計算されている」という話を聞いてBayesian Setsに俄然興味が湧いてきました。Bayesian Setsは以…

東村アキコ『ママはテンパリスト』1、2巻

ママはテンパリスト 1作者: 東村アキコ出版社/メーカー: 集英社発売日: 2008/10メディア: コミック購入: 32人 クリック: 319回この商品を含むブログ (255件) を見るママはテンパリスト 2作者: 東村アキコ出版社/メーカー: 集英社発売日: 2009/06/19メディア:…

最近読んだ本

アオバ自転車店 09 (ヤングキングコミックス)作者: 宮尾岳出版社/メーカー: 少年画報社発売日: 2009/08/07メディア: コミック購入: 1人 クリック: 8回この商品を含むブログ (14件) を見るアオバ自転車店の新刊。相変わらず安心して読める。最近ちょっとロー…

pLSIを試してみた

これまでにK-means++とfuzzy c-meansを使用したクラスタリングを試してきましたが、今回はpLSI(probabilistic latent semantic indexing, 潜在的意味インデキシング)によるクラスタリングを試してみようと思います。pLSIは確率・統計的な枠組みで次元縮約を…

鈴木ともこ『山登りはじめました』

山登りはじめました めざせ!富士山編作者: 鈴木ともこ出版社/メーカー: メディアファクトリー発売日: 2009/06/17メディア: 単行本(ソフトカバー)購入: 6人 クリック: 123回この商品を含むブログ (41件) を見るなんとなくアウトドアには憧れがあるんです。…

STLのvectorとpriority_queueのソート用比較関数は不等号が逆

この前自分のソースを読んでいたら、両方とも降順にソートするために作った比較関数なのに何故か不等号が逆になっていて、「うわ、ひどいバグ作っちゃった?!」って慌ててテストしたら問題なし。調べてみると、STLのvectorとpriority_queueのソート用比較関…

Fuzzy c-meansを試してみた

K-meansは各入力ドキュメントがただ1つのクラスタにのみ属するハードクラスタリング手法ですが、fuzzy c-meansは所属度を持って複数のクラスタへの所属を許すソフトクラスタリング手法です。K-meansは以前に作りましたので、今回はfuzzy c-meansを試したいと…

google::dense_hash_mapのset_deleted_keyメソッド

google::dense_hash_mapを使うときは、データのinsertを行う前にset_empty_keyメソッドで空のとき用のキーを指定しておく必要がある。同様にキーの削除を行う前には、set_deleted_keyメソッドで削除されたとき用のキーを指定しておかなければならない。で、…

Wikipediaのリダイレクトを使って同義語とれるかな

wikipediaは同義語の単語(「ASIA」と「アジア」とか)は、代表的な単語にリダイレクトするようになっています。つまりリダイレクト関係にある単語は、大抵は同じ意味であることが期待されます。そこでこのリダイレクト関係を使って、同義語を抽出してみようと…

むこうぶち6 高レート裏麻雀列伝

DVD

むこうぶち6 ~高レート裏麻雀列伝~ [DVD]出版社/メーカー: GP~[WA発売日: 2009/06/25メディア: DVD クリック: 40回この商品を含むブログ (2件) を見る原作で好きだったので、DVD借りてきて見てみた。今回はホステスのスカウトが相手。原作でも読んでるので内…

うめ『大東京トイボックス4』

大東京トイボックス(4) (バーズコミックス)作者: うめ出版社/メーカー: 幻冬舎発売日: 2009/06/24メディア: コミック購入: 4人 クリック: 26回この商品を含むブログ (44件) を見るゲーム開発会社のお話第4巻。今回は前回ほど大きな動きもなくて、開発中のド…

ハゲタカ

DVD

ハゲタカ DVD-BOX出版社/メーカー: ポニーキャニオン発売日: 2007/07/18メディア: DVD購入: 10人 クリック: 161回この商品を含むブログ (214件) を見るテレビ版のハゲタカのDVDを全部借りて見てみた。これかなり面白い。どれだけリアリティのある話なのかは…

ジョー・マーチャント『アンティキテラ古代ギリシアのコンピュータ』

アンティキテラ古代ギリシアのコンピュータ作者: ジョー・マーチャント,木村博江出版社/メーカー: 文藝春秋発売日: 2009/05/14メディア: 単行本購入: 10人 クリック: 164回この商品を含むブログ (42件) を見る2000年前に作られたなぞの機械アンティキテラが…

谷川 俊太郎 with friends『生きる わたしたちの思い』

生きる わたしたちの思い作者: 谷川俊太郎 with friends出版社/メーカー: 角川SSコミュニケーションズ発売日: 2008/07/30メディア: 単行本購入: 4人 クリック: 37回この商品を含むブログ (24件) を見るmixiの谷川俊太郎コミュニティから生まれた詩集。コミュ…

Yahooのキーフレーズ抽出APIを試す

Yahoo!デベロッパーネットワークでキーフレーズ抽出APIが公開されていたので、ちょろっと試してみました。 テキスト解析:キーフレーズ抽出 - Yahoo!デベロッパーネットワーク ただコマンドラインから文章受け取って、APIにリクエスト送るだけのスクリプト。 …

逆転検事

逆転検事(通常版)出版社/メーカー: カプコン発売日: 2009/05/28メディア: Video Game購入: 16人 クリック: 137回この商品を含むブログ (284件) を見る逆転裁判シリーズは本当に大好き。4でがらっと主人公が変わったときはちょっと…と思ったけど、今回は1から…