ひ孫

犬のこととか書いていきたい

Hadoop

Pigで複数ファイルを読み込む

Hadoopのpigでファイルを複数読み込むのどうすればいいか。なんだか色々遠回りしてusingしなきゃいけないのかとか考えたけど結局 log = LOAD '/directory/some-date/data-[0-9].txt'; log = LOAD '/directory/some-date/data-{a,b}.txt';のようにglob形式で…

MRUnitいろいろ

Hadoopのテストケースを書くとき、MapやReduceのテストというのは結構書きづらかった。 ちょっと調べたら、MRUnitというのがあるので使ってみた。基本的なセットアップなんかや利用サンプルはぐぐればたくさん出てくるので 自分で調べても出なかったようなこ…

Hadoopで拡張子を.tsvで吐き出す

HadoopでTextOutputFormatを使うと気軽に吐き出してくれて便利なんだけど拡張子がつかない状態で出力される で、いちいち拡張子書きなおしてやるのが面倒になったのでTsvで出力するFormatを作ったhttps://gist.github.com/3367138 public class TsvOutputFor…