ひ孫

犬のこととか書いていきたい

Pigで複数ファイルを読み込む

Hadoopのpigでファイルを複数読み込むのどうすればいいか。

なんだか色々遠回りしてusingしなきゃいけないのかとか考えたけど結局

log = LOAD '/directory/some-date/data-[0-9].txt';
log = LOAD '/directory/some-date/data-{a,b}.txt';

のようにglob形式で書けば良いというだけの話だった。

ちなみに下記のようにすればファイルが対象になるか確認できる。

$ hadoop fs -ls '/directory/some-date/data-{a,b}.txt'