Text::MicroTemplateの速度を簡単にベンチマークでText::MicroTemplateの動作速度を簡単にベンチマークしましたが、今回はメモリ使用量を他のテンプレートエンジンと比較してみました。環境はUbuntu 9.04 amd64, Perl 5.10.0 で、GTopを使って測っています。
useした時のメモリ使用量
独自に作ったスクリプト(use_memory_size.pl)でuse時のメモリ使用量を測ってみます。
$ ./use_memory_size.pl
3.2M : use HTML::Template
11.7M : use HTML::Template::Compiled
2.5M : use HTML::Template::Pro
264k : use Text::MicroTemplate
3.6M : use Template
HTML::Template::Compiledは多くのモジュールで構成されているので、メモリ使用量が多そうな感じです。一方、ソースコードがとてもコンパクトな Text::MicroTemplate は他のテンプレートエンジンと比べてメモリ使用量が一桁少ない。これはすごい。
use_memory_size.pl
#!/usr/bin/env perl
use strict;
use warnings;
for my $module (qw(HTML::Template
HTML::Template::Compiled
HTML::Template::Pro
Text::MicroTemplate
Template)) {
system "gtop.pl 'use $module'";
}
(プロセスのメモリ使用量を調べるために必要なGTopモジュール(およびlibgtop2)をインストールして、下記スクリプトをgtop.plとしてどこかパスの通ってるところに保存しておいてください)
gtop.pl
#!/usr/bin/env perl
use strict;
use warnings;
use GTop;
unless (@ARGV) {
print STDERR "Argument required.\n";
exit 1;
}
my $gtop = GTop->new;
my $before = $gtop->proc_mem($$)->size;
eval $ARGV[0];
die $@ if $@;
my $after = $gtop->proc_mem($$)->size;
my $diff = GTop::size_string($after - $before);
print "$diff : $ARGV[0]\n";
newしてレンダリングさせた後のメモリ使用量
モジュールをuseした時のメモリ使用量だけでなく、newしてoutputした後のメモリ使用量も調べてみました。結果は以下になります。
$ ./new_memory_size.pl
3.2M : use HTML::Template;my $t = HTML::Template->new(filename => q{template_speed_file.ht});my $s = $t->output;
11.7M : use HTML::Template::Compiled;my $t = HTML::Template::Compiled->new(filename => q{template_speed_file.ht});my $s = $t->output;
2.5M : use HTML::Template::Pro;my $t = HTML::Template::Pro->new(filename => q{template_speed_file.ht});my $s = $t->output;
796k : use Text::MicroTemplate::File;my $t = Text::MicroTemplate::File->new;my $s = $t->render_file(q{template_speed_file.mt})->as_string;;
11.4M : use Template;my $t = Template->new;$t->process(q{template_speed_file.tt}, {}, \my $s);
相変わらずText::MicroTemplateは良好な成績ですね。あまりメモリを積んでいないマシンでもこれなら安心して使えそうな感じです。HTML::Template::Proも2.5MBと省メモリですね。スピードも爆速なので、テンプレートにゴリゴリPerlのコードを書く必要がない場合はこれが一番よいかもしれません。
new_memory_size.pl
#!/usr/bin/env perl
use strict;
use warnings;
# HTML::Template
my $ht = <<'...';
use HTML::Template;
my $t = HTML::Template->new(filename => q{template_speed_file.ht});
my $s = $t->output;
...
# HTML::Template::Compiled
my $htc = <<'...';
use HTML::Template::Compiled;
my $t = HTML::Template::Compiled->new(filename => q{template_speed_file.ht});
my $s = $t->output;
...
# HTML::Template::Pro
my $htp = <<'...';
use HTML::Template::Pro;
my $t = HTML::Template::Pro->new(filename => q{template_speed_file.ht});
my $s = $t->output;
...
# Text::MicroTemplate
my $mt = <<'...';
use Text::MicroTemplate::File;
my $t = Text::MicroTemplate::File->new;
my $s = $t->render_file(q{template_speed_file.mt})->as_string;;
...
# Template
my $tt = <<'...';
use Template;
my $t = Template->new;
$t->process(q{template_speed_file.tt}, {}, \my $s);
...
for my $code ($ht, $htc, $htp, $mt, $tt) {
$code =~ s/\n//g;
system qq{gtop.pl '$code'};
}
インフラエンジニアじゃないけどインフラエンジニア勉強会 hbstudy#5に参加してきました。もともとこのイベントには参加したいなぁと思っていて、参加登録したらいいタイミングで松信さんが講演することにw 貴重なMySQLのチューニングの話が生で聞けてとてもよかったよかった。
あと、最初にPostgreSQLの話をしていた永安さんのセッションもよかった。普通DBの入門の話ってあまりつっこんだ運用の話は出てこないと思うのですが、運用を意識した入門編でこういうのはすごい貴重だったのではないかと。
PostgreSQL安定運用のコツ2009
永安さんの話はスライドを見てもらえばほぼ全てわかります。スライドが充実し過ぎていてあまりメモを取っていなかったのですが、最近のポスグレはAuto Vacuumなんて仕組みがあって、あまりVacuumを意識しなくてよいのだなぁと。あとポスグレもチューニングはいかに共有バッファをうまく使うかっていうところで、あんまりMySQLと変わらないんだなって思いました。
Linux MySQLサーバーのパフォーマンスチューニング
資料(PDF)
MySQLのチューニングの基本はデータサイズを小さくしていかにメモリにのっけるか、という話。たとえば、日時を格納するカラムはDATETIME(8byte使用)じゃなくてTIMESTAMP(4byte)を使えとか。statusみたいな1/0しか入らないカラムは文字列型じゃなくてTINYINTかENUM使えとか。ちなみに日時は2038年問題が気にならないのであれば、UNIXTIME化してINT型のフィールドにしてしまうという荒技もありますよね。アプリケーション側でいちいち変換しなくてはいけないですが。
あと「巨大なTEXT/BLOBはクエリ効率を悪化させる」という話で、巨大なデータを格納するカラムは別テーブルにすると、それ以外のカラムのデータをSELECTするときに悪影響が出ないらしい。ちょっとどういう話か失念してしまったので、資料が公開されたら復習します。一定以上の大きさのテキストフィールドを別領域に保存するストレージエンジンとして、Falcon, PBXTがあるとのこと。ちなみに、HDDが一秒間に処理できるランダムI/Oはせいぜい数百ぐらいなので、とても遅いですと。
あとは実データを引かずにCovering Index(インデックスだけを読む検索)でうまく処理する方法もあるそうで、
- テーブルのレコードにアクセスする必要がなくなるので、高速になる
- Indexのサイズが大きくなるので、更新のコストが高くなる
- Limit句を使うときにも効果がある
というメリットデメリットがあるそうです。
- メモリを十分に確保してダイレクトI/Oを活用する
- オンライン処理のあとに、バッチ処理で巨大なテーブルに対してフルスキャンするのは問題がある
- バッチ処理によるバッファプールが占有され、オンラインのバッファプールが追い出されてしまうため
- OOM Killerに注意する
- ダイレクトI/Oを使うとプロセス内にデータが置かれるので、プロセスのサイズが大きくなる
- DBサーバとしてはファイルシステムキャッシュを縮小してほしい
- # echo 0 > /proc/sys/vm/swappiness = 0
- -> Direct I/Oとセットで使うことが多い
- cpで大きいファイルをコピー
- cpに対してファイルシステムキャッシュが使われる
- InnoDBのプロセスのデータがスワップに追い出される->これは避けたい
- ファイルシステムはext3
- もっとも使われていて安全
- dir_index, noatime(relatime)
- xfsはDirect I/Oだと並列で書き込める
- xfsは巨大なファイルのコピーがはやい
- でもxfs使っている人少なすぎなので、おすすめできないw
- 監視の方法
- iotop: プロセス単位でI/O量を取る kernel 2.6.20以降
- ネットワーク統計: MySQL Cluster使う人には必要かも
- mtstat: 一秒おきに受信/送信byte数を表示
- /proc/net/dev をみればわかる情報
- SSD
- ランダムリードはHDD: 200回にたいして、25000回のI/O (Intel X25E)
- 書き込み性能は製品による差が激しい
- write cache必須
- バッテリーで守れていることが重要。RAIDコントローラに任せるものとSSD自身で持つものがある(RAID Controllerの場合はそれがSSDに対応していることが重要)
- SSDは並列性が重要。Crystalなんとかのベンチはシングルプロセスの話なのであてにならない
- PCI-E型SSDにも注目 -> I/Fの速度が速い(300MB -> 2GB)
途中から殴り書きですが、TIMESTAMP型が4byteとDATETIMEの半分で済むことにこの日初めて知りました。その他Covering Indexなど、知らなかったテクニックなのでとても勉強になりました。あとSSDは本当もうすぐそこまで来ていて、これを入れるだけで数倍DBのI/Oが速くなることを考えるとすごいなぁと。しかし色々ベンチ取られていて、すごく説得力のあるお話でした。この人にコンサル頼んだらいくらかかるんだろう…
2009/11/15 追記:tokuhiromさんのコメントを受けて、Text::MicroTemplate以外のテンプレートファイルにHTMLエスケープの処理を追加してベンチマークを取り直しています。
Perlのテンプレートエンジンでどれを使おうか悩んでいるので、Text::MicroTemplateをはじめとする以下のテンプレートエンジンの速度を簡単にベンチマークしてみました。
下記の要因で単純に比較できない部分もあるので、これを鵜呑みにしないでなるべく自身のユースケースの延長でもベンチマークを取ることをお奨めします。あくまで参考値ということで。
- そもそも持っている機能が全然違うので単純に比較できない
- 実際のテンプレートファイルはもっと複雑なはず
- utf8 flagの処理入れる場合もある
ではとりあえず結果から。
キャッシュなし
$ perl template_speed_file.pl 3000 0
Benchmark: timing 3000 iterations of HT, HT::Compiled, HT::Pro, MT, TT...
HT: 5 wallclock secs ( 4.60 usr + 0.09 sys = 4.69 CPU) @ 639.66/s (n=3000)
HT::Compiled: 10 wallclock secs (10.56 usr + 0.10 sys = 10.66 CPU) @ 281.43/s (n=3000)
HT::Pro: 1 wallclock secs ( 0.20 usr + 0.04 sys = 0.24 CPU) @ 12500.00/s (n=3000)
(warning: too few iterations for a reliable count)
MT: 2 wallclock secs ( 2.39 usr + 0.07 sys = 2.46 CPU) @ 1219.51/s (n=3000)
TT: 10 wallclock secs ( 9.65 usr + 0.17 sys = 9.82 CPU) @ 305.50/s (n=3000)
Rate HT::Compiled TT HT MT HT::Pro
HT::Compiled 281/s -- -8% -56% -77% -98%
TT 305/s 9% -- -52% -75% -98%
HT 640/s 127% 109% -- -48% -95%
MT 1220/s 333% 299% 91% -- -90%
HT::Pro 12500/s 4342% 3992% 1854% 925% --
キャッシュあり
コードを見てもらえばわかるのですが、「キャッシュあり」とは具体的には
- テンプレートのインスタンスを作るのは最初の1回だけ(キャッシュなしの場合は毎回作っている)
- テンプレートエンジンに対して、「キャッシュあり」とコンストラクタで指令
ということになります。
$ perl template_speed_file.pl 3000 1
Benchmark: timing 3000 iterations of HT, HT::Compiled, HT::Pro, MT, TT...
HT: 3 wallclock secs ( 2.69 usr + 0.00 sys = 2.69 CPU) @ 1115.24/s (n=3000)
HT::Compiled: 0 wallclock secs ( 0.28 usr + 0.00 sys = 0.28 CPU) @ 10714.29/s (n=3000)
(warning: too few iterations for a reliable count)
HT::Pro: 0 wallclock secs ( 0.13 usr + 0.02 sys = 0.15 CPU) @ 20000.00/s (n=3000)
(warning: too few iterations for a reliable count)
MT: 1 wallclock secs ( 0.22 usr + 0.01 sys = 0.23 CPU) @ 13043.48/s (n=3000)
(warning: too few iterations for a reliable count)
TT: 1 wallclock secs ( 1.84 usr + 0.00 sys = 1.84 CPU) @ 1630.43/s (n=3000)
Rate HT TT HT::Compiled MT HT::Pro
HT 1115/s -- -32% -90% -91% -94%
TT 1630/s 46% -- -85% -87% -92%
HT::Compiled 10714/s 861% 557% -- -18% -46%
MT 13043/s 1070% 700% 22% -- -35%
HT::Pro 20000/s 1693% 1127% 87% 53% --
- HTML::Template::Proが爆速!
- Text::MicroTemplateは、キャッシュなしだとそこそこ、
キャッシュありはかなり速い部類に入るようです。キャッシュありだとHTML::Template::Proには及ばないものの、かなり速いです。
- HTML::Template::Compiledはキャッシュを無効にするとTTより遅いという結果ですが、キャッシュを有効にすると猛烈に速くなるようです。ソースが追えてないのですが、中でガチンコにキャッシュしてるのでしょうか。
- たぶん一番使われているTTはよく「遅い」と言われていますが、キャッシュを有効にすると意外にもHTML::Templateより速くなりました。
というのがポイントだと思います。この結果だけで判断すると、HTML::Template::Proは神がかり的な速さなのですが、そもそもPerlのコードをテンプレートに記述できず自由度は低いので(*1)、使う場合にはそれなりに不便さを覚悟した方がよいと思います。「便利さ」という点だとText::MicroTemplateはテンプレート内にPerlのコードが書ける分かなり自由度が高い、かつ速度もいい感じでバランスが取れていると言えます。
*1) Perlのコードをテンプレートに書けてしまっていいのかどうかは使う人次第だと思いますが
以下にソースを載せておきます。テストに使ったマシンはUbuntu 9.04, perl 5.10.0, CPUが Athlon Dual Core Processor 5050e です。
template_speed_file.pl
#!/usr/bin/env perl
use strict;
use warnings;
use HTML::Template;
use HTML::Template::Compiled speed => 1;
use HTML::Template::Pro;
use Template;
use Text::MicroTemplate::File;
use Benchmark qw(timethese cmpthese);
my @LANGUAGES = (
{ language => 'Perl', ll => 1 },
{ language => 'Ruby', ll => 1 },
{ language => 'Python', ll => 1 },
{ language => 'PHP', ll => 1 },
{ language => 'Java' },
{ language => 'C' },
{ language => 'C++' },
{ language => 'C#' },
{ language => 'VB' },
{ language => 'VB.NET' },
{ language => 'ASP.NET' },
{ language => 'Delphi' },
{ language => 'Erlang' },
{ language => 'Scala', ll => 1 },
{ language => 'Go' },
);
my $count = shift @ARGV || 1000;
my $cache = shift @ARGV || 0;
my $mt = undef;
sub mt {
my %args = (use_cache => $cache);
if ($cache) {
$mt ||= Text::MicroTemplate::File->new(%args);
} else {
$mt = Text::MicroTemplate::File->new(%args);
}
my $s = $mt->render_file(
'template_speed_file.mt',
{
page_title => 'LL Programming languages',
languages => \@LANGUAGES,
}
)->as_string;
}
my $ht = undef;
sub ht {
my %args = (
filename => 'template_speed_file.ht',
case_sensitive => 1,
die_on_bad_params => 0,
cache => $cache,
);
if ($cache) {
$ht ||= HTML::Template->new(%args);
} else {
$ht = HTML::Template->new(%args);
}
$ht->param(
page_title => 'LL Programming languages',
languages => \@LANGUAGES,
);
my $s = $ht->output;
}
my $htc = undef;
sub htc {
my %args = (
filename => 'template_speed_file.ht',
case_sensitive => 1,
die_on_bad_params => 0,
cache => $cache,
);
if ($cache) {
$htc ||= HTML::Template::Compiled->new(%args);
} else {
$htc = HTML::Template::Compiled->new(%args);
}
$htc->param(
page_title => 'LL Programming languages',
languages => \@LANGUAGES,
);
my $s = $htc->output;
}
my $htp = undef;
sub htp {
my %args = (
filename => 'template_speed_file.ht',
case_sensitive => 1,
die_on_bad_params => 0,
cache => $cache,
);
if ($cache) {
$htp ||= HTML::Template::Pro->new(%args);
} else {
$htp = HTML::Template::Pro->new(%args);
}
$htp->param(
page_title => 'LL Programming languages',
languages => \@LANGUAGES,
);
my $s = $htp->output;
}
my $tt = undef;
sub tt {
if ($cache) {
$tt ||= Template->new(
CACHE_SIZE => $cache ? undef : 0,
);
} else {
$tt = Template->new;
}
$tt->process(
'template_speed_file.tt',
{
page_title => 'LL Programming languages',
languages => \@LANGUAGES,
},
\my $out,
) or die $tt->error() . "\n";
}
# main
my $comp = timethese(
$count,
{
'MT' => \&mt,
'HT' => \&ht,
'HT::Pro' => \&htp,
'HT::Compiled' => \&htc,
'TT' => \&tt,
}
);
cmpthese $comp;
template_speed_file.mt – Text::MicroTemplate用のファイル
? my $p = $_[0];
<html>
<head><title>Programming languages</title></head>
<body>
<h1><?= $p->{page_title} ?></h1>
<br />
<ul>
? for my $language (@{ $p->{languages} }) {
<li><?= $language->{language} ?></li>
? }
</ul>
</body>
</html>
template_speed_file.ht – HTML::Template::*用のファイル
<html>
<head><title>Programming languages</title></head>
<body>
<h1><TMPL_VAR NAME=page_title ESCAPE=HTML></h1>
<br />
<ul>
<TMPL_LOOP NAME=languages>
<li><TMPL_IF NAME=ll>*</TMPL_IF><TMPL_VAR NAME=language ESCAPE=HTML></li>
</TMPL_LOOP>
</ul>
</body>
</html>
template_speed_file.tt – Template::Toolkit用のファイル
<html>
<head><title>Programming languages</title></head>
<body>
<h1>[% page_title | html %]</h1>
<br />
<ul>
[% FOREACH language IN languages %]
<li>[% language.language | html %]</li>
[% END %]
</ul>
</body>
</html>
HTMLエスケープあり/なしのスピードについて
tokuhiromさんのコメントにあるように、Text::MicroTemplateは自動でHTMLエスケープがかかる一方、他のテンプレートエンジンでは手動でやる必要があるので、HTMLエスケープを入れて測り直してみました。ちなみに上に載せているベンチの結果は、HTMLエスケープを入れたものになっています。
特筆すべきなのは、HTML::Template::CompiledがキャッシュありかつHTMLエスケープありの場合、HTMLエスケープなしに比べてパフォーマンスがかなり劣化している点です。(その他はちょっとずつパフォーマンスが劣化していますね)。
キャッシュなしかつHTMLエスケープなし
$ perl template_speed_file.pl 3000 0
Benchmark: timing 3000 iterations of HT, HT::Compiled, HT::Pro, MT, TT...
HT: 4 wallclock secs ( 3.85 usr + 0.10 sys = 3.95 CPU) @ 759.49/s (n=3000)
HT::Compiled: 10 wallclock secs ( 9.99 usr + 0.09 sys = 10.08 CPU) @ 297.62/s (n=3000)
HT::Pro: 1 wallclock secs ( 0.21 usr + 0.02 sys = 0.23 CPU) @ 13043.48/s (n=3000)
(warning: too few iterations for a reliable count)
MT: 2 wallclock secs ( 2.35 usr + 0.05 sys = 2.40 CPU) @ 1250.00/s (n=3000)
TT: 8 wallclock secs ( 7.83 usr + 0.15 sys = 7.98 CPU) @ 375.94/s (n=3000)
Rate HT::Compiled TT HT MT HT::Pro
HT::Compiled 298/s -- -21% -61% -76% -98%
TT 376/s 26% -- -51% -70% -97%
HT 759/s 155% 102% -- -39% -94%
MT 1250/s 320% 233% 65% -- -90%
HT::Pro 13043/s 4283% 3370% 1617% 943% --
キャッシュなしかつHTMLエスケープあり
Benchmark: timing 3000 iterations of HT, HT::Compiled, HT::Pro, MT, TT...
HT: 5 wallclock secs ( 4.60 usr + 0.09 sys = 4.69 CPU) @ 639.66/s (n=3000)
HT::Compiled: 10 wallclock secs (10.56 usr + 0.10 sys = 10.66 CPU) @ 281.43/s (n=3000)
HT::Pro: 1 wallclock secs ( 0.20 usr + 0.04 sys = 0.24 CPU) @ 12500.00/s (n=3000)
(warning: too few iterations for a reliable count)
MT: 2 wallclock secs ( 2.39 usr + 0.07 sys = 2.46 CPU) @ 1219.51/s (n=3000)
TT: 10 wallclock secs ( 9.65 usr + 0.17 sys = 9.82 CPU) @ 305.50/s (n=3000)
Rate HT::Compiled TT HT MT HT::Pro
HT::Compiled 281/s -- -8% -56% -77% -98%
TT 305/s 9% -- -52% -75% -98%
HT 640/s 127% 109% -- -48% -95%
MT 1220/s 333% 299% 91% -- -90%
HT::Pro 12500/s 4342% 3992% 1854% 925% --
キャッシュありかつHTMLエスケープなし
$ perl template_speed_file.pl 3000 1
Benchmark: timing 3000 iterations of HT, HT::Compiled, HT::Pro, MT, TT...
HT: 3 wallclock secs ( 2.50 usr + 0.00 sys = 2.50 CPU) @ 1200.00/s (n=3000)
HT::Compiled: 0 wallclock secs ( 0.15 usr + 0.00 sys = 0.15 CPU) @ 20000.00/s (n=3000)
(warning: too few iterations for a reliable count)
HT::Pro: 0 wallclock secs ( 0.10 usr + 0.04 sys = 0.14 CPU) @ 21428.57/s (n=3000)
(warning: too few iterations for a reliable count)
MT: 0 wallclock secs ( 0.21 usr + 0.00 sys = 0.21 CPU) @ 14285.71/s (n=3000)
(warning: too few iterations for a reliable count)
TT: 1 wallclock secs ( 1.19 usr + 0.01 sys = 1.20 CPU) @ 2500.00/s (n=3000)
Rate HT TT MT HT::Compiled HT::Pro
HT 1200/s -- -52% -92% -94% -94%
TT 2500/s 108% -- -82% -87% -88%
MT 14286/s 1090% 471% -- -29% -33%
HT::Compiled 20000/s 1567% 700% 40% -- -7%
HT::Pro 21429/s 1686% 757% 50% 7% --
キャッシュありかつHTMLエスケープあり
Benchmark: timing 3000 iterations of HT, HT::Compiled, HT::Pro, MT, TT...
HT: 3 wallclock secs ( 2.69 usr + 0.00 sys = 2.69 CPU) @ 1115.24/s (n=3000)
HT::Compiled: 0 wallclock secs ( 0.28 usr + 0.00 sys = 0.28 CPU) @ 10714.29/s (n=3000)
(warning: too few iterations for a reliable count)
HT::Pro: 0 wallclock secs ( 0.13 usr + 0.02 sys = 0.15 CPU) @ 20000.00/s (n=3000)
(warning: too few iterations for a reliable count)
MT: 1 wallclock secs ( 0.22 usr + 0.01 sys = 0.23 CPU) @ 13043.48/s (n=3000)
(warning: too few iterations for a reliable count)
TT: 1 wallclock secs ( 1.84 usr + 0.00 sys = 1.84 CPU) @ 1630.43/s (n=3000)
Rate HT TT HT::Compiled MT HT::Pro
HT 1115/s -- -32% -90% -91% -94%
TT 1630/s 46% -- -85% -87% -92%
HT::Compiled 10714/s 861% 557% -- -18% -46%
MT 13043/s 1070% 700% 22% -- -35%
HT::Pro 20000/s 1693% 1127% 87% 53% --
あまりPHPのことわからないのですが、WordPressで
Fatal error: Allowed memory size of 8388608 bytes exhausted
というエラーメッセージが出ました。ぐぐると「php.iniのmemory_limitを64Mとか大きな値に設定すべし」とあるのですが、Ubuntuの /usr/share/php5/php.ini を
と直しても改善しませんでした。で、さらに調べてみるとどうやら /etc/php5/apache2/php.ini なんていうファイルが… これを上記と同じように64Mにしてapacheを再起動すると、めでたくエラーは出なくなりました。紛らわしいからphp.iniは一つにしておいてほしい…
いっつも忘れるのでメモ。Macをキーボードショートカットだけで終了する方法はControl + Option + Command + Eject 。右手でControlとOptionを押して、左手でCommand + Ejectを押す感じにしています。
PerlでAmazon Product Advertising APIのBrowseNodeLookupを行なうの楽天版です。Amazon Product Advertising APIはRESTしかないのですが、楽天ウェブサービスはRESTとJSONに対応しているので、今回はJSONを使ってみます。
(ファイル名はsample_books_genre_search.pl)
#!/usr/bin/env perl
use strict;
use warnings;
use Data::Dumper qw(Dumper);
use JSON::Syck qw(Load);
use LWP::UserAgent;
use URI;
my $uri = URI->new('http://api.rakuten.co.jp/rws/2.0/json');
$uri->query_form(
developerId => 'Your Developer ID',
operation => 'BooksGenreSearch',
version => '2009-03-26',
booksGenreId => shift || '000',
);
my $ua = LWP::UserAgent->new;
my $res = $ua->get($uri);
$Data::Dumper::Indent = 1;
if ($res->is_success) {
print Dumper(Load($res->content)->{Body}), "\n";
} else {
print $res->status_line, $res->as_string, "\n";
}
$ perl sample_books_genre_search.pl 000
と実行すると、以下のような結果が得られます。引数の”000″はルートのジャンルIDです。これを”001″のようにすると、”本”のジャンルの子ジャンルが取れます。
$VAR1 = {
'BooksGenreSearch' => {
'parent' => [],
'current' => [],
'child' => [
{
'genreName' => '本',
'genreId' => '001',
'genreLevel' => 1
},
{
'genreName' => 'CD',
'genreId' => '002',
'genreLevel' => 1
},
{
'genreName' => 'DVD',
'genreId' => '003',
'genreLevel' => 1
},
(以下省略)
};
Amazonと楽天の両方のAPIを見ていて思ったのですが、Amazonのカテゴリを表すBrowseNodeは、例えば”本”とかそういうカテゴリだけじゃなくて、”岩波書店”みたいな出版社にも適用されています。例えば、”岩波書店”にはBrowseNodeIdとして”516508″が割り振られていて、子ノードには”岩波文庫”や”岩波現代文庫”があり、「出版社別」みたいな切り口でも商品を分類することが可能です。
一方で楽天の場合は、商品一つに対してジャンルという純粋な一つのカテゴリしか設定されないようなデータ構造になっています。サイトを作る上では、様々な切り口で商品を分類できた方が集客がしやすいので、個人的には楽天ウェブサービスにもBrowseNodeみたいな概念を取り入れてもらいたいなぁと思いました。(リクエストはしました)
というわけであまりまとまってないですが、こうやってECサイトのAPIが利用できると個人でもECサイトが持てるので夢が広がっていいなぁと感じています。といってもアフィリエイトだったら利益はたかが知れているので、よっぽど頑張らないといけないと思いますが…
AmazonのProduct Advertising APIで、あるカテゴリの下にあるカテゴリ(BrowseNode)を取得するPerlスクリプトを書いてみました。最初はNet::Amazonを使っていたのですが、オブジェクトを大量に生成するためかとてつもなく重いのと、返ってくるオブジェクトの構成がよくわからなかったので、自前で処理してみるとさくっとできました。
#!/usr/bin/env perl
use strict;
use warnings;
use Encode qw(encode);
use LWP::UserAgent;
use URI::Amazon::APA;
use XML::Simple;
use YAML qw(Dump);
unless (@ARGV) {
print STDERR "usage: $0 browse_node_id\n";
exit 255;
}
my $uri = URI::Amazon::APA->new('http://ecs.amazonaws.jp/onca/xml');
my $browse_node_id = shift;
$uri->query_form(
Service => 'AWSECommerceService',
Operation => 'BrowseNodeLookup',
SearchIndex => 'Books',
BrowseNodeId => $browse_node_id,
);
$uri->sign(
key => 'key',
secret => 'secret_key'
);
my $ua = LWP::UserAgent->new;
my $res = $ua->get($uri);
my $content = XMLin($res->content);
my $children = $content->{BrowseNodes}->{BrowseNode}->{Children}->{BrowseNode};
if ($res->is_success) {
print encode('utf-8', Dump($children)), "\n";
} else {
print $res->status_line, $res->as_string, "\n";
}
$ perl sample_browse_node.pl 465610
とすると下みたいな感じで下の階層のカテゴリを表示します。ちなみに465610は本のBrowseNodeIdです。Net::Amazon–、URI::Amazon::APA++ということで。
---
- BrowseNodeId: 466284
Name: 文学・評論
- BrowseNodeId: 466288
Name: 思想・社会・ノンフィクション
- BrowseNodeId: 571582
Name: 人文・思想
- BrowseNodeId: 571584
Name: 社会・政治
- BrowseNodeId: 492152
Name: ノンフィクション
- BrowseNodeId: 466286
Name: 歴史・地理
- BrowseNodeId: 466282
コメント