Perlプログラムに関する各種メモ書き

ホームページから不要なhtmlタグを綺麗に除去する HTML::Scrubber

htmlファイルなどから不要なタグを除去したい事があります。

正規表現で記述してもいいのですが、<script>タグが入れ子になっている場合などに対応できません。

そこで

CPANモジュールの


◆ HTML::Scrubber

http://search.cpan.org/dist/HTML-Scrubber/Scrubber.pm

を利用します。

◆ HTML::Scrubber のインストール

例によって

perl -MCPAN -e shell

で cpanシェルに入ってから

install HTML::Scrubber

でインストールします 。


◆ 使い方

使い方はいたってシンプル。

$htmlという変数に htmlページの内容が入っている場合は

use HTML::Scrubber;
my $scrubber = HTML::Scrubber->new();
print $scrubber->scrub($html);

として使用します。

簡単、便利。

関連エントリー

No.507
03/16 13:49

edit