htmlファイルなどから不要なタグを除去したい事があります。
正規表現で記述してもいいのですが、<script>タグが入れ子になっている場合などに対応できません。
そこで
CPANモジュールの
◆ HTML::Scrubber
http://search.cpan.org/dist/HTML-Scrubber/Scrubber.pm
を利用します。
◆ HTML::Scrubber のインストール
例によって
perl -MCPAN -e shell
で cpanシェルに入ってから
install HTML::Scrubber
でインストールします 。
◆ 使い方
使い方はいたってシンプル。
$htmlという変数に htmlページの内容が入っている場合は
use HTML::Scrubber; my $scrubber = HTML::Scrubber->new(); print $scrubber->scrub($html);
として使用します。
簡単、便利。