PHPプログラムに関する各種メモ書き

PHP で PDFからテキストなどのデータを取り出す

PHP で PDFからテキストなどのデータを取り出すには pdfparser を使用します。

● smalot/pdfparser

composer require smalot/pdfparser

次のようなコードで PDF から必要な情報を取り出すことができます。

<?php
use Spatie\PdfToText\Pdf;
require_once __DIR__ . '/vendor/autoload.php';

$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('test.pdf');

var_dump( $pdf->getText() );
var_dump( $pdf->getDetails() );
var_dump( $pdf->getTrailer() );
var_dump( $pdf->getObjects() );

var_dump( $pdf->getFonts() );

foreach ($pdf->getObjects() as $k => $v) {
	echo "\n\n=====\n" . $k ."\n=====\n";
	echo "Type:" . $v->get('Type') . "\n";
	echo "Details:"; print_r($v->getDetails());
}
No.1636
12/04 10:09

edit