DOC形式のファイルの読み込み 2016/11
DOC形式のファイルを単純に読み込んで文字列をコンソールに表示する。
Java : 1.8.0_31
POI : 3.15
※ docx形式のファイルを読み込もうとすると org.apache.poi.poifs.filesystem.OfficeXmlFileException が出る。
DOC形式のファイルを単純に読み込んで文字列をコンソールに表示する。
Java : 1.8.0_31
POI : 3.15
import java.io.FileInputStream; import org.apache.poi.hwpf.extractor.WordExtractor; import org.apache.poi.hwpf.HWPFDocument; public class POIDocTest1 { public void test1() { try { HWPFDocument doc = new HWPFDocument(new FileInputStream(pathToDocument)); WordExtractor extractor = new WordExtractor(doc); String extracted = extractor.getText(); System.out.println(extracted); } catch (Exception ex) { ex.printStackTrace(); } } public static void main(String[] args) { new POIDocTest1().test1(); } }※ doc形式 MSWord2003以前の形式のファイル ⇔ 2007以降はdocx形式。
※ docx形式のファイルを読み込もうとすると org.apache.poi.poifs.filesystem.OfficeXmlFileException が出る。