DOC形式のファイルの読み込み 2016/11
DOC形式のファイルを単純に読み込んで文字列をコンソールに表示する。
Java : 1.8.0_31
POI : 3.15
※ docx形式のファイルを読み込もうとすると org.apache.poi.poifs.filesystem.OfficeXmlFileException が出る。
DOC形式のファイルを単純に読み込んで文字列をコンソールに表示する。
Java : 1.8.0_31
POI : 3.15
import java.io.FileInputStream;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.HWPFDocument;
public class POIDocTest1 {
public void test1() {
try {
HWPFDocument doc = new HWPFDocument(new FileInputStream(pathToDocument));
WordExtractor extractor = new WordExtractor(doc);
String extracted = extractor.getText();
System.out.println(extracted);
}
catch (Exception ex) {
ex.printStackTrace();
}
}
public static void main(String[] args) {
new POIDocTest1().test1();
}
}
※ doc形式 MSWord2003以前の形式のファイル ⇔ 2007以降はdocx形式。※ docx形式のファイルを読み込もうとすると org.apache.poi.poifs.filesystem.OfficeXmlFileException が出る。