DOC形式のファイルの読み込み 2016/11

DOC形式のファイルを単純に読み込んで文字列をコンソールに表示する。
Java : 1.8.0_31
POI : 3.15
import java.io.FileInputStream;

import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.HWPFDocument;

public class POIDocTest1 {

    public void test1() {
        
        try {
            HWPFDocument doc = new HWPFDocument(new FileInputStream(pathToDocument));
            WordExtractor extractor = new WordExtractor(doc);
            String extracted = extractor.getText();
            
            System.out.println(extracted);
        }
        catch (Exception ex) {
            ex.printStackTrace();
        }        
    }
    
    public static void main(String[] args) {
    
        new POIDocTest1().test1();
    }
}
※ doc形式 MSWord2003以前の形式のファイル ⇔ 2007以降はdocx形式。
※ docx形式のファイルを読み込もうとすると org.apache.poi.poifs.filesystem.OfficeXmlFileException が出る。