HTML解析

HTMLはXMLの派生ですが、厳密にはXMLのような厳格なルールはありません。よって、XMLとして扱えない、つまりXMLパーザーで解析できない時があります。よって、HTMLを解析するには、HTMLパーザーを別途用意する必要があります。

代表的なパーザーは

などです。