Java: parsing di una pagina HTML

In: HTML, Informatica, Java, Programmazione

Nella nostra carriera di programmatori, potrà capitarci di dover effettuare la lettura di dati da una pagina web: magari dobbiamo implementare uno spider per la ricerca di determinati link in una pagina, piuttosto che per raccogliere email o qualsiasi altra cosa che ci può essere utile estrapolare da una pagina HTML, in modo automatico. Java integra una serie di librerie e classi per il parsing di un documento XML, ma che si applicano solamente a documenti ben formati. La maggior parte delle volte, invece, le pagine HTML non rispettano gli standard W3C e sono piene di ...