《Android》『Jsoup』- 如何使用 Jsoup 取得 HTML 網頁上的資訊

《參考文獻》

Jsoup

 

《簡單介紹》

Jsoup 在官網上的名稱叫做 Java HTML Parser,照字面翻譯,它是一個 Java 現成的 API 套件,用來幫助我們解析 HTML 與 XML 的資訊,透過 Jsoup,我們可以取得 HTML 與 XML 中所指定的不同名稱的標籤,以及標籤裡面的內容,而現在大部分的網頁都是由 HTML 所組成的,因此學會如何使用 Jsoup,對於在 Android 中有需要取得網頁資訊時,會相當方便。

 

《程式範例》

在 HTML 格式中,標籤並不一定是完全對稱的,且同樣名字的標籤常常會有重複,其中很多標籤是用來畫出網頁的架構,這些介面資訊的標籤並不是我們想要取得的網頁資訊,通常我們要找有用的資訊,會從 <table><th><tr><td>這幾組標籤名稱去尋找,若是 XML 格式,則標籤可以自行定義名稱,找到我們所需要的資訊以後,才會知道篩選條件要怎麼下,接著再著手撰寫程式去操作。(<th> : table head、<tr> : table row、<td> : table data)

這邊我們直接以程式碼範例做說明,首先先建立一個 .html 格式的檔案,內容如下 –

data.html

在這個 .html 格式的網頁裡面,包含了一個表格,裡面有三列資訊,分別記錄著名字、年齡以及性別,接著,我們再利用程式碼去取得此檔案並解析 html 格式內所包含的資訊。

main.java

其中 .select() 方法用來取得傳入的標籤名稱節點,取得節點以後可以用 .toString() 方法將此結構完整的顯示出來,或者是用 .text() 方法單純將標籤節點中的值取出來,而記錄在標籤屬性中的值(此例來說為網址),亦可以用相同的方式取出,在這個範例的最後,我們宣告了一個 Student 類別,並將解析出來的資訊,用一個迴圈依序存成一個 student 物件的 List 清單,所用到的 Student 類別宣告片段如下 –

Student.java

 

 

 

賽肥膩膩

我們是低調到不行的肥膩夫妻檔,一路上一邊吵鬧一邊記錄著生活大小事,最近迷上了宅在家追劇,希望能透過文字將所有看過的影集好好紀錄,整理成屬於我們自己的回憶資料庫。

上 / 下一篇文章

臉書留言

一般留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *