文章專區

網頁程式技術探討

何謂XML?

目前資訊的發達,網路興起,造成各大公司紛紛推出各式網頁軟體,例如:Firefox、IE、Navigator…等,因為便造成因版本問題而導致網頁開啟有問題或排版出現問題的情況。為了修正這種情形,因此便出現了XML語言。
那何謂XML語言呢?


 

XML是一種[ 中介標籤語言 ](meta-markup language),可提供描述結構化資料的格式,這將有助於文件內容的宣告,並符合跨平台的搜尋作業,此外,XML也將是新一代網路資料呈現與運作的關鍵技術,在進一步介紹XML之前,我們還是先來看看,什麼是「標籤語言」吧!


 

所謂 [ 標籤語言 ],是由一些特殊字碼(code)或控制標籤(tag)所組成,它們單獨存在時並無任何的意義,而需要特殊的軟體經由一定的規則解讀後,再將文件輸出到螢幕或印表機...等輸出設備上,所以標籤語言可以使文件更具結構化,這樣的結構化使得應用程式能夠便於管理、解讀與運用文件中的資料,而標籤語言又可分為 [ 特定標籤語言 ][ 一般化標籤語言 ]

特定標籤語言:
特定標籤語言是針對某種特定軟體或特定用途所制定的,像我們所熟悉的HTML標籤語言,就是為了應用在Web上而制定的標籤語言,其它像微軟的文書處理軟體Word也是藉由標籤語言來顯示文字的字型、大小、粗細或是換行、換頁等文件格式。

通用標籤語言:
通用標籤語言通常只是用來描述文件的內容與結構,而不會去定義如何顯示或運用這些文件的內容,所以並不是為了特定的軟體而制定的,它可以讓許多不同的軟體解讀文件,至於解讀後的資料要如何運用,就視各種應用程式的需求而定了。也因為通用標籤語言是一種不受限於特定應用或是設備的文件描述方法,所以具有較佳的可攜帶性,像是已經通過ISO國際標準認可的SGML「標準通用標籤語言」,與其前身GML(Generalized Markup Language),都是我們所說的通用標籤語言。

HTML標籤語言
如果您曾經製作過網頁,一定對HTML標籤語言非常熟悉,HTML文件必須遵循一定的規則,而這個規則明確的規範文件應該如何被顯示或運用,讓執行處理工作的應用程式知道在HTML文件中去讀取哪些標籤內容、識別標籤的結構並將結果呈現在瀏覽器中;除了顯示文件格式,HTML也可以在文件中放置外部檔案,像是音效檔、圖形檔或其它的崁入式的程式;此外,從一個HTML文件連結到另一個HTML文件或檔案的「超連結」的動作,也是藉由標籤來定義的。
在HTML文件中有許多不同的標籤,這些標籤都有它特定的位置與目的,像是標籤定義了文字的字型與大小,標籤則將文字的格式定義為粗體字。
但是HTML並不完美,它只是一種表達的技術,並不一定能夠描述HTML標籤中所包含資料的意義,舉一個最簡單的例子好了,

Apple

這段程式碼在瀏覽器中有其特定的呈現方式,但是HTML並沒有告訴我們它倒底是什麼,雖然Apple只是一個英文單字,但它在不同的領域中可能就會有不同的含義,到底是一家電腦公司、一種水果,還是一個姓氏呢?HTML文件無法告訴我們資料本身所代表的含義。
其實大部分的瀏覽器為了提供一些特殊的功能,所以並不會完全依照DTD中的定義來檢視HTML文件,而有其專屬的標籤解析規則,甚至完全不去讀取DTD,也因此造成目前的HTML文件在各家瀏覽器上的相容性不佳,但這樣的情形在我們改用XML後,將能有效的避免。

 

NOTE:DTD「文件類型定義」(Document Type Definition),提供了所有元素、屬性與實體間的相互關係,能夠詳細地描述文件的結構規則。

SGML標準通用標籤語言
談到XML就一定要從SGML(Standard Generalized Markup Language)講起,SGML允許你指定文件的結構,並使用DTD「文件類型定義」來指定文件的結構,SGML可以將文件轉換成多種的輸出格式,包括了純文字、HTML、LaTeX、PostScript...等格式,最重要的是它為所有的文件提供了一致的外觀,以便於管理與維護。
SGML文件本身包含了三個部份:SGML宣告( SGML Declaration)、DTD文件類型定義和文件標示(Document Instance),其中SGML宣告是用來告訴SGML處理器(SGML Parser)在解讀該份文件時,所要使用的字元集和文件特性,DTD則是用來宣告該份文件的結構與文法參數,而文件標示就是加上標示處理後的文件。
SGML在現今的社會中已經廣泛被應用,其中最大的理由就是SGML的跨平台特性,以SGML格式所儲存的文件,任何人都可以輕易的解讀,而且不會因為軟體的不同而出現亂碼。(最常見的情形就是,若將OFFICE 2000的文件拿到OFFICE 97中開啟.....你將會看到一推的亂碼!)
SGML與HTML最大的不同在於SGML中並沒有定義資料顯示格式的資訊,例如文字的字型、大小與格式,但標籤可以定義出文件的架構,而某些資料內容,像是書名、作者...等,其實已經是文件結構的一部份了,然後再藉由DTD描述標籤的類型與文件的格式,最後以適當的方式呈現這些資料。
 

XML可延伸標籤語言
XML是從SGML推演出來的,SGML其實是一套非常複雜的系統,因為它具有許多的機制,以便提供各種的語法,來解讀、編輯及保存內容龐大複雜且互相連結的技術文件,而XML則擷取了SGML中文件結構的核心部份,是SGML的一個子集合,其目的是為了擴充在網際網路上的應用,並靡補HTML的不足,讓SGML也能輕易地在網路上應用,所以XML肩負著使全球資訊網能夠傳輸或處理更豐富資訊的責任,雖然在一般情況之中,HTML或是JAVA的功能就已經相當足夠了,但隨著資訊的爆炸、資料量的激增與資料結構的複雜化,只用HTML就顯得捉襟見肘了,而JAVA又顯得太大才小用,也不易學習,現在有了XML與HTML的相輔相成,這些問題就都解決了,所以XML並不是用來取代HTML與SGML,或是廢除原有的標準,XML是用來制定新的標準、用來定義一種新的標籤語言,其自訂的範圍包括標籤及屬性的名稱,XML文件可以選擇性的包含文法描述的資料,以便應用程式可以檢查其完整性,而使用者可以藉由XML定義專屬的文件型態,程式設計師也能撰寫出便於管理文件的應用程式。
雖然XML是為了能有效的在Web環境下運作而設計的,但XML也能在Web以外的環境中運作,包括了商業應用、出版業及企業資料交換應用,為了能在不同的環境中應用,因此XML被設計成使用簡單、具有彈性與開放的語言,以便讓不同的使用者製作各種XML文件。
 

Posted by 程式設計師 / 小瑜