網絡搜索引擎性能分析模型與系統ASP+SQL

時間：2024-11-02 10:15:18 計算機應用畢業論文我要投稿

相關推薦

畢業論文

目錄
摘要 1
前言 3
1 搜索引擎概述 4
1.1 模糊搜索技術 4
1.2 多個關鍵字查詢 4
1.3 爬行網頁 6
1.3.1 頁面的選擇 6
1.3.2 爬行策略 6
2 開發工具的簡介 8
2.1 開發環境介紹 8
2.1.1 ASP概述 8
2.1.2 ASP運行環境 8
2.2 VISUAL INTERDEV概述 8
2.3 VISUAL INTERDEV的集成開發環境 9
3 ASP網絡數據庫開發簡介 11
3.1 建立ODBC數據源 11
3.2 SQL簡介 11
3.3 ADO概述 11
3.3.1 ADO的對象 12
3.3.2 ADO的操作流程 12
3.4 創建ODBC DSN文件 13
3.5 連接數據庫 15
4 系統總體規劃 17
4.1 系統需求分析 17
4.2 系統功能模塊圖設計 18
4.3 搜索引擎系統設計結構圖 19
4.4 數據流圖 20
4.5 系統數據庫設計 21
5 系統具體實現 24
5.1 主要系統文件組成 24
5.2 網站搜索模塊 24
5.2.1 模塊的具體實現 24
5.2.2 搜索模塊存在的問題 30
5.3 分類目錄模塊 30
5.4 網站登錄模塊 34
5.5 網站修改模塊 37
5.6 管理員登錄模塊 39
5.7 網站管理模塊 40
5.8 網站審核模塊 42
5.9 分類管理模塊 42
5.10 退出系統模塊 44
結束語 46
參考文獻 47
致謝 48
附錄 49

網絡搜索引擎性能分析系統模型及設計

摘要：搜索引擎是絕大多數網站都提供的功能，搜索引擎分為站內文件搜索引擎和網站搜索引擎兩大類，站內文件搜索引擎是指對1個固定的站內的文件進行搜索，搜索的結果是含有關鍵字的站內文件；網站搜索引擎是指對登記過的網站進行搜索，搜索的結果是含有關鍵字的所有網站。
我利用ASP技術，采用Visual InterDev開發工具開發1個搜索引擎模型。本論文主要介紹了本課題的開發背景，所要完成的功能和開發的過程等，重點說明了系統設計的重點、設計思想、難點技術和解決方案等，并給出了在開發過程中的1些經驗體會。
關鍵字：搜索引擎;關鍵字;ASP;Visual InterDev

Net Search Engine performance analysis system model and design

Abstract：Search engine is a function provided by most of networks. It includes Localhost File Search Engine and Net Search Engine. Localhost File Search Engine refers to search on files fixed in the local machine and its results are some files withkeywords. Net Search Engine searchs on registered networks whose results are all the networks with keywords.
I make use of ASP and adopt Visual InterDev to research a model for Search engine. This article mainly introduces development backgrounds, functions to be finished and processes of research about this subject and so on. It stresses on key points and thoughts of designing, difficult technology and schemes about this system. In addition, it shows some experience in the process of research and development.
Key words: Search engine;Key words;ASP;Visual InterDev

前言

在互聯網發展初期，網站相對較少，信息查找比較容易。然而伴隨互聯網爆炸性的發展，普通網絡用戶想找到所需的資料簡直如同大海撈針，這時為滿足大眾信息檢索需求的專業搜索網站便應運而生了。
現代意義上的搜索引擎的祖先，是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現，但網絡中文件傳輸還是相當頻繁的，而且由于大量的文件散布在各個分散的FTP主機中，查詢起來非常不便，因此Alan Emtage想到了開發1個可以以文件名查找文件的系統，于是便有了Archie。Archie工作原理與現在的搜索引擎已經很接近，它依靠腳本程序自動搜索網上的文件，然后對有關信息進行索引，供使用者以1定的表達式查詢。由于Archie深受用戶歡迎，受其啟發，美國內華達System Computing Services大學于1993年開發了另1個與之非常相似的搜索工具，不過此時的搜索工具除了索引文件外，已能檢索網頁。
隨著互聯網的迅速發展，使得檢索所有新出現的網頁變得越來越困難，因此，在Matthew Gray的Wanderer基礎上，1些編程者將傳統的“蜘蛛”程序工作原理作了些改進。其設想是，既然所有網頁都可能有連向其他網站的鏈接，那么從跟蹤1個網站的鏈接開始，就有可能檢索整個互聯網。到1993年底，1些基于此原理的搜索引擎開始紛紛涌現，其中以JumpStation、The World Wide Web Worm（Goto的前身，也就是今天Overture），和Repository-Based Software Engineering (RBSE) spider最負盛名。
最早現代意義上的搜索引擎出現于1994年7月。當時Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中，創建了大家現在熟知的Lycos。同年4月，斯坦福（Stanford）大學的兩名博士生，David Filo和美籍華人楊致遠（Gerry Yang）共同創辦了超級目錄索引Yahoo，并成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發展時期。目前，互聯網上有名有姓的搜索引擎已達數百家，其檢索的信息量也與從前不可同日而語。比如最近風頭正勁的Google，其數據庫中存放的網頁已達30億之巨！
然而我國的搜索引擎技術與國外先進技術相比仍然相差較大，較有名的引擎寥寥可數，如百度等。中國擁有巨大的市場潛力，若能充分挖掘，將產生巨大的經濟效益，所以應該積極發展搜索引擎技術，故我選此作為畢業設計課題，使自己能盡早了解其原理和技術，為以后向這方面發展打下基礎。

1 搜索引擎概述
目前，關于搜索引擎的說法很多，國內還沒有1個明確的定義。1般而言，我們可以從廣義和狹義上去理解。從狹義的角度來說，搜索引擎由信息收集軟件、索引數據庫和查詢接口3部分組成。信息收集軟件從1個已知的文檔集中讀取信息，并檢查這些文檔的鏈接指針，找出新的信息空間，然后取回這些新空間中的文檔，將它們加入到索引數據庫。查詢接口通過索引數據庫為用戶的查詢請求提供服務。即搜索引擎指的是基于某種技術在整個網上自動執行網頁全文搜索的網上指南工具。
從廣義的角度上講，搜索引擎是因特網上的1類網站，這類網站與1般的網站不同的是它是提供查詢、搜索的網站，或稱查詢站點、導航站點，即因特網上具有檢索功能的網頁。從這點上說，搜索引擎分為兩種，1種是分類目錄型的檢索，它將因特網上的信息資源，如網址、描述主題、字順或時間順序匯總整理，形成圖書館目錄1樣的分類樹型結構目錄，用戶通過逐級瀏覽這些目錄來找尋自己需要的網址或相關內容;另1種是基于關鍵詞的檢索，這種方式用戶可以用邏輯組合方式輸入各種關鍵詞(Keyword)，搜索引擎計算機根據這些關鍵詞尋找用戶所需資源的地址，然后根據1定的順序(如字母排列、時間、相關級別等)反饋給用戶包含此關鍵字詞信息的所有網址和指向這些網址的鏈接。現在的發展趨勢是以基于關鍵字的檢索為主、分類目錄型檢索為輔。基于關鍵字檢索的功能強大、維護成本低廉，但實現技術比較復雜，本論文以這種搜索引擎為討論對象。
然而在中國，中文搜索引擎存在著許多問題。首先中文搜索引擎的分類體系尚不完善。由于我國搜索引擎發展起步晚速度又快，目前在這方面尚未出現統1的分類標準，也沒有實施和規定規范的網絡術語，以致于各搜索引擎在分類和命名時無據可依。具體表現在：1是中文搜索引擎很多。他們之間沒有1個統1的嚴格的分類標準，導致類目體系不1，且層次不合理，類目設置不科學，類目之間邏輯差，類目設置隨意，無分類代碼，分類體系變動大；2是我國網站許多術語并不規范，類名也不統1，結果造成了混亂，讓用戶無所適從。再次，國內的網站所采用的收集資料的技術比較落后。這主要是由于它們絕大多數采用目錄式搜索引擎，即通過人工發現信息并依靠編目員的知識進行分類，從而使搜索引擎收集的范圍小、信息少，獲得的信息資料不齊全、不完整。這些問題的實質是搜索引擎缺乏知識理解能力和自然語言的處理能力。
要實現1個搜索引擎系統，用到的技術很多，其中最主要的兩項關鍵技術是數據庫中模糊搜索的實現和多個關鍵字查詢。
1.1 模糊搜索技術
所謂“模糊搜索”就是根據1個關鍵字，搜索到相關的資料，這里的“相關”是指資料中有類似這個關鍵字的字符串。例如：“ASP”這個關鍵字，只要數據庫資料中包含“ASP”
這個關鍵字的都要把它們找出來。模糊搜索的實現其實很簡單，只要使用1個SQL語句就可以了，下面看看SQL語句的寫法。
在SQL語句中，包含如下幾個關鍵字：LIKE、NOT LIKE、BETWEEN。LIKE關鍵字是搜索與搜索條件相匹配的數據。而NOT LIKE與LIKE正好相反，是查找與搜索條件不匹配的數據。BETWEEN關鍵字是查找在1定范圍內的數據，它總是與AND關鍵字1起使用。如果事先知道查找范圍的起點和終點，可以采用BETWEEN關鍵字。在編程實現搜索引擎時，1般最常用的就是LIKE關鍵字。
用個例子來說明。首先建立1個數據表example，表中有兩個字段：ID字段和CONTENT字段，CONTENT字段中包含1些文本信息。編者在這里使用SQL語句查詢CONTENT字段中是否包含“example”關鍵字，如果包含，將顯示包含關鍵字的所有ID值；如果不包含將給出提示。

【網絡搜索引擎性能分析模型與系統ASP+SQL】相關文章：

網絡購物系統的設計與實現ASP+SQL10-21

基于WEB的網絡考試系統ASP+SQL10-05

搜索引擎檢索子系統的設計與實現ASP+SQL10-28

基于ASP的網絡辦公系統設計與實現ASP+SQL08-16

小型企業網絡辦公系統ASP+SQL05-15

網絡新聞發布系統的設計與實現ASP+SQL10-13

基于on-off模型設計與OPNET仿真的P-ALOHA系統性能分析06-19

網絡視頻系統性能測試及優化07-15

相關MIMO最優合并系統性能分析09-03

搜索引擎的研究與實現ASP+SQL論文09-15