2015年同等學(xué)力計算機綜合模擬3
2. 在一種計算機信息檢索的模型中,一個文件是由一些關(guān)鍵字組成的,而一個倒排文件是由含有某個關(guān)鍵字的所有文件組成的。一次查詢的輸入是一個關(guān)鍵字,輸出是這 個關(guān)鍵字的倒排文件,一次查詢的開銷就是包含這個關(guān)鍵字的文件個數(shù)。多次查詢就是查詢一個關(guān)鍵字序列(其中可能有重復(fù)關(guān)鍵字)中的每個關(guān)鍵字,多次查 詢的開銷是 各次查詢的開銷之和,其中重復(fù)查詢同一個關(guān)鍵字的開銷之只計算一次。假設(shè)關(guān)鍵字和文件的個數(shù)都是有限的,試用集合論或圖論的術(shù)語來描述這個模型,并給出上述斜體字 概念的形式化定義。
解答與評分標準:
集合論:
文件集合 D={d1,d2,…,dn},關(guān)鍵字集合K={k1,k2,…,km},倒排文件集合
K’={k1’,k2’,…,km’ }與關(guān)鍵字集合K 一一對應(yīng)。D 包含于P(K),K’包含于
P(D),ki 屬于dj 當且僅當dj 屬于ki’(4 分)。查詢是從K 到P(D)的函數(shù)
Q:K→P(D),查詢k 是求Q(k)(2 分),查詢k 的開銷是|Q(k)|(2 分)。
多次查詢(s1,s2,…,st)就是求(Q(s1),Q(s2),…,Q(st)),多次查詢的開銷是對不
同的si 求|Q(si)|之和(2 分)。
圖論:
二部圖 G=,D 為文件集合,K 為關(guān)鍵字集合,E 為邊集合,(d,k)是E 中的邊當且僅當文件d 含有關(guān)鍵字k(4 分)。文件d 的內(nèi)容就是d的相鄰頂點集合(鄰域),倒排文 件k 的內(nèi)容就是k 的鄰域,查詢k 就是求k 的鄰域(2 分),查詢k 的開銷就是k 的度數(shù)(2 分)。多次查詢就是求一組關(guān)鍵字的鄰域,多次查詢的開銷就是這組關(guān)鍵字頂 點的度數(shù)之和,重復(fù)關(guān)鍵字只計算一次(2 分)。
更多關(guān)注:
同等學(xué)歷報考指南 同等學(xué)歷考試用書 同等學(xué)歷考試模擬試題
(責(zé)任編輯:中大編輯)