標籤

2013年10月5日 星期六

Homework 9-30-2013


1.   Watch Tim Berners-Lee's talk on ted.comWrite a 200 word summary about his speech.
   Linked Data」的需求始於當前的研究不在只是單一領域的探討,有時候是需要不同領域之間相當尖端的研究結果,才能使當前的研究往前邁進,因此,資料的分享在當中扮演了相當重要的角色,這就像是大公司中每一個研究團隊彼此分享研究的結果,我能快速從其他團隊得到我所需要的資料,節省下來的人力物力是相當可觀的。 
  「RAW DATA NOW!!」的構想有多重要,如果每篇論文只將成果數據發表,卻將使用的方法私藏在資料庫中,這將使我們下一篇的「進步」變的非常困難與緩慢。少了資訊的分享,我們每個人都得花上相當多時間「浪費」在別人走過的路上,少則一、兩個月,多則數十年。

2. Google 的創業動機是什麼?
  根據統計顯示,網際網路的網頁數量達到數千億,密集程度已經逼近人類腦神經,這樣的成長便凸顯了搜尋引擎嚴重的問題,我們如何在最短的時間內搜尋到對我們最有幫助的資料呢?
  1995年,正值互聯網技術第一波熱潮時期,史丹佛大學整個電腦系都在談論著未來的網路如何發展,但Google的兩位創辦人Larry PageSergey Brin卻發現一件事──當時的搜尋引擎效率奇差無比。當時的搜尋引擎採用的方法,是某個關鍵字在一個文檔中出現的頻率越高,該文檔在搜索結果中的排列位置就越顯著,因此,使用者可能因為輸入的搜尋文字略微不同,而得到不同的網頁結果,這當中還不包括搜尋到的網頁是否對使用者提供有用的資訊。Google採用的理念是一個網頁的重要性取決於它被其他網頁鏈結的數量,每一個鏈結都是一張價值不等的「選票」,所獲選票的總價值將決定誰將被安置在最重要、最顯赫的位置上,這樣的「公平競爭」使對使用者最有幫助的網頁資訊能在最短的時間內獲得。

參考資料:
網路資料

3. Facebook的創立動機是什麼?
  臉書創辦人馬克祖克伯在與女朋友分手後在blog寫下當時心情,幾位好朋友原先是想安慰馬克祖克伯,馬克祖克伯卻向他們討論起了「正妹演算法」,並開放讓所有哈佛男生參與討論,接著透過這樣的大型社交網頁構想,他們建立一個校內學生「把妹交友」的平台,最初只限於哈佛校內的學生透過學生帳戶使用,後來拓展到長春藤聯校,一直到現在全世界擁有數億臉書用戶。

參考資料:
電影:社群網戰(The Social Network)


4. WWW的發明動機是什麼?
  全球資訊網的概念是創辦人Tim Berners-Lee一九八零年從CERN 一連串工作中得到的啟發,CERN是相當著名的物理研究中心,來自世界各地的工程師和科學家在CERN從事物質最根本特性的研究,但在看似世界人才聚集中心的CERN卻也為此困擾,面對來自世界各地各種不同的作業系統愛好者,更別說麥金塔使用者和IBM/PC使用者的壁壘分明了。在CERN常看見開發人員不斷鼓吹某些系統,說可以「幫助」人們整理資訊,但前提是你必須先將文件分成四類,導致許多研究員火冒三丈,因為這些開發人員強迫他們要重新整理原本的研究,才能符合新系統。Tim Berners-Lee認為,開發人員應該利用最普遍的規則來建立一套系統,讓大家都能接受,最好事不要有任何規則,於是他採用「超文字」當作極低限系統當模組,並希望這樣一套系統能完全不受中央控制,這樣才能使一個人在開始存取資料之錢不需要得到任何人的允許,這也是能使這套系統擴大規模的唯一方法。但最重要的,是使不同的電腦可以相互結合,形成新的資訊網,所有系統都能擺脫束縛並參照其他系統。而這些概念,最後完成了「World Wide Web(全球資訊網)

參考資料:
圖書館書籍:一千零一網 Tim Berners-Lee/ p.009~p.029

5. 為什麼 Lab 4 的各校檔案數,能見度,檔案數,論文數,加權總和用來計算排名的方法是錯的?

  1)筆者以人工方式查詢網頁,發現有圖 一所示的現象。亦即,在不同時間(相隔數秒)、不同介面(中文、英文介面),Google的查詢結果數量會不一樣,甚至差距達1,200萬頁左右。此現象 被專業的網友稱為Google Dance,用來描述Google在更新索引時,搜尋結果數量跳動不穩定的情況。
  2)針對搜尋引擎查詢結果的分析顯示,網頁資料的雜訊相當高,變動非常快。因此,利用網路資料來排名有其先天上的缺點,亦即較細微的排名結果可信度較差,爭議亦較高。
  3)上述資料多寡或許可以判斷學校與學校之間的排名,但前提是比較的學校需要有一定相同範圍內的創校歷史,因為一間學校成立多久是會影響到檔案數、能見度、檔案數、論文數等項目的,但是創校二十年的學校就一定比創校四十年的學校差嗎?這仍需要透過計算其他數據採樣來證明了。

沒有留言:

張貼留言