BASE - Bielefeld Academic Search Engine

知識庫管理者的黃金法則

我們對各類學術相關資源進行標引,包括期刊文獻、機構知識庫、數字化館藏等,對這些資源提供OAI接口,并利用OAI-PMH協議提供其內容(關于OAI的更多內容請看Open Archives InitiativeWikipedia)。如您的資源還未使用OAI接口,您可以上傳您的文件到DataCiteZenodo等數據知識庫中,或上傳到學科知識庫(例如RePEC),或者添加您的開放獲取期刊至DOAJ。我們正在對這些含有OAI接口的資源進行規范化標引。

如果您想更加便捷地進入BASE檢索系統,可以直接將您的OAI接口提供給我們。為最優化地收割您的OAI接口,我們會遵循以下黃金法則。如果您的OAI接口也同樣滿足下列要求,您的資源將會被更快更好地標引為最完整和最易獲取的呈現方式。

您可以通過OAI-PMH validator OVAL檢驗您資源的可用性。

  • OAI接口響應。
    您的OAI接口應可以實現穩定有效的響應。表單紀錄(ListRecords)必須在無時滯以及沒有其他意外情況(例如XML錯誤)下傳輸結果。
    否則您的資源將無法標引。
  • 完整元數據。
    請使用info-eu-repo vocabulary詞表使您提供的OAI接口鏈接的每個對象都盡可能詳細的展示元數據信息(包括題目、作者、摘要及出版日期等)。
    如果重要的元數據信息缺失,您資源內的文檔資料將無法在BASE中檢索到。請利用info-eu-repo vocabulary詞表確保我們能夠以最佳形式獲取、處理并展示您的資源鏈接。
  • 標示符(URLs)可用。
    每個對象提供了一個以httphttps打頭的<dc:identifier>格式標示符,這個準確的標示符指向文檔的接入窗口或直接指向全文(PDF)。 如果全文并未通過通用的文檔格式例如HTML或PDF提供,標示符應指向接入窗口。在使用DSpace要尤其注意區分清楚上述內容。處理不當會導致標示符指向無效鏈接無法解析成功。
    只有標示符以http(s)開頭并不存在無效鏈接才能被標引。
  • 提供(開放)獲取信息。
    全文獲取信息應符合info-eu-repo vocabulary詞表的每個對象的<dc:rights>領域標示鏈接。或者:開放獲取文檔在一個單獨集(OA集)中提供。集中的名稱應在名為setSpec的域中列在每個元數據記錄下。
    如果正確的獲取信息缺失,信息將無法在BASE中檢索到。“獲取”信息后的檢索和提煉工作將難以開展。
  • 提供有關重用/許可(CC)信息。
    作者可以用Creative Commons licence協議在知識庫中發布內容。也可以通過單獨添加<dc:rights>域值明確您的所選協議,例如<dc:rights>http://creativecommons.org/licenses/by/4.0/</dc:rights>。
    如果協議中缺乏關于“重用”的檢索和提煉規范,BASE將無法正確處理您的資源。
  • 屬性編碼。
    通過您的OAI接口暴露出的所有信息(包括標題、貢獻者、摘要等)應在UTF-8語言環境下進行編碼。
    其他的編碼格式或雙編碼格式都可能會導致資源的不正確展示。
  • 出版日期。
    出版年或出版日期應以ISO 8601標識標準(YYYY-MM-DD, e.g. 2016-04-01 for the 1st of April, 2016)校準Gregorian (western) calendar時間,提供在<dc:date>域中。域<dc:date>只能被使用一次。
    如果您不能提供正確的出版日期,BASE中根據出版年進行的提煉和排序工作將無法正常進行。
  • 文檔語言。
    文檔的語言信息應參照ISO 639(2或3個字符長度,例如英文english以en或者eng)提供在<dc:language>域中。
    如果您不能提供正確的語言信息,這些信息將無法在BASE中檢索到,根據“語言”進行的檢索和提煉工作將無法正常進行。
  • 資源/建議引用。
    對象的資源或建議引用(包括期刊的名稱、刊載論文的卷、期)在<dc:source>下提供。
    提供這些信息將確保您的文檔被更好的檢索。
  • 單頁對象。
    每個表單最多包括50-1000個對象。支持resumptionToken并可鏈接下一批50-1000個對象。
    單個表單如少于50個對象將在收割過程中要求添加對象成員。單個表單超過1000個對象將會因文檔增加體量過大導致收割過程終止。
  • 聯系人。
    您提供的OAI接口的確認反饋應包含域adminEmail,其中包括一個技術聯系人的可用郵箱地址。該郵箱地址應顯示在您的資源主頁上。
    在收割或標引出現問題時,方便我們及時與您取得聯系。
  • 變更/更新。
    資源基本URL信息、知識庫軟件、知識庫名稱等的變更需要通過contact form匯報。
    我們會定期對所有資源進行檢查核對。如果您直接匯報變更內容,則可保證您的資源及時正確的被BASE標引。我們在OAI PMH blog上及時發布信息與國際社群交流。

  • 資源在于宣傳!
    在諸如OpenDOARROAROpenarchives等OAI注冊機構注冊您的資源并及時告知變更情況。
    讓社群中更多人知曉您的資源和接口,并考慮讓其他搜索引擎標引您的資源文檔。
汤姆叔叔