新視野行銷企劃

第十一章:揭秘Robots Meta標籤:掌控網站索引與排名的實戰指南

揭秘Robots Meta標籤封面圖,呈現網站SEO與搜尋引擎控制指令核心概念
在網站優化中,如何讓搜尋引擎「該收錄的收錄,不該收錄的別收錄」是一個重要課題。許多站長和內容創作者可能以為只要修改 robots.txt 就能控制哪些頁面出現在搜尋結果中,但事實並非如此!想像一下:你架設了一個新活動頁面不想讓搜尋引擎曝光,或者你有一些重複性內容頁面不值得索引,這時就需要用對「Robots Meta 標籤」(又稱Robots Meta指令),才能精確地向 Google、Bing 等搜索引擎發號施令。在本指南中,我們將以淺顯易懂的方式,深入講解 Robots Meta 標籤的定義作用、常見指令及適用情境,並結合權威觀點與案例,說明如何在實際SEO策略中正確部署,避免常見錯誤,最終有效掌控網站的流量、索引與排名。

Robots Meta標籤是什麼?與 robots.txt 有何不同?

Robots Meta 標籤是一種頁面級(page-level)的HTML指令,透過在網頁<head>中加入 <meta name="robots" content="..."> 來告訴搜尋引擎該頁面的爬取與索引規則。簡單說,它能控制搜尋引擎是否索引該頁,以及在搜尋結果中如何呈現此頁資訊(例如是否顯示摘要、快取等)。

這與網站根目錄下的 robots.txt 文件有所區別:robots.txt 是站點級的爬蟲規則檔案,用於告訴搜尋引擎機器人哪些路徑可以爬、哪些不行,但無法指示搜尋引擎應否將頁面收錄至索引。換言之,robots.txt 管理的是「爬行權限」,而 Robots Meta 標籤管理的是「索引與顯示權限」。

重要提醒:一個常見的誤解是認為在 robots.txt 中使用 noindex 就能阻止頁面被收錄,但 Google 從未正式支援過在 robots.txt 裡使用 noindex 指令,並已在 2019 年正式廢止對此類非標準規則的解析(意即 Google 會直接忽略 robots.txt 中的 noindex 宣告)。

因此,若要真正防止某頁面出現在搜尋結果,正確方法是使用本篇主角——Robots Meta 標籤或其等效的 HTTP 標頭(稱作 X-Robots-Tag)來發出「不收錄」的指令。總而言之,不要用 robots.txt 企圖控制索引,該用 meta 標籤的地方就得用上,兩者各司其職。

另外需要注意,Robots Meta 標籤的規則只有守規則的搜尋引擎爬蟲會遵守。大多數主流搜尋引擎(Google、Bing 等)都很「合作」地遵循這些約定俗成的標籤,但一些惡意爬蟲或非主流引擎可能會無視這些指令。因此 Robots Meta 標籤不是用來防君子也防小人的安全措施——它只是SEO層面的建議,旨在控制正規搜尋引擎的行為。

常見的 Robots Meta 指令及適用情境

Robots Meta 標籤可以包含各種「指令值」(content 屬性的值)來細緻控制搜尋引擎對頁面的處理方式。若未在頁面中指定任何 Robots Meta,搜尋引擎會預設將其視為 index, follow(允許索引、允許跟隨連結)。以下是常見的指令值說明,以及適用的情境:

  • index / noindex:index 表示允許搜尋引擎索引頁面(預設行為),noindex 則明確要求搜尋引擎不要索引此頁。例如,網站上的感謝頁、登入頁或內部搜尋結果頁通常沒有對外部訪客的價值,可以使用 noindex 排除在搜尋結果之外,以免浪費收錄名額。相反地,對於希望獲得排名與流量的主要內容頁,務必要確保沒有被誤設為 noindex。
  • follow / nofollow:follow 表示允許搜尋引擎追蹤頁面上的所有連結(預設值),nofollow 則要求不追蹤本頁上的連結。需要注意,nofollow 並不等於「不收錄」那些連結指向的頁面——如果那些目標頁有其他網站的反向鏈接,搜尋引擎仍可能發現並索引它們。因此,nofollow通常用於防止傳遞連結權重或爬蟲在某些頁面上浪費爬取資源。
  • none:相當於同時指定 noindex, nofollow。這個組合指令表示「既不索引此頁,也不追蹤頁上連結」。值得提醒的是,Bing 等搜尋引擎不支援 content="none" 這種寫法。為了兼容所有引擎,建議避免使用 none,而是明確寫出 noindex, nofollow 兩個值。
  • all:相當於 index, follow(允許索引和爬取)。由於這其實是預設行為,一般不需要特地使用 all,除非你想非常明確地表態允許索引。
  • noarchive:要求搜尋引擎不要顯示該頁的快取頁(Cached Page)。在Google搜尋結果中,以往點擊綠色下拉箭頭可以查看網頁的「快取版本」,但近年來 Google 已逐步弱化甚至取消了快取鏈接的顯示,因此 Google 對 noarchive 的支持已經沒有實質作用。然而,Bing 等其他引擎仍提供快照頁功能,因此 noarchive 對Bing等仍然有效,可防止Bing搜尋結果中出現「快取」按鈕及頁面快照。
  • nosnippet:指示搜尋引擎在結果頁不要顯示頁面的文字摘要,同時也等效於禁止顯示快取。使用 nosnippet 後,Google 將只展示頁面的標題和網址,下方沒有內容片段。這適用於你不希望搜尋結果洩露頁面內容的情況(例如內容付費頁面、法規要求不展示摘要等)。但要慎用,因為沒有摘要可能降低使用者點擊慾望。
  • noimageindex:要求搜尋引擎不要索引本頁內嵌的圖片。Google支持此指令,如果希望某頁的圖片不出現在Google圖片搜尋,可加上它。Bing目前不支援這個值。常見用例:會員專區或付費內容中的圖片不想被公開檢索到。
  • notranslate:要求搜尋引擎不要在搜尋結果中提供本頁的翻譯選項。Google搜尋結果對於語言不同的頁面,有時會提供「翻譯此頁」連結,加上此指令可避免這種情況(例如當頁面本身已有多語言版本時)。
  • unavailable_after: [日期時間]:讓搜尋引擎在指定的日期時間後停止顯示該頁面。這相當於一個帶計時器的 noindex,常用於活動截止後自動從索引中移除頁面。日期時間必須使用標準格式(如 RFC 850)。
  • max-snippet, max-image-preview, max-video-preview:這三個是較新的指令,用於更精細地控制搜尋結果中摘要文字或預覽媒體的長度/大小。例如 max-snippet:160 可指定摘要最多顯示160個字元,max-image-preview:large 允許大型圖片預覽,max-video-preview:0 禁止影片預覽片段。
HTML範例
<meta name="robots" content="noindex, nofollow">
HTML範例 - 組合使用
<meta name="robots" content="noindex, nofollow, noarchive">
注意:以上指令值可以同時組合使用,但要避免彼此衝突或自相矛盾的組合(例如同時設定 index 和 noindex)——搜尋引擎遇到衝突時通常會選擇最嚴格的規則套用(例如 noindex 會覆蓋 index)。

Google 與 Bing 如何解析這些指令?

主流搜尋引擎對 Robots Meta 標籤大多數指令的支援情況略有差異。Google和Bing都會遵循像 noindex、nofollow、nosnippet、noarchive 等常見指令,但在某些值上並不一致。下面列出幾個值得注意的差異:

重要差異說明

Bing 不支援 none 和 all 這類純粹組合語義的指令。因此在面向 Bing 優化時,如果想同時禁止索引與抓取鏈結,應明確寫出 noindex, nofollow,而不要偷懶用 none。同樣地,Bing 目前也不支援 Google 新增的某些特殊值,如 notranslate(禁用翻譯)或 noimageindex(禁圖片索引)。這意味著即便你加上了這些指令,Bing 可能還是會提供翻譯選項或索引你的圖片。不過 Bing 有支援 noarchive 和 nosnippet,因此在 Bing 上可以照樣透過這兩者控制快取與摘要顯示。

另一方面,Google對 Robots Meta 指令的遵循相當全面,但也有隨功能變動而調整的情況。如前節所述,Google 其實已不再提供網頁快取鏈結與站點搜尋方框(SiteLinks Search Box)的結果呈現,因此 noarchive 和 nositelinkssearchbox 這兩個指令如今對 Google 而言已無實際影響(Google 直接忽略它們)。也就是說,即使不設置 noarchive,Google 也不太會在搜尋結果顯示你的頁面快取了。

此外,值得一提的是,大部分搜尋引擎不僅支援 HTML 中的 <meta name="robots">,也支援透過 HTTP Header 傳遞的 X-Robots-Tag 指令。對於 Google、Bing 這些主要引擎而言,無論你是在HTML中用 meta 標籤,還是在伺服器回應頭中設定 X-Robots-Tag,效果都是等同的。

權威觀點對 Robots Meta 的見解與實例

眾多 SEO 權威資源都強調了 Robots Meta 標籤在索引控制中的價值和最佳實踐:

Google 官方建議

Google 官方在說明中再三提醒:使用 robots.txt 無法阻止頁面被索引,只能防止抓取。如果某頁被 robots.txt 屏蔽爬取,但有其他頁鏈接到它,Google 仍可能只靠網址把它編入索引。只有當搜尋引擎能抓取頁面並看到 meta 標籤裡的 noindex,才能確保該頁最終不出現在索引中。因此,Google 建議站長們確保不要在想用 noindex 排除的頁面上同時使用 robots.txt disallow,以免自相矛盾。

SEO專家指南

SEO指南同樣建議,對於不希望收錄的內容(如排序篩選頁、重複內容頁等),應該使用 meta 機制來告知搜尋引擎而非僅僅阻擋爬取。專家強調了 canonical 標籤與 noindex 的合理搭配:如果是重複內容但希望搜尋引擎只索引其中最佳版本,可以用 canonical 標籤指向主要頁面;若是無價值的重複頁面,可以直接 noindex 排除。這樣可避免因重複內容而分散權重或觸發搜尋引擎的內容品質疑慮。

實戰案例分享

實際案例提供了一些實戰經驗。例如,有團隊曾遇到網站測試環境的頁面帶有 noindex,部署到正式環境時忘記移除,導致整站流量驟降的案例。這反映出一個常見錯誤:在預備環境為避免收錄而加的 noindex,上線時務必取消,否則搜尋引擎會將整個新站視為不收錄對象。

再如,有些開發者習慣將未公開的「秘密頁面」(活動預告、折扣頁等)用 robots.txt 屏蔽。然而,任何人都可以查看 robots.txt,敏感URL反而可能因此曝光,而且如前所述僅靠 disallow 並不能保證頁面不進索引。正確做法應該是讓這些頁面允許抓取但加上 noindex,以確保既不出現在搜索結果,又不會在 robots.txt 裡暴露頁面存在。

SEO 策略中的實際應用與常見錯誤

如何善用 Robots Meta 標籤來提升SEO效果? 以下是幾個常見的應用策略和需要避免的誤區:

大量頁面瘦內容/無價值內容的處理

大型網站往往會產生許多對用戶沒有實質價值的頁面(例如產品篩選頁、重複的分類頁、內部搜尋結果頁等等)。這些頁面若被索引,可能造成所謂的「索引膨脹」,稀釋了網站的整體品質信號。對此,SEO人員常用的策略是將這類頁面設為 noindex,防止它們進入索引。如此一來,Googlebot 的爬行預算可以更專注於高價值頁面,提升整站索引效率。

常見錯誤:一個非常常見的錯誤是:站長在 robots.txt 中 disallow(一律封鎖)了某批頁面,卻又在HTML中為這些頁加了 noindex 希望將其移出索引。這種情況下,由於爬蟲根本無法抓取頁面內容,自然看不到頁面裡的 noindex 標籤,導致這些頁可能依然留在索引庫中。

避免 Noindex 與 Robots.txt 同時作用的衝突

正確作法:若某頁已被索引,想讓它消失,應先允許抓取並透過 noindex 標籤請求移除。確認搜尋引擎處理了 noindex(頁面從結果消失)後,再視需要用 robots.txt 封鎖以節省資源。切記步驟不能顛倒,否則 noindex 指令壓根無效。這也再次印證:noindex 是靠抓取後才能生效的指令,千萬不要用 robots.txt 把自己繞死。

謹慎處理網站改版與環境切換

在網站開發過程中,我們常會在測試環境對整站上 Noindex 以避免上線前被收錄。但實務中,不乏有團隊將測試站的設定沿用到正式站而忘了移除的案例,結果導致新站點頁面通通不收錄,流量巨跌。同樣地,大規模站點改版或內容遷移時,要留意新頁面是否帶有遺留的 noindex,或跳轉過程中是否有 noindex 干擾。

這方面的一個風險是:如果舊網址301跳轉到的新網址含有 noindex,那即便舊頁仍有殘留排名與流量,新頁也不會收錄,最終整體搜尋流量會在幾週內大幅滑落。因此,上線前請反覆檢查源碼,確保該索引的頁面沒有多餘的 noindex

「秘密」或暫未公開頁面的正確隱藏

對於即將發布的活動頁、優惠券頁等不想提前曝光的URL,千萬不要只依賴 robots.txt 把它們藏起來。正如前文所述,robots.txt 是公開資訊,心思細膩的競爭對手或用戶仍然可以從中發現這些URL。此外,只封鎖不代表不收錄,反而可能讓Google只能看到一個孤立的URL(沒有內容)卻因外部連結而索引它。

最好的做法是:允許抓取但設置 noindex。這樣搜尋引擎會抓到頁面,知道你不想索引它,自然不會在結果中顯示。同時它也不會出現在robots.txt清單裡,一舉兩得。等到公開時,再移除 noindex 即可正常收錄。

將 noindex 與網站地圖(Sitemap)配合使用

當你透過 noindex 開始移除一些已被收錄的頁面時,不要立刻在XML網站地圖中刪掉它們。原因是,搜尋引擎透過網站地圖可以更快發現並重新抓取頁面。如果你在還沒移除乾淨就從地圖拿掉,Google可能反而不急著重抓那些頁面,導致 noindex 生效延遲。

建議的實務是:在加入 noindex 後,暫時保留這些頁面在 sitemap 中,並將 <lastmod> 更新為加 noindex 的日期,以提示搜尋引擎快來重抓。待確認頁面已不在索引,再從 sitemap 裡移除。長期來看,網站地圖裡不應該留有已經 noindex 的頁面,以免未來造成混亂。

技術部署方法:HTML Meta標籤 vs HTTP Header

了解了 Robots Meta 的作用後,接下來關鍵在於如何正確部署。主要有兩種方式可發出這些指令:

在HTML中加入 <meta> 標籤

這是最常見方式。在網頁的 <head> 區段插入適當的 meta 標籤。當搜尋引擎爬蟲抓取頁面HTML時,會讀取這段資訊並遵循。此方法適用於HTML網頁本身,而且方便對單一頁面進行設定或批量模板套用。大多數內容管理系統(CMS)和SEO外掛也提供了設定介面,可以為指定頁面加上這些標籤。

HTML Meta 標籤範例
<meta name="robots" content="noindex, nofollow">

透過 HTTP 標頭發送 X-Robots-Tag

這是在伺服器層面實現的方式。伺服器在回應HTTP請求時,可以於Header中加入 X-Robots-Tag: noindex 等指令。這在需要控制非HTML檔案(如PDF、圖像、影片檔)是否索引時特別有用。因為這類檔案內無法嵌入HTML標籤,只能靠HTTP頭信息傳達。

此外,若要大規模對全站或某類型檔案設置指令,透過伺服器配置往往比逐頁修改HTML高效。例如,你可以在Apache伺服器的 .htaccess 中加入幾行規則,一次性讓整個目錄下的所有PDF檔案都發出 noindex 標頭。這比起編輯每個HTML頁面要來得省時省力。

Apache .htaccess 範例
<FilesMatch "\.pdf$">
    Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
注意事項:兩種方法搜尋引擎大致都會遵守,但要注意:並非所有搜尋引擎都支援 X-Robots-Tag。Google 和 Bing 明確表示支援 HTTP 標頭指令,但例如捷克搜尋引擎 Seznam 就只看HTML內的 meta 標籤,不理會 X-Robots-Tag。在面向全球多引擎時,這點需要考慮。

實際運用中,HTML meta 與 X-Robots-Tag 可以並存。例如,你可以在 HTML 中為一般頁面設置 noindex,並同時在伺服器端對所有圖片檔傳送 X-Robots-Tag: noindex,以確保圖片不被索引。搜尋引擎在抓取時,兩邊資訊只要有一方表明 noindex 就會遵循最嚴格規則(即不索引)。

使用 Robots Meta 指令時的注意事項與風險

Robots Meta 標籤是把雙刃劍,用得好能提升網站SEO質量,用不好卻可能傷及自身。在應用時,請特別留意以下事項與可能的風險:

誤用導致重要頁面流量損失

這是最嚴重的風險之一。如果不小心將關鍵頁面的 meta 標籤設定成了 noindex,就等於告訴搜尋引擎「別讓我的頁面出現在搜尋結果」。一旦爬蟲再次抓取並處理了這個指令,你的頁面將從索引中消失,排名和自然流量也會歸零。更麻煩的是,發現錯誤後即使立刻移除 noindex,頁面重新被索引也需要時間,而且之前累積的排名可能難以完全恢復。

因此,每次部署更動網站模板、插件或撰寫文章時,務必檢查是否無意中加入了不該有的 noindex。特別是使用SEO外掛時,一鍵套用的全站性設定更要謹慎。定期利用站長工具查看收錄情況,能及早揪出異常。

Noindex 頁面的內部連結處理

當你將某些頁面 noindex 後,它們雖然不再參與排名,但頁面上的內部連結價值仍然存在。Google表示,noindex 並不會讓該頁變成死胡同,只要沒有設 nofollow,它上的連結依舊會被爬取、傳遞權重。因此,不需要為了「不要讓 noindex 頁傳遞權重」而刻意給它們加 nofollow。

然而,從網站架構角度考量,如果某頁已 noindex,通常代表我們並不重視其SEO流量,那也許該考慮減少其他重要頁面對它的內部鏈接。過多鏈向 noindex 頁的內鏈,可能浪費原本可傳給可索引頁的權重

謹防爬蟲策略的不同行為

如前所述,Robots Meta 指令主要約束遵守規則的搜索引擎。對於惡意爬蟲、電郵蒐集器等,這些指令不起任何強制作用。換句話說,若你的目的是為了隱藏敏感資訊或防資料被抓取,光靠設置 noindex/nosnippet 並不能防止別人直接訪問該頁並取得內容。它只是不顯示在搜尋引擎結果中,但安全上還需配合登入驗證、robots.txt封鎖甚至整體內容加密等措施。

正確使用大小寫與拼寫

Robots Meta 的參數對大小寫不敏感,例如 Noindex 和 noindex 效果相同。但是錯別字或少寫冒號等語法錯誤,搜尋引擎可能就無法識別。例如常見新手錯誤:把 unavailable_after: 打成 unavailable-after 或遺漏時間格式,這都會導致指令被忽略。在編輯時請遵循正確語法,多檢查幾遍。

定期審視與調整

網站內容是動態發展的,你當初設定的 noindex 頁面過一段時間後也許價值提升值得收錄,或者反之之前索引的頁面變得無用需要 noindex。建議將 Robots Meta 的配置納入定期內容審核清單。例如每季度查看一次哪些頁面流量很低且不重要,可以考慮設為 noindex;相反地,檢查是否有重要頁誤被排除。

Robots Meta 對網站流量、索引與排名的影響

善用 Robots Meta 標籤,將直接影響網站哪些內容能獲取搜尋流量,進而影響整體SEO表現。總的來說,正面與負面的影響取決於你使用的是否得當:

流量與索引面的提升

通過 noindex 篩除掉低品質或無意義頁面後,搜尋引擎索引的將主要是你網站上最有價值的部分。這有助於提升整體網站在搜尋引擎眼中的品質評分,避免大量薄弱頁面拉低網站評級。同時,爬蟲資源更集中於重要頁面,也可能讓這些頁面獲得更充分的抓取和更新頻率。

在競爭激烈的領域,移除不相關頁面能讓你的主要頁面更脫穎而出。簡而言之,透過精細控制索引,你是在打造一個更精煉的網站形象給搜尋引擎看,長遠而言有利於排名表現。

避免收錄不當帶來的負面影響

有些頁面如果被搜尋引擎收錄,反而可能對網站形象或用戶體驗造成不利。例如未登入狀態就能看到的會員資料頁、重複的打印版本頁面等等,這些出現在搜尋結果中對用戶沒有幫助,甚至會造成混亂。透過 Robots Meta 讓這些頁面不被收錄,能避免用戶點進這類頁面的機會,也避免了因點擊無價值結果而降低對網站的信任度。

誤用導致排名災難

當然,反過來說,如果使用不當,後果也是立竿見影的。尤其是對於依賴自然流量的內容網站或電商網站,一個不小心把重要的分類頁或商品頁設了 noindex,都可能導致該頁面在 Google 上「憑空消失」。曾有大型網站因人為失誤把整站的頁面都加上了 noindex,結果幾天內搜索流量驟減90%以上的慘痛案例。

雖然這種極端情況不多見,但小規模的誤用也會讓你措手不及。例如不經意將模板套用到幾十篇文章頁,導致這批文章無法參與排名。排名掉了還能再爬起來,消失了就真的沒了——對搜尋引擎而言,noindex 就是在說「這頁跟搜尋使用者無關」,他們也會完全尊重你的意願。所以請將這些指令視同網站上的「高危配置」,寧可多花點時間確認,也不要輕率對待。

鏈接權重的間接影響

前面提到,noindex 頁仍然可以傳遞鏈接權重給其他頁,但若你對某頁使用了 nofollow(無論是meta還是連結層級的),那麼該頁上的外部鏈接將不被追蹤,對目標頁傳遞權重的作用也趨近於無。有時站長可能希望透過 nofollow 來控制站內權重流動,避免某些頁「偷走」太多權重。

然而 Google 目前將 nofollow 視作一種「提示」,而非絕對指令,它可能選擇性地仍考慮那些鏈接。因此,不宜過度依賴 nofollow 來進行PageRank雕刻,內容與內鏈結構的整體優化更為關鍵。從排名角度講,高品質內容 + 良好內部鏈接仍是王道,Robots Meta 只是輔助你去芟除不必要的干擾。

總結

總而言之,Robots Meta 標籤的正確運用能讓你的 SEO 策略更具針對性與掌控力。它彌補了 robots.txt 無法控制索引的不足,又比起完全依賴搜尋引擎演算法來決定收錄更可控。就像權威網站所說,SEO 成功的關鍵在於細節,而 Robots Meta 標籤正是許多細節中的一環。

如果你能充分理解並靈活運用它,那麼在搜尋引擎面前,你將更有能力主導自己網站的命運。希望本指南能讓你對 Robots Meta 有全面的認識,在實戰中避開陷阱,善加利用,最終收穫理想的索引表現和排名

CONTACT US

網站設計報價洽詢

請填寫您的資料,我們將儘快與您聯繫! 為必填