Ad Code

Responsive Advertisement

네이버 애널리틱스

robots.txt 요주의파일 - 구글 서치콘솔의 이해와 오해 3편

robots.txt 요주의파일 - 구글 서치콘솔의 이해와 오해 3편

 

"오지 마!" 구글 로봇 막기 (Robots.txt의 배신)

  안녕하세요! '서치콘솔 정복기' 3편입니다. 1, 2편에서 구글 서치콘솔에 우리 사이트를 등록하고 사이트맵을 제출하며 "제발 우리 사이트에 오셔서 글 좀 가져가세요!"라고 구글 로봇(Googlebot)을 애타게 불렀습니다. 서치콘솔은 각 사이트에 점근할때 대문에 쓰여진 팻팔같은 존재 robots.txt를 우선 읽습니다. 검색에 반영하지마 또는 응 어서와 내 사이트의 정보들을 읽어가도 좋아 라고 안내하는 기본파일입니다. 이 파일은 주로 로컬에 저장됩니다. 관리자 메뉴에서 설정하기는 까다롭습니다. 플러그인이나 랭크매스에서는 이 파일에 접근할 수도 있긴 하지만 말입니다.

    

Robots.txt의 정확한 기능: '크롤링' 제어

  Robots.txt 파일은 검색 엔진 로봇(크롤러)에게 우리 웹사이트의 '출입 규칙'을 알려주는 간단한 텍스트 파일입니다. 이 파일의 핵심 기능은 "수집(Crawling)을 허용할지, 차단할지"를 정하는 것입니다.
  • User-agent: 규칙을 적용할 로봇을 지정합니다. (예: Googlebot, bingbot 등. *는 '모든 로봇'을 의미)
  • Disallow: '이 경로는 크롤링하지 마시오' (출입 금지)
  • Allow: '이 경로는 크롤링해도 좋소' (특정 하위 폴더만 예외적으로 허용할 때 사용)
  • Sitemap: '사이트맵(사이트 구조도)은 여기에 있으니 참고하시오' (사이트맵 경로 명시)
가장 중요한 것은, Robots.txt는 '크롤링(Crawling)'을 막는 것이지 '색인(Indexing)'을 막는 것이 아니라는 점입니다.  

올바른 파일명 및 위치 (매우 중요)

  Robots.txt가 작동하기 위한 절대적인 규칙입니다.  

올바른 파일명 

  • robots.txt
  • 반드시 소문자여야 하며, robot이 아닌 robots (s가 붙음)여야 합니다.
 

그릇된 파일명 (작동 안 함) 

  • Robots.txt (X - 대문자 포함)
  • robot.txt (X - 's' 없음)
  • robots.txt.txt (X - 윈도우에서 흔히 발생하는 실수)
  • robots (X - 확장자 없음)
 

올바른 파일 위치 

  • 반드시 사이트의  '루트 디렉토리(Root Directory)'에 위치해야 합니다.
  • 예: https://example.com/robots.txt
 

그릇된 파일 위치 (작동 안 함) 

  • https://example.com/blog/robots.txt (X)
  • https://example.com/wp-content/robots.txt (X)
 

robots.txt 는 나도 모르게 수정당한다

 

서치콘솔에 차단 되는 내 사이트 

  차단된 형태
User-agent: *
Disallow: /
  • 의미: 모든 로봇에게 "이 사이트의 어떤 페이지(/ = 루트 이하 모든 것)도 크롤링하지 말라"고 명령합니다.
  • 결과: 사이트가 검색 결과에서 완전히 사라지는 재앙이 발생합니다. 트래픽이 0이 됩니다.

  이 경우가 제가 그동안 수개월 동안 검색이 차단 된 주 이유였습니다. 처음에 워드프레스를 세팅할 때 당연히 저는 Disallow: 의 형태로 세팅을 해두었습니다. 그리고 2달 정도는 색인에 문제가 전혀 없었지요. 그런데 반년이 지나 우연히 확인해본 파일은 Disallow: /  라고 바뀌어 있었습니다. 아무도 나한테 오지마 로 주인 허락도 없이 바뀌어 있었다는. . .     

중요포인트는 상시체크 해야하는 파일이 robots.txt 이다.!!!

  왜 이런 문제가 발생했는가 워드프레스 버젼 업데이트와 플러그 업데이트로 인한 자체파일 수정이 원인입니다. 저는 이 파일이 로컬파일이기 때문에  세팅된 이후 그대로 있는 줄 알았지만 조사해보니 워드프레스 버젼업이나 php버젼 업그레이드를 하면 시스템을 외부 접근 차단시키면서 robots.txt를 수정한다고 합니다. 그리고 건드린 robots.txt 를 원래대로 복구 안하는 거죠. 가끔은 플러그인이 이렇게 동작하기도 한다고 합니다. 정확히 어떤 플러그인인지는 파악하지 못했습니다. 다만 결정적으로 중요한 사실은 로컬파일이라고 점검 안하고 놔두면 어느샌가 서치콘솔 검색을 막아버린다는 거에요  

robots.txt  3편의 글을 정리하며

서치콘솔에서 가장 먼저 체크해야하는 파일이었지만 오해로 인해 단 한번도 의심하지 않은 것이 색인 검색에 치명적인 결과를 가져왔습니다. 네이버나 티스토리처럼 기본 세팅을 건물주가 관리해주는 시스템이라면 색인같은 건 내 포스팅 노력에 달려있다고 봐야하지만 개인건물에 해당되는 워드프레스는 이와같이 자체적으로 신경을 써야 하는 부분이 있습니다. 그럼에도 이것이 건물주의 횡포에서 해방될 수 있는 길이기에 조금 수고스럽더라도 점검하고 개선하며 배워나가야 하는 것이라 생각합니다.


제대로 된 여행정보  LUXDIGEST
 

댓글 쓰기

0 댓글

Ad Code

Responsive Advertisement