Disallow: /
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /
User-agent: Yeti
Disallow:
User-agent: Slurp
Disallow:
User-agent: Claude-User
Disallow:
User-agent: ClaudeBot
Disallow:
User-agent: GPTBot
Disallow:
User-agent: ChatGPT-User
Disallow:
User-agent: Google-Extended
Disallow:
사이트를 운영하다 보면 생각보다 많은 트래픽이 실제 사용자가 아닌 각종 크롤러와 봇에서 발생합니다.
그래서 최근 robots.txt 정책을 조금 정리해 보았습니다.
검색 노출에 필요한 주요 검색엔진은 허용하고, 불필요한 수집은 최대한 제한하는 방향으로 운영하고 있습니다.
물론 robots.txt는 강제 규칙이 아닌 권고 사항이기 때문에 모든 봇을 막을 수는 없습니다. 하지만 정상적인 검색엔진이나 AI 서비스의 크롤러들은 대부분 이를 준수하기 때문에 어느 정도의 트래픽 절감 효과는 기대할 수 있습니다.
특히 운영을 하다 보니 의외로 검색엔진보다 다양한 외부 서비스의 링크 미리보기 크롤러가 상당한 요청을 발생시키는 경우도 있었습니다.
개인적으로 가장 놀랐던 것은 SNS 계열 크롤러였습니다. 게시글 공유나 링크 수집 과정에서 예상보다 많은 요청이 발생하는 것을 확인할 수 있었습니다.
그래서 사이트 규모가 커지기 전이라도 robots.txt 정책을 한 번쯤 점검해 보는 것을 추천드립니다.
DXCMS 역시 이런 부분들을 지속적으로 개선해 나갈 예정입니다.