robots.txt 란..
‘인터넷 검색엔진 배제표준(Robots Exclusion Protocol)’이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹 페이지를 작성하는 방법을 기술한 국제기술표준이다. 모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹 사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있다.
서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의
‘File:robots.txt’, ‘User-agent: *’, ‘Disallow: /’ 등을 적어놓으면 검색로봇의 검색 대상에서 제외된다. 일반 웹 페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있다.
-----------------------------------------------------------------------
[대처법]
웹 사이트 wwwroot 루트 디렉토리에 robots.txt 파일을 하나 만듭니다.
내용에
User-agent: *
Disallow: /
라고 하면 모든 긁어가기 검색에서 제외됩니다.
To allow all robots complete access (몽땅 긁어가기 허락)
User-agent: *
Disallow:
Or create an empty "/robots.txt" file. (빈파일 만들기로 해도 됨)
To exclude all robots from part of the server (일부분 긁어가기 제외)
User-agent: *
Disallow: /help : /help.html 과 /help/index.html 둘 다 허용 안한다.
Disallow: /help/ : /help/index.html 는 허용 안하나, /help.html 은 허용됨.
Disallow: /private/
To exclude a single robot (배드봇 검색로봇만 긁어가기 제외)
User-agent: BadBot
Disallow: /
'IT트랜드 & 정보 > Web(웹) 2.0' 카테고리의 다른 글
홈페이지 시대는가고 블로그 형식의 웹2.0 홈로그 시대가 열리고 있다. (0) | 2008.10.26 |
---|---|
robots.txt 현명하게 사용하는 방법 (0) | 2008.10.26 |
The 10 Commandments of Web Design ( 웹디자인의 10계명 ) (0) | 2008.10.21 |
UI DevDev 2008 발표자료 공개... 비록 참석은 못 했지만... (0) | 2008.06.17 |
웹 표준 개발 프로세스 (0) | 2008.06.10 |