보안/Wechall

Wechall - Training: WWW-Robots (HTTP, Training)

꾸적꾸적 2024. 7. 29. 23:00

https://www.wechall.net/challenge/training/www/robots/index.php

 


이번에도 돌아온 Wechall 트레이닝 문제.

이번 문제에서는 Robots_exclusion_standard 에 대해 알아봅니다.
robots.txt 파일은 웹 크롤러가 귀하의 웹사이트를 크롤링하고 인덱싱할 수 있는지
또는 일부만 크롤링하고 인덱싱할 수 있는지 확인하는 데 사용됩니다.
때때로 이러한 파일은 콘텐츠가 크롤링되는 것을 보호하는 대신 디렉토리 구조를 드러냅니다.해보세요!

 

라고 합니다.

 

이건 헤더에 정보가 드러나는 인터넷 봇에 대한 기초를 알아보는 시간으로 보입니다.

 

* 인터넷 봇 :: 무언가의 작업을 자동화하여 작동하는 프로그램

 

그 중에서 웹 사이트를 크롤링 이라는 부분을 주목해야하는데,

인터넷 봇은 여러 기능들 중, 웹 크롤링이라는 기능을 사용할때 자주 사용됩니다.

 

* 웹 크롤링 :: 웹사이트에서 원하는 정보를 추출하는 작업

 

그런데 중요 데이터는 숨겨야만 하고, 크롤링 방지를 하고싶은게 서버 관리자의 마음이지요.

즉, 이를 방지하기 위한것이 로봇 배제 표준입니다.

자세한 내용은 위를 눌러 확인.

 

하여튼 이러한 문제들을 방지하기 위해선 robots.txt를 통해 제어를 하는데,

문제는 이러한 정보 획득을 알려주고 있습니다.

 

즉, 해당 폴더에 접근을 막기 위해서는 경로(정보가 기입된 링크)를 차단해야하는데,

이를 통해 폴더 구조를 파악할 수 있다는 의미를 말합니다.

 

https://www.wechall.net/robots.txt

 

그럼 위 링크를 타고 들어가봅시다.

 

이런 페이지가 보이네요.

 

검색엔진인 Yandex는 모든 접속을 불가능하게 하고,

그 외의 모든것들은 /challenge/training/www/robots/T0PS3CR3T 를 막고있습니다.

 

즉, /challenge/training/www/robots/T0PS3CR3T 는 서버관리자가 숨기고싶은 위치를 말하는 것이죠.

 

고로, 그 링크를 그대로 들어간다면..

 

클리어