본문 바로가기

생성형 AI의 역습: 오픈 액세스 웹사이트를 위협하는 AI 크롤러

디지털 백수 2025. 4. 2.
반응형

생성형 AI의 영향

  • 생성형 AI 업체는 허가 없이 데이터를 가져가는 것뿐만 아니라, 데이터를 훔치는 사이트를 망가뜨리고 있다.
  • AI의 영향으로 인해 인터넷에 심각한 피해가 발생하고 있다.
  • 생성형 AI는 정보의 출처를 무시하고, 원래의 출처를 대체하는 방식으로 데이터를 수집하고 있다.
  • 이러한 현상은 오픈 액세스 웹사이트와 같은 중요한 정보 출처에 부정적인 영향을 미치고 있다.

오픈 액세스 웹사이트의 중요성

  • 인터넷의 주요 목적 중 하나는 과학자, 학자, 일반 대중 간의 자유롭고 개방적인 소통과 정보 교환을 위한 글로벌 네트워크 역할을 하는 것이다.
  • 오픈 액세스(Open Access) 웹사이트는 학술 정보에 대한 무료 무제한 액세스를 제공한다.
    • 이들 웹사이트는 연구 논문, 서적, 데이터, 교육 자료 등을 포함한다.
    • 사용자는 기술적 장벽 없이 콘텐츠를 얻을 수 있는 법적 권한을 부여받는다.
  • 오픈 액세스는 오픈 사이언스 운동의 일부로, 더 넓은 의미의 과학적 접근을 지향한다.

AI 크롤러의 공격

  • 현재 오픈 액세스 웹사이트는 AI 크롤러의 공격을 받고 있다.
  • AI 크롤러는 훈련 데이터 세트에 추가할 데이터를 지속적으로 스캔하여 자원에 부담을 주고 있다.
  • 이로 인해 서비스 중단 사태가 발생할 수 있다.
  • AI 크롤러는 인간보다 훨씬 더 많은 인터넷 트래픽을 생성하고 있으며, 이는 오픈 액세스 웹사이트에 치명적인 영향을 미칠 수 있다.

봇 트래픽의 현황

  • **디자인러시(DesignRush)**에 따르면 현재 전체 웹 방문의 80%는 봇이 차지하고 있다.
  • 봇의 유형은 다양하며, 검색 엔진 봇, SEO 및 분석 봇, 소셜 미디어 봇, 악성 봇, 웹 스크래핑 봇 등이 있다.
  • AI 크롤러는 역대 가장 빠르게 성장하는 봇 유형으로, 오픈AI의 GPT 봇이 전체 웹 트래픽의 약 13%를 차지하고 있다.
  • 이러한 봇들은 매달 수억 건의 요청을 생성하고 있으며, 이는 오픈 액세스 웹사이트에 대한 트래픽 압박을 초래한다.

AI 크롤러의 데이터 수집 방식

  • AI 크롤러의 주요 임무는 데이터를 가져와 원래의 출처를 대체하는 것이다.
  • 사용자가 구글을 통해 과학 논문을 찾는 대신, AI 크롤러는 여러 논문과 사이트에서 조합한 새로운 **“논문”**을 제시한다.
  • 이로 인해 사용자는 출처 사이트를 무시하고 챗봇에서 정보를 얻도록 유도된다.
  • 데이터 수집이 증가함에 따라 오픈 액세스 웹사이트는 더 느리고 사용하기 어려워지는 상황에 직면하고 있다.

기술적 반격과 클라우드플레어의 역할

  • 클라우드플레어는 LLM 훈련 데이터를 의도적으로 오염시켜, 허가 없이 웹사이트에서 데이터를 가져가는 AI 업체에 맞서고 있다.
  • 클라우드플레어는 CDN, 사이버보안, DDoS 완화, 웹 성능 최적화 서비스를 제공한다.
  • 이들은 AI 크롤러가 robots.txt 파일을 무시하고 데이터를 수집하는 문제를 해결하고자 한다.
  • 클라우드플레어의 솔루션인 “AI 미로”는 들어오는 봇을 특수 목적의 웹사이트로 리디렉션하여, 허니팟 역할을 수행한다.

AI 크롤러 차단 방법

  • AI 크롤러를 막는 한 가지 방법은 좋은 구식 robots.txt 파일을 사용하는 것이다.
  • 그러나 AI 크롤러는 종종 이 파일을 무시하므로, 웹 애플리케이션 방화벽(WAF)를 사용하는 것이 필요하다.
    • WAF는 AI 크롤러를 포함한 원치 않는 트래픽을 차단하고, 합법적인 사용자가 사이트에 접근할 수 있도록 한다.
  • 속도 제한을 사용하여 특정 기간 내에 단일 IP가 요청할 수 있는 횟수를 제한함으로써 서버 부하와 데이터 오용 위험을 줄일 수 있다.
  • 고급 봇 관리 솔루션은 머신러닝과 행동 분석을 활용하여 원치 않는 AI 봇을 식별하고 차단하는 기능을 제공한다.

AI 크롤러의 법적 문제

  • 콘텐츠를 가져가는 것이 합법적이거나 수용 가능한지에 대한 논쟁이 진행되고 있다.
  • 온라인, 법원, 정부에서 이 문제에 대한 논의가 이루어지고 있지만, 문제의 업체들이 같은 사이트를 방해하고 공격하는 것을 방관할 수는 없다.
  • 이러한 상황은 오픈 액세스 웹사이트의 정보 접근성과 신뢰성에 심각한 위협이 되고 있다.
  • AI 크롤러의 영향에 대한 조치가 시급히 필요하다.
반응형

댓글