해외 유명 블로그 TechCrunch 에 구글 관련 내용이 올라왔습니다. 이 소식을 발빠르게 전해 주시는 여러 블로거님들 덕분에 금방 소식을 접하게 되었습니다. (참 좋은 세상입니다. ^^)

Google Processing 20,000 Terabytes A Day, And Growing (TechCrunch)
구글, 하루에 20000 테라바이트(TB)의 자료를 처리한다고? (학주니닷컴)
구글이 20 petabyte의 데이터를 얼마만에 처리할까?

사용자 삽입 이미지
그럼 이게 실제 얼마나 되는 양일까요? 20PB(페타바이트)는 실제로 감이 잘 안 올만큼 커다란 값이긴 합니다.
이 값은 데이터를 처리할 수 있는 양을 나타내는 것 뿐이고 실제 몇개의 웹페이지를 처리하는 지는 직접적으로 나타내지 않습니다. 하지만 원문글 중간의 표에 나와있는 데이터로 약간 유추해 볼 수 있을 것 같습니다.

2007년 9월을 기준으로 구글의 map input data 가 403,152 TB(테라바이트)라고 합니다. 이걸 웹페이지 기준으로 볼때 웹페이지 한장을 평균 10 KB 라고 가정하면 하루에 약  1조4천5백억개의 웹페이지가 됩니다. map output data 는 34,774 TB, 하루 1천2백억 페이지 정도 됩니다. 구글이 인덱스 하고 있는 페이지가 120억개 라고 가정해 볼 경우, 한페이지당 하루에 10번 다녀갈 수 있는 양입니다. 여러분의 블로그에 구글에서 인덱스 하고 있는 페이지가 1,000개 라면 10,000번 다녀간다는 이야기가 되는 군요. 뭐 실제로 그런지는 모르는 거고, 그렇게 할 수도 있는 능력이라는 것 입니다.

구글에 인덱스 되어 있는 제 블로그 글을 검색해 보면 대충 1,660개 라고 나오던데요. 구글봇이 하루에 얼마나 다녀가는 걸까요? 대단한 능력 인 것 만은 틀림없는 사실 입니다.

출처가 되는 논문은 여기 있습니다. ACL이 걸려 있어서 귀찮으므로 고감자 님이 받아주신 PDF 파일도 첨부 합니다. 저도 아직 자세히 읽어 보지는 못 했습니다. ^^

업데이트: 구글의 Map Reduce 는 gmail 스펨 필터 처리에도 쓰인다고 합니다. 그러니까 저기 논문에 나온 map input data의 데이터 량은 메일 데이터 까지 전부 합친 용량이라고 할 수 있겠습니다.
,
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (73)
블라블라 (21)
정보검색 (15)
우주전쟁 (37)

최근에 올라온 글

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999.