Парсинг. Быстрый Parsing Google

4040_25_607_ArtFile_ru

Сегодня я вам расскажу, как можно ускорить ваш парсинг сайтов. Решение очень простое.

Любой парсинг работает по одной схеме. А именно:

1)      Формирует запрос.

2)      Смотрит код загруженной страницы.

3)      Копирует часть кода, которая находится между обозначенными тэгами.

4)      Выводит это в базу.

Дело в том, что скорость парсинга зависит от многих факторов, как на пример:

1) Скорость интернет соединения.

2) Качество и скорость ваших прокси.

3) Размер загружаемых страниц, откуда и тянется код.

4) Скорость генераций страниц, которые должны быть выпаршены.

Первые 2 пункта, это, как бы, вопрос решаемый деньгами ;) , тут я вам не смогу помочь, а вот последние 2 я вам подскажу, как можно ускорить парсинг.

Делается это очень просто, и покажу это вам на простом примере запроса:

Maiamiblog в простом случае генерация длится About 5,090 results (0.21 seconds)

google.com/search?q=maiamiblog

google.com/m?q=maiamiblog

google.com/m/search?q=maiamiblog

Время генераций SERP-а зависит от запроса, который вы делаете. Также в случае mobile версий сама страница меньше весит. Но, дело в том, что для того, чтобы парсить быстрей, надо делать больше запросов. Если делать больше запросов быстрей банятся IP. В простом случае можно выводить по 100 за раз, и тем самым компенсировать это.

Суть поста в том, чтобы показать, что парсинг — это не банальность. Это такое же искусство, как и спам и тп. Да, да спам — это искусство, в котором есть свои мастера и свои шедевры.

П.С. Если хотите парсить более или менее нормально без прокси, то ставьте таймаут на 25-30 секунд и банить вроде не должно.

Если вам понравился данный пост — не пропусти следующий и подпишись на RSS ленту.

Вот так вот, господа читатели. Парсинг бабла тоже надо освоить :-D .

Если есть  адекватные вопросы по парсингу спрашиваем в коментах, я всегда здесь :) .

Понравился пост? Подпишись на RSS ленту!

Читать в


.

12 Comments к записи “Парсинг. Быстрый Parsing Google”

  • Nikel
    8 Ноя 2010, 14:12 г.

    Спасибо очень интересно.
    У меня вопрос: А вот текст который должен быть между тэгами, всегда должен быть в том же месте?

  • Saint_Byte
    8 Ноя 2010, 15:15 г.

    О боже что за моразм срвнивать спам с искуством ?

  • Maiami
    8 Ноя 2010, 15:44 г.

    Nikel — Да. Иногда бывает что данные параметры динамические то что делает проблематично определение нужной части кода. :(

  • Maiami
    8 Ноя 2010, 15:45 г.

    Saint_Byte — Для тех кто тупо по форумам хрумом гоняют, то да это не ахти. Но ведь спам тоже может быть интересным. ;)

    П.с Я сам противник майл спама. :-!

  • Леха
    10 Ноя 2010, 22:47 г.

    Ну вы конечно загнули Спам и искуство хехе. Но статья мне понравилась =)

  • Maiami
    14 Ноя 2010, 23:46 г.

    Это даже круче… искуство некомерческое а это ещё и может прокормить :-D

  • Miha
    22 Ноя 2010, 1:07 г.

    Спам — искусство, полностью поддерживаю) В свое время вдохновился статьей Майами, про поиск редких движков для спама. Теперь успешно поднимаю Тиц своим сателлитам. Когда находишь что-то очень ценное, бережно собираешь базу, пишешь ТЗ знакомому, молчаливому! и не жадному програмисту, чтобы написал спамилку и вуаля! у тебя новая «тема» — это кайф, да)

  • Maiami
    22 Ноя 2010, 18:05 г.

    Miha — Во… наш человек :) Велком пикасО! *DRINK* !

  • alexf2000
    22 Дек 2010, 0:45 г.

    Для парсинга гугла не нужны задержки. Надо ему куки правильно заполнять и вводить капчу через капчераспознавалку и можно долбить запросами безостановочно.

  • ыдфмлщ
    7 Мар 2011, 20:33 г.

    гугл банит и при тайм-аутах более 30 сек. не знаю что делать…

  • Maiami
    7 Мар 2011, 21:32 г.

    ну… прокси тогда :)

  • Кирилл
    13 Янв 2013, 22:49 г.

    Так как я связан с реальным искусством, соглашусь, что спам — это искусство. =)

Оставить комментарий