На днях задался целью: за какое время можно собрать более или менее приличную базу e-mail адресов для... ни для чего... просто собрать... чисто из спортивного интереса. Условия сбора сам себе не оговорил. Нужно собрать... как можно больше...
Начало было положено в прошлое воскресенье, т.е. 21 сентября 2008 года. Примерно в обед. Я сел за компьютер, влез на гугль и спросил: "Где можно взять е-mail harvester?"
Гугль особо долго не думал, и выдал мне пару ссылок на "Super Email Harvester"... Неплохо... Скачал, установил, попросил у гугля таблетку от жадности к этому комбайну... Вылечил комбайн от жадности...
Запустил... Оп-па! Нет, этой софтиной много адресов не соберешь...
Вся проблема в том, что эта софтина опрашивает сами сервера на предмет наличия у них валидных адресов. Т.е., происходит коннект к серверу и начинается тупой брут-форс. А за это можно и "по голове получить". А мы же люди мирные??? Тем более, что в настройках минимальный таймаут на реконект - 60 секунд, а яндекс, допустим, рвет соединения после пятидесяти запросов... В итоге получается, что 80% этого брутфорса идет в холостую... Да че там рассказывать - достаточно посмотреть статистику в статусной строке. Все, нафиг-нафиг... Не наш метод.
Идем дальше... Идем опять к великому Гуглю и спрашиваем: "Отче наш иж еси на всей сети! да святится имя твое, да будет царствие твое! Ниспошли мне ссылку на сборщик e-mail, да ссылку правильную и прямую! Пинг!" и начинаем выбирать... Для тех, кто не понял, обьясняю: нам нужна софтина, которой скармливаешь линк на форум, сайт, гостевую, доску обьявлений; софтина начинает проверять весь сайт на предмет наличия в нем ссылок типа mailto: и просто текста с @ внутрях и выгребать эти данные. Эй! У кого еще там помегабайтная оплата??? :)
Так вот, такая софтина была найдена (название не скажу, чтобы "ручки не чесались"), вылечена от жадности (кстати, есть очень неплохое решение всех проблем с лицензиями к вашему ПО) и натравлена на ссылки, опять-же любезно предоставленные великим Гуглем. Програмке я скормил порядка 30-40 ссылок на бесплатные доски объявлений и с чистой совестью оставил комп включенным на ночь...
Да, на утро я уже имел 230 тысяч адресов... Перед уходом на работу в список проверки добавил еще 25 ссылок на доски/форумы.
К вечеру (можете не верить) - 415 тыщь!!! Абалдеть!!! Упаковав все это в архив и перекинув на ноутбук с линуксом, на этот текстовый файлик был натравлен скрипт с sed, awk, uniq, sort, wc для очистки всего этого от мусора... Как итог - 375 тысяч адресов с "копейками"... Чистых... за сутки... Я думаю - это очень даже неплохо.
В таком темпе и стиле прошла вся неделя. Я ложился спать - кормил программку, вставал, сохранял списки, кормил программку новыми ссылками, уходил на работу, приходил с работы - чистил базы, искал новые ссылки, "кормил" программку и т.д.
К вечеру 28 сентября 2008 года на моем десктопе был аптайм 7 дней, а у меня была собрана база адресов количеством в 2 миллиона 718 тысяч. Чистых, отфильтрованых, без дублей. Я не задавался целью заниматься их дальнейшей сортировкой (не хочу иметь в директории сотни тысяч файлов) ибо заданая цель была достигнута. Я собрал базу адресов.
Поскольку весь этот опыт носил сугубо исследовательский характер и был прекращен в связи с достижением цели, предлагаю сделать выводы:
1. Хорошую базу адресов реально собрать за 2-3 недели без каких-либо больших временных затрат. Ограничение на скорость сбора создает ширина канала в интернет (у меня 2 мегабита прием 512 килобит отдача).
2. Стоимость "лимона" адресов в случае продажи колеблется в районе $100 (если собирать для продажи и в случае успешной продажи). Сколько на этом можна заработать - считайте сами, мне это не интересно.
3. Идиотов, жалующихся на спам и в то же время оставляющих свои мыла в открытом виде в сети еще хватит всем и надолго.
4. ... ?
1 комментарий:
[...]база для спама 375 тысяч email адресов за сутки[...]
Отправить комментарий