Парсер прокси листов на GET запросах

июля 26, 2017 , , 1 Comments

Парсер публичных прокси листов на GET запросах
Чтобы набрать хороший список соксов из публичных прокси листов нужно хорошо потрудится. Со временем я пришёл к тому что софт который чекает и парсит соксы да и вообще проксю обладает рядом недостатков. Шаблон которым я делюсь в посте призван оптимизировать работу по поиску проксей и соксов из базы паблик прокси листов.


Нафига мне этот шаблон?


Начнём с того что большинство софта не умеет чистить дубли проксей. Это приводит к тому что вы теряете время чекая одни и те же прокси, которые встретились одновременно сразу в нескольких паблик листах.
А если и умеет, то эта процедура нехило может отъедать ресурсы вашего компа/сервера в зависимости от того на сколько большая у вас база.

Я встречал ещё софт который весь процесс парсинга производит через браузер Internet Explorer, вообще не понимаю создателей таких парсеров - зачем? Когда есть гет запросы)))

Чтобы оптимизировать часть процесса поиска проксей был написан данный шаблон, который во многопотоке GET запросами проходит всю базу с прокси листами и выпаршивает регуляркой проксю в фаил proxys.txt.

Остаётся только убрать дубли из полученного фаила и можно заряжать всё в свой проксичекер. По моему опыту: когда я в последний раз после парсинга удалил дубли - у меня вышло около 3кк уникальной прокси. Представьте сколько времени бы занял чек такой базы имея дубли, не говоря уже о том что база в 3кк чекается довольно долго.

Как работает шаблон


Когда скачаете, закидываем в фаил url-list.txt все проксилисты которые у вас есть.

Смотрите сколько строк у вас и пишете в самом зенно постере столько же строк в графу "сколько делать" и запускаете в столько потоков сколько вам нужно.

В процессе парсинга внутри папки шаблона появится фаил proxys.txt с результатом.

Как завершите парсинг удалите дубли (я это делаю KeyWordKeeper'ом он лежит тоже в папке).

Так же я добавил фаил Filters-bad-urls.txt в нём содержатся мусорные адреса прокси листов, которые часто попадают в базу но не содержат прокси. Можно тем же KeyWordKeeper'ом сделать выборку из базы листов, поместив в исключения урлы из бэд урлс.

Ссылка на скачивание шаблона: https://yadi.sk/d/DOrCm2-13LRVbA


Каких результатов можно достичь

Если делать все правильно, то можно спокойно набрать 5-10к живых соксов. Обратите внимание именно соксов, а не http прокси, в этом можно убедится посмотрев скрин ниже. Все прокси уникальные, не повторяются, на многих открыты интересные порты.


Не забывайте сохранять результаты чека. Они вам пригодятся, когда понадобится быстро получить много живых прокси. У меня в виду особености работы софта, вся живая прокся сохраняется в 3 отдельных фаила:
all-alive-http-proxy.txt
all-alive-socks4.txt
all-alive-socks5.txt

Время от времени я чищу фаилы от дублей. И когда нужно очень быстро получаю много живых проксей, чекая только эти фаилы.


1 комментарий: