 Парсеры – программы которые занимаются сбором и обработкой информации по заданному алгоритму. В основном используют два вида интернет-парсинга: сбор информации с выдачи поисковых систем и сбор контента. Большинство парсеров могут совмещать эти задачи и имеют еще некоторые дополнительные возможности.
Наиболее часто для сбора информации используют такие программы:
- Content Downloader. На данный момент самая востребованная
и универсальная программа. Может осуществлять загрузку: новостей,
товаров, текстов, ссылок, видео, изображений, товаров из
интернет-магазинов, RSS и прочего. Среди дополнительных
возможностей : многопоточность, задание различных cookies,
обработка результатов во время парсинга и еще множество других функций.
Для процесса загрузки программе нужно указать с какой части страниц
брать информацию или данные и указать в каком формате производить
вывод (расширения: CSV, htm, php, txt,). Предусмотрена
отправка данных в MySQL во время процесса парсинга контента.
Программа платная, имеет несколько версий с различной стоимостью (в
зависимости от количества потоков).
- WP UniParser (WordPress). Универсальная программа-парсер, имеет
возможность работать с разными сайтами. Устанавливается как
дополнение WordPress. Есть функция перевода текстов через
Google-переводчик, причем пользователь может добавлять нужные
языковые пары. Предусмотрена возможность планирования будущих
публикаций для постоянного обновления сайта.
- X-Parser. Так же обладает несколькими функциями и осуществляет загрузку:
- текстового контента с сайтов, или по URL-адресам, или по ключевым запросам с выдачи поисковых сервисов с сохранением ссылок;
- внешних и внутренних ссылок;
- выдачи поисковых сервисов по ключевым запросам.Это многопоточный
загрузчик контента, можно настроить требуемое количество потоков. Как
дополнение предусмотрен прокси чекер, что дает возможность загружать
очень большое количество контента. Высокая скорость работы.
- Datacol. Еще один качественный, универсальный парсер.
Осуществляет загрузку текстового контента, выдачи поисковых
сервисов, е-mail, наполнения интернет-магазинов, объявлений,
SEO-параметры для проверки сайтов, и прочего. Простая настройка
процесса – достаточно кликнуть кнопкой мыши на избранном типе
данных и парсер сам выберет формулу для загрузки. Так же как и в
Content Downloader есть возможность сохранения данных в нужный
формат (CSV, htm, php, txt ), запись в MySQL, DLE, WordPress и
другие СMS. Есть возможность отложенной публикации и публикации в
прошедшем времени. Программа осуществляет перевод контента через
Google-переводчик. Может включатся в заданное время, собирать и
обновлять контент сайтов самостоятельно, по предварительно заданным
параметрам.
- Ночной дозор. Программа разработана Вадимом Ласто и имеет две версии:
- бесплатная версия - программа по критериям пользователя собирает
текстовую информацию с разных сайтов систематизирует, а затем сохраняет
на диске как дерево текстов. Для получения чистого контента
используются фильтры, маски. Есть возможность программируемой загрузки,
т.е. загрузки с заданных сайтов, можно использовать выборочную загрузку
рисунков или загружать рисунки после текста. Удобна для людей самых
разных профессий – журналистов, юристов, экономистов и т.п.;
- платная версия программы. Есть возможность автоматической публикации
и синонимизации Эта версия больше подходит для web-разработчиков и
других специалистов. Программа хорошо подходит для постоянного
мониторинга новостей и заданных тем с последующей публикации на своих
сайтах.
- UniParse. Простая и удобная программа от отечественных
разработчиков. На выбранных сайтах отбирает URL, и согласно
заданного шаблона выбирает контент. Сохраняет в обычных файлах с
расширением txt. Все полученные файлы можно отобрать по размеру
(удалив слишком мелкие), затем собрать в один. Программа особенно удобна
для разового сбора контента.
Более подробную информацию про программы-парсеры контента, можете найти на сайте - http://anokalintik.ru/. |