Полезная информация: Обзор популярных парсеров контента, парсинг контента

Автор: Андрей Исаев
Добавлено: 2012-11-23 15:25:35
Парсеры – программы которые занимаются сбором и обработкой информации по заданному алгоритму. В основном используют два вида интернет-парсинга: сбор информации с  выдачи поисковых систем и сбор контента. Большинство парсеров могут совмещать эти задачи и имеют  еще некоторые дополнительные возможности.

Наиболее часто для сбора информации используют такие программы:

  1. Content Downloader. На  данный момент самая востребованная и универсальная программа. Может осуществлять загрузку: новостей, товаров, текстов, ссылок, видео, изображений, товаров из интернет-магазинов,  RSS и прочего. Среди дополнительных возможностей : многопоточность, задание различных cookies, обработка результатов во время парсинга и еще множество других функций. Для процесса загрузки программе нужно указать с какой части страниц брать информацию или данные и указать в каком формате производить вывод (расширения: CSV, htm,  php, txt,). Предусмотрена  отправка данных в MySQL во время процесса парсинга контента.  Программа платная, имеет несколько версий с различной стоимостью (в зависимости от количества потоков).
  2. WP UniParser (WordPress). Универсальная программа-парсер, имеет возможность работать с разными сайтами. Устанавливается как дополнение  WordPress. Есть функция перевода текстов через Google-переводчик, причем пользователь может добавлять нужные языковые пары. Предусмотрена возможность планирования будущих публикаций для постоянного обновления сайта.
  3. X-Parser. Так же обладает несколькими функциями и осуществляет загрузку:
    • текстового контента с  сайтов, или по  URL-адресам, или  по ключевым запросам с выдачи поисковых  сервисов с сохранением ссылок;
    • внешних и внутренних ссылок;
    • выдачи поисковых сервисов по ключевым запросам.Это многопоточный загрузчик контента, можно настроить требуемое количество потоков. Как дополнение предусмотрен прокси чекер, что дает возможность загружать очень большое количество контента. Высокая скорость работы. 
  4. Datacol. Еще один качественный, универсальный парсер. Осуществляет загрузку текстового контента, выдачи поисковых сервисов, е-mail, наполнения интернет-магазинов, объявлений, SEO-параметры для проверки сайтов, и прочего.  Простая настройка процесса – достаточно кликнуть кнопкой мыши на избранном типе данных и парсер сам выберет формулу для загрузки. Так же как и в Content Downloader есть возможность сохранения данных в нужный формат (CSV, htm,  php, txt ),  запись в MySQL,  DLE, WordPress и другие СMS. Есть возможность отложенной публикации и публикации в прошедшем времени. Программа осуществляет перевод контента через Google-переводчик. Может включатся в заданное время, собирать и обновлять контент сайтов самостоятельно, по предварительно заданным параметрам.
  5. Ночной дозор. Программа разработана Вадимом Ласто и имеет две версии:
    • бесплатная версия - программа по критериям пользователя  собирает текстовую информацию с разных сайтов систематизирует, а затем  сохраняет на диске как дерево текстов. Для получения чистого контента используются фильтры, маски. Есть возможность программируемой загрузки, т.е. загрузки с заданных сайтов, можно использовать выборочную загрузку рисунков или загружать рисунки после текста. Удобна для людей самых разных профессий – журналистов, юристов,  экономистов и т.п.;
    • платная версия программы. Есть возможность автоматической публикации и синонимизации Эта версия больше подходит для web-разработчиков и других специалистов. Программа хорошо подходит для постоянного мониторинга новостей и заданных тем с последующей публикации на своих сайтах.
  6. UniParse. Простая и удобная программа от отечественных разработчиков. На выбранных сайтах отбирает URL, и согласно заданного шаблона выбирает контент. Сохраняет в обычных файлах с расширением txt.  Все полученные файлы можно отобрать по размеру (удалив слишком мелкие), затем собрать в один. Программа особенно удобна для разового сбора контента.

Более подробную информацию про программы-парсеры контента, можете найти на сайте - http://anokalintik.ru/.



Добавить в Избранное
Реклама
Реклама
Наши Опросы
На что Вы готовы для сохранения экологии?
Быть волонтером участвовать в мероприятиях по очистке природы от мусора
Раздельно сортировать и выкидывать мусор: пластик, стекло и пищевые отходы отдельно
Ничего не собираюсь делать, это задачи экологов
Не оставлять мусор на природе, этого достаточно
Не вижу ничего страшного в том, чтоб загрязнять природу, так все равно все делают

Результаты Архив
Статистика
Яндекс.Метрика Rambler's Top100
Экспорт новостей

rss2.0

Страница сгенерирована за 0.016 сек..