Как собрать новые данные для контент-маркетингового исследования, используя очистку данных

  1. Что такое выскабливание? «Зачистка» - это способ автоматизации или масштабирования процесса сбора...
  2. Как скрести - самые основы
  3. Установить скребок для Chrome
  4. Кричащая лягушка
  5. Очистка с помощью фильтров: XPath, CSS-селекторы и Regex
  6. Гугл документы
  7. Извлечение URL изображений JPG на любую тему из поиска Reddit
  8. Найти среднюю зарплату для аспирантов на Reed
  9. Сравните цену сидра в Asda vs Waitrose
  10. Другие примеры / Вдохновение

Что такое выскабливание?

«Зачистка» - это способ автоматизации или масштабирования процесса сбора информации с разных веб-сайтов в Интернете. Это что-то вроде основного в наборе навыков SEO из-за ежедневной потребности в обеспечении качества, тестировании ошибок и SEO-диагностике.

Есть несколько действительно хороших статей о технических приложениях для поиска, таких как это руководство по поиску данных для SEO , чтобы больше ориентированных на социальные данные / аналитика руководства как это ,

За исключением нашего собственного помощник по контент-стратегии Я не вижу много постов, в которых говорится о том, что приложения могут быть использованы для исследования контент-маркетинга. В частности, это процесс сбора данных из онлайн-источников с целью анализа этих данных для создания нового контента.

Как собрать новые данные для контент-маркетингового исследования, используя очистку данных

В этой статье я расскажу об основах сбора данных для контент-маркетинга и приведу несколько примеров того, как соскоб с Xpath можно использовать в исследовательских целях в проектах контент-маркетинга.

Для более подробного руководства по очистке , я рекомендую вам прочитать мой руководство по XPath для SEO 's, который предназначен, чтобы дать продвинутому пользователю более полный учебник по предмету.

Как скрести - самые основы

Хитрость соскребания заключается в том, чтобы иметь общее представление о том, как размечена разметка веб-страницы. Это с пониманием языка путей XML, известного как XPath, и нескольких инструментов для извлечения данных. Вы можете приступить к работе буквально за несколько минут, так как плагины и инструменты Chrome находятся в свободном доступе и позволяют быстро начать работу.

Установить скребок для Chrome

Начните с установки Скребок для Chrome , Это невероятно простой плагин, который работает примерно так:

Начните с установки   Скребок для Chrome   ,  Это невероятно простой плагин, который работает примерно так:

Посмотрите на диалог скребка. Под «Селектором» вы можете увидеть некоторые XPath:
// h2 / а
Проще говоря, XPath - это язык для выбора элементов в иерархии. Вы следуете этой иерархии сверху вниз, то есть как вы выводите синтаксис. Посмотрите на пример выше; XPath выбирает содержимое всех контейнеров «a», которые вложены в контейнер «h2». В контексте моей страницы автора это все заголовки и ссылки, размещенные на странице.

На более сложной веб-странице, возможно, стоит внимательно посмотреть на классы разметки и стилей, используемые в контейнерах. Давайте переключимся на консоль веб-разработчика в Chrome и рассмотрим подробнее:

H2 стилизован с помощью атрибута класса с именем «post_title».

H2 стилизован с помощью атрибута класса с именем «post_title»

Это полезно знать, потому что вы можете выбрать все контейнеры, которые используют этот класс стилей, не проходя через несколько нестандартных контейнеров.
// * [содержит (@class, 'post_title')] / a
Существует полезная дискуссия о выборе элементов по их атрибутам стиля CSS на эта нить стека , Xpath также намного мощнее, если вы хотите узнать больше, посмотрите на это краткий справочник к некоторым удивительно мощным функциям.

Есть еще несколько инструментов, которые являются довольно стандартными в мире SEO, которые также необходимы для сбора данных.

Кричащая лягушка

Лягушка - лучший гусеничный SEO, который можно купить за ваши деньги.

Мне не нужно много писать об этом, потому что, конечно, теперь вы все это знаете. Возможно, не все знают о некоторых полезных функциях Screaming Frog, чтобы вы могли, если хотите, скопировать довольно много данных с веб-сайтов небольшого и среднего размера или довольно осторожно.

Очистка с помощью фильтров: XPath, CSS-селекторы и Regex

Screaming Frog имеет две чрезвычайно мощные функции, если вы собираетесь использовать его для извлечения данных. Включить / исключить URL-адреса и скребок на основе XPath / Regex / CSS Selector.

Включить URL-адреса действительно легко настроить, и вы сможете сосредоточиться на том, какие страницы вы хотите сканировать на сайте. В приведенном ниже примере страницы категорий, на которые ссылается категория «Женская одежда» на asos.com

Несколько идей по сбору данных в архитектуре сайта приходят на ум с этой функцией, но сегодня мы больше заинтересованы в очистке.

Несколько идей по сбору данных в архитектуре сайта приходят на ум с этой функцией, но сегодня мы больше заинтересованы в очистке

Давайте попробуем каталогизировать, сколько продуктов asos.com есть в некоторых из их Категории продукта :

com есть в некоторых из их   Категории продукта   :

Куда:
// title - извлечь содержимое элемента
// * [содержит (@class, 'total-items')] - получить содержимое любого контейнера, используя class = "total-items"

Очевидно, что собранные данные нужно будет привести в порядок, но вы видите принципы в действии. Очень простое извлечение данных, все содержится в вашем надежном сканере.

Единственным ограничивающим фактором для сканирования рабочего стола является выделенная память. Очевидно, что убедиться, что вы включаете / исключаете работающие правила, очень помогает, но после этого вы можете просто изменить объем используемой памяти, если на вашей машине есть какой-то запасной!

Вот расположение файла конфигурации для установки большего объема памяти: C: \ Program Files (x86) \ Spreaming Frog SEO Spider

Вот расположение файла конфигурации для установки большего объема памяти: C: \ Program Files (x86) \ Spreaming Frog SEO Spider

Если вам нужно увеличить распределение памяти, у вас возникнут проблемы, если вы не используете 64-битную Windows и 64-битную Java. Это довольно легко проверить и удалить Java из программ добавления / удаления.

Вы также можете установить уменьшенный лимит сканирования (играйте хорошо, и вы не будете расстраивать такие сервисы, как cloudflare).

Соскоб с Screaming Frog - это потрясающе и навык, который стоит изучить. Нейт Плаунт поделился этим изображением своего проекта, который выглядит как впечатляющая комбинация Regex и XPath:

Нейт Плаунт   поделился этим изображением своего проекта, который выглядит как впечатляющая комбинация Regex и XPath:

Гугл документы

Так же, как использование Screaming Frog для ползания и соскоба, иногда в этом нет необходимости. Простые всегда лучше, и многие забавные вещи, которые мы сделали для сообщества, основаны на Документах Google с использованием = importXML () функция ,

Все уже писали об этой функции раньше, поэтому все, что я скажу, это то, что если вы хотите понять основную структуру запроса = importXML в Документах Google, прочитайте этот пост или скопируйте / вставьте запрос снизу:
= ImportXML ([URL], [XPath])
Для действительно впечатляющего примера таких функций, как = importXML () в действии, взгляните на Инструмент восстановления ссылок Дэнни ,

Извлечение URL изображений JPG на любую тему из поиска Reddit

С основами соскабливания более или менее покрытыми, что вы можете сделать со скребком?

Как вы знаете, в этом году в блоге мы рассмотрели множество концепций контент-маркетинга и идей. Reddit продолжает быть таким золотая жила для идей и вдохновения , Часто мы концентрируемся на извлечении идей и необработанных идей, но вы также можете добывать и сырье. Как изображения:

Попробуйте поиск Reddit: https://www.reddit.com/r/Polaroid/search?q=cat+url%3Ajpg&sort=relevance&t=all

Reddit search имеет набор мощных операторов, в том числе команду URL :, которая доставляет результаты, содержащие строку в общем URL. Это невероятно для определенных типов файлов, таких как изображения. После того, как вы нашли нужный предмет, извлеките этот XPath:
// * [содержит (@class, 'search-result-footer')]
Совет от профессионала: расширение скребка имеет предустановленную функциональность. Вы можете сохранить свой XPath, перейти к новому набору результатов поиска и повторно выполнить запрос без повторного ввода.

Найти среднюю зарплату для аспирантов на Reed

Рид является огромной базой данных рабочих мест в Великобритании. У них много объявлений о работе в разных вертикалях. Как известно, рынок труда представляет постоянный интерес, особенно для недавних выпускников. Идеи содержания, такие как сравнение средней зарплаты для новой дипломной работы в Лондоне по сравнению с другим городом, могут быть полезны для чтения:

Работа для выпускников в Лондоне

Против

Работа для выпускников в Бирмингеме

Теперь данные здесь не идеальны, но их можно легко очистить. Посмотрите в HTML:

  • £ 35 000 - £ 55 000 в год

Эти данные легко извлекаются:
// Ли [@ класс = 'зарплата']
Я не уверен в ответе, так что, если кто-то хочет решить это, давай!

Сравните цену сидра в Asda vs Waitrose

Эта тема близка моему сердцу. В середине лета, когда у вас обязательно должна быть бутылка сидра в руке, куда вы направляетесь? Вайтроуз или ASDA?

Страница сидра Waitrose

XPath:
// * [содержит (@class, 'мелкий шрифт')]
против

Asda Cider Page

XPath:
// диапазон [@ класс = 'priceInformation']

Другие примеры / Вдохновение

Весь этот пост был действительно вдохновлен эта тема Reddit , один из сотрудников нанял кого-то на Upwork, чтобы вручную собрать данные для поста. Формат не был отличным, но пост работал исключительно хорошо.

Точно так же это Buzzfeed сообщение обсуждение того, насколько выросла ваша арендная плата с 2007 года, действительно показывает мощь исторических данных, к которым мы все имеем доступ в повседневной работе.

Что такое выскабливание?
Com/r/Polaroid/search?
В середине лета, когда у вас обязательно должна быть бутылка сидра в руке, куда вы направляетесь?
Вайтроуз или ASDA?