Как собрать новые данные для контент-маркетингового исследования, используя очистку данных

  1. Что такое выскабливание? «Зачистка» - это способ автоматизации или масштабирования процесса сбора...
  2. Как скрести - самые основы
  3. Установить скребок для Chrome
  4. Кричащая лягушка
  5. Очистка с помощью фильтров: XPath, CSS-селекторы и Regex
  6. Гугл документы
  7. Извлечение URL изображений JPG на любую тему из поиска Reddit
  8. Найти среднюю зарплату для аспирантов на Reed
  9. Сравните цену сидра в Asda vs Waitrose
  10. Другие примеры / Вдохновение

Что такое выскабливание?

«Зачистка» - это способ автоматизации или масштабирования процесса сбора информации с разных веб-сайтов в Интернете. Это что-то вроде основного в наборе навыков SEO из-за ежедневной потребности в обеспечении качества, тестировании ошибок и SEO-диагностике.

Есть несколько действительно хороших статей о технических приложениях для поиска, таких как это руководство по поиску данных для SEO , чтобы больше ориентированных на социальные данные / аналитика руководства как это ,

За исключением нашего собственного помощник по контент-стратегии Я не вижу много постов, в которых говорится о том, что приложения могут быть использованы для исследования контент-маркетинга. В частности, это процесс сбора данных из онлайн-источников с целью анализа этих данных для создания нового контента.

Как собрать новые данные для контент-маркетингового исследования, используя очистку данных

В этой статье я расскажу об основах сбора данных для контент-маркетинга и приведу несколько примеров того, как соскоб с Xpath можно использовать в исследовательских целях в проектах контент-маркетинга.

Для более подробного руководства по очистке , я рекомендую вам прочитать мой руководство по XPath для SEO 's, который предназначен, чтобы дать продвинутому пользователю более полный учебник по предмету.

Как скрести - самые основы

Хитрость соскребания заключается в том, чтобы иметь общее представление о том, как размечена разметка веб-страницы. Это с пониманием языка путей XML, известного как XPath, и нескольких инструментов для извлечения данных. Вы можете приступить к работе буквально за несколько минут, так как плагины и инструменты Chrome находятся в свободном доступе и позволяют быстро начать работу.

Установить скребок для Chrome

Начните с установки Скребок для Chrome , Это невероятно простой плагин, который работает примерно так:

Начните с установки   Скребок для Chrome   ,  Это невероятно простой плагин, который работает примерно так:

Посмотрите на диалог скребка. Под «Селектором» вы можете увидеть некоторые XPath:
// h2 / а
Проще говоря, XPath - это язык для выбора элементов в иерархии. Вы следуете этой иерархии сверху вниз, то есть как вы выводите синтаксис. Посмотрите на пример выше; XPath выбирает содержимое всех контейнеров «a», которые вложены в контейнер «h2». В контексте моей страницы автора это все заголовки и ссылки, размещенные на странице.

На более сложной веб-странице, возможно, стоит внимательно посмотреть на классы разметки и стилей, используемые в контейнерах. Давайте переключимся на консоль веб-разработчика в Chrome и рассмотрим подробнее:

H2 стилизован с помощью атрибута класса с именем «post_title».

H2 стилизован с помощью атрибута класса с именем «post_title»

Это полезно знать, потому что вы можете выбрать все контейнеры, которые используют этот класс стилей, не проходя через несколько нестандартных контейнеров.
// * [содержит (@class, 'post_title')] / a
Существует полезная дискуссия о выборе элементов по их атрибутам стиля CSS на эта нить стека , Xpath также намного мощнее, если вы хотите узнать больше, посмотрите на это краткий справочник к некоторым удивительно мощным функциям.

Есть еще несколько инструментов, которые являются довольно стандартными в мире SEO, которые также необходимы для сбора данных.

Кричащая лягушка

Лягушка - лучший гусеничный SEO, который можно купить за ваши деньги.

Мне не нужно много писать об этом, потому что, конечно, теперь вы все это знаете. Возможно, не все знают о некоторых полезных функциях Screaming Frog, чтобы вы могли, если хотите, скопировать довольно много данных с веб-сайтов небольшого и среднего размера или довольно осторожно.

Очистка с помощью фильтров: XPath, CSS-селекторы и Regex

Screaming Frog имеет две чрезвычайно мощные функции, если вы собираетесь использовать его для извлечения данных. Включить / исключить URL-адреса и скребок на основе XPath / Regex / CSS Selector.

Включить URL-адреса действительно легко настроить, и вы сможете сосредоточиться на том, какие страницы вы хотите сканировать на сайте. В приведенном ниже примере страницы категорий, на которые ссылается категория «Женская одежда» на asos.com

Несколько идей по сбору данных в архитектуре сайта приходят на ум с этой функцией, но сегодня мы больше заинтересованы в очистке.

Несколько идей по сбору данных в архитектуре сайта приходят на ум с этой функцией, но сегодня мы больше заинтересованы в очистке

Давайте попробуем каталогизировать, сколько продуктов asos.com есть в некоторых из их Категории продукта :

com есть в некоторых из их   Категории продукта   :

Куда:
// title - извлечь содержимое элемента
// * [содержит (@class, 'total-items')] - получить содержимое любого контейнера, используя class = "total-items"

Очевидно, что собранные данные нужно будет привести в порядок, но вы видите принципы в действии. Очень простое извлечение данных, все содержится в вашем надежном сканере.

Единственным ограничивающим фактором для сканирования рабочего стола является выделенная память. Очевидно, что убедиться, что вы включаете / исключаете работающие правила, очень помогает, но после этого вы можете просто изменить объем используемой памяти, если на вашей машине есть какой-то запасной!

Вот расположение файла конфигурации для установки большего объема памяти: C: \ Program Files (x86) \ Spreaming Frog SEO Spider

Вот расположение файла конфигурации для установки большего объема памяти: C: \ Program Files (x86) \ Spreaming Frog SEO Spider

Если вам нужно увеличить распределение памяти, у вас возникнут проблемы, если вы не используете 64-битную Windows и 64-битную Java. Это довольно легко проверить и удалить Java из программ добавления / удаления.

Вы также можете установить уменьшенный лимит сканирования (играйте хорошо, и вы не будете расстраивать такие сервисы, как cloudflare).

Соскоб с Screaming Frog - это потрясающе и навык, который стоит изучить. Нейт Плаунт поделился этим изображением своего проекта, который выглядит как впечатляющая комбинация Regex и XPath:

Нейт Плаунт   поделился этим изображением своего проекта, который выглядит как впечатляющая комбинация Regex и XPath:

Гугл документы

Так же, как использование Screaming Frog для ползания и соскоба, иногда в этом нет необходимости. Простые всегда лучше, и многие забавные вещи, которые мы сделали для сообщества, основаны на Документах Google с использованием = importXML () функция ,

Все уже писали об этой функции раньше, поэтому все, что я скажу, это то, что если вы хотите понять основную структуру запроса = importXML в Документах Google, прочитайте этот пост или скопируйте / вставьте запрос снизу:
= ImportXML ([URL], [XPath])
Для действительно впечатляющего примера таких функций, как = importXML () в действии, взгляните на Инструмент восстановления ссылок Дэнни ,

Извлечение URL изображений JPG на любую тему из поиска Reddit

С основами соскабливания более или менее покрытыми, что вы можете сделать со скребком?

Как вы знаете, в этом году в блоге мы рассмотрели множество концепций контент-маркетинга и идей. Reddit продолжает быть таким золотая жила для идей и вдохновения , Часто мы концентрируемся на извлечении идей и необработанных идей, но вы также можете добывать и сырье. Как изображения:

Попробуйте поиск Reddit: https://www.reddit.com/r/Polaroid/search?q=cat+url%3Ajpg&sort=relevance&t=all

Reddit search имеет набор мощных операторов, в том числе команду URL :, которая доставляет результаты, содержащие строку в общем URL. Это невероятно для определенных типов файлов, таких как изображения. После того, как вы нашли нужный предмет, извлеките этот XPath:
// * [содержит (@class, 'search-result-footer')]
Совет от профессионала: расширение скребка имеет предустановленную функциональность. Вы можете сохранить свой XPath, перейти к новому набору результатов поиска и повторно выполнить запрос без повторного ввода.

Найти среднюю зарплату для аспирантов на Reed

Рид является огромной базой данных рабочих мест в Великобритании. У них много объявлений о работе в разных вертикалях. Как известно, рынок труда представляет постоянный интерес, особенно для недавних выпускников. Идеи содержания, такие как сравнение средней зарплаты для новой дипломной работы в Лондоне по сравнению с другим городом, могут быть полезны для чтения:

Работа для выпускников в Лондоне

Против

Работа для выпускников в Бирмингеме

Теперь данные здесь не идеальны, но их можно легко очистить. Посмотрите в HTML:

  • £ 35 000 - £ 55 000 в год

Эти данные легко извлекаются:
// Ли [@ класс = 'зарплата']
Я не уверен в ответе, так что, если кто-то хочет решить это, давай!

Сравните цену сидра в Asda vs Waitrose

Эта тема близка моему сердцу. В середине лета, когда у вас обязательно должна быть бутылка сидра в руке, куда вы направляетесь? Вайтроуз или ASDA?

Страница сидра Waitrose

XPath:
// * [содержит (@class, 'мелкий шрифт')]
против

Asda Cider Page

XPath:
// диапазон [@ класс = 'priceInformation']

Другие примеры / Вдохновение

Весь этот пост был действительно вдохновлен эта тема Reddit , один из сотрудников нанял кого-то на Upwork, чтобы вручную собрать данные для поста. Формат не был отличным, но пост работал исключительно хорошо.

Точно так же это Buzzfeed сообщение обсуждение того, насколько выросла ваша арендная плата с 2007 года, действительно показывает мощь исторических данных, к которым мы все имеем доступ в повседневной работе.

Похожие

Что такое SEO?
... для лучшего понимания поисковыми системами. Следствием использования методов SEO является лучшее позиционирование сайта на странице результатов поиска. Например, когда вы ищете в Google «30 дней бесплатно», первым результатом будет веб-сайт Sempihost. SEO - это небезопасная практика, то есть ни одна компания или человек не может гарантировать, что ваш сайт будет первым в поиске, потому что единственная вещь, способная на это, - это сама поисковая система, такая как Google или Yahoo. SEO
Что такое входящий маркетинг?
... jpg" alt="Мы находимся в новой эре персонализированного маркетинга отношений"> Мы находимся в новой эре персонализированного маркетинга отношений. И с такими инструментами, как социальные медиа, SEO и автоматизация маркетинга Маркетологи готовы выполнить эти входящие отношения, как никогда раньше. Есть четыре шага к пути входящего клиента.
Как начать SEO, используя Hubspot
Ваш сайт не получает столько хитов, сколько вы ищете? Ваши читатели блога стали тусклыми? Возможно, вы публикуете отличный контент и поддерживаете визуально красивый сайт, но никто не будет рядом, чтобы увидеть его, если вы не использовали лучшие практики SEO. Это может показаться сложным, техническим миром, но DIY SEO удивительно легко начать; С помощью нескольких простых настроек вы будете на пути к повышению видимости в Интернете. Мы в Юстас Консалтинг используем
Урок 8: Что такое оптимизация сайта?
... как вы можете сделать свой сайт и контент более оптимизированным для поисковых систем. Google выяснил, что Интернет - это место для людей, а не для поисковых систем. Поэтому они придумали алгоритм поиска, чтобы сделать Интернет лучшим местом для поисковиков - для людей. Они ставят большую часть пирога на оптимизацию сайта, где вы не можете напрямую манипулировать результатами, чтобы повлиять на ваш рейтинг. Краеугольный камень вашего SEO
Что такое SEO? Полное руководство
... на рейтинг сайта. Особое значение имеют некоторые теги, составляющие код, такие как тег заголовка, который можно увидеть в верхней части браузера, когда мы открываем веб-страницу, и в поисковой выдаче, связанной с нашей страницей, который служит для указания заголовка конкретной страницы. Чтобы быть идеальным, этот тег должен быть понятен как пользователям, так
Как не отставать от SEO индустрии
... для тех спам-тегов заголовков, которыми вы все еще слепо занимались. с помощью. Что делать: Используйте Evernote или Google Docs, чтобы отслеживать вещи, которые помогут вам обучить вашу команду или использовать в качестве ресурса в дальнейшем. Обязательно укажите исходные URL-адреса, чтобы вы могли вернуться и проверить наличие обновлений в этом сообщении или перейти к коллеге. Как это сделать: 1. Создайте канал RSS или используйте
SEM, SEO, SEA ... что это значит?
... jpg"> Сокращение SEO расшифровывается как поисковая оптимизация, на голландском языке « поисковая оптимизация ». Это различные методы, которые помогут вам легко найти ваш сайт в поисковых системах. Это техническая оптимизация как на самом сайте, так и за его пределами
Как создать больше продаж, используя срочность
Последняя проверка 18 мая 2019 года в 17:32 Одна из самых больших проблем, что бизнес и сайты электронной коммерции Лицом на регулярной основе является конвертация продаж. Поскольку пользователи
Как удалить index.php из URL в Joomla 3
... как использовать этот инструмент для перезаписи URL в Joomla 3.0. Пожалуйста, обратите внимание на следующее: Выберите, чтобы использовать механизм перезаписи сервера, чтобы перехватывать URL-адреса, соответствующие определенным условиям, и перезаписывать их в соответствии с указаниями. Доступно для IIS 7 и Apache. Только для пользователей Apache! - Переименуйте htaccess.txt в .htaccess перед активацией. Только для пользователей
SEO маркетинг - это искусство
... нашем мире сегодня видят SEO как задачу"> Многие практики SEO в нашем мире сегодня видят SEO как задачу. Они видят это как работу. Они видят в этом кучу квот, которые им необходимо выполнить. И если вам не нравится то, что вы делаете, скорее всего, вы один из тех парней. Ну, я говорю, SEO это искусство. Большая картина Когда вы смотрите на это в более широком масштабе, вы не можете сделать SEO без стратегии и плана. Эта стратегия и план могут
Как сделать SEO-продвижение сайтов
... для тех, кто хочет, чтобы их сайты находились в ТОПе Google, но не знает, с чего начать. Здесь нет длинных абстрактных рассуждений о том, насколько важно SEO - все и так об этом знают. У нас только практические советы и инструкции по SEO-продвижение. Бери и делай. Рекомендую выбрать компанию по продвижению сайтов https://topseo.ua/ 70% страниц в ТОП10 Google работают на HTTPS По статистике инструмента SEO-мониторинга Rank Ranger уже

Комментарии

Если вам нужно использовать специальные методы, чтобы ваш сайт появлялся в верхней части результатов поиска Google, не означает ли это, что каким-то странным образом вы обманываете?
Если вам нужно использовать специальные методы, чтобы ваш сайт появлялся в верхней части результатов поиска Google, не означает ли это, что каким-то странным образом вы обманываете? Ни в малейшей степени. В конце концов, Google необходимо учитывать множество факторов, чтобы помочь пользователям Интернета найти наиболее соответствующие сайты для их поисковых запросов. Не думайте о SEO как о чит-коде,
Это общеизвестный факт, что голосовые устройства захватывают мир, но значит ли это, что то, как мы применяем SEO, неверно?
Это общеизвестный факт, что голосовые устройства захватывают мир, но значит ли это, что то, как мы применяем SEO, неверно? Может быть, теперь нам нужно будет применить новые методы SEO к веб-сайтам, чтобы мы могли быть обнаружены Amazon's Alexa и Google Home Hub. Мы хотим помочь пролить свет на эту тему и убедиться, что все готовы к этим будущим изменениям. Нет гарантии, что алгоритмы поиска SEO изменятся для этих устройств, но всегда хорошо быть готовым к худшему! Факты
Если я говорю об этом кому-то лично и упоминаю, что владею сайтом, я называю это «SEO блог с чертой» или «SEO дефис блог» или «SEO черта блог»?
Если я говорю об этом кому-то лично и упоминаю, что владею сайтом, я называю это «SEO блог с чертой» или «SEO дефис блог» или «SEO черта блог»? Первый из них они забудут, второй звучит глупо, а третий может заставить их попробовать SEODashBlog.com. Тогда есть проблема, что владельцы SEOBlog.com могли видеть, что является в основном нарушением торговой марки и принять меры против SEO-Blog.com. То же самое может случиться, если конкурент сделает SEOblog.net или SEOblog.org, или что угодно.
Если в строке поиска Google ввести «понимать SEO» или «понимать SEO», мобильный пользователь, который выполняет голосовой поиск, с большей вероятностью спросит свое устройство «что такое SEO»?
Если в строке поиска Google ввести «понимать SEO» или «понимать SEO», мобильный пользователь, который выполняет голосовой поиск, с большей вероятностью спросит свое устройство «что такое SEO»? Или "что такое SEO?" Ты понимаешь разницу? Поэтому он будет пересматривать заголовки статей и соответствующим образом адаптироваться, особенно когда нас окружает все больше и больше подключенных объектов (Google Box, Apple TV, подключенный автомобильный радиоприемник, часы Apple и т. Д.). Кроме того,
Вы уверены, что это может заработать вам деньги в Интернете, или, может быть, вы думаете о том, как на самом деле хочется зарабатывать деньги в Интернете, сидя дома?
Вы уверены, что это может заработать вам деньги в Интернете, или, может быть, вы думаете о том, как на самом деле хочется зарабатывать деньги в Интернете, сидя дома? Основная цель этой статьи - пролить свет на то, как вы можете начать зарабатывать онлайн, используя этот сайт. Вы также можете кликните сюда и узнайте больше о том, как вы можете заработать немного денег, даже находясь дома. Что такое SEO клерки?
Это потому, что мы, маркетологи, только игнорируем это и закрываем на это глаза?
Это потому, что мы, маркетологи, только игнорируем это и закрываем на это глаза? Мы говорим, когда кто-то упоминает фальшивые отзывы, но затем мы возвращаемся к тому, что мы делали. Сегодня день, чтобы встать и выбрать сторону. Мы либо присоединяемся к борьбе, либо продолжаем позволять этому случиться. Обзор спам Многие маркетологи / оптимизаторы знают Майка Блюменталя; если вы этого не сделаете, вы должны. Майк потратил значительное количество времени, помогая
Такие вопросы, как «получает ли сайт социальные сигналы, потому что он занимает хорошие позиции, или же он получает хорошие оценки, потому что он получает социальные сигналы?
Такие вопросы, как «получает ли сайт социальные сигналы, потому что он занимает хорошие позиции, или же он получает хорошие оценки, потому что он получает социальные сигналы?», Абсолютно верны и на них нельзя ответить однозначно с текущими данными. Некоторая информация о наших данных Для набора данных США мы выбрали чрезвычайно большой набор ключевых слов из 10 000 поисковых терминов на Google.com. США. Однако мы не просто включили 10 000 лучших поисковых
Вы можете узнать больше о некоторых показателях, таких как PageRank и его альтернативах, в статье " Google PageRank: что это такое и для чего?
Такие вопросы, как «получает ли сайт социальные сигналы, потому что он занимает хорошие позиции, или же он получает хорошие оценки, потому что он получает социальные сигналы?», Абсолютно верны и на них нельзя ответить однозначно с текущими данными. Некоторая информация о наших данных Для набора данных США мы выбрали чрезвычайно большой набор ключевых слов из 10 000 поисковых терминов на Google.com. США. Однако мы не просто включили 10 000 лучших поисковых
Сколько из вас даже знали, что это допустимые элементы HTML что можно использовать в вашей структуре ссылок?
Затем, наконец, лучшее, что вы могли бы сделать, это посмотреть на ваши названия и описания для ваших продуктов, просмотреть их и сказать: «Хорошо, какие мои самые продаваемые продукты? Как они выглядят в результатах поиска и что я могу сделать, чтобы улучшить копию на страницах и заголовок описания, которое люди видят, когда находят эти продукты в Google? » Боб Данн : Отлично. Это три главные рекомендации, которые я часто слышу, особенно в области электронной коммерции и,
Или это звучит так, будто кто-то повторяет одно и то же слово снова и снова, до такой степени, что вы начинаете сомневаться, реально ли это слово?
Или это звучит так, будто кто-то повторяет одно и то же слово снова и снова, до такой степени, что вы начинаете сомневаться, реально ли это слово? Серьезно, произнесите слово «спорт» достаточно раз, и вы поймете, что я имею в виду. Да, ключевые слова важны, но так же и пользовательский опыт. Это плохой рейтинг номер один на срок в течение нескольких дней, если все, что вы делаете, это отталкиваете людей, которые просматривают с расстраивающей копией и, следовательно, не конвертируют их.
Но если они делают это, используя противоположные рычаги, разве мы не можем считать, что они дополняют друг друга?
Но если они делают это, используя противоположные рычаги, разве мы не можем считать, что они дополняют друг друга? Действительно, эти два метода имеют общую цель: привлечь посетителей на ваш сайт из поисковых систем. Оба практикуются экспертами по интернет-маркетингу. И обе они две девушки из SEM (поисковый маркетинг). На самом деле, SEO и SEA отличаются только одним: средствами, используемыми для достижения одной и той же цели.

Что такое выскабливание?
Com/r/Polaroid/search?
В середине лета, когда у вас обязательно должна быть бутылка сидра в руке, куда вы направляетесь?
Вайтроуз или ASDA?
Ваши читатели блога стали тусклыми?
О это значит?
Если вам нужно использовать специальные методы, чтобы ваш сайт появлялся в верхней части результатов поиска Google, не означает ли это, что каким-то странным образом вы обманываете?
Это общеизвестный факт, что голосовые устройства захватывают мир, но значит ли это, что то, как мы применяем SEO, неверно?
Если я говорю об этом кому-то лично и упоминаю, что владею сайтом, я называю это «SEO блог с чертой» или «SEO дефис блог» или «SEO черта блог»?
Если в строке поиска Google ввести «понимать SEO» или «понимать SEO», мобильный пользователь, который выполняет голосовой поиск, с большей вероятностью спросит свое устройство «что такое SEO»?