Как визуализировать данные Open Site Explorer в Gephi

  1. Основы ориентированных графов
  2. Что этот график показывает нам
  3. Как визуализировать данные Open Site Explorer с помощью Gephi
  4. Шаг первый: подготовьте данные
  5. Шаг второй: Лаборатория данных
  6. Шаг третий: импорт данных
  7. Шаг четвертый: Установите входные атрибуты
  8. Шаг пятый: Установите типы данных
  9. Шаг 6: Вернитесь к обзору
  10. Шаг 7: Запустите Алгоритм Layout
  11. Шаг 8: Установите стиль
  12. Сделать это довольно
  13. Что вы можете получить из этих графиков:

Теория графов имеет фундаментальное значение для большей части работы, проделанной в SEO и социальных сетях. Все от PageRank, EdgeRank, анализа спама, кластеризации и неявные / явные социальные графы все построены на теории графов. Хотя успешное SEO может быть выполнено, даже не зная разницы между узлом и ребром, базовое понимание теории графов может помочь SEO сделать интеллектуальный скачок, чтобы лучше понять, как поисковые системы могут просматривать и анализировать данные.

неявные / явные социальные графы

График выше представляет собой визуализацию профиля ссылки сайта в моей нише, созданного в изящной программе под названием Gephi , Я впервые упомянул Gephi в моем SearchFest презентация в Портленде и снова в моем Презентация LinkLove в Бостоне , Я хотел показать, как я получил этот график. В этом посте я проведу вас шаг за шагом через создание привязки текста к целевому ориентированному графу страницы, используя данные из Открыть Site Explorer ,

Основы ориентированных графов

Направленный граф - это простая концепция. Ниже приведена схема ориентированного графа из моего поста Анализ спама на основе ссылок ,

Направленный граф имеет как узлы (источники и цели), так и ребра (связи между узлами). Края могут проходить в одном или обоих направлениях. Кроме того, как узлы, так и ребра могут нести различные веса.

Например, ссылка с одной страницы на другую может быть представлена ​​в виде стрелки с толщиной, определяемой PA страницы ссылки. Открыть Site Explorer экспорт - это просто данные ориентированного графа в формате CSV. Все экспорты имеют текст привязки (источник) и целевой URL (цель), которые определяют узлы. Кроме того, каждое соединение имеет дополнительные данные, такие как ссылки на корневые домены, количество ссылок, DA и PA. Все они могут использоваться для взвешивания соединения между узлами, а также для взвешивания самих узлов.

Что этот график показывает нам

Эти графики могут показаться немного пугающими на первый взгляд, но все они интерактивны в Gephi. Это может позволить вам наносить метки и наводить курсор на различные узлы. Но давайте сделаем краткий обзор того, что можно увидеть на этом графике.

На этом графике есть несколько основных особенностей.

  • Целевые URL и текст привязки представлены синими узлами.
  • Размер узла определяется InDegree (количество ребер, указывающих на него), поэтому более сильные узлы имеют большие круги. Вы также можете использовать метрики, такие как PA, DA, LRD, в качестве атрибутов узлов, поэтому они масштабируются по этим метрикам, а не только по InDegree и OutDegree. Это займет немного больше работы, чем я показываю в этом посте.
  • Соединения представлены зелеными линиями, представляющими ссылку на гиперссылку между привязанной ссылкой и целевой страницей.
  • Все якоря, которые совместно используют один и тот же целевой кластер URL вокруг целевого узла URL.

Все функции, такие как цвет и размеры узлов, можно настраивать, поэтому, если вам здесь не нравятся мои цвета, не беспокойтесь, их можно изменить в Gephi.

Кластеризация довольно мощная. В этом примере это подчеркивает что-то интересное.

Ни для кого не удивительно, узел домашней страницы - самый сильный, самый хорошо связанный узел. Большинство сайтов будут следовать этому шаблону, так как большинство ссылок, как правило, указывают на домашнюю страницу сайта. Сайты с лучшим глубоким связыванием увидят серию меньшего, но большего количества кластеров. В этом случае есть две другие страницы, которые являются сильными центрами на сайте. Внизу находится страница « Онлайн-игры» на этом сайте, которая является иерархическим центром этого сайта, и против нее была проведена мощная кампания по созданию внешних ссылок. Это сильная страница, но, как вы можете видеть на графике, центральный узел не так заметен, как домашняя страница.

Однако справа внизу очень сильный узел, почти такой же сильный, как домашняя страница. Он разделяет несколько якорей с остальной частью сайта, и поэтому немного отодвинут в сторону. Он сгруппирован сам по себе, далеко от домашней страницы. Чем это вызвано?

Этот конкретный сайт приобрел сильный подержанный домен и 301 перенаправил его на подстраницу на сайте. И подстраница, и подержанный домен находятся на одной теме, и это было законное приобретение, но подержанный домен разрабатывался годами независимо от компании, которая окончательно его приобрела. Из-за этого он разделяет несколько фирменных и целевых якорей с остальными страницами сайта. Тактика очень хорошо работает для этого сайта, но график, подобный этому, показывает, как легко поисковым системам обнаружить неестественное поведение при связывании.

Как визуализировать данные Open Site Explorer с помощью Gephi

Начните с открытия Open Site Explorer и экспорта CSV обратных ссылок в выбранный вами домен.

Шаг первый: подготовьте данные

Откройте CSV-файл в Excel, измените текст привязки на исходный и целевой URL-адрес на целевой. Вы можете сохранить все данные в CSV, но я удалил лишние данные, относящиеся к ссылкам, просто чтобы упростить пример. Я оставил следующие данные.

Это показывает отношение «Якорный текст -> Целевая страница», но отношение краев может быть создано по-разному. Например, вы можете показать Страницу связывания -> Якорный текст, Страницу связывания -> Целевую страницу и Домен (ы) -> Домен (ы).

При работе в Excel будьте осторожны, чтобы не позволить Excel добавлять пустые строки данных в CSV. Вы можете избежать этого, отредактировав его в текстовом редакторе.

Шаг второй: Лаборатория данных

В Gephi вы увидите кнопку с надписью «Лаборатория данных», вверху которой нажмите.

Шаг третий: импорт данных

Отсюда вы можете импортировать ваш CSV.

Шаг четвертый: Установите входные атрибуты

Есть два шага к процессу импорта. Установите «As table» в «Edges table». Вы можете импортировать таблицы узлов отдельно, но это для другого поста.

Для получения дополнительной информации здесь немного Информация от Gephi на форматах CSV и некоторых пример данных кто-то положил на Github.

Шаг пятый: Установите типы данных

Шаг пятый: Установите типы данных

В зависимости от объема данных, которые вы извлекаете, вы можете указать тип данных для каждого из них. Вы можете установить числа на что-то вроде Integer или Float, а метки и текст на String. После того, как он импортирован, вы можете щелкнуть по узлам в Data Laboratory и скопировать столбец Id в метку, чтобы легко отображать метки при предварительном просмотре.

Шаг 6: Вернитесь к обзору

После импорта вы можете нажать «Обзор», и вы увидите, что ваши данные представлены в виде множества связанных точек. Нам нужно запустить алгоритм компоновки, чтобы правильно распределить все эти узлы.

Шаг 7: Запустите Алгоритм Layout

Я успешно использовал Ифань Ху, когда играл с данными Open Site Explorer. ForceAtlas также является хорошим макетом для некоторых типов данных.

Когда вы щелкаете по макету, он либо будет продолжать работать в течение длительного времени, и вы можете остановить его, когда будете удовлетворены, или он будет запущен до завершения и может запускаться снова и снова, чтобы получить желаемые результаты. Если вы решите отображать метки в режиме обзора, существует макет «Корректировать метки», который будет расшатывать узлы вокруг, оставляя место для меток. Стоит проверить GUI вики-страница, чтобы узнать обо всех различных функциях доступно, так как это может быть немного сложным.

Как только вы запустите макет, вы получите что-то ближе к этому.

Шаг 8: Установите стиль

Вверху слева вы видите вкладку с рейтингом. Вы можете использовать это для настройки цвета и размера (а также цвета и размера метки) на основе InDegree, OutDegree и других метрик, которые вы использовали для определения границ или узлов. Цветовое колесо меняет цвет, а красный бриллиант меняет размер. Вы устанавливаете нужные настройки, затем нажимаете «Применить», затем переходите к следующей функции, устанавливаете, затем нажимаете «Применить». (Это поведение немного шатко, поэтому требуется некоторое время, чтобы заставить его выглядеть так, как вы хотите.)

Вы заметите, что ваш обзор никогда не выглядит так же красиво, как графики в начале этого поста.

Сделать это довольно

Если вы перейдете к предварительному просмотру (рядом с вкладкой Data Laboratory), есть целый набор функций, которые сделают его красивым. Я переключился на Preview и использовал Default Curved и нажал на обновление. Тогда ниже, что у вас есть тонна настроек для изменения цвета и других визуальных функций.

Например, я зашел в Google Analytics и экспортировал отчет, показывающий ключевое слово, в трафик URL. Я установил ключевое слово в качестве источника и URL в качестве цели, затем повторил шаги, описанные выше. После предварительного просмотра это выглядит примерно так (я немного запутал данные, так что это не совсем отражает трафик на сайт).

После предварительного просмотра это выглядит примерно так (я немного запутал данные, так что это не совсем отражает трафик на сайт)

С помощью этого графика я могу визуализировать распределение трафика по ключевым словам на страницах, на которые он попадает. Это может идентифицировать случаи двойных списков, ссылок на сайты и персонализации.

Что вы можете получить из этих графиков:

  • Кластеры . Наиболее мощной функцией является кластеризация, когда узлы группируются во взаимосвязи, и для их определения могут использоваться различные факторы. Например, более сильные связи могут привести к более сильным, более тесным кластерам, а более низкие связи - к большему отталкиванию. Эти кластеры могут показывать ценные «источники» и «поглотители» в конкретном графике.
  • Сильные привязки (ключевые слова) - вы можете масштабировать привязки с помощью OutDegree, чтобы показать, какие привязки ссылаются на многие страницы, или я могу использовать показатели SEOmoz для масштабирования узлов.
  • Сильные страницы - Вы можете масштабировать страницы по InDegree, чтобы показать, на какие страницы приходится много ссылок, или получать трафик от множества различных ключевых слов.
  • Выбросы - Наряду с кластеризацией вы сможете идентифицировать выбросы, которые группируются вдали от остальной части графика. В основном примере, который я привел, 301 перенаправленный домен, находящийся в собственности, выглядит как удаленный кластер.
  • Масштабирование по значению. При небольшой работе ребра и узлы можно масштабировать с помощью метрик ссылки, таких как PA или DA, чтобы размер круга или полужирность стрелки масштабировались в зависимости от значения, передаваемого по ссылке.
  • Анализ конкурентных ссылок - его можно использовать в анализе конкурентных ссылок, чтобы показать общие ссылки, аналогично примеру SEER, приведенному в их замечательном посте о том, как это сделать. построение графиков с помощью таблиц Fusion ,
  • Внутренние ссылки - я еще не проверял, но я уверен, что вы могли бы объединить это с чем-то вроде Пост Джошуа Титсуорта об использовании Screaming Frog и Excel для визуализации данных внутренних ссылок , но поместите этот тип материала в Gephi.
  • Социальные сети - вы можете очищать или экспортировать социальные данные, твиты или поиски #hashtag для визуализации связей и твитов между пользователями.