top of page

Проблемы и анализ данных в социальных сетях.

Недавно я просмотрел отличный доклад об анализе социальных сетей (SNA), сделанный во время немецкой конференции по открытым исходным кодам (GOSINTCon). В последней презентации дня Ребекка Зинке объяснила, что такое SNA, и обсудила возможности SNA для исследований с использованием данных социальных сетей. (Примечание. Запись конференции полностью доступна онлайн , все сообщения на немецком языке, однако, если вы хотя бы немного понимаете язык, вы сможете следить за большинством из них.)


Я был рад видеть, что СНС обсуждается более подробно, потому что слишком часто СНС называют просто «модным словечком» или каким-то магическим инструментом без особых пояснений о том, о чем она на самом деле. Хуже того, его также иногда объединяют с «анализом ссылок», что является совершенно другой областью.


Однако, несмотря на то, что Зинке лаконично и понятно объяснил СНС, существует ряд проблем с использованием СНС для данных социальных сетей для исследований, которые заслуживают большего внимания. В этом сообщении в блоге я сосредоточусь на трех ключевых проблемах, с которыми, как мне кажется, придется столкнуться в каждом исследовательском проекте СНС и которые наиболее актуальны в отношении данных социальных сетей. Эти вызовы касаются:


тип и вес отношений

атрибуты узла

ограничения данных


Для краткости я предполагаю, что читатели имеют общее представление о том, что такое СНС, включая наиболее часто используемую терминологию. Если вы хотите сначала ознакомиться с основами SNA, хорошее введение в тему можно найти, например, в этой статье First Draft , а также здесь , в руководстве Министерства внутренних дел Великобритании (pdf) или в Van der Hulst ( 2009) .



Тип и вес отношений


Наиболее часто используемыми элементами анализа социальных сетей являются так называемые меры центральности. Это индексы, которые позволяют нам понять, какие узлы занимают важные позиции в сети. Тремя наиболее часто используемыми мерами центральности являются степень центральности , центральность близости и центральность промежуточности , которые рассчитываются на основе количества соединений и положения узла в сети. (Примечание. Существует множество других типов показателей центральности и других методов сетевого анализа, однако их обсуждение выходит далеко за рамки этой публикации в блоге.)


Стандартные методы расчета показателей центральности исходят из одинакового веса (или силы) каждой связи. Однако, поскольку ссылка в социальной сети представляет собой социальную связь, фактический вес не является автоматически одинаковым для каждой ссылки. Например, супружеская пара или братья и сестры, которые также связаны на Facebook, очевидно, имеют гораздо более крепкие взаимные отношения по сравнению с отношениями, которые люди имеют с друзьями на Facebook, которых они на самом деле не видели годами (если вообще видели). Быть связанным или нет в социальных сетях — это очень поверхностное понятие, которое не дает достаточного содержания для интерпретации характера взаимных отношений.


Тем не менее, в SNA, основанной на данных социальных сетей, все ссылки обычно рассматриваются как имеющие одинаковый вес. В результате важность некоторых узлов в сети может быть легко недооценена или переоценена. Поэтому более продвинутый анализ использует взвешенные ссылки, что, однако, требует хорошего предопределенного понимания того, как должен определяться вес ссылок.


Неопределенность относительно веса ссылки также имеет место в сетях с направленными ребрами. Зинке показал разницу между направленными и ненаправленными краями и влияние на анализ. Например, анализ сети с направленными краями, такой как Twitter, может прекрасно показать, как информация распространяется по сети. Очень интересной статьей на эту тему является, например, « Раскрытие прокитайской правительственной информационной операции » Бенджамина Стрика . В этой статье он показывает, как он проанализировал сеть твиттер-ботов, распространяющих и усиливающих пропаганду.


Однако данные одного и того же типа могут быть не столь полезны для выполнения любого анализа центральности для исследования реальных людей. Отчасти это связано с тем, что Стрик использует социальные действия, такие как ретвиты и лайки, в качестве границ, представляющих взаимодействие. Для того типа анализа, который он проводит, это действительно полезно. Для других типов анализа рассмотрение социальных действий, таких как «лайки», как реальных отношений может быть проблематичным.


В конце концов, мне может понравиться пост в социальной сети только потому, что я наткнулся на него и мне действительно понравился контент, или потому что он был опубликован хорошим другом, и я хочу показать свою поддержку, даже если я безразличен к контенту. Поэтому понимание социального значения взаимодействия, которое представлено «связью», очень важно, прежде чем можно будет провести какой-либо осмысленный анализ.



Атрибуты узла


Еще одна проблема в SNA состоит в том, чтобы понять, что мы (не знаем) знаем об атрибутах узлов или актеров. В начале презентации Зинке показывает, как возраст одного из действующих лиц в сети может объяснять центральное положение, которое он занимает. Я считаю, что этому моменту нужно уделить больше внимания, особенно потому, что различные исследовательские статьи показали важность атрибутов узлов.


В целом анализ социальных сетей фокусируется на «социальном капитале» актеров, предполагая, что те, у кого лучший доступ к другим участникам сети, более важны или влиятельны. Однако, если нашими действующими лицами являются люди, у них могут быть разные навыки (в терминах сетевого анализа: атрибуты), и актеров с определенными навыками может быть нелегко заменить (Sparrow, 1991). Следовательно, они могут быть более важными для сети, чем это видно только из показателей центральности.


В своем исследовании организованной сети по выращиванию каннабиса Duijn and Klerks (2014) применяли, помимо СНС, также и более качественный подход, включая анализ сценариев преступлений. Они пришли к выводу, что, поскольку культивирование каннабиса является сложным и деликатным преступным бизнесом, включающим множество ролей и задач, одних мер централизованности недостаточно для получения правильного понимания того, кто является наиболее важными участниками сети.


Следствие вышеизложенного для исследования данных социальных сетей заключается в том, что SNA в лучшем случае может дать ограниченную картину ролей и важности субъектов в сети, и что не следует забывать о более качественном анализе атрибутов участников.



Ограничения данных


Третья проблема, и, как я считаю, одна из самых больших проблем в СНС (и, возможно, в любом типе анализа), — это качество данных. Что касается СНС по данным из социальных сетей, особенно степень полноты данных, является серьезной проблемой.


Если мы посмотрим на полноту данных для расследований или анализа разведывательных данных, то увидим важное различие между тем, что называется « пропавшими без вести» и «пропавшими не случайно» (MNAR) . Если данные «отсутствуют случайным образом», вероятность отсутствия точек данных одинакова для всех потенциально доступных точек данных. Если это так, то маловероятно, что отсутствующие данные окажут существенное влияние на результат анализа, если они будут включены.


В качестве примера мы могли бы снова взглянуть на расследования Бенджамина Стрика в Твиттере, о которых говорилось выше. Он собирал твиты за определенный период времени на основе двух определенных хэштегов. Этот метод сбора данных мог пропустить некоторые (повторные) твиты или отметки «Нравится» из-за иногда неустойчивого поведения платформы Twitter или случайных сбоев в процессе сбора данных Twint . Однако, учитывая случайность отсутствующих данных и предмет его исследования — т. е. бот-сети Twitter, которые целенаправленно усиливают пропаганду, — отсутствие некоторых (повторных) твитов или лайков существенно не изменит результат анализа. Однако все будет по-другому, если данные будут отсутствовать не случайным образом.


Если мы расследуем людей, которые скрывают (некоторые) свои действия и/или (взаимные) связи, они могут не использовать определенные платформы социальных сетей или использовать их в наиболее приватном режиме, чтобы целенаправленно сохранить некоторую конфиденциальность. Любые отсутствующие данные затем считаются отсутствующими в силу специфики данных, вызванной целенаправленным (отсутствием) действия наблюдаемого актера. В результате вероятность отсутствия точек данных в наблюдаемом наборе не одинакова для всех потенциально доступных точек данных. Следовательно, в этих случаях любые отсутствующие данные «отсутствуют не случайно» и, следовательно, могут значительно изменить результат любой СНС, примененной к данным.

Чтобы проиллюстрировать, какими могут быть последствия «отсутствия неслучайных» данных, мы рассмотрим упражнение, которое я недавно использовал для базового обучения СНС для голландского государственного учреждения. В этом примере мы рассмотрим группу из десяти подростков, которые хотят устроить частную вечеринку, чтобы избежать блокировки Covid. Они знают друг друга как друга, члена семьи или соседа.


В упражнении участники должны были зафиксировать связи между подростками на основе текста, нарисовать отношения на социограмме, как показано ниже, и понять структуру группы, а также определить варианты вмешательства, рассчитать различные меры центральности. На приведенной ниже социограмме размер цифр представляет собой степень промежуточности подростков по отношению к остальным. Хелен, кажется, занимает здесь позицию привратника и имеет наибольшую степень промежуточности по сравнению с другими.


Первоначальная центральность промежуточности


Затем, во время подготовки к вечеринке, некоторые участники группы встречаются, и выясняется, что на самом деле Брижит и Жанин были очень близкими подругами детства, но, к сожалению, потеряли друг друга из виду, потому что Жанин переехала в другой город со своими родителями. Теперь они снова встречаются впервые за 10 лет и сразу же возобновляют свою дружбу.


Если мы добавим это ранее неизвестное отношение к социограмме и пересчитаем центральность по промежуточности, мы получим несколько иной обзор, в котором на самом деле Бригитта имеет самую высокую центральность по промежуточности вместо Хелен (NB: также изменяются степень центральности и центральность по близости).


Промежуточная центральность пересчитывается после добавления ссылки


Этот очень простой случай показывает, что одна добавленная ссылка может иметь значительные последствия для показателей центральности (особенно в небольших сетях, которые я должен добавить). И на самом деле, в реальной жизни нам нужно учитывать, что есть много отношений, которые мы не видим в данных из открытых источников (социальных сетей). Люди все больше заботятся о конфиденциальности в социальных сетях и блокируют свои учетные записи, чтобы мы не могли видеть (все) их связи. В результате объем данных, «отсутствующих случайно», скорее всего, возрастет.


Вывод


В заключение можно сказать, что анализ социальных сетей может быть важным инструментом разведки и расследований, и приятно видеть, что некоторые концепции и методология обсуждаются на таких конференциях, как ГосинтКон.


Тем не менее, как показано в предыдущих параграфах, существуют серьезные проблемы с СНС, которые нельзя игнорировать, особенно при использовании данных социальных сетей. Прежде чем результаты анализа социальных сетей можно будет использовать для каких-либо выводов, необходимо хорошее понимание этих проблем. И, тем не менее, результат любой СНС всегда следует понимать как дополнение к другому анализу, а не как единственную серебряную пулю для решения дела.


На протяжении всего текста я уже упоминал некоторые научные статьи об использовании анализа социальных сетей в (правоохранительных) расследованиях и связанных с этим проблемах. Эти документы перечислены ниже вместе с рядом других документов, каждый из которых содержит дополнительную информацию о (других) проблемах, связанных с применением СНС для расследований. Конечно, в этих документах также показаны различные подходы, используемые исследователями при применении СНС к исследованиям, что, в свою очередь, может стать источником вдохновения для вашей собственной работы. Не стесняйтесь обращаться ко мне, если у вас есть какие-либо вопросы.



Литература


Берлускони, Г. (2013) «Все ли части имеют значение? Оценка надежности источников данных правоохранительных органов для сетевого анализа прослушивания телефонных разговоров », в Global Crime, Vol. 14, № 1, 61–81.


Бихлер Г., А. Мальм и Т. Купер (2017 г.) Сети поставок наркотиков: систематический обзор организационной структуры незаконной торговли наркотиками, Crime Science, Vol 6:2.


Кавалларо, Л., и Фикара, А., и Де Мео, П., и Фьюмара, Г., и Катанезе, С., и Багдасар, О., и Лиотта, А. (2020). «Разрушение устойчивых преступных сетей с помощью анализа данных: случай сицилийской мафии», в PLoS ONE 15(8): e0236476. http://arxiv.org/abs/2003.05303v1


Дивиак, Т. (2019). Ключевые аспекты сбора данных о скрытых сетях: проблемы, вызовы и возможности. Социальные сети. https://doi.org/10.1016/j.socnet.2019.10.002


Дуин, П. и П. Клеркс (2014 г.) «Анализ социальных сетей в применении к преступным сетям: последние разработки правоохранительных органов Нидерландов» в AJ Masys Networks and Network Analysis for Defense and Security (стр. 121-159).


Ван дер Халст, Р. (2009) Введение в анализ социальных сетей (SNA) как инструмент расследования », в Trends in Organised Crime 12: 101–121.


Воробей, М. (1991) «Применение сетевого анализа к криминальной разведке: оценка перспектив», в Social Networks 13: 251-274.

59 просмотров0 комментариев

コメント


bottom of page