акция

Стратегия выявления фальсификаций и манипуляции данными в социологических опросах

Авторы: Белоусов Алексей Григорьевич

.

Рубрика: Социологические науки

Страницы: 83-90

Объём: 0,51

Опубликовано в: «Наука без границ» № 8 (13), август 2017

Скачать электронную версию журнала

Библиографическое описание: Белоусов А. Г. Стратегия выявления фальсификаций и манипуляции данными в социологических опросах // Наука без границ. 2017. № 8 (13). С. 83-90.

Аннотация: Приведены рекомендации по выявлению социологических опросов, характеризующихся фальсификацией данных или использованием методов манипуляции общественным мнением. На основе данных рекомендаций предложена стратегия исследования публикаций о результатах социологических опросов, а также голосований, на предмет фальсификаций и подтасовок.

Следование принципу стремления к истине является одним из свойств образа идеального учёного. Однако на практике реализации данного принципа существенно мешает связь науки с экономикой и политикой, особенно это касается общественных наук. Социолог, указавший в своих публикациях выводы, неугодные заказчику, рискует потерять финансирование. Это связано с тем, что результаты прикладных социологических исследований являются инструментом влияния на общество, а не просто данными.

Данная статья является в некотором роде развитием материалов публикации, изложенных в [1], её цель – представить рекомендуемую стратегию выявления фальшивых опросов и опросов, построенных на манипуляциях с данными, которой могли бы воспользоваться исследователи и другие лица, усомнившиеся в результатах некоторого опроса или голосования.

При этом следует обратить внимание, что манипуляции при проведении опроса с формулировками вопросов, с итогами опросов и т. д. не следует считать синонимом фальсификаций, поскольку прямой лжи здесь не предполагается. Например, озвученные социологами цифры получены путём честного подсчёта по анкетам, заполненным реальными респондентами, но при этом цифры могут быть получены путём махинаций с формулировками вопросов или использоваться для введения целевой аудитории в заблуждение.

Рассмотрим, какие шаги, направленные на разоблачение недобросовестных социологических опросов и недобросовестного применения результатов опросов, следует выполнять исследователю. Приводимый далее материал в некоторой, но не в полной, мере актуален и для выявления фальсифицированных голосований, предложенными методами смогут пользоваться как специалисты, так и рядовые граждане.

1. Изучение публикаций результатов исследования и публикаций оппонентов. Целесообразно собрать максимум данных о результатах социологического исследования, причём особо важны публикации самой организации, проводившей исследование, или автора. Приведём пример. В марте 2017 г. ВЦИОМ опубликовал результаты всероссийского опроса, согласно которым 52 % россиян не возражают против умеренного повышения НДФЛ, если вырученные средства пойдут на благие цели – повышение пенсий или улучшение здравоохранения [2]. Однако во многих статьях в газетах и на интернет-сайтах, например в [3], появились утверждения, что более 50 % россиян поддерживают повышение НДФЛ. В некоторых случаях подобные высказывания были лишь в заголовке статьи, а в самой статье всё же раскрывались детали, в других и вовсе умалчивалась формулировка по версии ВЦИОМ, хотя уточнение целей здесь очень важно, как и различение ситуаций, когда респонденты поддерживают повышение НДФЛ, или когда просто не возражают против него. Последнее – не одно и то же: можно не одобрять данную меру, но полагать, что она неизбежна. Изучение публикации самих исследователей в данном случае приводит к выводу, что не столько ВЦИОМ попытался манипулировать данными, сколько СМИ попытались исказить результаты или, по меньшей мере, повлиять на мнение читателей и слушателей.

Часть попыток разоблачения недобросовестных исследований социологов и социологических центров завершится на данном шаге: выяснится, что те, кто пытались привлечь внимание к опросу и якобы разоблачить исследователей, сами уличены в подтасовках и манипуляциях. Также на данном шаге важно понять, с какой целью публикуются результаты исследования, и кому они могут выгодны. Особенно это касается публикаций в СМИ и в сети Интернет и в меньшей степени – публикаций в специализированных научных журналах.

Необходимо анализировать аргументы тех, кто считает результаты опроса или голосования сфальсифицированными. В некоторых случаях это может помочь с выбором методов дальнейшего анализа публикаций исследователя. Однако следует учесть риск наличия следующих двух факторов.

А. Критика оппонентов может иметь грубые нарушения основ социологии. Так, ссылка критикующего на то, что никто из его социального окружения не голосовал за партию, победившую на выборах, может свидетельствовать о незнании понятия репрезентативности. Социальное окружение подавляющего большинства людей включает представителей далеко не всех социальных слоёв. Например, социальное окружение «разоблачителя» якобы сфальсифицированных выборов включает в себя творческую интеллигенцию, но не включает в себя ни одного рабочего; или – включает в себя представителей старшего поколения, но в нём очень мало или вовсе нет молодёжи. Следовательно, критикующий, знающий о том, за кого голосует его социальное окружение, может утверждать лишь об электоральных предпочтениях своего окружения, иногда – предпочтениях своего социального слоя, но не предпочтениях всего электората. Также утверждение о том, что предпочтения некоторой большой группы людей противоречат результатам опроса, с обоснованием, что размера группы достаточно для применения статистических законов, само по себе ненаучно. Даже большой размер выборки не гарантирует репрезентативность. Пример, когда даже многомиллионная выборка не была репрезентативной, представлен в [4].

Б. Математический аппарат оппонентов может быть необоснованным. Например, существует мнение, что на любых крупных и честных выборах кривая, показывающая распределение процента явки на избирательные участки, должна быть близко к гауссовой (рис. 1) [5]. Однако ни факт, что в общественных науках часто встречается нормальное распределение, ни опыт парламентских выборов в других странах, в общем случае, не являются обоснованием того, что при выборах в Государственную Думу РФ или, например, в региональные органы власти в субъектах федерации, процент явки на избирательные участки должен иметь нормальный закон распределения.

Гауссово распределение избирательных участков

Рис. 1. Гауссово распределение избирательных участков по проценту явки 

Весомые аргументы против теории о нормальных распределениях на выборах приводятся в [6]: люди голосуют не случайным образом, и они приписаны к избирательным участкам не случайно, а территориально.

2. Выявление грубых ошибок. Вполне естественно, что не следует сразу пытаться использовать сложные математические модели, чтобы оценить, нет ли фальшивых данных в результатах опроса. Незначительными затратами времени, но довольно высокой эффективностью характеризуются методы, которые в [1] отнесены к двум нижним уровням сложности. Однако следует остерегаться неправильного понимания используемых методов. Так, за счёт округления процентов суммирование округлённых процентов может дать результаты наподобие 99,9 %, 100,1 %, однако это ещё не причина считать, что исследователи не только сфабриковали результаты, но даже не способны сфальсифицировать их так, чтобы было малозаметно. В частности, при округлении до десятых ошибка округления всегда на интервале (-0,05; 0,05], поэтому нет ничего аномального в том, что при суммировании трёх таких процентных показателей сумма ошибок по величине превысит 0,01. Напротив, если социологический центр всегда получает сумму ровно 100%, и ошибки округления в его опросах никогда не проявляются, это основание задуматься о возможных фальсификациях, если число респондентов – не делитель 1000.

На шаге 2, помимо простых арифметических, вероятностных и статистических методов, следует также использовать нематематические методы, связанные с выявлением логических и психологических приёмов манипулирования данными. В частности, следует обратить внимание на вопросы, задаваемые в анкете или интервью.

3. Сравнение с аналогичными исследованиями. Если публикация результатов опроса не содержит легко обнаружимых признаков фальсификаций и подтасовок, практически всегда потребуется сравнение с другими схожими исследованиями. В [1] мы отнесли данный метод к высшему уровню сложности ввиду его трудоёмкости и многочисленных особенностей, требующих значительного опыта, однако без знаний результатов схожих исследований углубленный анализ проверяемого исследования выполнять трудно. Кроме того, сравнение с исследованиями-аналогами упрощает различение намеренной фальсификации и ненамеренных ошибок.

При сравнении с аналогами нас интересует, не являются ли какие-то показатели в результатах опроса аномальными на фоне аналогов. Если речь идёт о сравнении с аналогичными исследованиями, проводимыми примерно в то же время, то возникает задача проверки одномерного ряда на статистические выбросы. Если же некоторый показатель (рейтинг политика, процент недовольных тарифами ЖКХ и т. д.) сопоставляется с аналогичным в других опросах, существенно различающихся по времени проведения, речь идёт о проверке двумерного ряда на выбросы, например, путём построения линии тренда (рис. 2) и сведения ряда к одномерному. Если значение показателя, озвученное в проверяемом исследовании, оказывается статистическим выбросом, это веская причина считать исследование недобросовестным.

Выброс двумерного ряда

Рис. 2. Выброс двумерного ряда 

В список аналогов можно включить исследования не только других учёных или коллективов, но и того, чей труд мы анализируем. В частности, исследователь может быть уличён в фальсификации путём сопоставления его результатов с предыдущими. Так, если в его публикации количество граждан, довольных уровнем жизни, выше, чем в другой его публикации несколькими годами ранее, но экономическая ситуация в стране за это время резко ухудшилась, сопоставление явно не в пользу честности исследователя.

При наличии одинакового вопроса (с точностью до вариантов ответа) в анкетах двух опросов от различных исследователей, проверить, являются ли расхождения в результатах по вопросу, можно с помощью критерия «хи-квадрат», введя номинативные переменные «Ответ на вопрос» и «Опрос», значения первой – варианты ответа, значений второй – к какому опросу относятся ответы. Если гипотеза о независимости номинативных переменных отклоняется на низких уровнях значимости (например, a = 0,01), расхождения в результатах опросов существенные. Пусть теперь дан опрос S и ряд других опросов, имеюших общий вопрос. Для каждого из остальных опросов выполняем сопоставление с S с помощью критерия «хи-квадрат». Чем больше раз отклоняется гипотеза о независимости переменных, тем более веские основания для призывов к расследованию на предмет фальсифицированности S.

Следует обратить внимание, что степень корректности сравнения с исследованиями-аналогами существенно зависит от таких деталей, как метод формирования выборки, особенности генеральной совокупности (так, сравнение опроса среди жителей Брянской области на предмет удовлетворённости заработной платой с аналогичным опросом среди жителей Дагестана в нашем случае малоинформативно). Естественно, недобросовестный манипулятор знает, что если он будет опираться на ту же генеральную совокупность, что и исследователи с незапятнанной репутацией, использовать те же методики формирования выборки, то это приведёт к риску разоблачения [7, с. 283-284]. Поэтому ситуация, когда исследований, близких к проверяемому, найти не удаётся, выглядит вполне вероятной.

4. Поиск маловероятных событий. Событие в данном случае трактуется в том понимании, какое свойственно современной теории вероятностей. Сложность данного шага заключается в том, что нельзя заранее определить, какие именно цифры анализировать на предмет маловероятных событий и совпадений. Это могут быть следующие ситуации.

А. Количество (не доля) ответов по каждому варианту ответа. Например, иногда удаётся сделать выводы о том, что реальная выборка меньше заявленной, на основе анализа делителей количества ответов по вариантам, в лучшем для нас случае эти числа вовсе будут иметь общий делитель выше 1.

Б. Наличие большого количества рядом идущих «нулей» или «девяток», когда процентная доля взята без округления.

В. Значительное несоответствие распределения цифр различным статистическим законам. Так, в некоторых случаях возможно попытаться использовать законы Бенфорда, однако следует учитывать, что его применение для анализа результатов опросов и голосований не всеми социологами считается корректным [8, с. 13].

5. Взаимодействие с исследователем. Если при выполнении шагов 1…4 получены веские основания утверждать о сфальсифицированном опросе, целесообразно попытаться затребовать у исследователя объяснения маловероятных событий, а также значительных противоречий существующей ситуации в обществе, результатам аналогов. Приведём причины, по которым не следует сразу же объявлять опрос сфальсифицированным и обвинять исследователя в научных изданиях или на интернет-форумах, особенно если опрос не связан с политическими предпочтениями населения.

А. Исследователь мог допустить непреднамеренные ошибки, и он готов принять меры, чтобы избежать их в дальнейших своих работах.

Б. Не всегда опрос проводится самим исследователем. Анкетёры и интервьюеры могут пойти на намеренное нарушение требований проведения опроса или инструкций, полученных от руководителя. Если исполнитель опроса имеет посредственное отношение к проекту (неформально говоря, просто зарабатывает деньги за сбор данных), то, например, вполне вероятной окажется ситуация, при которой он не станет обходить разные дома, а соберёт всех респондентов в одном доме [9, с. 116]. Чтобы избегать риска таких ситуаций, приходится идти на трудоёмкие меры, например, «проверочный» опрос или значительное увеличение объёма выборки. Например, чтобы снизить ошибку выборки на 1 %, иногда приходится удваивать её объём, и это же придётся сделать, чтобы избежать роста ошибки выборки в предположении, что исполнителем будет сфальсифицирован 1 % анкет, поскольку верхняя оценка роста ошибки – доля сфабрикованных анкет в общем массиве анкет [10].

В. Существует проблема взаимодействия авторов и редакторов. В частности, могут возникать ситуации, когда автор не смог удачно сформулировать свои идеи, умозаключения и т. д., однако редакторы упустили неудачные формулировки, и они попали в публикацию [9, с. 103-104].

Замечания и предостережения. Предложенная стратегия не универсальная, и в некоторых случаях есть более быстрые пути проверки достоверности результатов опросов. В частности, в случае подозрений на то, что опрос на самом деле не проводился вовсе, иногда есть возможность провести быстрый опрос с целью выяснить, проводился ли проверяемый опрос на самом деле. Оценка надёжности такого метода контроля определяется с помощью методов теории вероятностей и комбинаторики и зависит как минимум от размеров генеральной совокупности выборки, заявленной в публикации, и контрольной выборки. Без использования математических методов оценки, заявления о том, что никто в контрольной выборке ничего не слышал о ранее проводившемся опросе, ненаучны. Также иногда выдуманные опросы могут быть выявлены при запросе каких-либо деталей касательно метода проведения и процесса проведения. Один из важных признаков потенциально сфальсифицированных исследований – скупость на детали.

Наконец, важно отметить, что выявление подтасовок, манипуляций с данными и прочие разоблачения опросов не рекомендуется выполнять без достаточных знаний методов прикладной социологии, а также понимания теории вероятностей, математической статистики. Разоблачения сфальсифицированных опросов и голосований нередко выполняются писателями, блогерами и иными лицами, имеющими в лучшем случае косвенное отношение к социологии и статистике. Даже если аргументы таких «разоблачителей» оказываются резонными, как минимум их мнение не будет авторитетным в среде социологов.

Список литературы

  1. Белоусов А. Г. Математические методы выявления недостоверных и фальшивых данных в результатах опросов и голосований // Информация как двигатель научного прогресса : сборник статей Международной научно-практической конференции (15 апреля 2017 г., г. Екатеринбург). В 3 ч. Ч. 3. Уфа : АЭТЕРНА, 2017. С. 6-11.
  2. Налог на доходы физических лиц: идём на повышение? [Электронный ресурс]. URL: https://wciom.ru/index.php?id=236&uid=116129 (дата обращения: 5.08.2017).
  3. Опрос: более 50 % граждан России поддерживают повышение НДФЛ [Электронный ресурс]. URL: https://russian.rt.com/russia/news/372640-ndfl-povyshenie-rossiyane-podderzhivayut (дата обращения: 6.08.2017).
  4. Кудрявцева Н. Ф. Опрос, который изменил опросы // Известия Российского государственного педагогического университета им. А. И. Герцена. 2009. № 87. С. 160-167.
  5. Физик, политолог и политгеограф о фальсификациях на выборах [Электронный ресурс]. URL: https://esquire.ru/elections (дата обращения: 5.08.2017).
  6. О методах статистического анализа результатов выборов [Электронный ресурс]. URL: http://vvv-ig.livejournal.com/107951.html (дата обращения: 5.08.2017).
  7. Матвейчев О. А. Уши машут ослом. Сумма политтехнологий. М. : Эксмо, 2008. 1140 с.
  8. Словохотов Ю. Л. Физика и социофизика. Ч. 3. Квазифическое моделирование в социологии и политологии. Некоторые модели лингвистики, демографии, математической истории // Проблемы управления. 2012. № 3. С. 2-34.
  9. Рогозин Д. М., Ипатова А. А. Насколько разумна наша вера в результаты «бумажных» квартирных опросов? М. : Радуга, 2015. 124 с.
  10. Найти и обезвредить: борьба с фальсификациями в маркетинговых исследованиях [Электронный ресурс]. URL: http://christsocio.info/content/view/93 (дата обращения: 7.08.2017).

 

Материал поступил в редакцию 09.08.2017
© Белоусов А. Г., 2017