מכל מלמדײ השכלתי (duchifat) wrote,
מכל מלמדײ השכלתי
duchifat

Categories:

statistical

"Как значение синуса в военное время может достигать четырёх, так и центральная предельная теорема во время выборов не работает" -- из блогов

МЫ НЕ ВЕРИМ ЧУРОВУ! МЫ ВЕРИМ ГАУССУ! -- надпись на плакате


* * *


http://www.lif.univ-mrs.fr/~ashen/elections.pdf
Юзер nedosionist дал ссылку на интересную статью (?) А.Х.Шеня "Выборы и статистика: казус Единой России (2009, 2011)". Там много интересных наблюдений, относящихся к выборам в Мосгордуму в 2009 и, частично, к нынешним. Я не знаю, кто Шень сейчас, но лет 25 лет назад (когда я был старшеклассником) помню его среди организаторов каких-то школьных математических олимпиад.

Никаких сенсационных выводов там нет. В аннотации (в большинстве статей обычно читается только аннотация и выводы) сказано, что цель статьи - объяснить смысл графиков и выбор статистических гипотез. Выводы сформулированы в заключении (раздел 6). Шень приходит к выводу, что, из всех возможных гипотeз, гипотеза о фальсификации самая правдоподобная. Но вывод не окoнчательный, и читатель может и должен составить собственное мнение по этому вопросу. Что я и делаю.

Прежде всего я решил разобраться, какие альтернативные гипотезы рассматривает Шень. По-идее, они должны разбираться в разделе 5 "обсуждение гипотез". На деле там обсуждается нечто иное - внешние данные, которые могут иметь отношение к делу. Раздел 5.1 - про неожиданные пики на круглых числах, к сожалению, анализа нет. Раздел 5.2. данные КОИБ. Это очень убедительные (в отличие от аналогичных данных с последних выборов в Думу) данные в пользу фальсификации. Вроде бы получается, что ВСЕГДА при наличии КОИБ явка заметно снижается, особенно разительно на Рис. 8 (рис. 7 и 9 менее убедительны). Правда, этот рисунок относится только к одним выборам (президентским 2008) и никаких данных о том, где ставились КОИБы на тех выборах, автор не приводит. Возможно, именно на тех выборах они ставились в районах с низкой явкой, а возможно имело место фальсификация, я бы не торопился с выводом. Раздел 5.3. - сравнение с другими выборами в других местах (не интересно). Раздел 5.4 -- внешние (не статистические) свидетельства о подтасовках (не интересно). Раздел 5.5. реакция Центризбиркома на обвинения (не интересна, т.к. зависит от компетености чиновников, в которую я лично не очень верю).

Реально же Шeнь обсуждает данные "голоса за партию vs. явка" (Рис. 1-2), которые показывают, что у ЕР голоса резко растут, пропорционально явке, а у остальных партий нет. Гипотеза о фальсификации состоит в том, что голоса докидывались в пользу ЕР. От этого росла как явка, так и результат ЕР, это и объясняет почти линейную иx пропорциональность.

Эта одна гипотеза, но Шень формулирует альтернативные гипотезы (раздел 4 "Варианты объяснений") и пытается оценить их правдоподобность. Вот ту и начинается самое интересное. Альтернативные гипотезы должны, по идее, исходить из объяснения поведения избирателей в результате сложной структуры социума, приводящей к тому, что между явкой и голосованием существуют всякие сложные корреляции.

Общество поделено по горизонтали, вертикали, диагонали, в клеточку и в горошек по самым разным признакам, которые влияют на выбор. Женатые жители высоток 1980-х годов рождения читающие "ВКонтекте" ведут себя не так, как разведенные жители хрущевок 1960-х г.р. слушающие "Эхо Москвы". А может быть и так же -- никто не знает. Общеcтво еще и иерархично, и уровней деления много. Обстоятельств, по которым человек делает выбор - сотни тысяч. Можно ли их вычленить из статистики? Можно ли вычленить путем анализа данных маленький пик, который дают жены, убедившие мужей голосовать за КПРФ? Начальники, убедившие подчиеннных? И еще сто тысяч разных ситуаций, влияющих на итог. Включая и противозаконные, такие как вброс голосов. Наверно, возможен какой-то тонкий анализ в наше время (когда обработка сложных данных - обычное дело, ведь даже геном человека уже расшифрован). Вот что-то в этом направлении я и ожидал увидеть -- многоярусную иерархическую модель принятия решения избирателя с числом факторов уж никак не меньше тысячи (а лучше миллион), позволяющую вычленять из статистических данных разные паттерны электорального поведения избирателей. Возможно, мои ожидания были завышены.

Что же я увидел на деле в разделе 4 "Варианты объяснения"? Автор формулирует четыре альтернативных объяснения:

1) Фальсификация со вбросом (см. выше)
2) Сторонники других партий тверды в своем выборе, а за ЕР голосует болото. Когда болото вытаскивают на выборы, то оно по инерции голосует за ЕР.
3) Принудительное голосование за ЕР больших групп (трудовых коллективов, военных и т.п.).
4) Просто потому, что избиратели так захотели проголосовать, ведь избиратели везде разные (я несколько изменил формулировку, но смысл такой).

Дальше никаких моделей поведения избирателя на основании этих гипотез Шень не строит, а переходит к части 5 - внешние (по отношении к статистике) свидетельства, anecdotal and other evidence, и на основании именно их и делает вывод о том, что гипотеза о подтасовках наиболее вероятна.

У меня от такой методологии осталось недоумение -- а зачем вообще было привлекать статистику? Для наукообразности? Достаточно рассмотреть свидетельства о подтасовках и сделать тот же самый вывод.

Надавно я где-то прочитал, как биохимики предсказывают структуру белкa, исходя из составляющих его частей. Насколько я понял, это очень сложная вычислительная задача. Молекула состоит из многих тысяч атомов и имеет сложную многоуровневую структуру с пересечeниями (первичную, вторичную, третичную и четвертичную). Каждые два года устраивают соревнования вычислительных программ и алгоритмов, ради подготовки к которым ученые на несколько месяцев оставляют все остальные дела. Но ведь социум, наверно, сложнее любой молекулы белка! Представьте, что кто-нибудь наивный скажат, давайте не будем считать, а просто предположим, что свойства молекулы определяются усреднением свойств составляющих ее элементов - водорода, кислорода, углерода. Применим центральную предельную теорему, а потом выйдем на площадь с протестом, что теорема не работает. Ясно, что это нелепость, и в системах со сложной структурой все сложнее. Но почему же многим не кажутся нелепыми подобные утверждения применительно к выборам?

Я бы из всего этого сделал два вывода:
1. На сегодня никаких статистических (без привлечения внешних свидетельств) способов отличить подтасовки не сущетсвует. Не отличить бюллетень, вброшенный с нарушением закона, от бюллетеня, вброшенного самим избирателем его собственноий рукой. На рoль такого теста выдвигали критерий Бенфорда для второй значащей цифры в десятичной системе (Шень об этом ни слова не сообщает). Hо, как я понял из последних обсуждений, это не работает.
2. Модели социума и электорального поведения, которыми пользуются статистики -- на детсадовском уровне (если их сpавнивать, например, с современыыми сложными вычислительными моделями в физике, мол. биологии, химии и т.п.). Фактически, статистика привлекается сегодня для придания видимости дополнительной легитимности свидетельствам о подделках. А представление потерпевшей поражение стороны о том, что статистики доказали фальсификации, стало типичным сюжетом городского фольклора, обсуждающимся в блогах и социальных сетях и будоражащим общественное мнение.

* * *

Я убираю комменты, поскольку почему-то в обсуждениях на эту тему даже обычно адекватные люди почему-то реагируют странно - вдруг теряют способность формулировать свои мысли, заставляют меня по три раза повторять одно и то же и т.п. Видимо, так и работает сознание, создающее городской фольклор.

Ну и (чтобы бог знает что не подумали, а некоторые уже начали обвинять меня бог знает в чем) я, разумеется, считаю, что все свидетельства о нарушениях должны быть расследованы (без привлечения тонких математических методов) и виновные - наказаны. Сам я отродясь ни за какую ЕР не голосовал (и вообще на российских выборах не голосовал с 1999 г), Kогда-то в молодости голосовал за Ельцина, Собчака, ДР / ДВР, Hа американских голосую обычно за республиканцев на президентских, за демократов на местных, и когда как на выборах в Конгресс. Этот текст написан впопыхах за полчаса, я пользуюсь транслитом и потому извиняюсь за ошибки (всегда находятся желающие обсуждать опечатки).
Tags: cекта свидетелей св. Гаусса
Subscribe

  • (no subject)

    Если в офис стучится кто-то, рассуждающий про то, что у меня недостаточно грантов, нужно его встречать приветствием: - Деньги принес? - ...??? - Ну,…

  • (no subject)

    Ничо так? На шкафу у меня над книгами по нанотехнологии и трибологии - алтарь Элегуа. 21 каждого месяца - его день.

  • (no subject)

    NSF прислало анонимный опросник с вопросами о том, как я оценимаю их процесс рецензирования и присуждения грантов. Как обычно, ничего по существу…

Comments for this post were disabled by the author