У вас когда-нибудь возникало ощущение, что единственная причина, по которой мы проводим выборы, заключается в том, чтобы выяснить, были ли опросы правильными? - Роберт Орбен
Я не доверяю опросам с тех пор, как прочитала, что 62% женщин заводят романы во время обеденного перерыва. Я никогда в жизни не встречала женщину, которая отказалась бы от обеда ради секса. - Эрма Бомбек
Сумасшедшие старики – это весь наш источник информации для опросов. - Дж. О'Рурк
До президентских выборов в Америке остается несколько дней, и, если вы хотя бы мельком просматриваете новости, вам обязательно попадутся результаты одного, а скорее сразу нескольких Опросов Общественного Мнения (ООМ), показывающих в чью пользу, в данный момент склоняются избиратели. Вот к примеру: «Опрос 1512 избирателей показал, что Трампа поддерживает 51%, а Харрис 49%.» Республиканцы радуются, а демократы мобилизуются. Основания для оптимизма, может быть, и есть, но накануне выборов 2016 года перевес Клинтон был 13%, а кончилось сами знаете как. – Значит эти опросы не имеют значения и нет смысла их вообще проводить? – спросите вы. – Хороший вопрос, на который имеется даже не один, а три ответа: - ДА, значения не имеют! – НЕТ, смысл есть! – НЕТ, проводить не нужно! – Запутал? Конечно, но попробуем разобраться.
Опросы ОМ проводятся не только во время выборов, но и по очень разным поводам: Общественное Мнение – это важный аргумент в споре и может иметь решающее значение при принятии решения, особенно если других аргументов нет, или не хочется до поры до времени сообщать истинные намерения. Вот много лет мусолили решение о легализации игорного бизнеса в штате Массачусеттс, проводили опросы до тех пор, пока не получили «правильный результат» - Да, мы очень хотим КАЗИНО!. Или вопрос о легализации марихуаны в том же штате: 42% поддерживали ее в 2010, 43% в 2014, а вдруг в 2016 уже 52% ЗА, и прошел закон; тут еще надо уметь вопрос правильно задать. Но мы пока в качестве примера займемся опросами, направленными на предсказание результатов выборов, на злобу дня.
Провести любой мало-мальски серьезный опрос дело не простое, и занимаются этим отнюдь не любители, а специализированные фирмы, которых только в нашем штате несколько десятков, а в целом по стране их сотни, наиболее известные из которых: Gallup, Pew, YouGov, Ipsos, Harris Poll, and Rasmussen, имеют тысячи сотрудников и миллиардные бюджеты. По ходу дела мы узнаем зачем нужно столько денег и чем занимаются эти сотрудники. А начнем с того, что собой представляет опрос, хотя, наверное, многие это знают, а то и участвовали в них.
Итак, Некто хочет узнать общественное мнение по какому-то вопросу, и задает его определенному количеству людей: «За кого вы будете голосовать?» Допустим, опросили 100 человек, и 88 высказалось в поддержку демократов, 2 за республиканцев, а остальные 10 воздержались. Победа демократов не вызывает сомнения, однако выяснилось, что опрос проводился среди студентов и преподавателей Гарварда, а это значит, что в масштабе страны эта выборка респондентов не является репрезентативной, и опрос нерелевантен, то есть бесполезен, поскольку как настроен этот коллектив и так известно. - А как же сделать, чтобы была эта репрезентативность? – Надо выбирать опрашиваемых случайным образом, каждый гражданин США должен иметь равный шанс попасть в выборку. Легко сказать!
Но попробуем. Известно, что у каждого легального жителя Америки имеется уникальный номер – SSN - Social Security Number, и, наверное, где-то в недрах Департамента Социального Страхования (SSA) хранится база данных всех обладателей этих номеров, в электронном формате, конечно, а не на перфокартах. Для начала вам надо послать в этот Департамент просьбу прислать список всех SSN номеров, обладатели которых имеют право голоса: то есть отсеять детей до 18 лет, умерших, осужденных, гринкарточников и тому подобных лишенцев. Таких «голосующих» номеров будет получено миллионов двести, после чего организаторы опроса проводят лотерею и случайным образом (как в Спортлото) отбирается нужное количество номеров, скажем 10 тысяч. Опрос будет анонимный – имена и фамилии не нужны, зато необходима какая-то информация о том, как добраться до этих избранных – номера телефонов, емайлы или почтовые адреса. Новый запрос в Департамент, и если он будет удовлетворён, то можно начинать обзванивать эти десять тысяч по списку, или посылать им анонимные письма, фамилий-то вы не знаете, или емайлы с вашими вопросами. Гуд лак!
Этот подход будет грамотен и статистически достоверен, однако, маловероятно, что SSA ответит даже на запрос администрации президента или ФБР – там очень занятые люди. Поэтому на практике опросы производятся с помощью звонков по произвольно выбранным номерам из телефонных книг, которые в какой-то мере доступны в интернете (White pages). Можно, конечно, насобирать случайных электронных адресов или действительно посылать бумажные письма с анкетами, но это экзотика, хотя такие опросы и бывают в природе, жалко бывало выбрасывать их в мусорную корзину.
Итак, основной метод ООМ это телефонные звонки. Специально обученные люди, называемые полстерами (pollsters) звонят случайным людям и задают вопросы, и не один, «за кого будешь голосовать?», а много. Во-первых, демографические вопросы, чтобы случайно не попасть в ситуацию типа «все из Гарварда», а потом и дополнительные, чтобы убить как можно больше зайцев или мух, например, кроме кандидата в президенты, можно еще задать вопросы о сенаторах штата, легализации марихуаны, казино, электромобилях, абортов и много всего, что может интересовать заказчика опроса.
Обычное количество демографических вопросов от 5 до десяти, куда входят:
1) Пол – 2 категории (М/Ж)
2) Возраст - 10 категорий (18–25, 26-35,36-45, и т п)
3) Раса - 5 категорий
4) Образование - 4 категории
5) Доход на семью- 5 категорий
6) Место жительства (штат) - 50 категорий
7) Занятость - 3 категории
8) Семейное положение - 4 категории
Затем могут следовать вопросы о политической ориентации:
9) К какой партии принадлежит?
10) Ваша идеология (либерал, консерватор, умеренный, прогрессист…)
11) Зарегистрирован как избиратель? (да/нет)
12) Голосовал ли на прошлых выборах?
13) Будете ли голосовать на этих?
Эти вопросы следует задать по возможности поскорее, поскольку, если клиент не собирается голосовать, то опрос можно прекратить, или не учитывать такого респондента в статистике. И наконец, главный вопрос:
14) За кого ВЫ будете голосовать (Дем/Респ/Независимый)?
Допустим, полстеры сделали свое дело и представили 1000 анкет, что является нормальным количеством для национального опроса (всеамериканский). Посмотрим теперь на простеньком примере как производится статистический анализ. Вопрос: «Как будут голосовать мужчины и женщины (M/F) в зависимости от расы (белые/небелые – только две категории для расы W/B)?» Вот результаты опроса:
Группа | Количество опрошенных (n) | За Дем | За Респ | Дем% | Респ% | Возможная Ошибка |
M-W | 550 | 170 | 380 | 33% | 67% | 8.4% |
F-W | 150 | 90 | 60 | 60% | 40% | 16% |
M-B | 200 | 150 | 50 | 75% | 25% | 13.9% |
F-B | 100 | 60 | 40 | 60% | 40% | 20% |
Всего: | 1000 | 470 | 530 | 47% | 53% | 6.2% |
Статистически возможная ошибка считается по формуле, зависящей от количества людей в каждой группе (n), чем больше численность группы – тем точнее. То есть результат с процентом по каждой категории не является точным, а попадает в интервал значений, например белые женщины (F-W) проголосуют за демократов с вероятностью 60+/-16%, то есть разброс от 44% до 76%. Это вероятная, но не гарантированная «победа» в данной весовой категории, но вот про небелых женщин такого сказать нельзя: разброс 40% до 80%. Такая же неопределенность в результатах голосования в целом: республиканцы получат от 47% до 59%, то есть могут и проиграть.
Если такая точность кого-то не устраивает, то чтобы уменьшить ошибку, надо увеличить объем выборки; в нашем случае, чтобы снизить разброс с 6.2% до 5% нужно, чтобы общее число опрошенных n было примерно 1600. Заметим, что на нынешних выборах кандидаты идут гораздо «плотнее»: вернемся к первому абзацу этой заметки про последние результаты опроса Gallup 51:49 в пользу Трампа и посчитаем ошибку или Margin of Error (MOE), как говорят статистики, по формуле MOE2= 4/n. Для заявленных фирмой Gallup n=1512 опрошенных MOE=5.1%, и результаты опроса, мягко говоря, малоинформативны.
Что ж, и здесь за всё надо платить, но если заказчики готовы, то, увеличив опрос до 40,000 можно снизить MOE до 1%, что даст нам возможность утверждать, кто победит при разбросе 51 на 49%. Если бы это была единственная проблема с опросами! Уже в нашем скромном примере, мы не смогли определить предпочтения не только цветных, но и белых женщин, и это бы ладно, поскольку тут важен главный результат, а он-то заказчику и не понравился. И действительно, любой специалист по ООМ сразу укажет на недоработку – женщин в Америке 50.5%, а вашем опросе их только 25%. – Жалкое оправдание, что женщины в целом более заняты, и у них нет времени отвечать на глупые вопросы, не канает - это дискриминация, а с ней надо бороться. И вот, всем ответам женщин дается коэффициент 3 (три)! - Почему? – Потому что на 750 мужчин в опросе участвовало 250 женщин, а должно быть поровну! И вот как выглядит новая таблица, где жирным выделено то, что изменилось.
Группа | Количество (n) | За Дем | За Респ | Дем% | Респ% | Возможная Ошибка |
M-W | 550 | 170 | 380 | 33% | 67% | 8.4% |
F-W | 150х3=450 | 270 | 180 | 60% | 40% | 9.4% |
M-B | 200 | 150 | 50 | 75% | 25% | 13.9% |
F-B | 100х3=300 | 180 | 120 | 60% | 40% | 11.5% |
Всего: | 1500 | 770 | 730 | 51.5% | 48.5% | 5.1% |
Можно, конечно, придираться к тому, что процент белых мужчин «искусственно» завышен, и небелым мужчинам надо дать тоже коэффициент порядка двух, но тогда надо опять увеличивать количество женщин, и пока что оставим результат как есть, поскольку Заказчик удовлетворен победой демократии и больше не отказывается платить.
Вместо этого посмотрим на демографию этого опроса, возьмем увеличительное стекло и спросим у его организаторов результаты по отдельным группам населения, ну например, «Как будут голосовать азиатские женщины, проживающие в Алабаме,30-40 лет, незамужние, безработные, доктора наук с доходом менее 30,000?» В анкете было восемь вопросов по демографии (см выше), значит надо собрать всех попавших в нужную группу и посчитать процент «ослов» и «слонов». Отсортировали 1000 анкет и чудо: в этой группе две женщины, и обе демократически настроены, правда MOE для n=2 примерно 130%, но статистика ведь не врёт. - А почему чудо? - Да потому, что демографических групп у нас не много – не мало, а 1,200,000, да миллион с гаком, проверьте по числу категорий для первых восьми вопросов: 2 х 10 х 5 х 4 х 5 х 50 х 3 х 4 = 1200000. Если случайным образом из большого множества объектов, обладающих 8-ю признаками, выбрать 1000, то статистическая вероятность того, что среди них будет 2 объекта с одинаковым набором этих признаков равна 18.8%, то есть с вероятностью 81% все наши 1000 респондентов окажутся в своей группе в одиночестве.
- Не верите? И правильно: в нашем опросе статистика была «посрамлена» дважды: во-первых, нашлись целых две азиатских женщины с одинаковым, как говорят, профайлом, а, во-вторых, есть группа, включающая 110 белых женатых мужчин пенсионеров 70–80 лет и совпадающих по всем категориям, кроме штатов проживания. Вероятность группы такого размера статистически 1 миллиардная, а вот образовалась, и известно, как они проголосуют: 100:10, сами знаете за кого.
- Что ж, - спросите вы, - для того, чтобы получить групповую статистику нужны миллионы опрошенных? - Теоретически да, особенно если исключить пенсионеров-выходцев из бывшего СССР, а практически профессионалы ООМ нашли более экономичный выход. Из двух человек, конечно, ничего путного выжать не удастся, но допустим у вас есть гомогенная группа анкет на 50 белых мужчин в возрасте от 30 до 40 лет, из которых 27, то есть 54% намереваются (по результатам опроса) проголосовать за «красных». А вот в группе белых мужчин 18–25 лет анкет получено всего 5 – мало для анализа (ну не любят молодые люди вопросы всякие), но из прошлых опросов известно, что эта группа обычно голосует на 11% более либерально, чем 30–40 летние. Вычитаем эти 11% из 54% - и получаем 43%, что означает победу «синих» в этой группе. Не хватает данных – используем пропорции, как в примере с дискриминацией женщин, или ранее найденные корреляции.
До сих пор мы исходили из предположения, что данные опросов вполне реальны, а проблемы кроются в недостатке абонентов (объём выборки) и недостаточной рандомизации (случайность выборки), а теперь рассмотрим, как эти данные добываются на практике. Известно, что обзванивают потенциальных избирателей специально нанятые полстеры, которым раздаются специально составленные анкеты и даётся специальная подготовка как вести беседу и извлечь всю информацию с минимальными затратами энергии. Всем ясно, что дело этот нелегкое: большинство людей вообще не отвечают на звонки с незнакомых номеров, а услышав про опрос, особенно политический, сразу же бросают трубку или хамят, а потом бросают, поскольку есть масса более интересных способов провести 20–30 минут своего времени, особенно если это нерабочее время. Так что, если на двадцать-тридцать звонков получишь одно согласие опроситься, то это удача. Дальше абонента надо держать на крючке, пока он не ответит на все 15–20 вопросов, то есть одна анкета в час, если повезёт.
Оплата полстера может быть повременной 10–15 долларов в час с доплатой за вредность, или сдельной, скажем за каждую анкету $20. Оба варианта очевидно проблематичны для работодателя, поскольку первый ведёт к гигантским расходам, а второй стимулирует фальсификацию: у полстера возникает соблазн заполнить анкеты самому, по крайней мере добавить недостающие данные. В идеале звонить куда-то и кому-то вообще не нужно, а результат будет, только не надо зарываться, предоставляя по сто анкет в день, когда у других меньше десятка. Заполнять тоже надо с умом, если в стране имеется примерный паритет, то и у вас за демократов не должны голосовать больше 55%, если, конечно, опрос не проводится в какой-нибудь Калифорнии.
В кампаниях, занимающихся ООМ, обязательно есть проверяющие, которые на базе той же теории вероятности легко выявят подозрительные результаты (outliers) и их генераторы. Но что это даст? Где найдешь новых, честных, готовых работать себе в убыток? Допустим, проверка выявила фальсификацию, так значит результаты опроса надо аннулировать, и заказчику деньги вернуть? Ха-ха! Тут можно и прикинуть расходы: на 1000 анкет полстерам заплатить 20 тысяч, обработчикам еще 10, статистикам 50, а учетом нормы прибыли компании, с заказчика выходит 300К, иначе не будет уважать ваш труд. Ну а деньги, конечно, берутся из фондов избирательных кампаний.
Есть ещё вопросы и к самим респондентам: а насколько Вы, господа, честно отвечаете на вопросы? Всегда ли вы правильно сообщаете свой пол (по 26 категориям), уровень доходов и семейное положение? А правда ли, что на выборах отдадите свой голос за Камбалу, а не скрытый ли вы расист или мизогинист, чтобы это слово не значило? Может быть, вы не верите, что наш опрос гарантирует анонимность, а по вашему телефону никак невозможно установить вашу личность?
Ну какой же этот автор отвратительный пессимист и не верит он ни в людей, ни в честность, ни в научную статистику, - если не раньше, так уж сейчас точно подумал читатель. - А вот и нет, я как раз оптимист и хочу верить в то, что полстеры (от слова полстергейст) вообще существуют, и отгоняю мысли о том, что все опросы генерируются на компьютерах компаний, проводящих эти опросы. Скажете неэтично? Зато дёшево и практично. Мне самому звонили один раз, правда давно это было.
А вот, говорят, есть компании ООМ, опросы которых предсказывают результаты выборов точно. Разве это не доказывает, что их научные методики правильные? – Разделим этот хороший вопрос на два: если говорить о результатах в целом – кого выбрали президентом, то здесь вероятность угадывания такая же, как при подбрасывании монетки; либо угадал, либо ошибся (50:50), и конечно многие угадают, особенно если опросы проводить каждый день. То же самое выборы по штатам: в шести ключевых (swing states) используем метод монетки, а в остальных никто опросов не проводит – незачем. А вот что касается групповых статистик, то здесь проверить вообще ничего нельзя. - За кого у нас в Массачусеттсе проголосовали белые замужние женщины в возрасте 30–40 лет? - Да кто это может знать, если голосование тайное? Значит, чтобы определить, как они голосовали, нужно опять проводить послевыборный опрос (exit poll), а эту кухню мы уже знаем.
А знают ли о методах проведения этих опросов хозяева компаний и, обслуживающие их, математики-статистики? - Конечно знают, на то они и специалисты. - А заказчики опросов? – Не знают и знать не хотят (ignorance is blessing), что заказывают, то им и дают. – А тогда к чему этот цирк? – А вот мы и добрались до сути! Дело в том, что смысл этих опросов не в том, чтобы узнать общественное мнение, а в том, чтобы его сформировать, или на него повлиять. Вот опубликован результат: «Республиканцы ведут с отрывом 3%» - Значит народ за нас (или за них), наши лозунги правильные, так держать! – Отрыв в 10% может дать избирателям сигнал, что дело сделано - победа в кармане, и кто-то вместо выборов поедет на рыбалку, а вернется и увидит, что все случилось наоборот, да поздно: ты, парень, не проголосовал и «последняя соломинка сломала спину верблюда.»
Сразу оговорюсь, что, а Америке и других демократиях такого быть не может, но в странах третьего мира и авторитарных режимах, результаты ООМ могут служить своего рода демпфером (нем: устройство для стабилизации системы при резких колебаниях). К примеру, алгоритмы ИИ или какая другая достоверная информация показывает, что правительственный кандидат проигрывает оппозиционному 20%, и это видно невооруженным глазом, то есть широким массам населения. В этот период непрерывным потоком публикуются результаты множественных опросов, показывающих минимальный разрыв в ту или иную сторону. Мало-помалу это убеждает, что баланс весов может качнуться в любую сторону, и, когда в результате грубой подтасовки результатов с незначительным перевесом в 666 голосов побеждает кандидат лояльный режиму, число недовольных и опасность бунта существенно снижается.- Что ж, наши опросы предсказывали острую борьбу – так оно и вышло.
Но неужели правда никого не интересует? Ведь это так важно знать как люди настроены, какие вопросы их волнуют, как на базе этого вести предвыборную кампанию. Вот в 1993 году перед выборами Нетаниягу был уличен в супружеской измене, и, казалось, что надо снимать кандидатуру, но ООМ показал, что его популярность только возросла и оснований для беспокойства нет. Конечно, реальная информация о состоянии умов, особенно в период выборов крайне необходима, но интересно, что для ее получения опросы вообще не нужны. Все что нужно, можно извлечь из социальных сетей, проанализировать с помощью специальных алгоритмов, обязательно использующих Искусственный Интеллект, и предсказать как будет голосовать каждый человек в отдельности с вероятностью 95%, а не то, что там какие-то опросы, точность которых граничит с гаданием на кофейной гуще или внутренностях жертвенных животных. Вот эти результаты и используются конкретными пацанами для принятия решений.
***
Дорогие читатели, я понимаю, что вы устали от этой лженауки - статистики, но будьте бдительны и не забывайте, что писал о нас товарищ Ленин ещё в 1913 году: «Люди всегда были и всегда будут глупенькими жертвами обмана и самообмана в политике, пока они не научатся за любыми нравственными, религиозными, политическими, социальными фразами, заявлениями, обещаниями разыскивать интересы тех или иных классов.»
© Dimus, October 2024
Есть основные принципы прогнозирования. Сочиняешь модель, проверяешь как она работает на учебной выборке. Если хорошо - используешь ее для прогноза. Применительно к выборам президента по штатам всегда можно посмотреть что говорили прогнозы накануне и кто победил. И на этом основании можно выбрать подходящий poll. И еще есть трюк. Некоторые polls всегда показывают на х % в больше/меньше в пользу той или иной партии. Эта разница также определяется по результатам предыдущих выборов. Так что ими тоже можго пользоваться. Я этим балуюсь но не очень аккуратно. Вроде как Rasmussen наиболеее аккуратный.
Точно не установлено, кто первый сформулировал аксиому "есть ложь, наглая ложь и статистика", но одним из популяризаторов ее был Марк Твен. С учётом этой аксиомы опросы общественного мнения и всё, что с ними связано, приобретает черты наукообразия и представительности. Результаты ООМ, соответствующим образом обработанные, выкладываются услужливыми СМИ и формируют заданное общественное мнение. В порядке вещей считать это неотъемлемым признаком развитого демократического общества.Ха-ха-ха. Но мне интереснее повод к появлению этого исследования. Точнее обстоятельства, в которых оно родилось. Похоже, наступать на грабли стало национальной чертой американцев. Что с Усамой бен Ладеном, что с теорией управляемого хаоса, которая вернулась на родину своих создателей. Видимо, Фукуяма поторопился с торжественным провозглашением конца Истории. Она только закручивается стремительным домкратом))) Пережить бы это, чтобы рассказывать внукам …
Всё сводится к тому, что так называемые опросы общественного мнения на самом деле делаются для того чтобы сформировать общественное мнение, именно поэтому результаты этих опросов предаются огласке, хотя по логике должны были бы храниться в секрете от избирателя (увы, одно из издержек демократии - право на информацию 😪)
Так известное дело, не важно кто и как голосует, важно кто и как считает. Но это про сами выборы. А опросы? Сто тыщ мильёнов формул, а результат подгоняется под интересы заказчика. Это в демократических странах, точнее, в охлократических. В тоталитарных так не заморачиваются, и результат более предсказуемый.
Передать процес выборов ИИ ,но чей алгоритм там будет?