Русский
Русский
English
Статистика
Реклама

Можно ли доверять мудрости толпы?

В 1907 году Фрэнсис Гальтон (двоюродный брат Чарльза Дарвина, эрудит, создатель метода идентификации отпечатков пальцев, метеоролог и автор термина евгеника*) написал письмо в престижный научный журнал Nature о своем посещении выставки животноводства и птицеводства в Плимуте. Там он увидел необычный конкурс: участникам, заплатившим по 6 пенсов, предлагалось угадать вес выставленного напоказ большого откормленного быка, после того как его забьют и освежуют. По окончании конкурса ученый взял 787 заполненных билетов и выбрал из них в качестве среднего значения 1207 фунтов (547 килограммов). Любая иная оценка рассматривалась большинством голосовавших как слишком высокая или слишком низкая, пояснил он. Реальный вес животного составил 1198 фунтов (543 килограмма), что оказалось на удивление близко к выбранному числу 17. Гальтон назвал свое письмо Vox Populi (Глас народа), хотя сегодня такой процесс принятия решений более известен как мудрость толпы.Гальтон выполнил то, что сегодня мы назвали бы сводкой данных: он взял множество чисел на билетах и свел их к одному весу в 1207 фунтов. В этой главе мы рассмотрим методы, разработанные в последующем столетии для получения сводной информации из имеющейся массы данных. Мы увидим, что числовые характеристики выборки (показатели положения, распространения, разброса, тренды и корреляция) тесно связаны способами представления на бумаге или экране. Мы также поговорим переходе от простого описания данных к сторителлингу с помощью инфографики.Начнем с моей собственной попытки экспериментировать с мудростью толпы, которая выявляет многие из проблем, возникающих, когда в качестве источника данных используется реальный мир, со всей его склонностью к странностями ошибкам.Статистика касается не только таких серьезных вещей, как рак и хирургия. В рамках нашего с популяризатором математики Джеймсом Граймом довольно простого эксперимента мы выложили на YouTube видео и попросили угадать число драже в банке. Вы тоже можете попробовать это сделать, посмотрев на фотографию нарис. 2.1 (истинное число станет известно позже). Свои предположения высказали 915 человек, и ответы варьировались от 219 до 31337. В этой главе мы увидим, как такие переменные можно изображать графически и обрабатывать численно.Начнем с того, что на рис. 2.2 отображены три способа представления чисел, указанных 915 участниками. Их можно назвать по-разному: распределение данных, выборочное распределение или эмпирическое распределение.1a) Точечная диаграмма просто показывает все значения виде отдельных точек, но для каждой добавлено случайное отклонение по вертикали, чтобы точки не перекрывали друг друга, поскольку некоторые догадки были высказаны по несколько раз. Четко видна концентрация большого количества значений в диапазоне примерно до 3000, а затем длинный хвост тянется более чем за 30000, причем в точке 10000 наблюдается всплеск.b) Диаграмма Размаха (ящиками) показывает некоторые базовые характеристики распределения.1с) На гистограмме просто учитывается, сколько точек данных попало в тот или иной интервал. Она дает очень приблизительное представление о форме распределения.Эти способы отображения сразу же позволяют выделить некоторые особенности распределения. Видно, что оно сильно скошено, то есть асимметрично (отсутствует даже приблизительная симметрия относительно какой-нибудь центральной точки) и из-за наличия нескольких очень больших чисел имеет длинный правый хвост. Вертикальные ряды точек на точечной диаграмме(изображающие повторяющиеся числа) также указывают на некоторое предпочтение круглых чисел.
Однако у всех диаграмм есть общая проблема. Внимание сосредоточено на самых больших значениях, причем основная часть чисел сконцентрирована в левой части. Можно ли представить эти данные более информативно? Мы могли бы отбросить самые большие числа как нелепые (когда я первоначально анализировал полученные величины, я сознательно исключил все, превышающие 9000). Кроме того, мы можем уменьшить влияние экстремальных наблюдений, скажем, отобразив данные в логарифмическом масштабе, когда интервал от 100 до 1000 имеет такую же длину,что и интервал от 1000 до 10000.1На рис. 2.3 представлена более понятная структура с вполне симметричным распределением и отсутствием значительных выбросов. Это избавляет нас от исключения каких-либо значений наблюдений, что обычно не считается хорошей идеей (если, конечно,речь не идет о явных ошибках).Единственно правильного способа отображения чисел нет, у каждого из способов свои преимущества: на точечной диаграмме показаны все отдельные точки, ящик с усами дает визуальное представление, а гистограмма помогает полнее понять вид исходного распределения.Переменные, которые записываются в виде чисел, могут быть разного типа: Счетные переменные: могут принимать целочисленные значения 0, 1, 2,3... Например, ежегодное число самоубийств или предположения о количестве драже в банке. Непрерывные переменные: могут принимать любые значения. Например, некоторые вещи теоретически можно измерять с любой точностью и получать любые числа. Скажем, вес и рост, которые отличаются как у разных людей, так и у одного человека в зависимости от времени. Разумеется, эти значения можно округлить до целого числа сантиметров или килограммов.1
Когда набор наблюдений (выборка) сводится к одному числу, мы, как правило, называем его средним значением. Все знакомы с понятием средней зарплаты, средней оценки на экзамене или средней температуры, но часто не знают, как интерпретировать эти величины (особенно если человек, который о них говорит, сам не понимает, о чем речь).Чаще всего встречаются три толкования термина среднее значение:1. Среднее арифметическое (или выборочное сред-нее): сумма всех величин, деленная на их количество.2. Медиана: среднее по величине число ранжированного ряда (то есть слева и справа от него будет поровну чисел).**Именно так Гальтон считал голоса толпы.***3. Мода: чаще всего встречающееся значение в выборке.
Эти параметры также называются показателями положения центра распределения.Интерпретация термина среднее как среднее арифметическое дает повод для старых шуток о том, что почти у всех людей число ног превышает среднее (которое, по оценкам, примерно равно 1,99999) и что у человека в среднем одно яичко. Однако среднее арифметическое может не подходить не только при измерении ног и яичек. Вычисленное таким образом среднее число сексуальных партнеров или средний доход по стране может иметь крайне мало общего с представлением большинства людей из-за сильного влияния больших значений в выборке, которые тянут среднее арифметическое вверх:* подумайте об Уоррене Битти или Билле Гейтсе (в отношении числа сексуальных партнеров и дохода соответственно).Средние значения способны сильно вводить в заблуждение, когда исходные данные имеют несимметричное распределение, а сильно перекошенное в какую-либо сторону (как при догадках о количестве драже). Как правило, так происходит при наличии большой группы стандартных случаев и хвоста из нескольких высоких (скажем, величина дохода) или низких (число ног) значений. Я могу практически гарантированно утверждать, что вы гораздо меньше рискуете умереть в следующем году по сравнению с людьми вашего возраста и пола (если средний риск вычислять как среднее арифметическое). Например, согласно таблицам смертности для Соединенного Королевства, 1% 63-летних мужчин не доживают до 64-летия. Однако многие из тех, кто умрет, уже серьезно больны, а потому риск для подавляющего большинства (тех, кто относительно здоров) меньше, чем средний.К сожалению, когда в СМИ пишут о среднем, часто непонятно, следует это толковать как среднее арифметическое или как медиану. Например, Национальная статистическая служба Великобритании вычисляет средний недельный заработок (который рассчитывается как среднее арифметическое), а также публикует медианные заработки, предоставляемые местными органами. Это позволяет отличить средний доход (среднее арифметическое) от дохода среднего человека (медиана). Цены на дома имеют крайне асимметричное распределение с длинным правым хвостом элитной недвижимости, поэтому официальные индексы для цен на жилье указываются в виде медианных значений. Однако обычно пишут о цене в среднем, что является весьма неоднозначным термином. Это цена среднего дома (то есть медиана)? Или средняя цена дома (то есть среднее арифметическое)? Как видите, перестановка слов имеет большое значение.
Источник: postnauka.ru
К списку статей
Опубликовано: 05.03.2021 12:19:37
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Общее

Категории

Последние комментарии

© 2006-2021, umnikizdes.ru