Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем?
Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, о результатах медицинского исследования, которые намеренно утаили или случайно исказили, или о данных, ставших темными из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект темных данных и как их можно обратить себе на пользу.
Цитаты
«Темные данные скрыты от нас, и этот факт означает, что мы рискуем недооценить опасность, сделать неправильный вывод и принять неверное решение. Иначе говоря, наше неведение становится причиной ошибок».
«Темные данные ведут себя аналогично темной материи: мы не видим их, они не обнаруживаются, но все же способны оказывать существенное влияние на наши выводы, решения и действия. И, как я покажу на дальнейших примерах, если не осознать саму вероятность существования чего-то неизвестного, то последствия такой слепоты могут быть катастрофическими и даже фатальными».
«Хотя иметь много данных полезно, большие данные, то есть объем, — это еще далеко не все. И то, чего вы не знаете, те данные, которых у вас нет, могут быть важнее для понимания происходящего, чем те, которыми вы располагаете».
Для кого
Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
Отрывок из книги