Data Science в деле: что нового нам может рассказать наука о данных

«Женские» ураганы-убийцы, надёжные пользователи Chrome и невежливые редакторы «Википедии»: доктор философии, автор книги «Просчитать будущее: Кто кликнет, купит, соврёт или умрёт» Эрик Сигель приводит примеры неочевидных закономерностей, которые находит и открывает для нас наука о данных (Data science).

Петабайт информации, доступной в настоящее время для анализа, составляет бескрайнее игровое поле возможных истин.

Данные — самый мощный процветающий ненатуральный ресурс в мире. Накопленный в значительной степени как побочный продукт рутинных задач, этот несоленый, безвкусный остаток в массовом порядке консервируется для хранения как ненужный хлам в организации. Сюрприз! Эта куча отходов может делать предсказания. Вот так и начинается золотая лихорадка — погоня за редкими и значимыми драгоценными камнями.

Происходит ли рост преступности после спортивных мероприятий? Действительно ли любители онлайн-знакомств, последовательно оцениваемые как наиболее привлекательные, в итоге пользуются меньшим интересом? Правда ли, что вегетарианцы пропускают меньше рейсов, а ваш электронный адрес раскрывает ваши намерения?

Да, да, да, да!

Мы вошли в золотой век прогнозирующих открытий. Безумство чисел взбалтывает золотое дно ярких, полезных, а иногда и неожиданных идей.

Цель предиктивной аналитики не ограничивается оценкой человеческих предчувствий путем проверки связей, которые, как кажется, имеют смысл. Предиктивный анализ идет дальше, исследуя безграничное игровое поле возможных истин за пределами царства интуиции. И поэтому он демонстрирует вам связи, которые, кажется, бросают вызов логике. Какими бы странными, мистическими или неожиданными ни показались вам эти открытия, они действительно помогают прогнозировать.

Добро пожаловать в музей Рипли «Верьте или не верьте» научных данных – фрикономику больших данных.

Ниже приведены несколько ярких открытий, каждое из которых имеет отношение к прогнозирующим переменным (переменным-предикторам) таких компаний, как Walmart, Uber, Harvard, Shell, Microsoft, Wikipedia. Эти примеры являются новыми в исправленном и дополненном издании моей книги «Просчитать будущее: Кто кликнет, купит, соврёт или умрёт» (Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die).

Итак, Data Science в деле:

1. Пользователи браузеров Chrome и Firefox оказываются лучшими сотрудниками. Среди почасовых работников, занятых обслуживанием клиентов и занимающихся продажами, те, кто использует эти два пользовательских веб-браузера, работают лучше по показателям оценки занятости и остаются на рабочем месте дольше (HR-агентство, получающее данные о работниках от компании Xerox и других фирм).

Объяснение:

«Тот факт, что вы нашли время, чтобы установить [другой браузер], показывает, что вы являетесь информированным потребителем… заботитесь о своей продуктивности и делаете активный выбор».

2.Чем выше статус, тем меньше вежливости. Редакторы на Википедии, которые проявляют вежливость, скорее всего, будут избраны на «административную» роль, предоставляющую больше власти. Однако, как только они оказываются избранными, они становятся менее вежливыми (Исследователи, занимающиеся изучением поведения в Википедии).

Объяснение:

«Теория вежливости предсказывает отрицательную корреляцию между вежливостью и властью исследуемой стороны».

3. Мужчины, которые пропускают завтрак, больше подвержены ишемической болезни сердца. Данные анализа здоровья американских мужчин от 45 до 82, которые пропускают завтрак, показали на 27 % выше риск развития ишемической болезни сердца в течение ближайших 16-ти лет (Медицинские исследователи Гарвардского университета).

Объяснение:

Помимо прямых медицинских последствий, если таковые имеются, употребление/неупотребление завтрака может быть показателем общего стиля жизни: люди, которые пропускают завтрак, чаще ведут более стрессовую жизнь и «имеют больше шансов быть курильщиками, работать полный рабочий день, не состоять в браке, быть менее физически активными и пить больше алкоголя «.

4. Финансовые заявки, заполненные с соблюдением всех правил языка, указывают на кредитоспособность заемщиков. Онлайн-заемщики, которые заполнили форму заявки грамматически и графически верно (первая буква — прописная, остальные строчные), являются надежными дебиторами. Те, кто заполнил заявку исключительно строчными буквами, являются чуть менее надежными плательщиками. Все прописные указывают на еще более ненадежных заемщиков (Начинающая компания по предоставлению финансовых услуг).

Объяснение:

Строгое соблюдение грамматических правил отражает общую склонность к правильному исполнению чего бы то ни было.

5. Печенье «Поп-тартс» перед ураганом. Перед ураганом продажа клубничных печений «Поп-тартс» увеличилась почти в семь раз (Walmart).

Объяснение:

Готовясь к природному катаклизму, люди запасаются удобными и нескоропортящимися продуктами.

6. Ураганы с женскими названиями более смертоносны. Изучение самых разрушительных ураганов в Соединенных Штатах в течение шести последних десятилетий показало, что ураганы, носящие «женские» имена, убили в среднем 42 человека, почти в три раза больше 15-ти убитых ураганами с «относительно мужскими» именами (Исследование университетов).

Объяснение:

Это может быть результатом «опасной формы неявной дискриминации по признаку пола». Психологические эксперименты в аналогичном исследовании «предположили, что это происходит потому, что ураганы с женскими именами — по сравнению с ураганами-носителями мужских имен — воспринимаются как менее угрожающие, и поэтому к ним меньше готовятся… Люди систематически недооценивают свою уязвимость перед ураганами с женскими названиями».

7. Чем больше сотрудники вовлечены в работу, тем меньше вероятность аварий. Среди работников нефтеперерабатывающих компаний увеличение уровня вовлеченности связано с уменьшением на целых 4 процента числа инцидентов, связанных с нарушением безопасности (Shell).

Объяснение:

Сотрудники, которые принимают более активное участие в работе, более внимательны и сосредоточены.

8. Чем выше преступность, тем больше поездок на Uber. В Сан-Франциско районы, где процветает проституция, алкоголизм, воровство и кражи со взломом, наиболее положительно коррелируют с поездками на Uber (Uber).

Объяснение:

«Мы предположили, что преступность процветает среди иногороднего населения… Те, кто ездит на Uber, не совершает ничего преступного. Верно, ребята?»

__________________

А теперь предупреждение! Не стоит доверять ответам на вопрос «почему», приведенным выше. Для каждого из обозначенных фактов существуют и другие правдоподобные объяснения, но все они в большинстве случаев основаны лишь на интуиции, а не на научных доказательствах. Как правило, причины каждого открытия, описанного выше, неизвестны. Каждое приведённое объяснение- это чистая гипотеза, не основанная ни на каких твердых фактах, подтверждающих её.

Как это часто говорят, дилемма заключается в том, что корреляция не означает причинно-следственной связи. Открытие прогнозирующих отношений между А и В не означает, что одно приводит к другому, даже косвенно. Ни в коем случае, ни каким образом.

Но не расстраивайтесь. При применении предиктивного анализа, даже если мы, как правило, не имеем твердого знания об истинных причинно-следственных связях, часто это не так уж важно. Значение большинства проектов предсказывалось благодаря любительскому интересу к пониманию мира и попытке подсчитать, что выделяет их. Фрик-шоу удивительных открытий обладает прогностической ценностью, даже если этого мало, чтобы объяснить те или иные явления сами по себе.

По материалам: «9 Bizarre and Surprising Insights from Data Science«/ Scientific American.

Обложка: NASA LANGLEY RESEARCH CENTER/ © Wikimedia Commons.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Обозреватель:

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: