Темные данные в профайлинге. Часть 2

Начало здесь

ТИП 9. Обобщение данных.

Обобщение данных по определению означает отбрасывание деталей.

Если вы учитываете только средние значения любого параметра, то это не дает никакой информации о диапазоне всех данных или об асимметрии их распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.
ТИП 10. Ошибки измерения и неопределенность.

Ошибки измерения изучаемых значений часто приводят к ошибочным выводам. Часто мы изучаем параметры, которые нельзя измерить непосредственно, и приходится пользоваться косвенными или опосредованными вычислениями. Например, при измерении кожно-гальванической реакции при инструментальной детекции лжи низкое качество самого электрода, который используется для фиксации параметров может серьезно исказить результат.
ТИП 11. Искажения обратной связи и уловки.

Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс. Например, в процессе оценки человека, получив какую-то часть информации, вы уже понимаете, к какому выводу вы, скорее всего, придете. И после этого качество вашего анализа второй половины данных существенно снижается. Или еще один пример – если все говорят, что этот пользователь, например, истероид, то возникает соблазн их послушать и это также снизит качество вашего анализа.
ТИП 12. Информационная асимметрия.

Информационная асимметрия возникает, когда один и тот же набор данных анализируют эксперты с разным уровнем подготовки и информированности.
Понятно, что если одну и ту же информацию анализируют эксперты разной подготовки (не говоря еще о их предвзятостях), то результаты этих анализов будут существенно отличаться.
ТИП 13. Намеренно затемненные данные.

Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Возможностей для примеро здксь огромное количество: мы можем сознательно отбрасывать неугодную для нас информацию или часть данных, для того, чтобы сознать желаемое впечатление от этой информации и повлиять на дальнейшие выводы и поведение.
ТИП 14. Фальшивые и синтетические данные.

Сфальсифицированные или специально созданные данные с целью введения в заблуждение. Однако такие наборы данных создаются не только для мошенничества, но и с исследовательской задачей: существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но их некачественная репликация может привести к ошибочным выводам.
ТИП 15. Экстраполяция за пределы ваших данных.

Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Более того, экстраполяция имеющихся данных на другой контекст или события имеет свои известные ограничения и требует крайней осторожности.

Cтатьи Алексея Филатова

Присоединяйтесь к нам в соц сетях: