Close
Написать нам
Telegram
WhatsApp
 
6 мая 2022

Темные данные в профайлинге. Часть 2

Начало здесь
ТИП 9. Обобщение данных.
Обобщение данных по определению означает отбрасывание деталей.

Если вы учитываете только средние значения любого параметра, то это не дает никакой информации о диапазоне всех данных или об асимметрии их распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.
ТИП 10. Ошибки измерения и неопределенность.
Ошибки измерения изучаемых значений часто приводят к ошибочным выводам. Часто мы изучаем параметры, которые нельзя измерить непосредственно, и приходится пользоваться косвенными или опосредованными вычислениями. Например, при измерении кожно-гальванической реакции при инструментальной детекции лжи низкое качество самого электрода, который используется для фиксации параметров может серьезно исказить результат.
ТИП 11. Искажения обратной связи и уловки.
Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс. Например, в процессе оценки человека, получив какую-то часть информации, вы уже понимаете, к какому выводу вы, скорее всего, придете. И после этого качество вашего анализа второй половины данных существенно снижается. Или еще один пример – если все говорят, что этот пользователь, например, истероид, то возникает соблазн их послушать и это также снизит качество вашего анализа.
ТИП 12. Информационная асимметрия.
Информационная асимметрия возникает, когда один и тот же набор данных анализируют эксперты с разным уровнем подготовки и информированности.
Понятно, что если одну и ту же информацию анализируют эксперты разной подготовки (не говоря еще о их предвзятостях), то результаты этих анализов будут существенно отличаться.
ТИП 13. Намеренно затемненные данные.
Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Возможностей для примеро здксь огромное количество: мы можем сознательно отбрасывать неугодную для нас информацию или часть данных, для того, чтобы сознать желаемое впечатление от этой информации и повлиять на дальнейшие выводы и поведение.
ТИП 14. Фальшивые и синтетические данные.
Сфальсифицированные или специально созданные данные с целью введения в заблуждение. Однако такие наборы данных создаются не только для мошенничества, но и с исследовательской задачей: существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но их некачественная репликация может привести к ошибочным выводам.
ТИП 15. Экстраполяция за пределы ваших данных.
Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Более того, экстраполяция имеющихся данных на другой контекст или события имеет свои известные ограничения и требует крайней осторожности.
Cтатьи Алексея Филатова
Присоединяйтесь к нам в соц сетях: