Осторожно! Ненадежные данные!
С Вами случалось подобное?
Допустим, Вы на каком-то этапе исследования рассматриваете результаты первых 50 респондентов, и вырисовывается вполне четкая картина. Вы отмечаете, что ответы респондентов на некоторые вопросы различны, и в этих различиях явно прослеживается определенная логика. Вас это радует, и на основе проанализированных данных Вы выстраиваете теорию, которая, как Вам кажется, разумна и имеет смысл.
Нам всем нравится процесс поиска и выявления тенденций, ибо именно для этого предназначен наш мозг – отмечать различия и так или иначе их интерпретировать. Это слишком удобно – сразу дать готовый ответ – почему, например, мужчины в возрасте более 35 лет предпочитают именно данную марку шампуня , или почему высокодоходные группы потребителей любят сыр больше, чем низкодоходные…
Вы берете паузу и ждете, когда будут готовы результаты по всем респондентам. Но при анализе всей выборки оказывается, что все выявленные Вами взаимосвязи куда-то испарились! Зависимости и различия, которые Вы выявили, оказались всего лишь «шумом», а данные превратились в однородный массив, в котором невозможно выявить ни одной закономерности (или выявить крайне малое их количество).
Добро пожаловать в мир Переобучения!
Существует такой термин - переобучение (англ. overfitting - "слишком подогнанный"). Он описывает явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки).
… А это крайне опасно. В особенности в ситуациях, когда респонденты представляют нишевые потребительские группы, зачастую труднодосягаемые, и дело заканчивается завершением опроса при недостаточной выборке. Эта проблема особенно ярко выражена в области медицинских товаров и В2В – там, где до непосредственных потребителей добраться довольно сложно.
Нам сложно осмыслить, насколько случайным фактором является вероятность, даже на больших числах.
Что означает «Случайность»?
Подбросьте монетку 50 раз – крайне редко Вам выпадет поровну, по 25 «орлов» и «решек». Такое происходит, приблизительно, в одном случае из 10.
На самом деле, при 50 подбрасываниях монетки с вероятностью 60% мы получим более чем 20-процентную разницу в количестве выпавших «орлов» и «решек». Поэтому соотношение «орлов» и «решек» такое, как на графике ниже, будет ожидаемой нормой.

Если в анкете 20 вопросов, по крайней мере один из них по теории вероятности даст разницу в 50% и более, что будет выглядеть так:

Ниже в таблице приведены данные для анкеты из 20 вопросов и выборке из 50 респондентов.
Объем выборки - 50
Разница в данных |
Вероятность того, что данная разница будет наблюдаться в каждом опросе |
Сколько раз разница будет наблюдаться в опросе (20 вопросов) |
Вероятность появления данной разницы в опросе (20 вопросов) |
8% | 90% | 18 | 100%+ |
16% | 67% | 13 | 100%+ |
24% | 47% | 9 | 100%+ |
32% | 32% | 6 | 100%+ |
40% | 20% | 4 | 100%+ |
48% | 12% | 2 | 100%+ |
56% | 7% | 1 | 100%+ |
64% | 4% | 1 | 70% |
72% | 2% | 0 | 32% |
80% | 1% | 0 | 15% |
88% | 0,3% | 0 | 7% |
96% | 0,2% | 0 | 3% |
Ниже приводятся аналогичные данные для выборки из 100 респондентов (прошу прощения у читателей за отсутствие данных по большей выборке – довольно трудоемкая работа!)
Объем выборки - 100
Разница в данных |
Вероятность того, что данная разница будет наблюдаться в каждом опросе |
Сколько раз разница будет наблюдаться в опросе (20 вопросов) |
Вероятность появления данной разницы в опросе (20 вопросов) |
4% | 90% | 18 | 100%+ |
8% | 75% | 15 | 100%+ |
12% | 60% | 12 | 100%+ |
16% | 47% | 9 | 100%+ |
20% | 36% | 7 | 100%+ |
24% | 26% | 5 | 100%+ |
28% | 19% | 4 | 100%+ |
32% | 13% | 3 | 100%+ |
36% | 9% | 2 | 100%+ |
40% | 6% | 1 | 100%+ |
44% | 4% | 1 | 76% |
48% | 2% | 0,4 | 41% |
52% | 1% | 0,3 | 25% |
56% | 1% | 0,2 | 15% |
60% | 0% | 0,1 | 8% |
64% | 0% | 0,03 | 3% |
72% | 0% | 0,02 | 2% |
76% | 0% | 0,01 | 1% |
77%+ | 0% | 0,01 | 0% |
Как убедиться, что данные надежны?
Простой фокус – разделите все исходные данные на 2 массива и проверьте, дают ли они один и тот же результат. Затем проделайте то же самое 20 раз и проследите, сколько раз результат сохранится. Если он останется тем же 19 раз из 20 – Ваши данные надежны на 95%. Число раз, которое результат сохранялся тем же, умноженное на 5, и даст степень надежности Ваших данных. Можно пойти еще на шаг дальше и разделить данные на 4 части, если все они дают один и тот же результат – в Вашем распоряжении вполне точная и надежная информация.
Оригинал статьи question-science.blogspot.ru
Перевод статьи Агентство маркетинговых исследований FDFgroup
Есть что сказать или обсудить по затронутой теме? Заходите в наши группы в в Facebook и Вконтакте!
Будьте в курсе, а также
получайте полезные материалы