Главная / Рефераты / Описательный анализ. Базовые методы анализа

Описательный анализ. Базовые методы анализа

После того, как данные, полученные в ходе формализованного опроса или наблюдения, подготовлены к обработке, прежде всего, проводится их базовый анализ: 1) расчет частотных распределений (frequency distribution); 2) кросс-табуляция (cross-tabulation); 3) проверка гипотез о связях и различиях. Результаты базового анализа ценны сами по себе и, кроме того, показывают направление для последующего многомерного анализа. Во многих маркетинговых проектах исследователи ограничиваются базовым анализом данных. При этом в подавляющем числе случаев речь идет о построении частотных распределений и кросс-табуляции. Форма представления этих результатов в виде графиков и таблиц понятна и доступна каждому, их легко интерпретировать для принятия маркетинговых решений. Построение частотных распределений (табулирование). Первым шагом анализа полученных стандартизированных данных является подсчет числа (частоты) случаев (ответов респондентов) по возможным значениям переменной. Такой подсчет называется табулированием. Относительную частоту различных значений переменной выражают в процентах и называют частостями. Подсчет распределения частот значений переменной дает возможность построить таблицу, с указанием частоты, частости и накопленных частостей для всех значений этой переменной. Как было указано ранее, для измерения характеристик объектов применяют четыре типа шкал: номинальная, порядковая, интервальная и относительная. Диаграмма, построенная по результатам табулирования данных, измеренных по интервальной или относительной шкале, называется гистограммой. Визуальный анализ гистограммы позволяет определить: 1) размах (диапазон) значений; 2) типичные значения; 3) рассеяние; 4) общую конфигурацию данных. Используя гистограмму, можно определить, являются ли данные нормально распределенными. Это особенно важно, если дальнейший анализ предполагает использование стандартных статистических процедур, которые требуют нормального распределения данных. Нормальное распределение представляет собой гистограмму в форме колокола, в котором большинство чисел сконцентрировано в средней части диапазона значений, а оставшиеся значения с затуханием симметрично расположены по обе стороны от вершины колокола. Иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения). Возможны два вида выбросов значений: ошибки и корректные, но «отличающиеся» значения данных. Ошибки необходимо найти и исправить. Однозначного ответа на вопрос, учитывать или не учитывать выбросы корректных данных не существует. При отсутствии достаточно обоснованного аргумента для исключения выбросов как компромисс можно выполнить два различных анализа: один с учетом выбросов, другой – с их исключением. Распределение частот – удобный способ представления различных значений переменной. Таблица частотного распределения легко читается и содержит основную информацию, но иногда такая информация слишком детализирована, и исследователь вынужден ее обобщать с помощью описательных статистик. Чаще всего используют следующие статистики, связанные с распределением частот: показатели центра распределения (среднее, мода и медиана), показатели вариации (размах, межквартильный размах, стандартное отклонение и коэффициент вариации) и показатели формы распределения (асимметрия и эксцесс). Показатели центра распределения (measures of location) характеризуют положение центра распределения, вокруг которого концентрируются данные. Простейшее обобщение любого набора данных представляет собой единственное число, которое наилучшим образом представляет все значения данных. Такое число можно было бы назвать типическим значением для данного набора данных. Если не все значения в наборе данных одинаковы, то мнения о «наиболее типическом» могут быть разными. Существуют три вида такой обобщающей меры. Среднее, которое можно вычислять только для данных, измеренных по интервальной или относительной шкале. Средняя арифметическая – это самый распространенный вид средней величины. Средняя арифметическая простая рассчитывается по формуле (4.1) где хi – значения данных; n - количество элементов в списке данных. а средняя арифметическая взвешенная — по формуле (4.2) где хi - вариант; fi - частота, или статистический вес, варианта. Медиана, или серединная точка, которую можно вычислять как для данных, измеренных по интервальной и относительной шкале, так и для порядковых данных. Медианой называют такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая — меньше медианы. Медиана определяется следующим образом. Расположим респондентов, ответивших на данный вопрос, в порядке возрастания значений вариантов ответов, которые они дали. Если общее число респондентов, ответивших на вопрос, нечетно, найдем значение варианта ответа респондента, расположенного в середине полученного ряда – это и будет медиана. Если же общее число респондентов, ответивших на вопрос, четное, найдем два варианта ответов, расположенных в середине полученного ряда. В этом случае медиана равна полусумме значений вариантов ответа, данных респондентами из этой пары. По другому – для расчета медианы достаточно выяснить на основе распределения ответов, куда попадает среднее по порядку значение ответа респондента или пара средних по порядку значений. Для этого нужно знать, на какой ответ приходятся 50% ответов респондентов в столбце «процент допустимых значений нарастающим итогом». Из определения медианы следует, что она не зависит от тех значений признака, которые расположены по обе стороны от нее. В связи с этим медиана является лучшей характеристикой центральной тенденции в тех случаях, когда концы распределений расплывчаты (например, границы крайних интервалов открыты) или в ряду распределения имеются чрезмерно большие или малые значения. Мода, или наиболее часто встречающаяся категория, которую можно вычислять для любых данных, в том числе для данных, измеренных по номинальной шкале. Во многих случаях эта величина наиболее характерна для ряда распределения и вокруг нее концентрируется большая часть вариантов. При изменении распределения в его концах мода не меняется, т.е. она обладает определенной устойчивостью к вариации признака. Поэтому моду наиболее удобно применять при изучении рядов с неопределенными границами. Перцентили — это характеристики набора данных, которые выражают ранги элементов в виде процентов от 0 до 100%, а не в виде чисел от 1 до n, таким образом, что наименьшему значению соответствует нулевой перцентиль, наибольшему — 100-й перцентиль, медиане — 50-й перцентиль и т.д. Перцентили можно рассматривать как показатели, разбивающие наборы данных на определенные части. Перцентили играют важную роль в качестве опорных характеристик. Чтобы обобщить основные черты распределения, достаточно нескольких значений перцентилей. Так, 50-й перцентиль — это медиана, поскольку 50-й перцентиль находится посередине между наибольшим и наименьшим значениями ряда. Интерес представляют экстремумы — наибольшее и наименьшее значения данных, т.е. 0-й и 100-й перцентили соответственно. Дополняют набор базовых характеристик квартили, определяемые как 25-й и 75-й перцентили. Квартили — это значения ранжированного ряда, которые находятся на расстоянии одной четвертой на пути от наименьшего и наибольшего значений. Пять базовых показателей включают наименьшее значение, нижний квартиль, медиану, верхний квартиль, наибольшее значение. Вместе эти характеристики дают достаточно ясное представление об особенностях еще не обработанного набора данных. Два экстремума характеризуют размах (диапазон) данных, медиана показывает центр, два квартиля определяют границы, «расположенной в центре половины данных», а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии асимметрии. Блочная диаграмма — это изображение всех пяти указанных показателей. Блочная диаграмма, как и гистограмма, дает визуальное представление о распределении, но использует иной способ графического отображения. Блочная диаграмма не содержит мелких деталей, что позволяет охватить всю картину в целом и сравнивать несколько групп чисел, не вдаваясь в детали каждой из групп. При необходимости подробно рассмотреть форму распределения лучше использовать гистограмму. Показатели вариации (изменчивости) – это статистики, показывающие меру разброса (вариабельность) значений переменной. К ним относятся: размах вариации, межквартильный размах, дисперсия, стандартное отклонение и коэффициент вариации. Размах вариации – это разность между наибольшим и наименьшим значениями переменной в вариационном ряду. Он равен разности между наибольшим и наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы. R = xmax — хmin, где xmax и хmin – наибольшее и наименьшее значения варьирующего признака. Межквартильный размах - это разность между 75- и 25-м процентилями. Для набора точек данных, расположенных в ранжированном ряду, р-м процентилем будет такое значение переменной в ранжированном ряду распределения, что р% единиц совокупности будут меньше и (100 — р)% – больше него. Дисперсия - среднее из квадратов отклонений переменной от ее средней величины. Если значения данных сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны, то мы имеем дело с большей дисперсией. Среднеквадратическое (стандартное) отклонение равно квадратному корню из дисперсии. Стандартное отклонение выражается в тех же единицах, что и сами данные. Стандартное отклонение выборки Sx вычисляют следующим образом: Используя в знаменателе п - 1 вместо п, мы корректируем более слабую изменчивость значений переменой, наблюдаемую в выборке. Коэффициент вариации - это отношение стандартного отклонения к среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель относительной изменчивости переменной. Коэффициент вариации V вычисляют следующим образом: V = Sx / Коэффициент вариации имеет смысл, только если переменную измеряют по относительной шкале. Характеристиками формы распределения значений измеряемого показателя являются асимметрия (skewness) и эксцесс (kurtosis). Они позволяют судить о том, в какой степени распределение по форме похоже на классический симметричный относительно центра распределения «колокол» нормального распределения, у которого среднее значение, медиана и мода совпадают. Если асимметрия распределения показателя положительна, то он отклоняется от своего среднего значения в правую сторону на несколько большие расстояния, чем в левую (правый «хвост распределения» длиннее левого). А если асимметрия отрицательна, то наоборот. Эксцесс позволяет судить о степени крутизны или пологости распределения. Для нормального распределения эксцесс равен нулю. Если распределение круче нормального (верхушка его острее, наблюдения в большей степени концентрируются около нее, но и «хвосты» распределения длиннее, чем у нормального распределения), то эксцесс положителен; в противном случае – он отрицателен. Проверка гипотез о связях и различиях. Базовый анализ данных неизменно включает в себя статистическую проверку гипотез. Статистической называют гипотезу о виде закона распределения или о параметрах известного распределения. В первом случае гипотеза называется непараметрической, а во втором – параметрической. Общая схема проверки гипотез включает следующие этапы: 1. Сформулировать нулевую гипотезу Н0 и альтернативную гипотезу H1. 2. Выбрать подходящий метод статистической проверки гипотезы (статистический критерий) и соответствующую статистику критерия (выборочную статистику, тест-статистику). 3. Выбрать уровень значимости ?. 4. Определить размер выборки и собрать данные. Вычислить значение выборочной статистики. 5. Определить вероятность, которую примет статистика критерия (выбранная на этапе 2) при выполнении нулевой гипотезы, используя соответствующее выборочное распределение. Альтернативный вариант данного этапа: определить критическое значение статистики, которое делит интервал на область принятия и непринятия нулевой гипотезы. 6. Сравнить полученную вероятность для тест-статистики (статистики, построенной по результатам выборочного наблюдения) с заданным уровнем значимости. Альтернативный вариант данного этапа: определить, попадает ли выборочное значение тест-статистики в область принятия или отклонения нулевой гипотезы. 7. Принять статистическое решение, касающееся того, принять или отвергнуть нулевую гипотезу. 8. Выразить статистическое решение с точки зрения проблемы маркетингового исследования. Нулевая гипотеза утверждает, что между определенными статистическими параметрами генеральной совокупности (средними или долями) не существует связи или различия. Ее подтверждение не требует каких-либо действий. Альтернативная гипотеза – это гипотеза, предполагающая, что между определенными статистическими параметрами генеральной совокупности (средними или долями) есть связь или различия. Ее подтверждение означает, что следует предпринимать какие-либо действия или менять свои взгляды на положение дел. Таким образом, альтернативная гипотеза противоположна нулевой. Маркетолог всегда проверяет именно нулевую гипотезу. Проверка гипотез имеет два исхода: нулевая гипотеза отвергается, а альтернативная — принимается, или нулевая гипотеза не отклоняется, исходя из представленных доказательств. Следовательно, по результатам статистической проверки нулевую гипотезу не следует принимать, т.е. некорректно заключить, что, поскольку нулевую гипотезу не отклоняют, ее можно принять как истинную. В классической теории проверки гипотез сложно определить, достоверность нулевой гипотезы. Статистическая проверка гипотез на основании выборочных данных неизбежно связана с риском принятия ложного решения. При этом возможны ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза. Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная гипотеза. Возможные результаты статистических выводов представлены в таблице 5.7. Таблица 5.7. Возможные результаты проверки гипотез Результаты проверки гипотезы Возможные состояния гипотезы верна Н0 верна Н1 Гипотеза Н0 отклоняется Ошибка первого рода Правильный вывод Гипотеза Н0 не отклоняется Правильный вывод Ошибка второго рода Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая – к неоправданному риску. Что лучше или хуже – зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если H0 состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив. Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, так как задачи их уменьшения являются конкурирующими, и снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения вероятности ошибок состоит в увеличении объема выборки. Вероятность совершить ошибку первого рода принято обозначать буквой ?, и ее называют уровнем значимости. Вероятность совершить ошибку второго рода обозначают ?. Тогда вероятность не совершить ошибку второго рода (1 - ?) называется мощностью критерия. Обычно значения ? задают заранее, «круглыми» числами (например, 0,1; 0,05; 0,01 и т.п.), а затем стремятся построить критерий наибольшей мощности. Таким образом, если ? = 0,05, то это означает, что исследователь не хочет совершить ошибку первого рода более чем в 50 случаях из 1000. Проверку статистической гипотезы осуществляют на основании данных выборки. Для этого используют специально подобранный критерий, точное или приближенное значение которой известно. Эту величину обозначают: z - если она имеет стандартизированное нормальное распределение; t - если она распределена по закону Стьюдента; ?2 – если она распределена по закону ?2; F - если она имеет распределение Фишера. После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отклоняется, другое – при которых она не отклоняется. Совокупность значений критерия, при которых нулевую гипотезу отклоняют, называют критической областью. Совокупность значений критерия, при которых нулевую гипотезу не отклоняют, называют областью принятия гипотезы. Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия (вычисленное по выборке) принадлежит критической области, то нулевую гипотезу отклоняют. Если же наблюдаемое значение критерия принадлежит области принятия гипотезы, то нулевую гипотезу не отклоняют (принимают). Точки, разделяющие критическую область и область принятия гипотезы, называют критическими. 3. Кросс-табуляция. Помимо ответов на вопросы, относящихся к анализу одной переменной, маркетологов часто интересуют дополнительные вопросы о связи этой переменной с другими переменными. Построение таблиц сопряженности признаков (кросс-табуляция) – это статистический метод, который одновременно характеризует две или больше переменных и заключается в создании таблиц, отражающих совместное распределение двух или больше переменных. Для того чтобы определить, какой результат отражает реальные характеристики выборки, а какой получен случайно, проверяют нулевую гипотезу. H0: переменная в строке (намерения воспользоваться услугой) не зависит от переменной в столбце (возраст). Для проверки такой гипотезы чаще всего используют статистический критерий ?2 (см. табл. 2 прил.). Величина ?2 рассчитывается для r строк и c столбцов по следующей формуле: где нij – наблюдаемое, оij – ожидаемое количество случаев в (ij)-й клетке. Для расчета ожидаемой частоты оij в каждой клетке перемножаются предельные частоты и делятся на общее число событий. Найденное расчетное значение ?2 сравнивается с таблицей критических значений для определенного числа степеней свободы. Число степеней свободы для данных кросс-табуляции определяется следующим образом: (r-1)x(c-1). Если расчетное значение ?2 не попадает в критический диапазон, то нулевая гипотеза о независимости переменных не подтверждается. Меры силы связи. Зная ?2, можно не только проверить гипотезу о наличии связи между включенными в таблицу кросс-табуляции вопросами анкеты, но и ответить на вопрос, насколько эта связь сильна. Для таблиц из двух строк и двух столбцов удобен коэффициент Фишера (phi coefficient): где n – размер выборки. Если статистической связи между вопросами нет, этот коэффициент равен нулю, а при наибольшей зависимости – единице. Для таблиц с произвольным числом строк и столбцов используется коэффициент сопряженности признаков Пирсона Если переменные не зависят друг от друга, то коэффициент сопряженности также равен нулю. Чем ближе данный показатель к единице, тем теснее связь между переменными. При этом он не может быть равен единице. Существуют и другие меры связи между переменными в таблице сопряженности признаков, однако они используются реже. Кросс-табуляция позволяет проанализировать взаимосвязь между номинальными переменными. Однако любые интервальные переменные могут быть использованы для формирования групп и, следовательно, для формирования номинальных переменных. Например, переменные «возраст» и «доход» являясь относительными, могут использоваться для определения категорий и стать номинальными. В большинстве случаев маркетинговые исследования не идут дальше построения таблиц сопряженности признаков, и даже в рамках проектов, использующих более сложные аналитические методы, кросс-табуляция выступает в качестве важного компонента.

Каталог работ

Узнать цену

Описательный анализ. Базовые методы анализа

Похожие рефераты: