четверг, 7 февраля 2013 г.

задачи, описываемые уравнением одной переменной

1,3 Mb.НазваниеАнализ многомерных данных в предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперьстраница1/11Дата конвертации25.09.2012Размер1,3 Mb.Тип   1                     Глава 3. Анализ многомерных данных В предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперь мы рассмотрим методы, позволяющие анализировать данные, описываемые любым числом переменных, т.е. так называемые многомерные данные. 3.1 Классификация методов анализа многомерных данных Несмотря на чрезвычайное разнообразие методов анализа многомерных данных, имеется четкая система представления как самих данных, так и результатов их анализа. Данные представляются в виде прямоугольной таблицы (матрицы), строки которой соответствуют различным ситуациям (наблюдениям), а столбцы - переменным, наблюдаемым в этих ситуациях. Результаты же представляются в виде функций, выражающих одни переменные (называемые зависимыми переменными, или откликами) через другие переменные (называемые независимыми переменными, или факторами). Такое представление исходных данных и результатов анализа чрезвычайно удобно, поскольку предлагает ясную схему для сбора данных, их обработки и интерпретации полученных результатов. Предлагаемая ниже классификация методов анализа данных проведена по двум основаниям: отсутствию или наличию независимых переменных, а также по типу зависимых и независимых переменных, которые могут быть качественными или количественными. Схема этой классификации представлена на рис. 3.1. Основным служит деление на методы, предполагающие наличие независимых переменных (левая часть схемы) и не предполагающие их наличие (правая часть). Это деление определяет содержательную постановку задачи, тогда как дальнейшее деление методов по типу зависимых и независимых переменных носит скорее технический характер, детализируя математическую процедуру ее решения. В случае априорного разделения переменных на зависимые и независимые (см. левую часть рис. 3.1) задача анализа состоит в получении описания зависимости Y от X. Выбор метода решения зависит прежде всего от того, являются ли качественными или количественными зависимые переменные Y. Окончательное решение о выборе метода анализа данных принимается в зависимости от типа независимых переменных X. Наиболее часто на практике для установления связи между независимыми и зависимыми переменными применяют регрессионный анализ и дисперсионный анализ. В обоих случаях откликами служат количественные переменные, однако факторы в регрессионном анализе количественные, а в дисперсионном - качественные. Рис 3.1. Классификация методов анализа данныхВ регрессионном анализе наиболее явно виден функциональный характер модели анализа данных. Задача регрессионного анализа прямо формулируется как задача поиска функциональной зависимости Y от X, причем задача поиска формы связи не менее важна, чем вопросы статистической значимости полученных результатов. Наиболее широко применяется модель множественного линейного регрессионного анализа, позволяющая получать аналитически все стандартные статистические оценки. В более сложных ситуациях (например, при использовании пошаговых процедур) для получения статистических выводов приходится применять методы, основанные на стохастическом моделировании, такие как случайная пермутация или бут-стрэп. Задачей дисперсионного анализа является установление связи между независимыми качественными переменными и зависимыми количественными. Однако поскольку функциональная структура связи очень проста - отклики представляются как линейные комбинации бинарных переменных - уровней факторов, то основное внимание в дисперсионном анализе уделяется вопросам статистической значимости влияния отдельных факторов. Если отклики Y качественные, то для анализа используется группа методов, известная под общим названием распознавания образов. Наиболее используемым методом распознавания в случае количественных факторов является дискриминантный анализ. Примерами методов распознавания, ориентированных на случай качественных факторов, могут служить сегментационный анализ и метод обобщенного портрета. Целью дискриминантного анализа является получение правила, позволяющего на основе наблюденных значений количественных независимых переменных X предсказывать значение качественной переменной Y, указывающей на принадлежность наблюдения к одному из заданных классов. Сегментационный анализ состоит в последовательном разбиении совокупности наблюдений с целью получения, в конечном итоге, групп, максимально однородных по классовому составу. Случай отсутствия зависимых переменных (правая часть рис. 3.1) предполагает, что все анализируемые переменные в некотором смысле равноправны, и мы принимаем их за отклики (для простоты будем считать их количественными), значения которых определяются какими-то нам неизвестными факторами. Примерами могут служить морфологические или генетические характеристики растений, животных или людей, принадлежащих определенному таксону или обитающих на определенной территории. Задача анализа состоит в поиске этих неизвестных факторов. Выбор метода решения зависит от того, считаем ли мы искомые факторы качественными или количественными. Для поиска качественных факторов используется группа методов, известная под названием кластерный анализ, среди которых наиболее часто используется так называемый агломеративно-иерархический метод, основанный на последовательном объединении многомерных наблюдений сначала в мелкие, а затем во все более и более крупные группы. Результатом кластерного анализа является разбиение всей совокупности наблюдений на классы. Полученной классификации соответствует качественная переменная (или несколько переменных, если используются несколько классификаций разной степени дробности или пересекающиеся классификации), категориями которой служат номера классов. Именно эта переменная (или переменные) и будет искомым качественным фактором. Найдя такой фактор (классифицирующую переменную), мы получаем возможность объяснять сходство или различие в значениях откликов для разных наблюдений принадлежностью их к одному или к разным классам. Если же неизвестные факторы ищутся в форме количественных переменных, то используются методы факторного анализа. В этом случае задача состоит в представлении имеющихся откликов, Y, в виде линейных комбинаций неизвестных количественных факторов, X . С практической точки зрения применение этого метода оправдано, если удаетс

Анализ многомерных данных в предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперь

Анализ многомерных данных в предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперь

Комментариев нет:

Отправить комментарий