Книга: «Кластерный анализ. Кластерный анализ Алгоритм последовательной кластеризации

Данная книга посвящена как раз одному из наиболее обещающих в указанном смысле подходов к анализу многомерных процессов и явлений - кластер-анализу.

Кластер-анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «гсгустков» этих точек. Собственно, «кластер» (cluster) в английском языке и означает «сгусток», «гроздь (винограда)», «скопление (звезд)» и т. п. Этот термин необыкновенно удачно вписался в научную терминологию, поскольку его первый слог соответствует традиционному термину «класс», а второй как бы указывает на его искусственное происхождение. Мы не сомневаемся в том, что терминология кластерного анализа заменит все ранее использовавшиеся для этой цели конструкции (распознавание образов без учителя, стратификация, таксономия, автоматическая классификация и т. п.). Очевидны потенциальные возможности кластерного анализа для решения, скажем, проблем выделения групп предприятий, действующих в сходных условиях или с похожими результатами, однородных групп населения по различным аспектам жизнедеятельности или образа жизни в целом и т. п.

Как научное направление кластер-анализ заявил о себе в середине 60-х годов и с тех пор бурно развивается, являясь одной из ветвей наиболее интенсивного роста статистической науки. Достаточно сказать, что только число монографий по кластерному анализу, изданных к настоящему времени в разных странах, измеряется сотнями (тогда как, скажем, по такому «заслуженному» методу многомерного статистического анализа, как факторный анализ , едва ли удастся насчитать несколько десятков книг). И это вполне понятно. Ведь речь идет фактически о моделировании операции группирования, одной из важнейших не только в статистике, но и вообще - и в познании, и в принятии решений.

В нашей стране опубликован ряд монографий, посвященных исследованию конкретных социально-экономических проблем с использованием кластер-анализа (1), методологии использования кластер-анализа в социально-экономических исследованиях (2), методологии кластер-анализа как такового (3) (Основы статистического анализа)

Предлагаемая книга И. Д. Манделя как бы перпендикулярна данной классификации: ее содержание связано с каждым из указанных трех направлений.

Цель книги - подытожить современное состояние кластерного анализа, проанализировать возможности его использования и задачи дальнейшего развития. Этот замысел сам по себе не может не вызвать уважения: непредвзятые анализ и обобщение требуют большого труда, эрудиции, смелости, а оцениваются научной общественностью значительно ниже, чем выдвижение и разработка собственных конструкций. (Впрочем, книга содержит и оригинальные разработки автора, связанные с «интенсиональным» анализом и двойственностью классификаций.)

С реализацией указанной цели связаны и достоинства книги, и ее недостатки. К достоинствам следует отнести:

· методологическую проработку понятий однородности, группировки и классификации с учетом многомерности явлений и процессов;

· систематизированный обзор подходов и методов кластер-анализа (включающий до 150 конкретных алгоритмов);

· изложение технологии и результатов экспериментального сравнения процедур кластер-анализа; Данная книга посвящена как раз одному из наиболее обещающих в указанном смысле подходов к анализу многомерных процессов и явлений - кластер-анализу.

Кластер-анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «гсгустков» этих точек. Собственно, «кластер» (cluster) в английском языке и означает «сгусток», «гроздь (винограда)», «скопление (звезд)» и т. п. Этот термин необыкновенно удачно вписался в научную терминологию, поскольку его первый слог соответствует традиционному термину «класс», а второй как бы указывает на его искусственное происхождение. Мы не сомневаемся в том, что терминология кластерного анализа заменит все ранее использовавшиеся для этой цели конструкции (распознавание образов без учителя, стратификация, таксономия, автоматическая классификация и т. п.). Очевидны потенциальные возможности кластерного анализа для решения, скажем, проблем выделения групп предприятий, действующих в сходных условиях или с похожими результатами, однородных групп населения по различным аспектам жизнедеятельности или образа жизни в целом и т. п.

Как научное направление кластер-анализ заявил о себе в середине 60-х годов и с тех пор бурно развивается, являясь одной из ветвей наиболее интенсивного роста статистической науки. Достаточно сказать, что только число монографий по кластерному анализу, разработку общих схем использования методов кластер-анализа, реализованных в достаточно наглядных таблицах; рекомендательный характер изложения.

Эти достоинства определяют самостоятельное место книги И. Д. Манделя среди других изданий.

Недостатки книги - неоднозначность некоторых рекомендаций и отсутствие систематического анализа вопросов использования методов кластер-анализа в предметных социально-экономических приложениях. Правда, последнее обусловливается недостаточным применением кластер-анализа в этой области.

Книга дает плацдарм, использование которого облегчает продвижение в самом трудном вопросе любой теории - практическом использовании даваемого ею инструментария.

Б. Г. Миркин

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

1. Определение и задачи кластерного анализа

2. Методы кластерного анализа

3. Дендограммы

Заключение

Список литературы

Введение

Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.

Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.

Кластерный анализ служит для выявления в данных групп точек, явственно отличающихся друг от друга. Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч. стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам. Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес.

Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По сути это задача многомерной классификации данных.

1. Определение и задачи кластерного анализа

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.

Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.

Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ - в исследовании связи.

Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.

Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster - гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа - разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.

В кластерном анализе считается, что:

а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;

б) единицы измерения (масштаб) выбраны правильно.

Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклонение, так что дисперсия оказывается равной единице.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m - целое) кластеров (подмножеств) Q1, Q2, …, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Например, пусть G включает n стран, любая из которых характеризуется ВНП на душу населения (F1), числом М автомашин на 1 тысячу человек (F2), душевым потреблением электроэнергии (F3), душевым потреблением стали (F4) и т.д. Тогда Х1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х2 - для второй, Х3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов отклонения:

где xj - представляет собой измерения j-го объекта.

Для решения задачи кластерного анализа необходимо определить понятие сходства и разнородности.

Понятно то, что объекты i-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Хi и Хj было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между Хi и Хj из Ер, где Ер - р-мерное евклидово пространство. Неотрицательная функция d(Хi , Хj) называется функцией расстояния (метрикой), если:

а) d(Хi , Хj) і 0, для всех Хi и Хj из Ер

б) d(Хi, Хj) = 0, тогда и только тогда, когда Хi = Хj

в) d(Хi, Хj) = d(Хj, Хi)

г) d(Хi, Хj) Ј d(Хi, Хk) + d(Хk, Хj), где Хj; Хi и Хk - любые три вектора из Ер.

Значение d(Хi, Хj) для Хi и Хj называется расстоянием между Хi и Хj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам (F1, F2, F3, ..., Fр).

Наиболее часто употребляются следующие функции расстояний:

1. Евклидово расстояние

2. l1 - норма

4. Сюпремум - норма

dҐ (Хi , Хj) = sup

k = 1, 2, ..., р

5. lp - норма

dр(Хi , Хj) =

Евклидова метрика является наиболее популярной. Метрика l1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а lp - норма охватывает функции расстояний 1, 2, 3,.

Пусть n измерений Х1, Х2,..., Хn представлены в виде матрицы данных размером p ґ n:

Тогда расстояние между парами векторов d(Хi , Хj) могут быть представлены в виде симметричной матрицы расстояний:

Понятием, противоположным расстоянию, является понятие сходства между объектами Gi. и Gj. Неотрицательная вещественная функция S(Хi ; Хj) = Sij называется мерой сходства, если:

1) 0Ј S(Хi , Хj)<1 для Хi № Хj

2) S(Хi , Хi) = 1

3) S(Хi , Хj) = S(Хj , Хi)

Пары значений мер сходства можно объединить в матрицу сходства:

Величину Sij называют коэффициентом сходства.

2. Методы кластерного анализа

Методы кластерного анализа можно разделить на две группы:

* иерархические;

* неиерархические.

Каждая из групп включает множество подходов и алгоритмов.

Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением. Рассмотрим иерархические и неиерархические методы подробно.

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.

Иерархические агломеративные методы (Agglomerative Nesting, AGNES)Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.

В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер. Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации. Ценой, которую приходится платить за эти достоинства метода, является слово "априори". Аналитик должен заранее определить количество кластеров, количество итераций или правило остановки, а также некоторые другие параметры кластеризации. Это особенно сложно начинающим специалистам.

Если нет предположений относительно числа кластеров, рекомендуют использовать иерархические алгоритмы. Однако если объем выборки не позволяет это сделать, возможный путь - проведение ряда экспериментов с различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количество, сравнивать результаты. За счет такого "варьирования" результатов достигается достаточно большая гибкость кластеризации.

Иерархические методы, в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров.

Сложности иерархических методов кластеризации: ограничение объема набора данных; выбор меры близости; негибкость полученных классификаций.

Преимущество этой группы методов в сравнении с неиерархическими методами - их наглядность и возможность получить детальное представление о структуре данных.

При использовании иерархических методов существует возможность достаточно легко идентифицировать выбросы в наборе данных и, в результате, повысить качество данных. Эта процедура лежит в основе двухшагового алгоритма кластеризации. Такой набор данных в дальнейшем может быть использован для проведения неиерархической кластеризации.

Существует еще одни аспект, о котором уже упоминалось в этой лекции. Это вопрос кластеризации всей совокупности данных или же ее выборки. Названный аспект существенен для обеих рассматриваемых групп методов, однако он более критичен для иерархических методов. Иерархические методы не могут работать с большими наборами данных, а использование некоторой выборки, т.е. части данных, могло бы позволить применять эти методы.

Результаты кластеризации могут не иметь достаточного статистического обоснования. С другой стороны, при решении задач кластеризации допустима нестатистическая интерпретация полученных результатов, а также достаточно большое разнообразие вариантов понятия кластера. Такая нестатистическая интерпретация дает возможность аналитику получить удовлетворяющие его результаты кластеризации, что при использовании других методов часто бывает затруднительным.

1) Метод полных связей.

Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.

2) Метод максимального локального расстояния.

Каждый объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.

3) Метод Ворда.

В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

4) Центроидный метод.

Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:

d2 ij = (`X -`Y)Т(`X -`Y) Кластеризация идет поэтапно на каждом из n-1 шагов объединяют два кластера G и p, имеющие минимальное значение d2ij Если n1 много больше n2, то центры объединения двух кластеров близки друг к другу и характеристики второго кластера при объединении кластеров практически игнорируются. Иногда этот метод иногда называют еще методом взвешенных групп.

3. Дендограммы

Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендограммы или диаграммы дерева. Дендограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства.

Существует много способов построения дендограмм. В дендограмме объекты располагаются вертикально слева, результаты кластеризации - справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются по горизонтальной прямой поверх дендограмм.

На рисунке 1 показан один из примеров дендограммы. Рис 1 соответствует случаю шести объектов (n=6) и k характеристик (признаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. Теперь имеем 4 кластера:

Вид дендограммы зависит от выбора меры сходства или расстояния между объектом и кластером и метода кластеризации. Наиболее важным моментом является выбор меры сходства или меры расстояния между объектом и кластером.

Число алгоритмов кластерного анализа слишком велико. Все их можно подразделить на иерархические и неиерархические.

Иерархические алгоритмы связаны с построением дендограмм и делятся на:

а) агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров;

б) дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп.

Алгоритмы кластерного анализа имеют сегодня хорошую программную реализацию, которая позволяет решить задачи самой большой размерности.

Заключение

Кластерный анализ является очень удобным средством для выделения сегментов рынка. В особенности в наш век высоких технологий, когда на помощь человеку приходят машины, и столь трудоемкий процесс становиться буквально секундным делом.

Образование сегментов зависит от имеющихся данных, а не определяется заранее.

Переменные, которые являются основанием для кластеризации, следует выбирать, исходя из опыта предшествующих исследований, теоретических предпосылок, проверяемых гипотез, а также по усмотрению исследователя. Кроме того, следует выбрать соответствующую меру расстояния (сходства). Особенность иерархической кластеризации -- разработка иерархической или древовидной структуры. Иерархические методы кластеризации могут быть агломеративными или дивизивными. Агломеративные методы включают: метод одиночной связи, метод полной связи и метод средней связи. Широко распространенным дисперсионным методом является метод Барда. Неиерархические методы кластеризации часто называют методами k-средних. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение. Иерархические и неиерархические методы можно применять совместно. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны.

Решение о числе кластеров принимают по теоретическим и практическим соображениям. В иерархической кластеризации важным критерием принятия решения о числе кластеров являются расстояния, при которых происходит объединение кластеров. Относительные размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а не объединить его с другими. Кластеры интерпретируют с точки зрения кластерных центроидов. Часто интерпретировать кластеры помогает их профилирование через переменные, которые не лежали в основе кластеризации. Надежность и достоверность решений кластеризации оценивают разными способами.

кластер иерархический агломеративный дендограмма

Список литературы

1. Васильев В.И. и др. Статистический анализ объектов произвольной природы. Введение в статистику качества.- М.: ИКАР, 2004.

2. Экономико-статистический анализ /Под ред. Ильенковой С.Д. -М.: ЮНТИТ, 2002.

3. Парсаданов Г.А. Прогнозирование и планирование социально-экономической системы страны.- М.: ЮНИТИ, 2001

Размещено на Allbest.ru

Подобные документы

    Линейное программирование. Геометрическая интерпретация и графический метод решения ЗЛП. Симплексный метод решения ЗЛП. Метод искусственного базиса. Алгоритм метода минимального элемента. Алгоритм метода потенциалов. Метод Гомори. Алгоритм метода Фогеля.

    реферат , добавлен 03.02.2009

    Графический метод решения задачи оптимизации производственных процессов. Применение симплекс-алгоритма для решения экономической оптимизированной задачи управления производством. Метод динамического программирования для выбора оптимального профиля пути.

    контрольная работа , добавлен 15.10.2010

    Аналитические и численные методы безусловной оптимизации. Метод исключения и метод множителей Лагранжа (ММЛ). Метод Эйлера – классический метод решения задач безусловной оптимизации. Классическая задача условной оптимизации. О практическом смысле ММЛ.

    реферат , добавлен 17.11.2010

    Основные методы решения задач линейного программирования. Графический метод, симплекс-метод. Двойственная задача, метод потенциалов. Моделирование и особенности решения транспортной задачи методом потенциалов с использованием возможностей Мicrosoft Excel.

    контрольная работа , добавлен 14.03.2014

    Виды проявления количественных связей между признаками. Определения функциональной и корреляционной связи. Практическое значение установления, направление и сила корреляционной связи. Метод квадратов (метод Пирсона), ранговый метод (метод Спирмена).

    презентация , добавлен 19.04.2015

    Геометрический способ решения стандартных задач линейного программирования с двумя переменными. Универсальный метод решения канонической задачи. Основная идея симплекс-метода, реализация на примере. Табличная реализация простого симплекс-метода.

    реферат , добавлен 15.06.2010

    Очевидное начальное опорное решение. Симплексный метод с естественным базисом. Графический метод решения задач линейного программирования. Двойственная задача, ее оптимальное решение. Матрица коэффициентов затрат. Полная схема межотраслевого баланса.

    контрольная работа , добавлен 30.04.2009

    Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад , добавлен 02.11.2009

    Мета кластерного аналізу: поняття, алгоритм, завдання. Головні особливості процедури Мак-Кіна. Графік середніх значень за трьома кластерами. Метод К-методів, переваги та недоліки використання. Поняття про сіткові алгоритми кластеризації (grid-based).

    реферат , добавлен 27.05.2013

    Математическая теория оптимального принятия решений. Табличный симплекс-метод. Составление и решение двойственной задачи линейного программирования. Математическая модель транспортной задачи. Анализ целесообразности производства продукции на предприятии.

Вуз: ВЗФЭИ

Год и город: Москва 2008


1. Введение. Понятие метода кластерного анализа.

2. Описание методики применения кластерного анализа. Контрольный пример решения задач.

4. Список используемой литературы

  1. Введение. Понятие метода кластерного анализа.

Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х1, Х2,…,Хк.

Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (класс, таксон, сгущение).

Кластерный анализ - одно из направлений статистического исследования. Особо важное место от занимает в тех отраслях науки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут использоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.

Методы кластерного анализа позволяют решать следующие задачи:

Проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

Проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

Построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру (1. стр. 85-86).

2. Описание методики применения кластерного анализа. Контрольный пример решения задач.

Кластерный анализ позволяет из n объектов, характеризуемых k признаками, сформировать разбивку на однородные группы (кластеры). Однородность объектов определяется по расстоянию p(xi xj), где xi = (xi1, …., xik) и xj= (xj1,…,xjk) - векторы, составленные из значений k признаков i-го и j-го объектов соответственно.

Для объектов, характеризуемых числовыми признаками, расстояние определяется по следующей формуле:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Объекты считаются однородными, если p(xi xj) < p предельного.

Графическое изображение объединения может быть получено с помощью дерева объединения кластеров - дендрограммы. (2. Глава 39).

Контрольный пример (пример 92).

Объем продаж

Проведем классификацию этих объектов с помощью принципа «ближнего соседа». Найдем расстояния между объектами по формуле (1)* . Заполним таблицу.

Поясним, как заполняется таблица.

На пересечении строки i и столбца j указано расстояние p(xi xj) (результат округляем до двух цифр после запятой).

Например, на пересечении строки 1 и столбца 3 указано расстояние p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10, а на пересечении строки 3 и столбца 5 указано расстояние p(x3, x5) = √ (6-12) 2 +(8-7) 2 ≈ 6,08. Так как p(xi, xj) = p(xj,xi), то нижнюю часть таблицы можно не заполнять.

Применим принцип «ближнего соседа». Находим в таблице наименьшее из расстояний (если таких несколько, то выберем любое из них). Это р 1,2 ≈ р 4,5=2,24. Пусть р min = р 4,5 = 2,24. Тогда мы можем объединить в одну группу объекты 4 и 5, то есть в объединенном столбце 4 и 5 будет наименьшее из соответствующих чисел столбцов 4 и 5 первоначальной таблицы расстояний. Аналогично поступаем и со строками 4 и 5. Получим новую таблицу.

Находим в полученной таблице наименьшее из расстояний (если таких несколько, то выберем любое из них): р min = р 1,2 = 2,24. Тогда мы можем объединить в одну группу объекты 1,2,3, то есть в объединенном столбце 1,2,3 будет наименьшее из соответствующих чисел столбцов 1 и 2 и 3 предыдущей таблицы расстояний. Аналогично поступаем и со строками 1 и 2 и 3. Получим новую таблицу.

Мы получили два кластера: (1,2,3) и (4,5).

3. Решение задач для контрольной работы.

Задача 85.

Условия: Пять производственных объектов характеризуются двумя признаками: объемом продаж и среднегодовой стоимостью основных производственных фондов.

Объем продаж

Среднегодовая стоимость основных производственных фондов

Решение: Найдем расстояния между объектами по формуле (1)* (округление проведем до двух знаков после запятой):

р 1,1 = √ (2-2) 2 + (2-2) 2 = 0

р 1,2 = √ (2-5) 2 + (7-9) 2 ≈ 3,61

р 1,3 = √ (2-7) 2 + (7-10) 2 ≈ 5,83

р 2,2 = √ (5-5) 2 + (9-9) 2 =0

р 2,3 = √ (5-7) 2 + (9-10) 2 ≈ 2,24

р 3,4 = √ (7-12) 2 + (10-8) 2 ≈5,39

р 3,5 = √ (7-13) 2 + (10-5) 2 ≈ 7,81

р 4,5 = √ (12-13) 2 + (8-5) 2 ≈ 3,16

На основании результатов расчетов заполним таблицу:

Применим принцип «ближайшего соседа». Для этого в таблице находим наименьшее из расстояний (если таких несколько, то выбираем любое из них). Это р 2,3=2,24. Пусть р min = р 2,3 = 2,24, тогда мы можем объединить объекты столбцов «2» и «3», а также объединить строки объектов «2» и «3». В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.

В новой таблице находим наименьшее из расстояний (если таких несколько, то выбираем любое из них). Это р 4,5=3,16. Пусть р min = р 4,5 = 3,16, тогда мы можем объединить объекты столбцов «4» и «5», а также объединить строки объектов «4» и «5». В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.

В новой таблице находим наименьшее из расстояний (если таких несколько, то выбираем любое из них). Это р 1, 2 и 3=3,61. Пусть р min = р 1, 2 и 3 = 3,61, тогда мы можем объединить объекты столбцов «1» и «2 и 3», а также объединить строки. В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.

Мы получаем два кластера: (1,2,3) и (4,5).

На дендрограмме указаны порядок выбора элементов и соответствующие минимальные расстояния р min.

Ответ: В результате кластерного анализа по принципу «ближайшего соседа» образованы 2-а кластера схожих между собой объектов: (1,2,3) и (4,5).

Задача 211.

Условия: Пять производственных объектов характеризуются двумя признаками: объемом продаж и среднегодовой стоимостью основных фондов.

Объем продаж

Среднегодовая стоимость основных производственных фондов

Провести классификацию этих объектов с помощью принципа «ближайшего соседа».

Решение: Для решения задачи приведем данные в первоначальную таблицу. Определим расстояния между объектами. Проведем классификацию объектов по принципу «ближайшего соседа». Результаты представим в виде дендрограммы.

Объем продаж

Среднегодовая стоимость основных производственных фондов

По формуле (1)* найдем расстояния между объектами:

р 1,1 =0, р 1,2 =6, р 1,3 =8,60, р 1,4 =6,32, р 1,5 =6,71, р 2,2 =0, р 2,3 =7,07, р 2,4 =2, р 2,5 =3,32, р 3,3 =0, р 3,4 =5,10, р 3,5 =4,12, р 4,4 =0, р 4,5 =1, р 5,5 =0.

Результаты представим в таблице:

Наименьшим значением из расстояний в таблице является р 4,5=1. Пусть р min = р 4,5 = 1, тогда мы можем объединить объекты столбцов «4» и «5», а также объединить строки объектов «4» и «5». В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.

Наименьшим значением из расстояний в новой таблице является р 2, 4 и 5=2. Пусть р min = р 2, 4 и 5=2, тогда мы можем объединить объекты столбцов «4 и 5» и «3», а также объединить строки объектов «4 и 5» и «3». В новой таблице в объединенные группы вносим наименьшие значения из таблицы.

Наименьшим значением из расстояний в новой таблице является р 3,4,5=2. Пусть р min = р 3,4,5=2, тогда мы можем объединить объекты столбцов «3,4,5» и «2», а также объединить строки объектов «3,4,5» и «2». В новой таблице в объединенные группы вносим наименьшие значения из таблицы.

или авторизуйтесь на сайте.

Важно! Все представленные Контрольные работы для бесплатного скачивания предназначены для составления плана или основы собственных научных трудов.

Друзья! У вас есть уникальная возможность помочь таким же студентам как и вы! Если наш сайт помог вам найти нужную работу, то вы, безусловно, понимаете как добавленная вами работа может облегчить труд другим.

Если Контрольная работа, по Вашему мнению, плохого качества, или эту работу Вы уже встречали, сообщите об этом нам.

1 . Адрианов А.Ю., Линцен Л., Кластеры как инструмент развития некоммерческих организаций // www.dis.ru.

2. Алимбаев А.А., Притворова Т.П., Таубаев А.А. Формирование и развитие кластеров в условиях индустриально-инновационного развития Республики Казахстан // www.liter.kz

3. Аналитическая записка за июль-август 2006 года Территориального органа Федеральной службы государственной статистики по Астраханской области

4. Блудова С.Н. Региональные кластеры как способ управления внешнеэкономическим комплексом региона // www.ncstu.ru

5. Бородатов А.В., Кожевникова В.Д. Инициатива по созданию севастопольского туристско-рекреационного кластера // Бизнес-партнер. - 2004. - №10. - с. 33-37.

6. Буряк А.П., Воропов А.Г. Кластерный анализ -- база управления конкурентоспособностью на макроуровне // Маркетинг. - 2003. - №1. - с. 34-40.

7. Давыдов А.Р., Лялькина Г.Б. Новые формы организации инновационного процесса. Международный опыт // www.dis.ru

8. Дранев Я.Н. Кластерный подход к экономическому развитию территорий. - М.: Издательский дом "Сканрус", 2003. - 195 с.

9. Засимова Л.С. Темпы роста производства пищевой промышленности Астраханской области // www.volgainform.ru

10. Капустин А.Н. Туринвестиции: качество против количества // www. astrakhan.net

11. Кутьин В.М. Территориальная экономическая кластеризация (классификация) регионов России: социально-географический аспект// Безопасность Евразии. - 2003. - №1. - с. 21-28.

12. Ли С. Кластеры - новые формы организации инновационного процесса // www.naukakaz.kz.

13. Лозинский С., Праздничных А. Конкурентоспособность и отраслевые кластеры: новая повестка дня для российского бизнеса и власти // Мир стройиндустрии. - 2003. - №2. - с. 32-41.

14. Мартынов Л.М. Темпы роста производства пищевой промышленности Астраханской области // www.caspy.net

15. Мельникова С.В. Основа процветания астраханского туризма - особая экологическая политика // Туризм в России. - 2006. - №8. - с. 31-35.

16. Мигранян А.А. Теоретические аспекты формирования конкурентоспособных кластеров // www.dis.ru.

17. Михеев Ю.В., Хасаев Г.Р. Кластеры через партнерство к будущему// www.ptpu.ru.

18. Николаев М.В. Кластерная концентрация эффективной интеграции регионов в глобальную экономику // www.subcontract.ru

19. Перкина М.В. Гостиничный бизнес берёт звёзды с неба// Астраханские ведомости. - 2006. - №19. - с. 3.

20. Портер М.Э. Конкуренция: Пер. с англ.: Уч. пос. - М.: Издательский дом Вильямс, 2000. - 495 с.

21. Портер М. Международная конкуренция. - М.: Междунар. отношения, 1993.- 869 с.

22. Постановление Правительства Астраханской области от 2510.2006 №368-П об отраслевой целевой программе "Развитие туризма в Астраханской области на 2007 год".

23. Программа социально-экономического развития Астраханской области с учётом удвоения валового регионального продукта на 2005-2007 гг.

24. Свиридов А.П. Астраханскую область может спасти экологический туризм // www.volga-astrakhan.ru

25. Симачев Ю.В. Кластеризация как способ обеспечения конкурентоспособности региона // www.clusters-net.ru

26. Соколенко С.И. От кластерных исследований к развитию сетевых коммерческо-производственных структур// Российский экономический журнал. - 2004. - №6. - с. 10-15.

27. Соколенко С.И. Развитие туристическо-рекреационных кластеров: региональная инициатива Украины// Регион. - 2004. - №2. - с. 19-22.

28. Спанкулова Л.С. Проблемы развития кластерной экономики промышленности на региональном уровне // АльПари. - 2004. - №2. - с. 16-

29. Статистический ежегодник социально-экономического развития Астраханской области 2004, 2005 / Территориальный орган Федеральной службы государственной статистики по Астраханской области

30. Стеблякова Л.П. Проблемы создания и развития кластеров экономики: опыт зарубежных стран // Труды Карагандинского университета бизнеса, управления и права. - 2005. - №2. - с. 22-29.

31. Стеблякова Л.П., Вечкинзова Е.А. Формирование кластеров конкурентоспособности в центральном Казахстане // www.liter.kz

32. Стратегический план развития муниципального образования "Город Астрахань" на 2005 - 2010 гг.

33. Стратегия развития туризма в Астраханской области на средне- и долгосрочную перспективы 2005 г.

34. Филиппов П. Кластеры конкурентоспособности // Эксперт. - 2003.- №43. - с. 10-15.

35. Цихан Т.В. Кластерная теория экономического развития// Теория и практика управления. - 2003. - №5. - с. 22-25.

36 . Чулок А.А. Механизмы повышения конкурентоспособности экономики регионов // www.subcontract.ru

37. Шеховцова Л.С. Кластер как современный инструмент повышения конкурентоспособности в регионе // www.clusters-net.ru

38. www.astrahanpages.com

39. www.astrasocial.ru

40. www. astrgorod.ru

41. www. astrobl.ru

42. www. asttour.ru

43. www.economy.astrobl.ru

Кластерный анализ

Выполнить кластерный анализ методом к - средних для к = 2,3, используя 2 показателя из исходных данных. Выберем в меню Анализ - Классификация кластеризация k-средними. Переменные Х1 и Y помещаем в поле тестируемых переменных. Указываем количество кластеров. Через выключатель Итерации… укажем число итераций, равное 99. Для начала расчетов нажимаем ОК. В отчете представлены первичные кластерные центры, история итераций, окончательные центры кластеров, расстояние между конечными центрами, информация о принадлежности к кластерам, расстояние объектов до кластерных центров, числе наблюдений в каждом кластере и т. п.

В отчете кроме кластерной принадлежности выводится расстояние объектов до кластерных центров.


матрица корреляция компьютерный

Заключение

При выполнении работы были сформированы навыки самостоятельного решения прикладных задач в сфере экономики, а так же работы с профессиональными пакетами программ анализа данных (SPSS).

Список использованной литературы

  • 1. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS: Учеб. пособие / Под ред. И.В. Орловой. - М.: Вузовский учебник, 2011. - 310 с.
  • 2. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие. - М.: Вузовский учебник, 2007. - 365 с.
  • 3. Курс лекций по эконометрике проф. Сахабетдинова М.А.