Bok: «Klyngeanalyse. Klyngeanalyse Sekvensiell klyngealgoritme

Denne boken er dedikert til en av de mest lovende tilnærmingene i denne forstand til analyse av flerdimensjonale prosesser og fenomener - klyngeanalyse.

Klyngeanalyse er en metode for å gruppere flerdimensjonale objekter, basert på å representere resultatene av individuelle observasjoner ved punkter i et passende geometrisk rom, etterfulgt av å identifisere grupper som "klumper" av disse punktene. Faktisk er "klyngen" i engelske språk og betyr "klump", "klase (med druer)", "klynge (av stjerner)", osv. Dette begrepet passer uvanlig godt inn i vitenskapelig terminologi, siden dens første stavelse tilsvarer det tradisjonelle begrepet "klasse", og den andre synes for å indikere dens kunstige opprinnelse. Vi er ikke i tvil om at terminologien for klyngeanalyse vil erstatte alle konstruksjoner som tidligere ble brukt for dette formålet (uovervåket mønstergjenkjenning, stratifisering, taksonomi, automatisk klassifisering, etc.). Potensialet til klyngeanalyse er åpenbart for å løse for eksempel problemene med å identifisere grupper av virksomheter som opererer under lignende forhold eller med lignende resultater, homogene grupper av befolkningen i ulike aspekter av livet eller livsstil generelt, etc.

Klyngeanalyse dukket opp som en vitenskapelig retning på midten av 60-tallet og har utviklet seg raskt siden den gang, og er en av grenene til den mest intensive veksten av statistisk vitenskap. Det er nok å si at bare antall monografier om klyngeanalyse publisert til dags dato i forskjellige land, måles i hundrevis (mens for eksempel i henhold til en slik "fortjent" metode for multivariat statistisk analyse som faktor analyse , det er neppe mulig å telle flere titalls bøker). Og dette er ganske forståelig. Tross alt snakker vi faktisk om å modellere grupperingsoperasjonen, en av de viktigste ikke bare i statistikk, men generelt - både i kognisjon og i beslutningstaking.

En rekke monografier er publisert i vårt land viet studiet av spesifikke sosioøkonomiske problemer ved bruk av klyngeanalyse (1), metodikken for bruk av klyngeanalyse i sosioøkonomisk forskning (2), metodikken for klyngeanalyse som sådan ( 3) (Grunnleggende for statistisk analyse )

Den foreslåtte boken av I. D. Mandel er, som det var, vinkelrett på denne klassifiseringen: innholdet er knyttet til hvert av disse tre områdene.

Hensikten med boken er å oppsummere den nåværende tilstanden til klyngeanalyse, analysere bruksmulighetene og oppgaver for videre utvikling. Denne planen i seg selv kan ikke annet enn å vekke respekt: ​​objektiv analyse og generalisering krever mye arbeid, lærdom, mot, og verdsettes av det vitenskapelige samfunnet mye lavere enn promotering og utvikling av deres egne design. (Boken inneholder imidlertid også forfatterens originale utviklinger knyttet til "intensjonell" analyse og dualiteten av klassifiseringer.)

Oppnåelsen av dette målet er forbundet med både fordelene med boken og dens ulemper. Fordelene inkluderer:

· metodisk utarbeidelse av begrepene homogenitet, gruppering og klassifisering, tar hensyn til multidimensjonaliteten til fenomener og prosesser;

· en systematisk gjennomgang av tilnærminger og metoder for klyngeanalyse (inkludert opptil 150 spesifikke algoritmer);

· presentasjon av teknologien og resultatene av eksperimentell sammenligning av klyngeanalyseprosedyrer; Denne boken er dedikert til en av de mest lovende tilnærmingene i denne forstand til analyse av flerdimensjonale prosesser og fenomener - klyngeanalyse.

Klyngeanalyse er en metode for å gruppere flerdimensjonale objekter, basert på å representere resultatene av individuelle observasjoner ved punkter i et passende geometrisk rom, etterfulgt av å identifisere grupper som "klumper" av disse punktene. Egentlig betyr "cluster" på engelsk "klump", "klase (av druer)", "klynge (av stjerner)", osv. Dette begrepet passer uvanlig godt inn i vitenskapelig terminologi, siden dens første stavelse tilsvarer det tradisjonelle begrepet " klasse", og den andre ser ut til å indikere dens kunstige opprinnelse. Vi er ikke i tvil om at terminologien for klyngeanalyse vil erstatte alle konstruksjoner som tidligere ble brukt for dette formålet (uovervåket mønstergjenkjenning, stratifisering, taksonomi, automatisk klassifisering, etc.). Potensialet til klyngeanalyse er åpenbart for å løse for eksempel problemene med å identifisere grupper av virksomheter som opererer under lignende forhold eller med lignende resultater, homogene grupper av befolkningen i ulike aspekter av livet eller livsstil generelt, etc.

Klyngeanalyse dukket opp som en vitenskapelig retning på midten av 60-tallet og har utviklet seg raskt siden den gang, og er en av grenene til den mest intensive veksten av statistisk vitenskap. Det er nok å si at bare antall monografier om klyngeanalyse, utvikling av generelle ordninger for bruk av klyngeanalysemetoder, implementert i ganske klare tabeller; presentasjonens anbefalende karakter.

Disse fordelene bestemmer den uavhengige plassen til I. D. Mandels bok blant andre publikasjoner.

Bokens mangler er uklarheten i enkelte anbefalinger og mangelen på en systematisk analyse av bruken av klyngeanalysemetoder i fagspesifikke sosioøkonomiske anvendelser. Det siste skyldes riktignok utilstrekkelig bruk av klyngeanalyse på dette området.

Boken gir et springbrett, hvis bruk letter fremgang i den vanskeligste utgaven av enhver teori - praktisk bruk verktøyene den gir.

B.G. Mirkin

Send ditt gode arbeid i kunnskapsbasen er enkelt. Bruk skjemaet nedenfor

Studenter, hovedfagsstudenter, unge forskere som bruker kunnskapsbasen i studiene og arbeidet vil være deg veldig takknemlig.

Lagt ut på http://www.allbest.ru/

Introduksjon

1. Definisjon og oppgaver for klyngeanalyse

2. Klyngeanalysemetoder

3. Dendogrammer

Konklusjon

Bibliografi

Introduksjon

Klyngeanalyse er et sett med metoder som lar deg klassifisere flerdimensjonale observasjoner. Begrepet klyngeanalyse, først introdusert av Tryon i 1939, inkluderer mer enn 100 forskjellige algoritmer.

I motsetning til klassifiseringsproblemer, krever ikke klyngeanalyse på forhånd antakelser om datasettet, pålegger ikke begrensninger på representasjonen av objektene som studeres, og lar deg analysere indikatorer forskjellige typer data (intervalldata, frekvenser, binære data). Det må huskes at variablene må måles på sammenlignbare skalaer.

Klyngeanalyse lar deg redusere dimensjonen av data og gjøre den klarere.

Klyngeanalyse brukes til å identifisere grupper av punkter i data som er klart forskjellige fra hverandre. Viktigheten av å løse dette problemet skyldes det faktum at bruk av standard dataanalyseverktøy (inkludert standard økonometriske prosedyrer) i nærvær av klynger i dataene vil føre til et skifte i både punktestimat (regresjonskoeffisienter) og standardfeil, og derfor til uriktige statistiske konklusjoner. I tillegg kan strukturen til dataene og likheten mellom observasjoner være av uavhengig interesse.

Klyngeanalyse er designet for å dele et sett med objekter i homogene grupper (klynger eller klasser). I hovedsak er dette et flerdimensjonalt dataklassifiseringsproblem.

1. Definisjon og oppgaver for klyngeanalyse

Når forskeren analyserer og forutser sosioøkonomiske fenomener, møter forskeren ganske ofte flerdimensjonaliteten i beskrivelsen deres. Dette skjer når du løser problemet med markedssegmentering, konstruerer en typologi av land basert på et ganske stort antall indikatorer, prognoser markedsforhold for individuelle varer, studerer og forutsier økonomisk depresjon og mange andre problemer.

Multivariate analysemetoder er det mest effektive kvantitative verktøyet for å studere sosioøkonomiske prosesser beskrevet av et stort antall kjennetegn. Disse inkluderer klyngeanalyse, taksonomi, mønstergjenkjenning og faktoranalyse.

Klyngeanalyse reflekterer tydeligst funksjonene til flerdimensjonal analyse i klassifisering, faktoranalyse - i studiet av kommunikasjon.

Noen ganger kalles klyngeanalysetilnærmingen i litteraturen numerisk taksonomi, numerisk klassifisering, selvlærende anerkjennelse, etc.

Klyngeanalyse fant sin første anvendelse innen sosiologi. Navnet klyngeanalyse kommer fra det engelske ordet klynge - haug, akkumulering. For første gang i 1939 ble emnet klyngeanalyse definert og beskrevet av forsker Trion. Hovedformålet med klyngeanalyse er å dele settet med objekter og egenskaper som studeres i grupper eller klynger som er homogene i passende forstand. Dette betyr at problemet med å klassifisere data og identifisere den tilsvarende strukturen i dem blir løst. Klyngeanalysemetoder kan brukes i en lang rekke tilfeller, selv i tilfeller hvor vi snakker om enkel gruppering, der alt kommer ned til dannelsen av grupper basert på kvantitativ likhet.

Den store fordelen med klyngeanalyse er at den lar deg dele objekter ikke i henhold til én parameter, men i henhold til et helt sett med egenskaper. I tillegg legger klyngeanalyse, i motsetning til de fleste matematiske og statistiske metoder, ingen begrensninger på typen objekter som vurderes, og lar en vurdere en rekke innledende data av nesten vilkårlig karakter. Det har veldig viktig, for eksempel for å forutsi markedssituasjonen, når indikatorene har en mangfoldig form, noe som gjør det vanskelig å bruke tradisjonelle økonometriske tilnærminger.

Klyngeanalyse lar deg vurdere en ganske stor mengde informasjon og dramatisk redusere og komprimere store mengder sosioøkonomisk informasjon, noe som gjør dem kompakte og visuelle.

Klyngeanalyse er viktig i forhold til sett med tidsserier som karakteriserer økonomisk utvikling (for eksempel generelle økonomiske forhold og råvareforhold). Her kan du markere perioder da verdiene til de tilsvarende indikatorene var ganske nære, og også bestemme grupper av tidsserier hvis dynamikk er mest lik.

Klyngeanalyse kan brukes iterativt. I dette tilfellet utføres forskningen til de nødvendige resultatene er oppnådd. Dessuten kan hver syklus her gi informasjon som i stor grad kan endre retningen og tilnærmingene til den videre anvendelsen av klyngeanalyse. Denne prosessen kan representeres som et tilbakemeldingssystem.

I oppgaver med sosioøkonomisk prognose er kombinasjonen av klyngeanalyse med andre kvantitative metoder (for eksempel regresjonsanalyse) svært lovende.

Som enhver annen metode har klyngeanalyse visse ulemper og begrensninger: Spesielt avhenger sammensetningen og antallet klynger av de valgte partisjonskriteriene. Når du reduserer den opprinnelige datamatrisen til en mer kompakt form, kan visse forvrengninger oppstå, og de individuelle egenskapene til individuelle objekter kan gå tapt på grunn av deres erstatning med egenskapene til generaliserte verdier til klyngeparametrene. Når du klassifiserer objekter, blir muligheten for fravær av klyngeverdier i befolkningen under vurdering veldig ofte ignorert.

I klyngeanalyse vurderes det at:

a) de valgte egenskapene tillater i prinsippet ønsket inndeling i klynger;

b) måleenhetene (skalaen) er riktig valgt.

Valg av målestokk spiller en stor rolle. Vanligvis normaliseres data ved å subtrahere gjennomsnittet og dele på standardavviket slik at variansen er lik én.

Oppgaven med klyngeanalyse er å, basert på dataene i settet X, dele opp settet med objekter G i m (m er et heltall) klynger (delmengder) Q1, Q2, ..., Qm, slik at hvert objekt Gj tilhører én og bare én delmengde av partisjonen og slik at objekter som tilhører samme klynge er like, mens objekter som tilhører ulike klynger er heterogene.

La for eksempel G inkludere n land, hvorav alle er preget av BNP per innbygger (F1), antall M biler per tusen mennesker (F2), strømforbruk per innbygger (F3), stålforbruk per innbygger (F4) , etc. Da er X1 (målevektor) et sett med spesifiserte egenskaper for det første landet, X2 for det andre, X3 for det tredje, osv. Målet er å kategorisere land etter utviklingsnivå.

Løsningen på klyngeanalyseproblemet er partisjoner som tilfredsstiller et eller annet optimalitetskriterium. Dette kriteriet kan være en slags funksjon som uttrykker ønskelighetsnivåene til ulike partisjoner og grupperinger, som kalles den objektive funksjonen. For eksempel kan den interne summen av kvadrerte avvik tas som den objektive funksjonen:

hvor xj representerer målene til det j-te objektet.

For å løse problemet med klyngeanalyse er det nødvendig å definere begrepet likhet og heterogenitet.

Det er klart at objektene i-th og j-th ville falle inn i en klynge når avstanden (avstanden) mellom punktene Xi og Xj ville være liten nok og ville falle inn i forskjellige klynger når denne avstanden ville være stor nok. Å falle inn i en eller forskjellige klynger av objekter bestemmes derfor av konseptet om avstanden mellom Xi og Xj fra Ep, der Ep er et p-dimensjonalt euklidisk rom. En ikke-negativ funksjon d(Xi, Xj) kalles en avstandsfunksjon (metrisk) hvis:

a) d(Хi, Хj) і 0, for alle Хi og Хj fra Ep

b) d(Хi, Хj) = 0, hvis og bare hvis Хi = Хj

c) d(Хi, Хj) = d(Хj, Хi)

d) d(Хi, Хj) Ј d(Хi, Хk) + d(Хk, Хj), hvor Хj; Xi og Xk er hvilke som helst tre vektorer fra Ep.

Verdien d(Хi, Хj) for Хi og Хj kalles avstanden mellom Хi og Хj og er ekvivalent med avstanden mellom Gi og Gj i henhold til de valgte karakteristikkene (F1, F2, F3, ..., Fр).

Mest brukt følgende funksjoner avstander:

1. Euklidisk avstand

2. l1 - norm

4. Supremum er normen

dҐ (Хi , Хj) = sup

k = 1, 2, ..., s

5. lp - norm

dр(Хi, Хj) =

Den euklidiske metrikken er den mest populære. l1-beregningen er den enkleste å beregne. Den høyeste normen er enkel å beregne og inkluderer en bestillingsprosedyre, og lp-normen dekker avstandsfunksjonene 1, 2, 3,.

La n dimensjoner X1, X2,..., Xn representeres som en datamatrise med størrelse pґn:

Da kan avstanden mellom par av vektorer d(Хi, Хj) representeres som en symmetrisk matrise av avstander:

Det motsatte konseptet til avstand er konseptet om likhet mellom objekter Gi. og Gj. En ikke-negativ reell funksjon S(Хi ; Хj) = Sij kalles et likhetsmål hvis:

1) 0Ј S(Хi, Хj)<1 для Хi № Хj

2) S(Хi, Хi) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Par med likhetsmåleverdier kan kombineres til en likhetsmatrise:

Verdien Sij kalles likhetskoeffisienten.

2. Klyngeanalysemetoder

Klyngeanalysemetoder kan deles inn i to grupper:

* hierarkisk;

* ikke-hierarkisk.

Hver gruppe inkluderer mange tilnærminger og algoritmer.

Ved å bruke forskjellige klyngeanalyseteknikker kan en analytiker få forskjellige løsninger for de samme dataene. Dette anses som normalt. La oss vurdere hierarkiske og ikke-hierarkiske metoder i detalj.

Essensen av hierarkisk clustering er å sekvensielt kombinere mindre klynger til større eller dele store klynger i mindre.

Hierarkiske agglomerative metoder (Agglomerative Nesting, AGNES) Denne gruppen av metoder er preget av den sekvensielle kombinasjonen av initiale elementer og en tilsvarende reduksjon i antall klynger.

I begynnelsen av algoritmen er alle objekter separate klynger. I det første trinnet blir de mest like objektene kombinert til en klynge. I påfølgende trinn fortsetter sammenslåingen til alle objektene danner en klynge. Hierarkisk delbare (delbare) metoder (DIvisive ANAlysis, DIANA) Disse metodene er den logiske motsetningen til agglomerative metoder. I begynnelsen av algoritmen tilhører alle objekter en klynge, som i påfølgende trinn deles inn i mindre klynger, noe som resulterer i en sekvens av splittende grupper.

Ikke-hierarkiske metoder avslører høyere stabilitet med hensyn til støy og uteliggere, feil valg av beregninger og inkludering av ubetydelige variabler i settet som deltar i klynging. Prisen som må betales for disse fordelene med metoden er ordet "a priori". Analytikeren må forhåndsbestemme antall klynger, antall iterasjoner eller stoppregel og noen andre klyngeparametere. Dette er spesielt vanskelig for nybegynnere.

Hvis det ikke er noen forutsetninger om antall klynger, anbefales det å bruke hierarkiske algoritmer. Men hvis prøvestørrelsen ikke tillater dette, er en mulig måte å utføre en serie eksperimenter med forskjellig antall klynger, for eksempel begynne å dele datasettet med to grupper og gradvis øke antallet, sammenligne resultatene. På grunn av denne "variasjonen" av resultater, oppnås en ganske stor fleksibilitet i klynging.

Hierarkiske metoder, i motsetning til ikke-hierarkiske, nekter å bestemme antall klynger, men bygger et komplett tre av nestede klynger.

Vanskeligheter med hierarkiske klyngemetoder: begrensning av datasettstørrelsen; valg av nærhetsmål; manglende fleksibilitet i de resulterende klassifiseringene.

Fordelen med denne gruppen av metoder i forhold til ikke-hierarkiske metoder er deres synlighet og evnen til å få en detaljert forståelse av datastrukturen.

Ved bruk av hierarkiske metoder er det mulig å ganske enkelt identifisere uteliggere i et datasett og som et resultat forbedre kvaliteten på dataene. Denne prosedyren ligger til grunn for to-trinns klyngealgoritmen. Et slikt datasett kan senere brukes til å utføre ikke-hierarkisk klynging.

Det er et annet aspekt som allerede er nevnt i denne forelesningen. Dette er et spørsmål om å gruppere hele datasettet eller et utvalg av det. Dette aspektet er viktig for begge gruppene av metoder som vurderes, men det er mer kritisk for hierarkiske metoder. Hierarkiske metoder kan ikke fungere med store datasett, og bruk av noe sampling, dvs. deler av dataene kan tillate bruk av disse metodene.

Klyngeresultater har kanskje ikke tilstrekkelig statistisk begrunnelse. På den annen side, når man løser klyngeproblemer, er en ikke-statistisk tolkning av de oppnådde resultatene akseptabel, samt en ganske stor variasjon av varianter av begrepet klynge. Denne ikke-statistiske tolkningen lar analytikeren oppnå klyngeresultater som tilfredsstiller ham, noe som ofte er vanskelig ved bruk av andre metoder.

1) Metode for komplette tilkoblinger.

Essensen av denne metoden er at to objekter som tilhører samme gruppe (cluster) har en likhetskoeffisient som er mindre enn en viss terskelverdi S. Når det gjelder den euklidiske avstanden d, betyr dette at avstanden mellom to punkter (objekter) av klyngen bør ikke overstige en viss terskelverdi h. Dermed definerer h den maksimalt tillatte diameteren til delsettet som danner klyngen.

2) Maksimal lokal avstand metode.

Hvert objekt behandles som en enkeltpunktklynge. Objekter er gruppert i henhold til følgende regel: to klynger kombineres hvis den maksimale avstanden mellom punktene til den ene klyngen og punktene til den andre er minimal. Prosedyren består av n - 1 trinn og resultatet er partisjoner som sammenfaller med alle mulige partisjoner i forrige metode for eventuelle terskelverdier.

3) Word-metoden.

I denne metoden brukes intragruppesummen av kvadrerte avvik som objektivfunksjonen, som ikke er mer enn summen av kvadrerte avstander mellom hvert punkt (objekt) og gjennomsnittet av klyngen som inneholder dette objektet. Ved hvert trinn kombineres to klynger som fører til en minimal økning i målfunksjonen, d.v.s. summen av kvadrater innenfor gruppe. Denne metoden tar sikte på å kombinere tett plasserte klynger.

4) Centroid-metoden.

Avstanden mellom to klynger er definert som den euklidiske avstanden mellom sentrene (gjennomsnitt) av disse klynger:

d2 ij = (`X -`Y)Т(`X -`Y) Klynger skjer i trinn: ved hvert av n-1 trinnene kombineres to klynger G og p, med en minimumsverdi d2ij Hvis n1 er mye større enn n2, så er sentrene for foreningen av de to klyngene nær hverandre, og egenskapene til den andre klyngen blir praktisk talt ignorert når klynger kombineres. Denne metoden kalles noen ganger også vektet gruppemetoden.

3. Dendogrammer

Den mest kjente metoden for å representere en avstands- eller likhetsmatrise er basert på ideen om et dendogram eller trediagram. Et dendogram kan defineres som en grafisk representasjon av resultatene av en sekvensiell klyngeprosess, som utføres i form av en avstandsmatrise. Ved å bruke et dendogram kan du grafisk eller geometrisk representere en klyngingsprosedyre, forutsatt at denne prosedyren bare fungerer på elementer i avstands- eller likhetsmatrisen.

Det er mange måter å konstruere dendogrammer på. I et dendogram er objekter plassert vertikalt til venstre, klyngeresultater er plassert til høyre. Avstands- eller likhetsverdier som tilsvarer strukturen til nye klynger er avbildet langs en horisontal linje på toppen av dendogrammene.

Figur 1 viser ett eksempel på et dendogram. Figur 1 tilsvarer tilfellet med seks objekter (n=6) og k egenskaper (funksjoner). Objektene A og C er de nærmeste og er derfor kombinert til en klynge med et nærhetsnivå på 0,9. Objekt D og E er kombinert på nivå 0,8. Nå har vi 4 klynger:

Typen dendogram avhenger av valg av likhetsmål eller avstand mellom et objekt og en klynge og klyngemetoden. Det viktigste punktet er valg av likhetsmål eller avstandsmål mellom objektet og klyngen.

Antallet klyngeanalysealgoritmer er for stort. Alle kan deles inn i hierarkiske og ikke-hierarkiske.

Hierarkiske algoritmer er assosiert med konstruksjonen av dendogrammer og er delt inn i:

a) agglomerativ, karakterisert ved den sekvensielle kombinasjonen av initiale elementer og en tilsvarende reduksjon i antall klynger;

b) delelig (delelig), der antallet klynger øker, fra én, noe som resulterer i dannelsen av en sekvens av splittende grupper.

Klyngeanalysealgoritmer har i dag god programvareimplementering, som gjør det mulig å løse problemer av den største dimensjonen.

Konklusjon

Klyngeanalyse er et veldig praktisk verktøy for å identifisere markedssegmenter. Spesielt i vår høyteknologiske tidsalder, når maskiner kommer til hjelp for en person, blir en slik arbeidskrevende prosess bokstavelig talt et spørsmål om sekunder.

Dannelsen av segmenter avhenger av tilgjengelige data og er ikke bestemt på forhånd.

Variabler som danner grunnlaget for clustering bør velges ut fra erfaring fra tidligere studier, teoretisk bakgrunn, hypoteser som testes, og etter forskerens skjønn. I tillegg bør et passende mål for avstand (likhet) velges. Et trekk ved hierarkisk klynging er utviklingen av en hierarkisk eller trestruktur. Hierarkiske klyngemetoder kan være agglomerative eller divisjonelle. Agglomerative metoder inkluderer: enkeltbindingsmetode, komplett bindingsmetode og mediumbindingsmetode. En mye brukt dispersjonsmetode er Bard-metoden. Ikke-hierarkiske klyngemetoder kalles ofte k-middelmetoder. Disse metodene inkluderer sekvensiell terskelmetode, parallell terskelmetode og optimalisering av allokering. Hierarkiske og ikke-hierarkiske metoder kan brukes sammen. Valg av klyngemetode og valg av avstandsmål henger sammen.

Beslutningen om antall klynger tas av teoretiske og praktiske årsaker. I hierarkisk clustering er et viktig kriterium for å bestemme antall klynger avstandene som klynger smelter sammen. De relative størrelsene på klynger bør være slik at det er fornuftig å bevare en gitt klynge i stedet for å slå den sammen med andre. Klynger tolkes i form av klyngecentroider. Klynger tolkes ofte ved å profilere dem gjennom variabler som ikke var grunnlaget for klynging. Reliabiliteten og validiteten til klyngeløsninger vurderes på ulike måter.

klyngehierarkisk agglomerativt dendogram

Bibliografi

1. Vasiliev V.I. og andre Statistisk analyse av objekter av vilkårlig karakter. Introduksjon til kvalitetsstatistikk - M.: ICAR, 2004.

2. Økonomisk og statistisk analyse / Red. Ilyenkova S.D. -M.: UNTIT, 2002.

3. Parsadanov G.A. Prognose og planlegging av landets sosioøkonomiske system - M.: UNITI, 2001

Skrevet på Allbest.ru

Lignende dokumenter

    Lineær programmering. Geometrisk tolkning og grafisk metode for å løse ZLP. Enkel metode for å løse LLP. Kunstig basismetode. Algoritme for minimumselementmetoden. Algoritme for den potensielle metoden. Gomori-metoden. Algoritme for Vogel-metoden.

    sammendrag, lagt til 02/03/2009

    Grafisk metode for å løse problemet med optimalisering av produksjonsprosesser. Anvendelse av en simpleksalgoritme for å løse et økonomisk optimalisert produksjonsstyringsproblem. Dynamisk programmeringsmetode for valg av optimal baneprofil.

    test, lagt til 15.10.2010

    Analytiske og numeriske metoder for ubegrenset optimalisering. Eliminasjonsmetode og Lagrange multiplikatormetode (LMM). Eulers metode er en klassisk metode for å løse ubegrensede optimaliseringsproblemer. Klassisk begrenset optimaliseringsproblem. Om den praktiske betydningen av MML.

    abstrakt, lagt til 17.11.2010

    Grunnleggende metoder for å løse lineære programmeringsproblemer. Grafisk metode, simpleksmetode. Dobbelt problem, potensiell metode. Modellering og funksjoner for å løse et transportproblem ved å bruke den potensielle metoden ved å bruke egenskapene til Microsoft Excel.

    test, lagt til 14.03.2014

    Typer manifestasjon av kvantitative forhold mellom egenskaper. Definisjoner av funksjonelle og korrelasjonsforbindelser. Den praktiske betydningen av å etablere, retning og styrke av korrelasjon. Metode for kvadrater (Pearson-metoden), rangeringsmetode (Spearman-metoden).

    presentasjon, lagt til 19.04.2015

    En geometrisk metode for å løse standard lineære programmeringsproblemer med to variabler. En universell metode for å løse det kanoniske problemet. Hovedideen til simplex-metoden, implementering ved hjelp av et eksempel. Tabellbasert implementering av en enkel simpleksmetode.

    sammendrag, lagt til 15.06.2010

    En åpenbar innledende støtteløsning. Enkel metode med naturlig basis. Grafisk metode for å løse lineære programmeringsproblemer. Dobbelt problem, dens optimale løsning. Matrise for kostnadsforhold. Komplett opplegg for balanse mellom industrien.

    test, lagt til 30.04.2009

    Mål for markedssegmentering i markedsaktiviteter. Essensen av klyngeanalyse, hovedstadiene i implementeringen. Velge en avstandsmålemetode eller et likhetsmål. Hierarkiske, ikke-hierarkiske klyngemetoder. Vurdere reliabilitet og validitet.

    rapport, lagt til 11.02.2009

    Meta av klyngeanalyse: forståelse, algoritme, design. Hovedtrekk ved McKean-prosedyren. Graf over gjennomsnittsverdier for tre klynger. Metode for K-metoder, fordeler og mangler ved studien. Forståelse av grid clustering algoritmer (grid-basert).

    sammendrag, lagt til 27.05.2013

    Matematisk teori om optimal beslutningstaking. Tabellformet simpleks metode. Formulering og løsning av et dobbelt lineært programmeringsproblem. Matematisk modell av transportproblemet. Analyse av gjennomførbarheten av produksjon ved bedriften.

Universitet: VZFEI

År og by: Moskva 2008


1. Introduksjon. Konseptet med klyngeanalysemetode.

2. Beskrivelse av metodikken for bruk av klyngeanalyse. Testeksempel på problemløsning.

4. Liste over referanser som er brukt

  1. Introduksjon. Konseptet med klyngeanalysemetode.

Klyngeanalyse er et sett med metoder som gjør det mulig å klassifisere flerdimensjonale observasjoner, som hver er beskrevet av et sett med egenskaper (parametere) X1, X2,..., Xk.

Målet med klyngeanalyse er dannelsen av grupper av lignende objekter, som vanligvis kalles klynger (klasse, takson, kondensering).

Klyngeanalyse er et av områdene innen statistisk forskning. Det inntar en spesielt viktig plass i de vitenskapsgrenene som er assosiert med studiet av massefenomener og prosesser. Behovet for å utvikle metoder for klyngeanalyse og deres bruk er diktert av det faktum at de bidrar til å bygge vitenskapelig baserte klassifikasjoner og identifisere interne forbindelser mellom enheter av den observerte befolkningen. I tillegg kan klyngeanalysemetoder brukes til å komprimere informasjon, noe som er en viktig faktor i sammenheng med den stadige økningen og kompleksiteten til statistiske dataflyter.

Klyngeanalysemetoder lar deg løse følgende problemer:

Utføre klassifisering av objekter under hensyntagen til funksjoner som gjenspeiler essensen og naturen til objekter. Å løse et slikt problem fører som regel til dypere kunnskap om helheten av klassifiserte objekter;

Kontrollere antakelsene som er gjort om tilstedeværelsen av en eller annen struktur i det studerte settet med objekter, dvs. søke etter en eksisterende struktur;

Konstruksjon av nye klassifikasjoner for dårlig studerte fenomener, når det er nødvendig å etablere tilstedeværelsen av forbindelser i en populasjon og prøve å innføre struktur i den (1, s. 85-86).

2. Beskrivelse av metodikken for bruk av klyngeanalyse. Testeksempel på problemløsning.

Klyngeanalyse gjør at n objekter preget av k funksjoner kan deles inn i homogene grupper (klynger). Homogeniteten til objekter bestemmes av avstanden p(xi xj), der xi = (xi1, …., xik) og xj= (xj1,…, xjk) er vektorer sammensatt av verdiene til k funksjoner i i-en -th og j-th objekter, henholdsvis.

For objekter preget av numeriske egenskaper, bestemmes avstanden av følgende formel:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Objekter anses som homogene hvis p(xi xj)< p предельного.

En grafisk representasjon av foreningen kan fås ved å bruke et klyngeforeningstre - et dendrogram. (2. Kapittel 39).

Testtilfelle (eksempel 92).

Salgsvolum

La oss klassifisere disse objektene ved å bruke "nærmeste nabo"-prinsippet. La oss finne avstandene mellom objekter ved hjelp av formel (1)*. La oss fylle ut tabellen.

La oss forklare hvordan tabellen fylles ut.

I skjæringspunktet mellom rad i og kolonne j, er avstanden p(xi xj) angitt (resultatet avrundes til to desimaler).

For eksempel, i skjæringspunktet mellom rad 1 og kolonne 3 er avstanden p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10 angitt, og i skjæringspunktet mellom rad 3 og kolonne 5 avstanden p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Siden p(xi, xj) = p(xj,xi), trenger ikke den nedre delen av tabellen fylles ut.

La oss bruke "nærmeste nabo"-prinsippet. Vi finner i tabellen den minste av avstandene (hvis det er flere av dem, velg en av dem). Dette er p 1,2 ≈ p 4,5 = 2,24. La p min = p 4,5 = 2,24. Da kan vi kombinere objekt 4 og 5 til én gruppe, det vil si at den kombinerte kolonne 4 og 5 vil ha det minste av de tilsvarende tallene i kolonne 4 og 5 i den opprinnelige avstandstabellen. Det samme gjør vi med linje 4 og 5. Vi får et nytt bord.

Vi finner i den resulterende tabellen den minste av avstandene (hvis det er flere av dem, velg en av dem): p min = p 1,2 = 2,24. Deretter kan vi kombinere objektene 1,2,3 til én gruppe, det vil si at den kombinerte kolonnen 1,2,3 vil inneholde det minste av de tilsvarende antall kolonner 1 og 2 og 3 i forrige avstandstabell. Vi gjør det samme med rad 1, 2 og 3. Vi får en ny tabell.

Vi fikk to klynger: (1,2,3) og (4,5).

3. Løse problemer for testen.

Oppgave 85.

Betingelser: Fem produksjonsanlegg kjennetegnes av to kjennetegn: salgsvolum og gjennomsnittlig årlig kostnad for faste produksjonsmidler.

Salgsvolum

Gjennomsnittlig årlig kostnad for anleggsmidler

Løsning: La oss finne avstandene mellom objekter ved hjelp av formel (1)* (avrunding til to desimaler):

р 1,1 = √ (2-2) 2 + (2-2) 2 = 0

р 1,2 = √ (2-5) 2 + (7-9) 2 ≈ 3,61

р 1,3 = √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 = √ (5-5) 2 + (9-9) 2 =0

р 2,3 = √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 = √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 = √ (7-13) 2 + (10-5) 2 ≈ 7,81

р 4,5 = √ (12-13) 2 + (8-5) 2 ≈ 3,16

Basert på beregningsresultatene, fyll ut tabellen:

La oss bruke "nærmeste nabo"-prinsippet. For å gjøre dette finner vi den minste av avstandene i tabellen (hvis det er flere slike avstander, velg en av dem). Dette er p 2,3=2,24. La p min = p 2,3 = 2,24, så kan vi slå sammen objektene i kolonnene "2" og "3", og også slå sammen radene med objektene "2" og "3". I den nye tabellen legger vi inn de minste verdiene fra den opprinnelige tabellen i de kombinerte gruppene.

I den nye tabellen finner vi den minste av avstandene (hvis det er flere av dem, velg noen av dem). Dette er p 4,5 = 3,16. La p min = p 4,5 = 3,16, så kan vi slå sammen objektene i kolonnene "4" og "5", og også slå sammen radene med objektene "4" og "5". I den nye tabellen legger vi inn de minste verdiene fra den opprinnelige tabellen i de kombinerte gruppene.

I den nye tabellen finner vi den minste av avstandene (hvis det er flere av dem, velg noen av dem). Dette er p 1, 2 og 3 = 3,61. La p min = p 1, 2 og 3 = 3,61, så kan vi slå sammen kolonneobjekter "1" og "2 og 3" og også slå sammen rader. I den nye tabellen legger vi inn de minste verdiene fra den opprinnelige tabellen i de kombinerte gruppene.

Vi får to klynger: (1,2,3) og (4,5).

Dendrogrammet viser rekkefølgen på valg av elementer og de tilsvarende minimumsavstandene p min.

Svar: Som et resultat av klyngeanalyse ved bruk av "nærmeste nabo"-prinsippet ble det dannet 2 klynger av lignende objekter: (1,2,3) og (4,5).

Oppgave 211.

Betingelser: Fem produksjonsanlegg kjennetegnes av to kjennetegn: salgsvolum og gjennomsnittlig årlig kostnad for anleggsmidler.

Salgsvolum

Gjennomsnittlig årlig kostnad for anleggsmidler

Klassifiser disse objektene ved å bruke "nærmeste nabo"-prinsippet.

Løsning: For å løse problemet presenterer vi dataene i den opprinnelige tabellen. La oss bestemme avstandene mellom objekter. La oss klassifisere objekter etter prinsippet om "nærmeste nabo". Vi presenterer resultatene i form av et dendrogram.

Salgsvolum

Gjennomsnittlig årlig kostnad for anleggsmidler

Ved å bruke formel (1)* finner vi avstandene mellom objekter:

p 1,1 =0, p 1,2 =6, p 1,3 =8,60, p 1,4 =6,32, p 1,5 =6,71, p 2,2 =0, p 2,3 =7,07, p 2,4 =2, p 2,5 =3,32, p 3,3 = 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4,4 = 0, p 4,5 = 1, p 5,5 = 0.

Vi presenterer resultatene i tabellen:

Den minste verdien av avstandene i tabellen er p 4,5=1. La p min = p 4,5 = 1, så kan vi slå sammen objektene i kolonnene "4" og "5", og også slå sammen radene med objektene "4" og "5". I den nye tabellen legger vi inn de minste verdiene fra den opprinnelige tabellen i de kombinerte gruppene.

Den minste verdien av avstandene i den nye tabellen er p 2, 4 og 5=2. La p min = p 2, 4 og 5=2, så kan vi slå sammen objektene til kolonnene "4 og 5" og "3", og også slå sammen radene til objektene "4 og 5" og "3". I den nye tabellen legger vi inn de minste verdiene fra tabellen i de kombinerte gruppene.

Den minste verdien av avstandene i den nye tabellen er p 3,4,5=2. La p min = p 3,4,5=2, så kan vi slå sammen objektene i kolonnene "3,4,5" og "2", og også slå sammen radene til objektene "3,4,5" og "2". I den nye tabellen legger vi inn de minste verdiene fra tabellen i de kombinerte gruppene.

eller logg inn på siden.

Viktig! Alle innsendte tester for gratis nedlasting er ment for å lage en plan eller grunnlag for dine egne vitenskapelige arbeider.

Venner! Du har en unik mulighet til å hjelpe studenter akkurat som deg! Hvis siden vår hjalp deg med å finne jobben du trenger, så forstår du sikkert hvordan jobben du legger til kan gjøre andres arbeid enklere.

Hvis testarbeidet, etter din mening, er av dårlig kvalitet, eller du allerede har sett dette arbeidet, vennligst gi oss beskjed.

1 . Adrianov A.Yu., Linzen L., Klynger som et verktøy for utvikling av ideelle organisasjoner // www.dis.ru.

2. Alimbaev A.A., Pritvorova T.P., Taubaev A.A. Dannelse og utvikling av klynger under betingelsene for industriell og innovativ utvikling av republikken Kasakhstan // www.liter.kz

3. Analytisk notat for juli-august 2006 fra det territorielle organet til Federal State Statistics Service for Astrakhan-regionen

4. Bludova S.N. Regionale klynger som en måte å administrere det utenlandske økonomiske komplekset i regionen // www.ncstu.ru

5. Borodatov A.V., Kozhevnikova V.D. Initiativ for å opprette en turist- og rekreasjonsklynge i Sevastopol // Forretningspartner. - 2004. - Nr. 10. - Med. 33-37.

6. Buryak A.P., Voropov A.G. Klyngeanalyse - grunnlaget for å styre konkurranseevnen på makronivå // Markedsføring. - 2003. - Nr. 1. - Med. 34-40.

7. Davydov A.R., Lyalkina G.B. Nye former for organisering av innovasjonsprosessen. Internasjonal erfaring // www.dis.ru

8. Dranev Y.N. Klyngetilnærming til økonomisk utvikling av territorier. - M.: Forlaget "Scanrus", 2003. - 195 s.

9. Zasimova L.S. Veksthastigheter for matindustriproduksjonen i Astrakhan-regionen // www.volgainform.ru

10. Kapustin A.N. Reiselivsinvesteringer: kvalitet versus kvantitet // www. astrakhan.net

11. Kutin V.M. Territoriell økonomisk klynging (klassifisering) av russiske regioner: sosio-geografisk aspekt // Eurasias sikkerhet. - 2003. - Nr. 1. - Med. 21-28.

12. Lee S. Clusters - nye former for organisering av innovasjonsprosessen // www.naukakaz.kz.

13. Lozinsky S., Prazdnichnykh A. Konkurranseevne og industriklynger: en ny agenda for russisk næringsliv og myndigheter // World of Construction Industry. - 2003. - Nr. 2. - Med. 32-41.

14. Martynov L.M. Vekstrater for matindustriproduksjonen i Astrakhan-regionen // www.caspy.net

15. Melnikova S.V. Grunnlaget for Astrakhan-turismens velstand er en spesiell miljøpolitikk // Turisme i Russland. - 2006. - Nr. 8. - Med. 31-35.

16. Migranyan A.A. Teoretiske aspekter ved dannelsen av konkurrerende klynger // www.dis.ru.

17. Mikheev Yu.V., Khasaev G.R. Klynger gjennom partnerskap mot fremtiden // www.ptpu.ru.

18. Nikolaev M.V. Klyngekonsentrasjon av effektiv integrering av regioner i den globale økonomien // www.subcontract.ru

19. Perkina M.V. Hotellvirksomheten tar stjerner fra himmelen // Astrakhanskie Vedomosti. - 2006. - Nr. 19. - Med. 3.

20. Porter M.E. Konkurranse: Pr. fra engelsk: Uch. landsby - M.: Williams Publishing House, 2000. - 495 s.

21. Porter M. Internasjonal konkurranse. - M.: Internasjonal. relasjoner, 1993.- 869 s.

22. Dekret fra regjeringen i Astrakhan-regionen nr. 368-P datert 2510.2006 om det sektorvise målprogrammet "Utvikling av turisme i Astrakhan-regionen for 2007".

23. Program for sosioøkonomisk utvikling av Astrakhan-regionen, tatt i betraktning dobling av brutto regionalprodukt for 2005-2007.

24. Sviridov A.P. Økoturisme kan redde Astrakhan-regionen // www.volga-astrakhan.ru

25. Simachev Yu.V. Clustering som en måte å sikre konkurranseevnen til regionen // www.clusters-net.ru

26. Sokolenko S.I. Fra klyngeforskning til utvikling av kommersielle nettverk og produksjonsstrukturer // Russian Economic Journal. - 2004. - Nr. 6. - Med. 10-15.

27. Sokolenko S.I. Utvikling av turisme og rekreasjonsklynger: regionalt initiativ fra Ukraina // Region. - 2004. - Nr. 2. - Med. 19-22.

28. Spankulova L.S. Problemer med utvikling av industriklyngeøkonomi på regionalt nivå // AlPari. - 2004. - Nr. 2. - Med. 16-

29. Statistisk årbok for sosioøkonomisk utvikling av Astrakhan-regionen 2004, 2005 / Territorielt organ for Federal State Statistics Service for Astrakhan-regionen

30. Steblyakova L.P. Problemer med opprettelse og utvikling av økonomiske klynger: erfaring fra fremmede land // Proceedings of the Karaganda University of Business, Management and Law. - 2005. - Nr. 2. - Med. 22-29.

31. Steblyakova L.P., Vechkinzova E.A. Dannelse av konkurranseevneklynger i det sentrale Kasakhstan // www.liter.kz

32. Strategisk plan for utvikling av kommuneformasjonen "City of Astrakhan" for 2005 - 2010.

33. Strategi for utvikling av turisme i Astrakhan-regionen på mellomlang og lang sikt, 2005.

34. Filippov P. Konkurranseevneklynger // Ekspert. - 2003.- Nr. 43. - Med. 10-15.

35. Tsihan T.V. Klyngeteori om økonomisk utvikling // Teori og praksis for ledelse. - 2003. - Nr. 5. - Med. 22-25.

36 . Strømpe A.A. Mekanismer for å øke konkurranseevnen til regionale økonomier // www.subcontract.ru

37. Shekhovtsova L.S. Cluster som et moderne verktøy for å øke konkurranseevnen i regionen // www.clusters-net.ru

38. www.astrahanpages.com

39. www.astrasocial.ru

40. www. astrgorod.ru

41. www. astrobl.ru

42. www. asttour.ru

43. www.economy.astrobl.ru

Klyngeanalyse

Utfør klyngeanalyse ved å bruke k-means-metoden for k = 2,3, ved å bruke 2 indikatorer fra kildedataene. Velg fra menyen Analyse - Klassifisering k-betyr clustering. Variablene X1 og Y er plassert i feltet for testede variabler. Vi angir antall klynger. Ved å bruke Iterations...-bryteren angir vi antall iterasjoner lik 99. For å starte beregninger, klikk OK. Rapporten viser de primære klyngesentrene, iterasjonshistorikk, endelige klyngesentre, avstand mellom endelige sentre, klyngemedlemskapsinformasjon, avstand mellom objekter til klyngesentre, antall observasjoner i hver klynge, etc.

I tillegg til klyngetilknytning, viser rapporten avstanden mellom objekter til klyngesentre.


matrisekorrelasjonsdatamaskin

Konklusjon

Mens arbeidet ble utført, ble det utviklet ferdigheter til å selvstendig løse anvendte problemer innen økonomi, samt arbeid med profesjonelle dataanalyse programvarepakker (SPSS).

Liste over brukt litteratur

  • 1. Multivariat statistisk analyse i økonomiske problemer: datamodellering i SPSS: Lærebok. godtgjørelse / Red. I.V. Orlova. - M.: Universitetets lærebok, 2011. - 310 s.
  • 2. Orlova I.V., Polovnikov V.A. Økonomiske og matematiske metoder og modeller: datamodellering: Proc. godtgjørelse. - M.: Universitetets lærebok, 2007. - 365 s.
  • 3. Forelesningskurs om økonometri ved prof. Sakhabetdinova M.A.