Pentru ce este folosită analiza cluster? Analiza cluster este un studiu prin împărțirea unui set de obiecte în grupuri omogene

Introducere

Capitolul 1. Baza teoretica analiza big data

1.1 Despre Big Data

.2 Hartă-Reducere

.3 Data Mining pentru Big Data

1.4 Sarcini rezolvate prin metodele Data Mining

Concluzie la primul capitol

Capitolul 2. Analiza cluster pentru Big Data

.1 Alegerea unei metode de grupare

.2 Metode ierarhice

.3 Metode neierarhice

.4 Compararea tipurilor de clustering

.5 Statistici legate de analiza clusterului

Concluzia celui de-al doilea capitol

capitolul 3

.1 Profilul clientului

.2 Analiza conformității

.3 Ideea principală a analizei cluster

.4 Caracteristici pentru grupare

.5 Identificarea punctelor omogene în locație

.5.1 Stratificare finală

.6 Agruparea obiectelor în grupuri omogene

.7 Agruparea sortimentelor prize

Concluzia celui de-al treilea capitol

Concluzie

Bibliografie

Introducere

Omenirea în dezvoltarea sa folosește resurse materiale, energetice, instrumentale și informaționale. Informațiile despre evenimentele din trecut, prezent și posibil viitor sunt de mare interes pentru analiza a ceea ce se întâmplă. După cum spuneau anticii: Praemonitus praemunitus - "precautia este ca o inarmare".

Dezvoltarea modernă a societății se caracterizează printr-o creștere fără precedent a fluxurilor de informații - în industrie, comerț, piețe financiare. Capacitatea unei societăți de a stoca și procesa rapid informațiile determină, în general, nivelul de dezvoltare al statalității unei țări.

Problemei culegerii, stocării și procesării informațiilor în societatea modernă i se acordă o mare atenție. Cu toate acestea, în acest moment există o contradicție clară. Pe de o parte, civilizația umană se confruntă cu o explozie informațională, cantitatea de informații crește de multe ori în fiecare an. Pe de altă parte, creșterea volumului actual de informații în societate depășește capacitatea individului de a-l asimila. Prezența unor astfel de probleme inițiază dezvoltarea în masă a tehnologiilor, mijloace tehnice, comutarea fluxurilor.

Rolul vital al informaţiei în lumea modernă, a condus la identificarea informațiilor ca resursa proprie, la fel de important și necesar ca energia, financiara, materiile prime.

Nevoile societății în colectarea, stocarea și prelucrarea informațiilor ca marfă au creat o nouă gamă de servicii - piața tehnologia Informatiei.

Pentru utilizarea cât mai completă și completă a tehnologiilor informaționale, informațiile trebuie colectate, prelucrate, create locuri de stocare și acumulare, create sisteme de transmisie și sisteme de restricție a accesului și, în final, informația trebuie sistematizată. Ultima problemă este cea mai relevantă în ultima vreme, deoarece o cantitate mare, chiar uriașă, de informații care intră în matricele de stocare globale, fără sistematizarea acesteia, poate duce la colapsul informației, atunci când accesarea sau căutarea informațiilor potrivite poate duce la căutarea unui acul in carul cu fan.

Scopul acestei lucrări : Analiza comparativă a metodelor de analiză a clusterelor în rezolvarea problemelor de grupare.

Sarcină : Analizați abordări ale utilizării analizei cluster în problemele de tastare a unui set mare de date.

Pe parcursul lucrărilor se vor folosi diverse metode de analiză a clusterelor pentru a identifica avantajele și dezavantajele fiecăreia dintre ele, precum și pentru a alege cele mai optime pentru implementarea sarcinilor. Se va pune și problema principală a analizei clusterelor - problema numărului de clustere și se vor da recomandări pentru soluționarea acesteia. Relevanța acestei lucrări se datorează nevoii urgente de a determina metodele optime de prelucrare a unor cantități mari de date și de rezolvare a problemelor de sistematizare a datelor în cât mai repede posibil. Aplicarea practică largă a datelor obținute prin analiza cluster determină relevanța acestui studiu. Anumite aspecte ale unor astfel de probleme în dezvoltarea modernă a tehnologiilor informaționale fac obiectul tezei mele.

Capitolul 1. Fundamentele teoretice ale analizeiMareDate

.1 Despre Big Data

Termenul „Big Data” caracterizează seturi de date cu o posibilă creștere exponențială care sunt prea mari, prea neformatate sau deloc structurate pentru a fi analizate prin metode tradiționale.

Tehnologii Big Data - o serie de abordări, instrumente și metode de prelucrare a datelor structurate și nestructurate de volume uriașe și o varietate semnificativă. Aceste tehnologii sunt folosite pentru a obține rezultate perceptibile de om care sunt eficiente în condiții de creștere continuă, de distribuție a informațiilor pe numeroase noduri ale unei rețele de calculatoare. Au fost formate la sfârșitul anilor 2000 ca o alternativă la sistemele tradiționale de gestionare a bazelor de date și la soluțiile de business intelligence. În prezent, cei mai mari furnizori de tehnologie a informației pentru organizații folosesc conceptul de „big data” în strategiile lor de afaceri, iar principalii analiști ai pieței tehnologiei informației consacră acestui concept studii dedicate.

În prezent, un număr semnificativ de companii urmăresc îndeaproape dezvoltarea tehnologiei. Potrivit rapoartelor „Global Institute, Big data: următoarea frontieră pentru inovare, competiție și productivitate” ale lui McKinsey, datele au devenit un factor important de producție, împreună cu forța de muncă și resursele de capital. Utilizarea Big Data devine baza pentru avantajul competitiv și creșterea companiilor.

În condiții moderne, organizațiile și companiile creează o cantitate imensă de date nestructurate: text, diverse documente, imagini, videoclipuri, coduri de mașină, tabele și altele asemenea. Toate aceste informații sunt găzduite și stocate în mai multe depozite, adesea în afara organizației.

Organizațiile pot avea acces la o cantitate mare de date proprii, dar în același timp instrumentele necesare, cu care ar fi realist să stabilim relații între toate aceste date și, pe baza acestora, să tragem concluzii semnificative, poate să nu aibă. Având în vedere creșterea rapidă și continuă a datelor, devine urgent necesară trecerea de la metode tradiționale analiza la tehnologii mai avansate din clasa Big Data.

Caracteristici.În sursele moderne, conceptul de Big Data este definit ca date de volum de ordinul teraocteților. Semnele Big Data pot fi definite ca „trei V”: volum - volum; varietate - eterogenitate, set; viteza - viteza (necesita procesare foarte rapida).

Figura 1 Semne de date mari

· Volum. Dezvoltarea rapidă a tehnologiei și popularizarea rețelelor sociale contribuie la creșterea foarte rapidă a volumelor de date. Aceste date, generate atât de oameni, cât și de mașini, sunt distribuite în diverse locuri și formate în volume uriașe.

· Viteză. Această caracteristică este viteza de generare a datelor. Obținerea datelor de care aveți nevoie în cel mai scurt timp posibil este un avantaj competitiv important pentru dezvoltatorii de soluții, și pentru că diferite aplicații au cerințe diferite de latență.

· Diversitate. Diversitatea poate fi atribuită diferitelor formate de stocare a datelor. Astăzi, în lume sunt generate cantități semnificative de date nestructurate, iar acestea se adaugă datelor structurate pe care le primesc întreprinderile. Înainte de apariția erei dezvoltării tehnologiei Big Data, nu existau instrumente puternice și de încredere în industrie care să poată lucra cu datele voluminoase nestructurate pe care le vedem astăzi.

Consumul de cantități mari de date structurate generate atât în ​​interiorul, cât și în afara întreprinderii este o necesitate pentru organizațiile din lumea actuală pentru a rămâne competitive.

„Categoria” Big data include în mod tradițional nu numai foile de calcul obișnuite, ci și date nestructurate care pot fi stocate sub formă de imagini, fișiere audio, fișiere video, jurnale web, date de senzor și multe altele. O variație în lumea datelor mari va fi numită acest aspect al diferitelor formate de date.

Mai jos, în Figura 2, este o descriere comparativă a bazei de date tradiționale și a bazei de date Big Data.

Există o serie de industrii în care datele sunt colectate și acumulate foarte intens. Pentru aplicațiile din această clasă, în care este nevoie de stocarea datelor de ani de zile, datele acumulate sunt clasificate ca Extremely Big Data.

Există, de asemenea, o creștere a numărului de aplicații Big Data în sectoarele comerciale și guvernamentale, cantitatea de date a unor astfel de aplicații este în stocare și se ridică adesea la sute de petabytes.

Figura 2 Caracteristici comparative date

Dezvoltarea anumitor tehnologii face posibilă „urmărirea” oamenilor, a obiceiurilor, intereselor și comportamentului consumatorilor în diverse moduri. Exemplele includ utilizarea internetului în general și în special cumpărăturile de la comercianții cu amănuntul online, cum ar fi Walmart (conform Wikipedia, stocarea datelor Walmart este evaluată la peste 2 petaocteți) sau călătoria și deplasarea cu telefoane mobile, efectuați apeluri, scrieți scrisori, faceți fotografii, conectați-vă la conturi de rețele sociale din diferite părți ale lumii - toate acestea se acumulează în baze de date și pot fi folosite util datorită procesării rapide a datelor mari.

La fel, modern tehnologie medicală genera cantități mari de date legate de acordarea de îngrijiri medicale (imagini, videoclipuri, monitorizare în timp real).

Surse de date mari. La fel cum formatele de stocare a datelor s-au schimbat, sursele de date au evoluat și se extind constant. Datele trebuie stocate într-o mare varietate de formate.

Odată cu dezvoltarea și progresul tehnologiei, cantitatea de date care este generată crește constant. Sursele de date mari pot fi împărțite în șase categorii diferite, după cum se arată mai jos.

Figura 3 Surse de date mari

· Datele întreprinderii.Întreprinderile au cantități mari de date în diferite formate. Formatele comune includ fișiere plate, e-mailuri, documente Word, foi de calcul, prezentări, pagini HTML, documente PDF, fișiere XML, formate vechi etc. Aceste date, distribuite în întreaga organizație în diferite formate, numite date corporative .

· date tranzacționale. Fiecare întreprindere are propriile aplicații, care includ execuția diferite feluri tranzacții precum aplicații web, aplicatii mobile, sisteme CRM și multe altele.

Pentru a sprijini tranzacțiile în aceste aplicații, una sau mai multe baze de date relaționale sunt de obicei utilizate ca infrastructură de bază. Practic sunt date structurate și se numesc tranzacționale. date.

· Social media. Rețelele sociale precum Twitter, Facebook și multe altele generează un numar mare de date. De obicei, rețelele sociale folosesc formate de date nestructurate, inclusiv text, imagini, audio, video. Această categorie de surse de date se numește social mass-media .

· Generare activitate. Acestea includ date de la dispozitive medicale, date cenzurate, video de supraveghere, sateliți, turnuri de telefoane mobile, echipamente industriale și alte date generate în principal de mașini. Aceste tipuri de date se numesc date Generare activitate.

· date publice. Aceste date includ date care sunt disponibile public, cum ar fi date publicate de guverne, date de cercetare publicate de institutele de cercetare, date de la departamentele meteorologice și meteorologice, date de recensământ, Wikipedia, eșantioane de date open source și alte date care sunt disponibile gratuit pentru public . Acest tip de date publice se numește date publice .

· Arhiva. Organizațiile arhivează o mulțime de date care fie nu mai sunt necesare, fie sunt rareori necesare. În lumea de astăzi, în care hardware-ul devine din ce în ce mai ieftin, nicio organizație nu dorește să ștergă date, ea vrea să păstreze cât mai multe date posibil. Acest tip, care este accesat mai rar, se numește date de arhivă.

Exemple de implementare. Ca exemplu de implementare a acestei tehnologii, cel mai des este citat proiectul Hadoop, care este conceput pentru a implementa calculul distribuit folosit pentru a procesa cantități impresionante de date.

Acest proiect este dezvoltat de Apache Software Foundation. Cloudera sprijină acest proiect din punct de vedere comercial.

Dezvoltatorii din diverse țări ale lumii sunt implicați în proiect ca participanți. furnizor de clustering de informații

Din punct de vedere tehnologic, Apache Hadoop poate fi numit un cadru Java gratuit care suportă execuția aplicațiilor distribuite care rulează pe clustere mari construite pe hardware standard.

Deoarece prelucrarea datelor se realizează pe un cluster de servere, dacă unul dintre ele nu reușește, munca va fi redistribuită între altele funcționale.

De asemenea, este necesar să spunem despre implementarea tehnologiei MapReduce în Hadoop, a cărei sarcină principală este paralelizarea automată a datelor și procesarea lor pe clustere.

Nucleul Hadoop este un sistem de fișiere distribuite cu toleranță la erori HDFS (Hadoop Distributed File System), care operează sisteme de stocare.

Esența sistemului este împărțirea datelor primite în blocuri, pentru care există o poziție special alocată în pool-ul de servere pentru fiecare dintre ele. Sistemul face posibilă scalarea aplicațiilor. Un nivel va fi mii de noduri și petaocteți de date.

1.2 Hartă-Reducere

În acest paragraf, ne vom concentra pe algoritmul Map-Reduce, care este un model pentru calculul distribuit.

Principiile funcționării sale se bazează pe distribuția datelor de intrare către nodurile de lucru ale unui sistem de fișiere distribuit pentru preprocesare (map-step) și, apoi, urmează convoluția (combinația) datelor preprocesate (reduce step) .

Algoritmul calculează subtotalurile fiecărui nod de sistem de fișiere distribuit, apoi calculează suma subtotalurilor și ajunge la suma finală.

Magic Quadrant pentru furnizorii de soluții de gestionare a stocării (Gartner, februarie 2017)

Figura 4 Lideri

Companii:

Lideri: IBM, SAS, RapidMiner, KNIME

Provocatori: MathWorks, Quest (fost Dell), Alteryx, Angoss

Vizualizatori: Microsoft, H2O.ai, Dataiku, Domino Data Lab, Alpine Data

Jucători de nișă: FICO, SAP, Teradata

1.3 Exploatarea datelorpentrumuncăcuDate mare

extragerea datelor(DM) - „Aceasta este o tehnologie care este concepută pentru a căuta modele neevidente, obiective și practice în cantități mari de date.”

O caracteristică a Data Mining-ului este combinarea unui set de instrumente matematice larg (de la clasicul analize statistice la noile metode cibernetice) și cele mai recente progrese în tehnologia informației.

Această tehnologie combină metode strict formalizate și metode de analiză informală, adică. cantitativ şi analiza calitativa date.

.4 Sarcini rezolvate prin metodele Data Mining

· Corelație - stabilirea unei dependențe statistice a ieșirii continue de variabilele de intrare.

· Clustering este o grupare de obiecte (observații, evenimente) bazată pe date (proprietăți) care descriu esența acestor obiecte. Obiectele dintr-un cluster trebuie să fie „asemănătoare” între ele și, în același timp, să aibă diferențe față de obiectele care se încadrează în alte clustere.

Precizia grupării va fi mai mare dacă obiectele din cluster sunt cât mai asemănătoare și clusterele sunt cât mai diferite.

· Clasificarea este atribuirea de obiecte (observații, evenimente) uneia dintre clasele cunoscute anterior.

· Asociere - identificarea tiparelor între evenimentele înrudite. Un exemplu de astfel de model este o regulă care indică faptul că evenimentul Y decurge din evenimentul X. Astfel de reguli se numesc asociative.

Concluzie la primul capitol

Big Data nu este doar un alt hype pe piața IT, ci este o tranziție sistematică, de înaltă calitate, către compilarea lanțurilor valorice bazate pe cunoștințe.

În ceea ce privește efectul, poate fi comparat cu aspectul de accesibil tehnologia calculatoarelor la sfarsitul secolului trecut.

În timp ce conservatorii miope vor aplica abordări profund depășite, întreprinderile care folosesc deja tehnologiile Big Data în viitor vor fi în frunte și vor primi avantaje competitive La magazin. Nu există nicio îndoială că toate organizațiile majore vor implementa această tehnologie în următorii ani, deoarece este atât prezentă, cât și viitoare.

Capitolul 2. Analiza cluster pentruMareDate

Analiza cluster este o clasă de metode care sunt folosite pentru a clasifica obiecte sau evenimente în grupuri suficient de omogene, care vor fi numite clustere.

Va fi fundamental ca obiectele din clustere să fie similare între ele, dar în același timp să fie diferite de obiectele situate în alte clustere.

Figura 5 ilustrează situația ideală de clustering, fiecare dintre clustere este clar separat pe baza diferențelor dintre două variabile: orientarea către calitate (X) și sensibilitatea la preț (Y),

Figura 5 Situația ideală de grupare

Trebuie remarcat faptul că absolut fiecare consumator se încadrează într-unul dintre grupuri și nu există zone care se suprapun.

Cu toate acestea, ilustrația de mai jos arată cea mai frecventă situație de grupare în practică.

În conformitate cu datele din Figura 6, granițele clusterelor sunt extrem de vagi și nu este complet clar care consumatori sunt alocați cărui cluster, deoarece o parte semnificativă a acestora nu poate fi grupată într-unul sau altul.

Figura 6 Situația reală a grupării

În analiza clusterelor, grupurile sau clusterele sunt identificate folosind datele reale colectate, și nu în avans. Astfel - nu este absolut necesar să pregătiți informații preliminare despre apartenența la cluster a vreunuia dintre obiecte .

Segmentarea pieței. De exemplu, consumatorii ar trebui împărțiți în grupuri în funcție de beneficiile pe care le așteaptă de la achiziționarea unui anumit produs. Un cluster poate conține consumatori care caută beneficii similare. Această metodă este denumită în mod obișnuit metoda de segmentare a beneficiilor.

Înțelegerea comportamentului cumpărătorului. Utilizarea analizei cluster dacă este necesar să se identifice categorii omogene de cumpărători.

Determinarea posibilităților unui produs nou. Definirea grupurilor și ansamblurilor competitive pe o anumită piață se realizează și prin clustering mărci comerciale si bunuri.

Selectarea piețelor de testare. O selecție a unor astfel de orașe pentru a testa strategii multiple de marketing este realizată prin gruparea orașelor în clustere omogene.

Reducerea dimensiunii datelor X. Analiza cluster este, de asemenea, folosită ca instrument primar de reducere a datelor pentru a crea clustere sau subgrupuri de date care sunt mai susceptibile de analiză decât observațiile individuale. În plus, analiza multivariată efectuată este efectuată pe clustere, și nu pe observații individuale.

2.1 Metode de grupare

Există două tipuri de metode de grupare: ierarhicși neierarhic.

Figura 7 Metode de analiză în cluster

.2 Metode ierarhice

Metode ierarhice sunt împărțite în două tipuri - aglomerative și divizibile.

Aglomerativ gruparea începe cu fiecare obiect într-un grup separat. Obiectele sunt grupate în grupuri din ce în ce mai mari. Acest proces va continua până când toate obiectele devin membre ale unui singur cluster.

De asemenea, trebuie subliniat divizionară clustering, care provine din toate obiectele care sunt grupate într-un singur cluster. Clusterele se vor împărți până când fiecare obiect se află într-un grup separat. Cel mai adesea pentru cercetare sunt luate metode aglomerative, cum ar fi metodele de comunicare, precum și metodele dispersive și centroide.

Metode de comunicare include metoda linkului unic, metoda linkului complet și metoda linkului mediu. Metodele de legătură sunt metode de grupare ierarhică aglomerativă care combină obiecte într-un cluster pe baza distanței calculate dintre ele.

Figura 8 Metoda legăturii unice

In nucleu metoda legăturii unice se află distanța minimă sau regula vecinului cel mai apropiat (Formula 1).

Când se formează un grup, două obiecte sunt mai întâi combinate, distanța dintre care este minimă. Apoi, se determină următoarea distanță cea mai scurtă și un al treilea obiect este introdus în grupul cu primele două obiecte.

În fiecare etapă, distanța dintre două grupuri este distanța dintre punctele lor cele mai apropiate. În orice etapă, două grupuri sunt combinate prin distanța cea mai scurtă dintre ele.

Acest proces este continuat până când toate obiectele sunt grupate. Dacă clusterele sunt prost definite, atunci metoda legăturii unice nu funcționează suficient de bine.

Figura 9 Metoda de legătură completă

In nucleu metoda linkului complet se află distanța maximă dintre obiecte sau regula vecinului îndepărtat. În metoda legăturii complete, distanța dintre două grupuri este calculată ca distanța dintre cele două puncte exterioare ale acestora.

Figura 10 Metoda de legătură medie

LA metoda medie de conectare distanța dintre două grupuri este definită ca media tuturor distanțelor măsurate între obiecte din două grupuri, fiecare pereche incluzând obiecte din grupuri diferite. Metoda de legătură medie utilizează informații despre toate distanțele dintre perechi, nu doar distanța minimă sau maximă. Din acest motiv, metoda de legare medie este în general preferată în detrimentul metodelor de legare unică sau completă.

Metode de dispersie clusterele sunt formate în așa fel încât să minimizeze dispersia intracluster.

Figura 11 Metoda Ward

O metodă de dispersie larg cunoscută utilizată în acest scop este metoda lui Ward, în care clusterele sunt formate în așa fel încât să minimizeze pătratele distanțelor euclidiene față de mediile cluster.

Pentru fiecare grup, mediile tuturor variabilelor sunt calculate. Apoi, pentru fiecare obiect, se calculează distanțele euclidiene pătrate față de cluster.

Aceste distanțe pătrate sunt însumate pentru toate obiectele. În fiecare etapă, două grupuri cu cea mai mică creștere a variației totale intracluster sunt combinate.

Figura 12 Metoda Centroid

LA metodele centroide distanța dintre două clustere este distanța dintre centroizii lor (medii pentru toate variabilele).

Metoda centroidului este o metodă de dispersie pentru gruparea ierarhică. De fiecare dată obiectele sunt grupate și calculate centru nou oid.

Metoda Ward și conexiunea medie arată cele mai bune rezultate dintre toate metodele ierarhice.

2.3 Metode neierarhice

Un alt tip de proceduri de grupare sunt metode neierarhice clustering, denumită adesea metoda k-means. metoda k-means(k-înseamnă grupare) - o metodă care determină centrul clusterului și apoi grupează toate obiectele în cadrul valorii de prag specificate din centru. Aceste metode includ thresholding secvenţial, thresholding paralel şi optimizarea alocării.

unde k este numărul de clustere, _(i)) sunt clusterele rezultate, i=1,2,…,k

Centrele de masă ale vectorilor .

Figura 13 Un exemplu de funcționare a algoritmului k-medii (k=2)

LA metoda pragului secvenţial grupează obiectele care se află într-o valoare de prag cu un centru dat.

Următorul pas este definirea unui nou centru de cluster, iar acest proces va fi repetat pentru punctele negrupate. După plasarea unui obiect într-un grup cu un centru nou, acesta nu va mai fi considerat ca obiect pentru gruparea ulterioară.

Funcționează într-un mod similar metoda pragului paralel, dar are o diferență importantă - mai multe centre de cluster sunt selectate simultan și obiectele care se află în nivelul pragului sunt grupate cu cel mai apropiat centru.

Optimizarea metodei de distribuție va diferi de cele două metode de prag anterioare prin aceea că obiectele pot fi ulterior atribuite altor clustere (redistribuite), pentru a optimiza criteriul general, care este distanța medie intra-cluster stabilită pentru un anumit număr de clustere.

algoritmul BIRCH datorită reprezentărilor generalizate ale clusterelor, viteza de clustering crește, în timp ce algoritmul are o scalare mare. Acest algoritm implementează un proces de grupare în două etape.

Prima etapă este formarea unui set preliminar de clustere. Următorul pas este aplicarea clusterelor identificate alți algoritmi de clustering care ar fi potriviti pentru lucrul cu RAM.

Imaginați-vă fiecare element de date ca o mărgele care se află pe suprafața mesei, atunci este absolut posibil să „înlocuiți” aceste grupuri cu mingi de tenis și apoi să continuați să studiați grupurile de mingi de tenis mai detaliat.

Numărul de margele poate fi destul de mare, dar diametrul mingilor de tenis poate fi într-adevăr ales astfel încât în ​​a doua etapă, folosind algoritmi tradiționali de grupare, să devină posibilă determinarea formei complexe reale a clusterelor.

Printre noii algoritmi scalabili, se poate remarca și algoritmul VINDECA- algoritm de clustering ierarhic, unde conceptul de cluster este formulat folosind conceptul de densitate. Mulți cercetători lucrează activ la metode scalabile, a căror sarcină principală este de a depăși deficiențele algoritmilor care există astăzi.

2.4 Compararea tipurilor de clustering

Tabelul enumeră avantajele și dezavantajele metodelor precum: algoritmul CURE, BIRCH, MST, k-means (k-means), PAM, CLOPE, hărți de auto-organizare Kohonen, HCM (Hard C - Means), Fuzzy C-means .

2.5 Statistici legate de analiza clusterului

Următoarele statistici și concepte sunt legate de analiza cluster:

1. Cluster centroid. Valoarea medie a variabilelor pentru toate cazurile sau obiectele dintr-un anumit cluster.

2. Centrele de clustere. Puncte de plecare inițiale în clustering non-ierarhic. Clusterele sunt construite în jurul acestor centre sau granule de clustering.

3. Apartenența la un cluster. Specifică clusterul căruia îi aparține fiecare caz sau obiect.

4. Diagrama arborelui- un instrument grafic pentru afișarea rezultatelor grupării. Liniile verticale reprezintă grupuri care sunt îmbinate. Poziția liniei verticale pe scara distanțelor arată distanțele la care au fost combinate clusterele. Această diagramă este citită de la stânga la dreapta.

5. Indicele de variație. Verificarea calității grupării.Raportul abaterii standard la medie.

7. Diagrama de țurțuri. Aceasta este o afișare grafică a rezultatelor grupării.

8. Matricea asemănării / matricea distanțelor dintre obiectele combinate este o matrice triunghiulară inferioară care conține valori de distanță între perechi de obiecte sau carcase

Concluzia celui de-al doilea capitol

Analiza cluster poate fi cu adevărat numită cel mai convenabil și cel mai optim instrument pentru identificarea segmentelor de piață. Utilizarea acestor metode a devenit deosebit de relevantă în secol tehnologie avansata, în care este atât de important să accelerați procesele care necesită forță de muncă și de lungă durată cu ajutorul tehnologiei. Variabilele folosite ca bază pentru grupare vor fi alegerea corectă pe baza experienței studiilor anterioare, a fundamentelor teoretice, a diverselor ipoteze testate și, de asemenea, pe baza dorințelor cercetătorului. În plus, se recomandă să se ia o măsură adecvată de similitudine. O trăsătură distinctivă a grupării ierarhice este dezvoltarea unei structuri ierarhice. Există și sunt utilizate două tipuri de metode de grupare ierarhică - aglomerative și divizibile.

Metodele aglomerative includ: metoda de conectare unică, completă și medie. Cea mai comună metodă de dispersie este metoda Bard. Metodele de grupare non-ierarhice sunt adesea denumite metode k-means. Alegerea metodei de grupare și alegerea măsurii distanței sunt interdependente. În gruparea ierarhică, un criteriu important pentru a decide numărul de clustere este distanța la care clusterele sunt combinate. Dimensiunile relative ale clusterelor ar trebui să fie astfel încât să aibă sens să păstrați acest cluster și să nu îl îmbinați cu altele. Clusterele sunt interpretate în termeni de centroizi cluster. Este adesea util să interpretați clusterele prin profilarea lor prin variabile care nu au stat la baza grupării. Fiabilitatea și validitatea soluțiilor de clustering sunt evaluate în diferite moduri.

capitolul 3

A fost luată ca obiect de studiu o întreprindere comercială cu 36.651 de puncte de vânzare de produse de cofetărie. Lista mărfurilor vândute de întreprindere include mai mult de 350 de unități de produse.

Scopul acestui studiu va fi analiza comparativa metode de analiză a clusterelor în rezolvarea problemelor:

Studiul profilului clientului și analiza corespondenței relațiilor caracteristicilor date;

2. Împărțirea în clustere - alocarea grupelor omogene;

Împărțirea în grupe omogene a sortimentului unei întreprinderi comerciale.

.1 Profilul clientului

Potrivit unui studiu Galileo realizat în a doua jumătate a anului 2016, aproximativ 42 de milioane de persoane care consumă produse de cofetărie au fost intervievate.

Din acest sondaj rezultă că principalii consumatori de produse de cofetărie sunt femeile.

Acest lucru poate fi atribuit faptului că femeile primesc în mod tradițional produse de ciocolată cadou, iar majoritatea iubitorilor de cofetărie sunt femei. Acest lucru poate fi văzut clar în Figura 10.

· până la 16 ani - principalii consumatori de ciocolată sub formă de cifre;

· de la 16 la 24 de ani - principalii consumatori de batoane de ciocolată;

ciocolata într-un baton în majoritatea cazurilor este achiziționată de femei de la 25 la 34 de ani;

· persoane de la 25 la 45 de ani - principalii cumpărători de dulciuri în cutii;

· De la 45 de ani și peste preferă dulciurile vrac.

Figura 14 Consumul de produse de cofetărie pe sexe

În figura 12 este prezentată distribuția consumului total în 3 grupe, în funcție de avere: A-scăzut, B-mediu, C-ridicat. Ponderea leului a consumatorilor revine grupului cu un venit mediu - 54%, urmat de un grup cu un venit mic - 29%, cea mai mică contribuție o aduce un grup cu un venit mare - 17%.

Figura 15 Consumul de cofetărie pe venituri

Acest grafic ilustrează preferințele publicului în alegerea locului de cumpărare, să luăm în considerare și distribuția în funcție de venituri. Evident, cel mai mare număr de achiziții se fac în hiper și supermarketuri, ceea ce este adevărat în raport cu fiecare dintre grupele de venituri.

Ponderea achizițiilor din supermarketuri este de aproape jumătate (46%) pentru grupa C, pe baza căreia se poate concluziona că este oportună extinderea gamei de bunuri populare în rândul persoanelor cu venituri mari.

Persoanele cu venituri medii reprezintă 41% din achizițiile din supermarketuri, în timp ce persoanele cu venituri mici reprezintă cea mai mică pondere, 37%. Urmează ponderea achizițiilor în magazinele mici cu autoservire; achizițiile în astfel de magazine sunt făcute de toate cele trei grupuri în proporții egale. Cea mai mică pondere revine piețelor și tarabelor, unde contribuția principală o au reprezentanții grupei A, care include un număr mare de pensionari care fac adesea achiziții în piață „din obișnuință”.

Figura 16 Locațiile achizițiilor de produse de cofetărie în funcție de venituri

Următorul grafic ilustrează clar gradul de importanță al unei anumite caracteristici a produsului pentru fiecare dintre cele trei grupuri de venituri. Pentru grupele A și B, prețul este cel mai important factor și aspect ambalajul și țara de origine a mărfurilor are o importanță mică. Comportamentul reprezentanților grupului cu venituri mari va fi ușor diferit, unde, pe lângă preț, sunt importante marca și aspectul și țara de producție a mărfurilor.

Figura 17 Priorități la alegerea produselor de cofetărie pentru diferite grupuri de venituri

.2 Analiza conformității

Analiza corespondenței este utilizată pentru a vizualiza tabelele. Această metodă vă permite să identificați relația dintre caracteristicile din coloanele și rândurile tabelului.

Să luăm în continuare în considerare analiza corespondenței dintre consumul de produse de cofetărie pe sex și vârstă, ilustrată în Figura 7, precum și în Figura 8, care prezintă consumul diferitelor categorii de produse în funcție de veniturile consumatorilor.

În primul rând, să luăm în considerare preferințele a trei grupuri de bărbați: 16-19 ani, 20-24 și 25-34 de ani, deoarece preferințele acestora pot fi caracterizate ca fiind aproape identice.

Figura 18 Analiza corespondenței dulciurilor populare în funcție de vârstă și sex

Bărbații din aceste grupe de vârstă preferă bomboanele Snickers, Mars, Nuts, Twix, Picnic, Kinder bueno și M&m's. Aceste tipuri de produse se încadrează în categoria „Batoane de ciocolată și alte ciocolate în pachete mici” și vor fi cele mai populare în rândul persoanelor cu venituri mici.

Urmează cele patru grupe de vârstă rămase pentru bărbați: 35-44, 45-54, 55-64, 65-74. De asemenea, se vor caracteriza prin aproximativ același comportament de consumator și sunt consumatori extrem de pasivi. Pentru aceste grupuri este adevărată afirmația că odată cu creșterea nivelului veniturilor, nivelul consumului se va modifica invers, adică în rândul bărbaților de 35-74 de ani cu un venit mare, va fi cea mai scăzută activitate de consum.

Evident, nișa care include bărbați solvenți 35-74 este foarte promițătoare și în același timp neocupată, dar setul de produse existent nu este capabil să satisfacă nevoile acestei categorii de consumatori. Pe baza celor de mai sus, putem face o contribuție că are sens să influențăm acest public țintă cu un produs complet nou, care poate atrage consumatorii.

Următorul pas va fi de a descrie grupuri de femei cu vârste cuprinse între 16-19, 20-24, 25-34 care au un comportament similar de consumator. Grupurile menționate, de regulă, preferă batoanele de ciocolată, unele dintre ele vor fi similare cu cele preferate de bărbații de aceeași vârstă - Picnic, Twix, Nuts etc., iar Tempo, bounty, Kit Kat, Milky Way sunt și batoanele. foarte popular printre femei. , Kinder country, un miracol obișnuit.

Pentru aceste grupuri va fi valabilă și regula venitului mic, pe măsură ce crește, popularitatea batoanelor de ciocolată va scădea. Acesta este urmat de un grup de femei cu vârsta cuprinsă între 35-44 de ani, Alpen Gold fiind cea mai populară alegere, urmată de Geisha și un mini tort fad, o afirmație care este valabilă atât pentru persoanele cu venituri mici, cât și pentru persoanele cu venituri medii. Pe măsură ce vârsta crește, devin de preferat următoarele (grupe 45-54, 55-64, 65-74): Alenka, Korovka, Sladko, dulciuri din grupul Krupskaya și alte domestice. Acest lucru este cel mai adevărat în raport cu persoanele cu un venit mediu. Evaluând consumul de produse de cofetărie în general, trebuie remarcat că 2/3 din totalul consumului revine ponderii feminine a populației.

.3 Ideea principală a analizei cluster

Înainte de aplicarea algoritmului de grupare, toate punctele de vânzare sunt împărțite în straturi. Algoritmul se aplică separat fiecărui strat obținut. Clusterele obținute pentru grupuri individuale sunt apoi combinate într-un set final de clustere.

Să descriem detaliile algoritmului de grupare. Să notăm numărul de ieșiri la care se aplică algoritmul cu , setul de ieșiri cu , metrica euclidiană cu , iar numărul de caracteristici cu . Numărul de caracteristici și, în consecință, numărul lor depind de strat.

În primul rând, valorile tuturor caracteristicilor sunt standardizate. Standardizarea este transformarea unei caracteristici prin scăderea mediei acesteia și împărțirea la abaterea sa standard. Media și abaterea standard sunt calculate o dată peste datele care sunt grupate și fac parte din modelul de grupare.

Utilizăm algoritmul KMeans ca algoritm de grupare. Acest algoritm necesită specificarea numărului de clustere și a numărului de inițializari ale procesului de clustering iterativ (sau centroizii inițiali). Numărul de inițializari depinde de timpul disponibil pentru grupare. Pentru a determina numărul de clustere, folosim algoritmul KMeans cu numărul de clustere de la 2 la 75. Notă modelele de clustering rezultate cu , iar centroizii cu . Pentru fiecare, determinăm măsura răspândirii intracluster

Putem lua în considerare un model de clustering pentru cazul . În acest caz, există un singur centroid, definit ca media elementară a tuturor . Măsura împrăștierii intra-cluster care rezultă în acest caz se numește măsura împrăștierii totale a ieșirilor:

Atitudine

poate fi interpretat ca proporția de diferențe inexplicabile între punctele de vânzare din cadrul clusterelor. Acest raport scade pe măsură ce . Definim numărul optim de clustere ca


Cu alte cuvinte, alegem numărul minim de clustere astfel încât proporția diferențelor inexplicabile să nu fie mai mare de 20%.

Notă . În loc de valoarea 0,2, puteți lua orice valoare de la 0 la 1. Alegerea depinde de restricțiile privind numărul de clustere, precum și de tipul de grafic al dependenței raportului de . Cu toate acestea, dacă proporția maximă permisă de diferențe inexplicabile este setată înainte de începerea grupării, atunci pentru căutare nu este necesar să se construiască modele de cluster pentru toate de la 2 la 75. Puteți utiliza metoda de căutare binară, care crește semnificativ viteza de clustering.

Ca rezultat al grupării, obținem următoarele componente ale modelului de clustering complet:

· - valori medii ale caracteristicilor pentru strat și tip;

· - abateri standard ale caracteristicilor pentru strat și tip ;

· - numărul optim de clustere pentru strat și tip;

· - model de clustering obţinut cu numărul optim de clustere pentru strat şi tip .

Algoritmul pentru aplicarea modelului de clustering complet este următorul. Să existe o ieșire de tip aparținând stratului dat de vectorul caracteristic. Prin vector definim un vector cu elemente

Aplicam modelul de clustering la vectorul rezultat. Ca rezultat, obținem numărul clusterului. Astfel, „numărul clusterului” în cadrul modelului de clustering complet constă din trei părți:

· strat;

· număr cluster conform modelului de clustering pentru strat și tip (în continuare, acest număr va fi numit pur și simplu numărul cluster).

3.4 Caracteristici pentru clustering

Pentru grupare, este necesar să compilați o listă de caracteristici care descriu punctele de vânzare. Următorii indicatori au fost utilizați pentru a caracteriza punctele de vânzare:

· Distanțe până la locurile de atragere a populației (în continuare MPN);

· Mediu competitiv. Distanța până la infrastructura de transport și alte puncte de desfacere ale rețelelor KA și ale rețelelor non-KA (se determină distanțele până la cel mai apropiat obiect și numărul de obiecte pe o rază de 1000 de metri);

· Solvabilitatea populației din vecinătatea punctului de desfacere.

Formal, caracteristicile includ și stratul și tipul de priză. Cu toate acestea, gruparea pe aceste caracteristici nu este efectuată.

Lista indicatoarelor pentru magazine:

) venitul populației ( sursa de venit);

2) cost mediu 1 metru patrat locuință ( mp_ Preț;);

) costul mediu al închirierii unui apartament cu o cameră ( chirie_ Preț) ;

) numărul de MPN de orice tip pe o rază de 1000 de metri ( num_ în_ rază_ mpn_ toate);

) numărul de prize ale rețelelor non-KA pe o rază de 1000 de metri ( num_ în_ rază_ tt);

) numărul de prize ale rețelelor KA pe o rază de 1000 de metri ( num_în_rază_ ka);

) numărul de gări pe o rază de 1000 de metri ( num_ în_ rază_ calea ferata_ statie);

) numărul de stații de metrou pe o rază de 1000 de metri (câmp num_ în_ rază_ metrou_ statie);

) numărul de stații de transport public terestre pe o rază de 1000 de metri ( num_ în_ rază_ oraș);

) distanța până la cel mai apropiat MPN de tip arbitrar ( dist_ la_ cel mai apropiat_ mpn);

) distanța până la cea mai apropiată gară ( pts_railway_station_d01_distance);

) distanta pana la cea mai apropiata statie de metrou ( pts_subway_station_d01_distance);

) distanța până la cea mai apropiată stație de transport public de suprafață ( pts_city_d01_distance);

) distanța până la cea mai apropiată priză care nu face parte din rețea KA ( tt_to_tt_d001_distanța);

) distanța până la cea mai apropiată priză a rețelei KA ( ka_d01_distanța);

3.5 Identificarea punctelor care sunt omogene ca locație

Ca parte a pregătirii datelor, toate datele au fost împărțite în straturi omogene în funcție de populație. Acest lucru este necesar pentru a realiza în continuare clustering de înaltă calitate. La împărțirea în straturi s-a aplicat metoda de comparare a mediilor. Calitatea partiției a fost verificată prin gradul de diferență dintre straturi pe baza analizei neparametrice a varianței. Rezultatele aplicației sunt prezentate mai jos:

1. Venitul populației . Ipoteza egalității veniturilor pentru 4 straturi a fost respinsă (vezi tabelul 1).

Tabelul 1 Ipoteza despre venitul populației


După cum se poate observa din Figura 20, există o diferență notabilă în valoarea medie a venitului. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cel mai mic venit notat în stratul al patrulea.

Figura 20 Comparații între straturi (venitul populației)

2. cost mediu un metru pătrat de locuință . Ipoteza despre egalitatea costului unui pătrat. metri de locuințe pentru 4 straturi a fost respinsă (vezi tabelul 2).

Tabelul 2. Ipoteza despre costul mediu al unui metru pătrat de locuință


După cum se poate observa din Figura 21, există o diferență vizibilă în valoarea medie a costului de 1 mp. metri de locuințe. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cea mai mică valoare se află în al doilea strat. În straturile 3 și 4, costul este aproximativ același.

Figura 21 Comparații între straturi (costul pe metru pătrat de locuință)

3. Costul mediu al închirierii unui apartament cu o cameră . Ipoteza costurilor egale de închiriere pentru cele 4 straturi a fost respinsă (vezi Tabelul 3).

Tabelul 3 Ipoteza despre costul mediu al chiriei


După cum se poate observa din Figura 22, există o diferență notabilă în valoarea medie a costului de închiriere a locuințelor. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cea mai mică valoare se află în al doilea strat.

Figura 22 Comparații între straturi (costul mediu de închiriere)

4. Numărul de MPN de orice tip pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 4).

Tabelul 4. Ipoteza despre numărul de MPN


După cum se poate observa din Figura 23, există o diferență notabilă în valoarea medie a numărului de MPN. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cel mai mic număr de MPN se află în stratul al patrulea.

Figura 23 Comparații între straturi (număr de MPN)

5. Numărul de prize nu este KA - rețele pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 5).

Tabelul 5 Ipoteza despre numărul de puncte de vânzare cu amănuntul ale rețelelor non-KA


După cum se poate observa din Figura 24, există o diferență notabilă în valorile medii. În al doilea strat, valoarea medie este semnificativ mai mare decât în ​​restul. Cea mai mică valoare se află în stratul al patrulea.

Figura 24 Comparații între straturi (Numărul de TT non-KA)

6. Numărul de prize KA - rețele pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 6).

Tabelul 6 Ipoteza despre numărul de prize ale rețelelor KA


După cum se poate observa din Figura 25, există o diferență notabilă în valorile medii.

În al doilea strat, valoarea medie este mai mare decât în ​​celelalte, iar cea mai mică în al patrulea strat.

Figura 25 Comparații între straturi (Numărul de rețele TT KA)

. Numărul de gări pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 7).

Tabelul 7 Ipoteza despre numărul de gări


După cum se poate observa din Figura 26, există o diferență notabilă în valorile medii.

În primul strat, valoarea medie este mai mare decât în ​​celelalte.

Cel mai mic număr de gări din stratul a treia și a patra.

8. Numărul de stații de transport public terestre pe o rază de 1000 de metri. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 8).

Tabelul 8 Ipoteza privind numărul de opriri de transport terestru


După cum se poate observa din Figura 27, există o diferență notabilă în valorile medii. În primul strat, valoarea medie este mai mare decât în ​​celelalte, cea mai mică valoare este în stratul 4.

Figura 27 Comparații între straturi (număr de opriri transport terestru)

9. Distanța până la cel mai apropiat MPN de orice tip. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 9).

Tabelul 9 Ipoteza despre distanța până la cel mai apropiat MPN


După cum se poate observa din Figura 28, există o diferență notabilă în valorile medii. În al patrulea strat, valoarea medie este mai mare decât în ​​celelalte. Cea mai scăzută valoare se notează în primul și al doilea strat.

Figura 28 Comparații între straturi (număr de opriri de transport terestru)

. Distanța până la cea mai apropiată gară . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 10).

Tabelul 10 Ipoteza despre distanța până la cea mai apropiată gară


După cum se poate observa din Figura 29, există o diferență notabilă în valorile medii. În al patrulea strat, valoarea medie este mai mare decât în ​​celelalte. Cea mai mică valoare se notează în primul strat.

Figura 29 Comparații între straturi (distanța până la cea mai apropiată gară)

11. Distanța până la cea mai apropiată stație de metrou . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 11).

Tabelul 11 ​​Ipoteza despre distanța până la stația de metrou


După cum se poate observa din Figura 30, există o diferență notabilă în valorile medii. În al doilea, al treilea și al patrulea strat valoarea medie este mai mare, iar cea mai mică valoare se notează în primul strat.

Figura 30 Comparații între straturi (distanța până la cea mai apropiată stație de metrou)

12. Distanța până la cea mai apropiată stație de transport public terestre. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 12).

Tabelul 12 Ipoteza despre distanța până la cea mai apropiată stație de transport terestru


După cum se poate observa din Figura 31, există o diferență notabilă în valorile medii. În al patrulea strat, valoarea medie este mai mare, iar cea mai mică valoare este notă în stratul 1.

Figura 31 Comparații între straturi (distanța până la cea mai apropiată stație de transport terestre)

13. Distanța până la cea mai apropiată priză nu este KA -rețele. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 12).

Tabelul 13 Ipoteza despre distanța până la cea mai apropiată priză care nu face parte din rețea KA


După cum se poate observa din Figura 32, există o diferență notabilă în valorile medii. În al treilea strat, valoarea medie este mai mare, iar cea mai scăzută valoare este notă în primul, al doilea și al treilea strat.

Figura 32 Comparații între straturi (distanța până la cea mai apropiată priză care nu face parte din rețea KA)

14. Distanța până la cea mai apropiată priză KA -rețele

Tabelul 14 Ipoteza despre distanța până la cel mai apropiat punct de vânzare cu amănuntul al rețelei KA


După cum se poate observa din Figura 33, există o diferență notabilă în valorile medii. În al treilea strat, valoarea medie este mai mare, iar cea mai scăzută valoare este notă în primul, al doilea și al treilea strat.

Figura 33 Comparații între straturi (distanța până la cea mai apropiată priză de rețea KA)

Astfel, ca rezultat, s-au obținut rezultatele similarității straturilor (vezi Tabelul 15).

Tabelul 15 Comparația între straturi

.5.1 Împărțirea finală în straturi

Ca urmare, s-a ales o împărțire în 4 straturi cu atribuirea orașelor satelit principalelor orașe. Stratu (câmp pop_ straturi) determinăm după populația din localitatea în care se află punctul de desfacere.

· 1 strat - orașe mari cu o populație de peste 1 milion de oameni;

2 straturi - orașe cu o populație de peste 250 de mii de oameni și până la 1 milion de oameni;

3 straturi - orașe cu o populație de peste 100 de mii de oameni și mai puțin de 250 de mii de oameni;

4 straturi - orașe cu o populație mai mică de 100 de mii de oameni.

.6 Agruparea obiectelor în grupuri omogene

Pentru a identifica SP cu o locație similară, vom grupa obiectele (pentru fiecare dintre straturi). Înainte de a aplica gruparea, este necesar să se identifice puncte de vânzare cu amănuntul mai omogene în funcție de locație. Pentru a determina calitatea grupării, a fost utilizat indicele de variație. Ca rezultat, 36.651 de puncte de desfacere au fost împărțite în 15 grupuri (36.598 de puncte de vânzare) + al 16-lea grup este format din 53 de puncte de desfacere anormale. Prin anormal ne referim la punctele cu vânzări foarte mari.

Următorii 7 indicatori din statistica descriptivă au fost utilizați pentru a caracteriza clusterele:

· Valoarea minimă, cea mai mică a vânzărilor;

· Percentila 5%;

· Percentila 25%;

· Mediana este un punct pe scara valorilor măsurate ale vânzărilor, deasupra și sub care se află jumătate din toate valorile măsurate ale vânzărilor;

· Percentila 75%;

95% percentilă;

· Valoarea maximă, cea mai mare a vânzărilor.

Tabelul 16 Gruparea finală

Tabelul 1 arată clar distribuția finală a clusterelor în cadrul straturilor. Cel mai mare număr de puncte de desfacere aparțin stratului al patrulea, iar cel mai mic stratului al treilea.

· Stratul 1. Pentru primul strat (4402 prize), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obţinut împărţirea optimă în 4 clustere cu 15 caracteristici. Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

· primul cluster - include astfel de puncte de vânzare cu amănuntul ale căror zone sunt apropiate de centrul marilor orașe, sau puncte de vânzare situate în centre comerciale.

Profilul clusterului : Acest cluster caracterizează un număr semnificativ de locuri de atracție a populației (MPN), o concentrare mare de zone comerciale și o infrastructură dezvoltată.

Figura 34 Ponderea clusterelor din primul strat

Reprezintă 61,5% din vânzările totale ale stratului. Există 2708 puncte de vânzare în cluster. Vânzările medii lunare în punctele de vânzare cu amănuntul ale acestui cluster sunt estimate în intervalul de la 3 la 7 mii de ruble. Venitul mediu al populației este de 34-36 mii de ruble, ceea ce este peste medie și înaintea majorității celorlalte grupuri din acest indicator.

Costul mediu al unui metru pătrat de locuință va fi de 63 - 64 de mii de ruble, ceea ce poate fi numit o medie. Costul mediu al închirierii unui apartament cu o cameră este estimat la 14-15 mii de ruble, care poate fi, de asemenea, descris ca o cifră medie în comparație cu alte grupuri.

Numărul de locuri de atracție ale populației de orice tip pe o rază de 1000 de metri este de la 32 la 47 - un indicator peste medie, iar numărul de puncte de desfacere ale rețelelor non-KA pe o rază de 1000 de metri este de aproximativ 40 - 53 , care este, de asemenea, un indicator peste medie. Punctele de vânzare ale rețelelor KA pe o rază de 1000 de metri sunt reprezentate în medie de 10 unități. Prezența gărilor pe o rază de 1000 de metri este estimată la cel mult două.

Acest cluster se caracterizează prin absența completă a stațiilor de metrou pe o rază de 1000 de metri. Numărul de stații de transport public terestre pe o rază de 1000 de metri este de 13-20 de unități.

: Distanța până la cel mai apropiat loc de atracție al populației de tip arbitrar este minimă - în apropiere. Distanța până la cea mai apropiată gară poate fi caracterizată ca mare - departe. Distanța până la cea mai apropiată stație de metrou - niciuna în zonă. Distanta de la cea mai apropiata statie de transport in comun terestru va fi mica, caracteristica va fi in apropiere. Distanța până la cea mai apropiată priză fără rețea KA este minimă - în apropiere, iar distanța de la cea mai apropiată priză KA-network este puțin mai mare, dar și mică, caracteristica este apropiată.

· al 2-lea cluster - Acestea sunt zone rezidențiale (de dormit) ale orașelor mari.

Profilul clusterului : Număr nesemnificativ de MPN, concentrație redusă de trafic uman, zone de cumpărături.

: Reprezintă 12,2% din numărul de puncte de vânzare din strat. În cluster există 539 de puncte de vânzare cu amănuntul. Vânzările medii lunare sunt estimate în intervalul de la 3.000 la 8.000 de ruble. Venitul mediu al populației este estimat la aproximativ 34 de mii de ruble, ceea ce este similar cu indicatorii clusterelor 1 și 3 din acest strat, dar mai mare decât indicatorii majorității clusterelor altor straturi.

Costul mediu al unui metru pătrat de locuință este de 61 - 63 mii de ruble, iar costul mediu al închirierii unui apartament cu o cameră va fi de 14 - 15 mii de ruble, ca în primul grup. Numărul locurilor de atracție ale populației de tip arbitrar pe o rază de 1000 de metri este de 7-8 unități, iar numărul de ieșiri ale rețelelor non-KA pe o rază de 1000 de metri este estimat la 24 până la 43 de unități. Numărul de prize ale rețelelor KA pe o rază de 1000 de metri va fi de 2. Nu mai mult de două gări pe o rază de 1000 de metri.O caracteristică importantă este absența stațiilor de metrou pe o rază de 1000 de metri. Numărul de opriri de transport public terestre pe o rază de 1000 de metri este în medie de 3-4.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip este destul de mică și este caracterizată ca - aproape. Distanța de la cea mai apropiată gară este mare, caracteristica este departe. Absența totală a stațiilor de metrou. O caracteristică diferită de primul grup este distanța mare până la cea mai apropiată stație de transport public terestre (departe). Distanța până la cea mai apropiată priză care nu face parte din rețea KA este mică - în apropiere. Și distanța până la cea mai apropiată priză a rețelei KA este mare - departe

· al 3-lea cluster - este centrul marilor orașe.

Profilul clusterului : Cele mai mari valori în ceea ce privește numărul locurilor de atracție ale populației, indicatorii activității comerciale și alte locuri indică un nivel ridicat de activitate economică și flux uman.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 25,9% din numărul total de puncte de vânzare din strat. Acest grup include dimensiunea a 1139 de puncte de vânzare. Vânzările lunare medii variază de la 3,2 la 10 mii de ruble. Venitul mediu al populației este de 36 de mii de ruble și este destul de bun. indicator - medie mai mare.

Costul mediu al unui metru pătrat de locuințe este estimat la 63 - 68 mii de ruble, iar costul mediu al închirierii unui apartament cu o cameră este de aproximativ 14 - 15 mii de ruble, ceea ce nu diferă de indicatorii primului și celui de-al doilea grup. .înalt și este egal cu 51 - 66 de unități și există 46 - 55 de unități de prize ale rețelelor non-KA pe o rază de 1000 de metri, care este, de asemenea, o cifră mare.

Numărul de prize ale rețelelor KA pe o rază de 1000 de metri este de 15 - mult. Prezența gărilor pe o rază de 1000 de metri este de aproximativ una sau două. Numărul de stații de metrou pe o rază de 1000 de metri este în medie una, dar nu mai mult de 3. Numărul de opriri de transport public terestre pe o rază de 1000 de metri este de 20-30 de unități, ceea ce este o cifră foarte mare.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip nu este mare - în apropiere Distanța de la cea mai apropiată gară, de asemenea, nu este mare, caracteristica este apropiată. Distanța până la cea mai apropiată stație de metrou este mică - aproape.

Cea mai apropiată stație de transport public se află la o distanță foarte scurtă - în apropiere. Distanță mică până la cea mai apropiată priză care nu face parte din rețea KA - în apropiere. Distanța de la cea mai apropiată priză de rețea KA este, de asemenea, foarte mică - în apropiere.

· al 4-lea cluster - acestea sunt zone rezidențiale, scumpe și proprietăți private îndepărtate de centru.

Profilul clusterului : Cele mai mari valori caracteristici de cost(venituri, imobiliare), cele mai mici valori ale numărului de MPN, indicatori comerciali. Reprezintă doar 0,4% din toate punctele de vânzare cu amănuntul din strat.

Principalele caracteristici cantitative și calitative ale clusterului : Clusterul include doar 16 puncte de desfacere și este cel mai mic dintre toate clusterele din strat. Vânzările pe lună variază de la 4 la 40 de mii de ruble. Venitul mediu lunar al populației este de 49-66 de mii de ruble, ceea ce este o cifră foarte mare. Costul mediu al unui metru pătrat de locuințe este, de asemenea, foarte mare și este estimat la 85 - 124 mii de ruble. Costul mediu al închirierii unui apartament cu o cameră este mai mare decât în ​​alte grupuri din acest strat și se ridică la 21-34 mii de ruble. Numărul de MPN-uri de orice tip pe o rază de 1000 de metri este scăzut - de la 4 la 20. Nu există prize de rețele non-KA pe o rază de 1000 de metri în apropiere. Numărul de puncte de desfacere ale rețelelor KA pe o rază de 1000 de metri este 2. Prezența gărilor pe o rază de 1000 de metri - nu mai mult de una. Nu există mai mult de două stații de metrou pe o rază de 1000 de metri. Numărul de stații de transport public terestre pe o rază de 1000 de metri este doar unul.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip este mică - aproape. Distanța de la cea mai apropiată gară este mare - departe. Nu există stații de metrou în apropiere. Distanța până la cea mai apropiată stație de transport public terestre este mare, caracteristica este departe. Distanța de la cel mai apropiat punct de vânzare care nu face parte din rețea KA este foarte mare - departe. Acest cluster caracterizează absența punctelor de desfacere din rețeaua KA - niciuna în apropiere.

strat. Pentru stratul al doilea (9269 prize), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obţinut o împărţire optimă în 5 clustere pe 15 caracteristici. Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

Figura 35 Ponderea clusterelor în al doilea strat

· al 5-lea cluster - acestea sunt periferiile orașelor, mici aşezări.

Profilul clusterului : Valorile medii ale indicatorilor de dezvoltare a infrastructurii (există căi ferate rusești, opriri). Activitatea de tranzacționare este afișată numai într-o parte a rețelelor non-ka. Cele mai scăzute valori ale indicatorilor de activitate economică din strat.

Principalele caracteristici cantitative și calitative ale clusterului : Reprezintă 10% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 892 de puncte de vânzare cu amănuntul. Vânzările medii lunare sunt estimate în intervalul de la 2,4 la 6 mii de ruble. Venitul populației este estimat la o medie de 27 mii de ruble, care este un indicator scăzut în comparație cu indicatorii clusterelor din primul strat.

Costul mediu al unui metru pătrat de locuințe fluctuează în jurul valorii de 47-53 de mii de ruble, ceea ce este, de asemenea, mai mic decât indicatorii stratului 1. Costul mediu al închirierii unui apartament cu o cameră este de 12 mii de ruble. Numărul de MPN de orice tip pe o rază de 1000 de metri este de la 2 la 5 bucăți. Prezența unor prize non-ka pe o rază de 1000 de metri este de 9-30 de bucăți. Absența completă a prizelor de rețele ka pe o rază de 1000 de metri - niciuna în apropiere. Numărul de gări pe o rază de 1000 de metri nu este mai mare de două bucăți.Transportul public terestre oprește pe o rază de 1000 de metri - în medie două bucăți.

Caracteristicile geografice ale clusterului : Distanța mică până la cel mai apropiat MPN de orice tip nu este departe. Distanța de la cea mai apropiată gară este mare, caracteristica este departe. Distanța până la cea mai apropiată stație de transport public terestre va fi, de asemenea, mare - departe. Distanța de la cea mai apropiată priză non-ka este nesemnificativă, caracteristica este apropiată. Și distanța până la cea mai apropiată priză a rețelei ka este mare - prizele sunt departe.

· al 6-lea cluster - Acestea sunt zone rezidențiale, de dormit ale orașelor .

Profilul clusterului : Indicatorii medii ai activității de tranzacționare datorate rețelelor non-ka și indicatorii activității economice datorate MPN-urilor apropiate;

Principalele caracteristici cantitative și calitative ale clusterului : Clusterul reprezintă 15% din numărul total de puncte de vânzare din strat și include 1345 de puncte de vânzare. Vânzările lunare sunt estimate la 3-6 mii de ruble. Venitul mediu al populației este de 26 de mii de ruble, care este media pentru acest strat. Costul mediu al unui metru pătrat de locuințe este de 53 de mii de ruble, iar costul mediu de închiriere a unui apartament cu o cameră va fi de 12 mii de ruble, ca și în grupul anterior. Numărul de MPN de orice tip pe o rază de 1000 de metri este de 18-25 de bucăți, iar punctele de vânzare cu amănuntul ale rețelelor non-ka pe o rază de 1000 de metri variază de la 30 la 44 de bucăți. Numărul de puncte de desfacere ale rețelelor ka pe o rază de 1000 de metrou este în medie de 6-9 bucăți - o cifră mare. Nu există mai mult de două gări pe o rază de 1000 de metri. Absența totală a transportului public terestre se oprește pe o rază de 1000 de metri.

Distanța până la cel mai apropiat MPN de orice tip este mică - în apropiere,

și aproape de cea mai apropiată gară.

Distanța până la cea mai apropiată stație de transport public terestre este mare, caracteristica este departe. Nu este aproape de cea mai apropiată priză a rețelei ka, precum și de cea mai apropiată priză a rețelei ka.

· al 7-lea cluster - sunt zone apropiate de centru, orașe, lângă autostrăzi

Profilul clusterului : Indicatori înalți ai activității comerciale și a dezvoltării infrastructurii (opriri de transport terestru), indicatori medii ai MPN.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 34% din numărul total de puncte de desfacere din strat. Acest cluster include 3194 de puncte de desfacere și este cel mai mare din strat, împreună cu al 8-lea cluster.

Vânzările lunare sunt estimate în intervalul de la 2 la 6 mii de ruble.

Venitul mediu al populației este de 28 de mii de ruble.

Costul mediu al unui metru pătrat de locuințe este de 42-49, ceea ce este mai mic decât indicatorii similari din clusterele 5 și 6.

Costul mediu al închirierii unui apartament cu o cameră practic nu diferă de grupurile considerate anterior ale acestui strat și se ridică la 11-12 mii de ruble.

Numărul de MPN-uri de tip arbitrar pe o rază de 1000 de metri este 21-33, iar numărul de prize care nu fac parte din rețea ka pe o rază de 1000 de metri este de aproximativ 50. Numărul de prize din rețea ka pe o rază de 1000 metri este în medie 7-10. Nu există gări pe o rază de 1000 de metri.

Există aproximativ 14 stații de transport public terestre pe o rază de 1000 de metri.

Caracteristicile geografice ale clusterului : Distanță mică până la cel mai apropiat MPN de orice tip, distanță mare până la cea mai apropiată gară. Nu departe de cea mai apropiată stație de transport public de suprafață. Distanța până la cea mai apropiată priză non-rețea ka este mică, caracteristica este în apropiere. Este, de asemenea, aproape de cea mai apropiată priză ka-network.

· al 8-lea cluster - acestea sunt centrele orașelor mici (~500 mii de oameni).

Profilul clusterului : Număr semnificativ de MPN, concentrare mare de zone comerciale, indicatori de infrastructură scăzut.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 34% din numărul total de puncte de vânzare din strat. Acest grup include 3191 de puncte de vânzare și este cel mai mare din strat, la egalitate cu al 7-lea grup. Datele medii de vânzări lunare sunt de 3-8 mii de ruble. Media lunară venitul populației este estimat la 28 de mii de ruble, costul mediu al unui metru pătrat de locuințe este de 47 - 50 de mii de ruble, iar costul mediu de închiriere a unui apartament cu o cameră este de 12 mii de ruble. Numărul de MPN de orice tip pe o rază de 1000 de metri este în medie de 28-40 de bucăți, prezența punctelor de vânzare cu amănuntul ale rețelelor non-ka pe o rază de 1000 de metri - de la 38 la 52 de bucăți. Disponibilitatea punctelor de desfacere ale rețelelor ka pe o rază de 1000 de metri - de la 7 la 11 unități. Nu există gări pe o rază de 1000 de metri Numărul de opriri de transport public terestre pe o rază de 1000 de metri este foarte mic, aproape că nu există.

Caracteristicile geografice ale clusterului : Cel mai apropiat MPN de orice tip este în apropiere.Distanța până la cea mai apropiată gară este mare, caracteristica este departe.Distanța de la cea mai apropiată stație de transport public terestre este, de asemenea, mare - departe. Cel mai apropiat punct de vânzare cu amănuntul nu este ka-network close. Distanța până la cel mai apropiat punct de vânzare ka-network este aproape.

· al 9-lea cluster - acestea sunt centrele orașelor, cu o populație de până la 1 milion de oameni.

Profilul clusterului : Cele mai mari valori ale indicatorilor de activitate economică și comercială din strat.

Principalele caracteristici cantitative și calitative ale clusterului : Reprezintă 7% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 647 de puncte de vânzare cu amănuntul și este cel mai mic din strat. Vânzările lunare sunt de 6-8 mii de ruble și aceasta este mai mare decât indicatorii similari pentru alte grupuri din acest strat. strat. Venitul populației, ca și în alte grupuri ale stratului, este estimat la 28 de mii de ruble. Costul mediu al unui metru pătrat de locuințe este de 50-53 mii de ruble. Costul mediu al închirierii unui apartament cu o cameră, de asemenea, nu diferă de indicatorii similari din alte grupuri ale stratului și este egal cu 12 mii de ruble.

Numărul de MPN-uri de tip arbitrar pe o rază de 1000 de metri este de 90 de bucăți și este un indicator foarte mare, iar prizele non-ka-rețea pe o rază de 1000 de metri - 155 de bucăți, care poate fi numit și un indicator foarte mare. Numărul de prize ale rețelelor ka pe o rază de 1000 de metri este de 20-21 de unități. Nu există gări pe o rază de 1000 de metri.

Numărul de stații de transport public terestre pe o rază de 1000 de metri este de aproximativ 15-18.

Caracteristicile geografice ale clusterului : Cel mai apropiat MPN de orice tip este în apropiere, iar cea mai apropiată gară este departe. Aproape de cea mai apropiată stație de transport public terestre. Distanța până la cea mai apropiată priză non-ka-network este mică, este în apropiere și cea mai apropiată priză ka-network este, de asemenea, aproape.

strat. Pentru al treilea strat (1958 debușeuri), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obținut o împărțire optimă în 2 clustere în funcție de 13 trăsături, întrucât în ​​acest strat nu există puncte de desfacere în apropierea metroului. Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

Figura 36 Ponderea clusterelor în al treilea strat

· al 10-lea cluster - Sunt zone și orașe îndepărtate, cu o populație mai mică.

Profilul clusterului : Scăzut activitate economică, gradul mediu de activitate comercială.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 55% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 1084 de puncte de vânzare cu amănuntul. Venitul populației este estimat la 24 de mii de ruble, ceea ce este mai mic decât indicatorii stratului 1 și 2. Media lunară vânzările sunt estimate la 18 mii de ruble, ceea ce este semnificativ mai mare decât indicatorii stratului 1 și 2. Se caracterizează prin absența unui MPN de tip arbitrar pe o rază de 1000 de metri.Numărul de ieșiri ale rețelelor non-ka pe o rază de 1000 de metri este de la 15 la 40 de piese. Există 3 ieșiri de rețele ka pe o rază de 1000 de metri.De obicei nu există gări pe o rază de 1000 de metri .Opriri de transport public terestre pe o rază de 1000 de metri, 75% din puncte nu au, restul de 25% - până la 20 de bucăți.

Caracteristicile geografice ale clusterului: Nu există MPN-uri de orice tip în apropiere și nici stații de cale ferată. Nu există stații de transport public în apropiere. Distanța până la cea mai apropiată priză non-ka-network este mică - este în apropiere, iar cea mai apropiată priză ka-network este, de asemenea, aproape.

· al 11-lea cluster - centrele oraselor mici, zonele comerciale.

Profilul clusterului: Gradul semnificativ de activitate economică și comercială.

De regulă, nu există gări pe o rază de 1000 de metri.

Numărul de transport public terestre oprește pe o rază de 1000 de metri: 75% din puncte de vânzare nu au, restul de 25% - până la 22.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip este mică și nu există stații de cale ferată în apropiere, precum și stații de transport public terestre. Distanța până la cea mai apropiată priză care nu face parte din rețea ka este mică, punctele de vânzare sunt în apropiere. Distanța până la cea mai apropiată priză ka-network este, de asemenea, mică.

strat. Pentru stratul al patrulea (20.969 debușeuri), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obținut o împărțire optimă în 4 clustere în funcție de 12 trăsături, întrucât nu există puncte de desfacere apropiate de infrastructura de transport în acest strat. . Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

Figura 37 Ponderea clusterelor în stratul al patrulea

· al 12-lea cluster - periferia orașelor mici.

Profilul clusterului : cei mai mici indicatori de venit, nu există infrastructură de transport, există mai multe magazine.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 37% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 7682 de puncte de vânzare cu amănuntul. Venitul populației este estimat la 18-20 mii de ruble, ceea ce este semnificativ mai mic decât indicatorii similari din alte straturi.

Vânzările lunare sunt de 19-35 mii de ruble. Nu există MPN de orice tip pe o rază de 1000 de metri. Numărul de prize nu rețele ka pe o rază de 1000 de metri este de 3 - 8 bucăți. Lipsa prizelor de rețele ka pe o rază de 1000 de metri. Nu există stații de cale ferată pe o rază de 1000 de metri, precum și stații de transport public terestre. Distanța până la cel mai apropiat MPN arbitrar este mare - departe. Cea mai apropiată gară este, de asemenea, departe. Distanța de la cea mai apropiată stație de transport public terestre este mare - departe. Cea mai apropiată priză nu este aproape de rețeaua ka, dar cea mai apropiată priză a rețelei ka este departe.

· al 13-lea cluster - zonele comerciale ale orașelor mici

Profilul clusterului : Activitate comercială medie, dovezi slabe ale infrastructurii de transport.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 31% din numărul total de puncte de vânzare cu amănuntul din strat. Acest cluster include 6.514 puncte de vânzare cu amănuntul. Venitul populației este estimat la 21-24 mii de ruble, ceea ce este semnificativ mai mic decât cel al altor straturi, dar mai mare decât indicatorul celui de-al 12-lea cluster al acestui strat.

Vânzările lunare se ridică la 21-46 mii de ruble. Nu există MPN-uri de niciun tip pe o rază de 1000 de metri. Nu există gări pe o rază de 1000 de metri.

Majoritatea transportului public terestre opresc pe o rază de 1000 de metri, unele au până la 3.

Caracteristicile geografice ale clusterului : Departe până la cel mai apropiat MPN de orice tip, până la cea mai apropiată gară până la cea mai apropiată stație de transport public de suprafață. Cea mai apropiată priză care nu face parte din rețea ka din apropiere. Distanța până la cea mai apropiată priză a rețelei ka este mică - nu departe (până la 1 km).

· al 14-lea grup - mici aşezări cu cel mai scăzut grad de activitate comercială

Profilul clusterului : Cele mai mici rate de activitate de tranzacționare, cu un set minim de magazine. Nivelul mediu de venit al populației.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 20% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 4188 de puncte de vânzare cu amănuntul. Venitul populației este estimat la 24-26 mii de ruble, ceea ce este semnificativ mai mic decât indicatorii similari pentru alte straturi, dar mai mare. decât indicatorii clusterelor 12 și 13 ale acestei straturi. Vânzările lunare sunt de 21-38 mii de ruble.

Absența completă a MPN de orice tip pe o rază de 1000 de metri.

Numărul de prize ale rețelelor non-ka pe o rază de 1000 de metri este de la 1 la 4 și nu există prize ale rețelelor ka pe o rază de 1000 de metri. Lipsa gărilor pe o rază de 1000 de metri. Nu există stații de transport public terestre pe o rază de 1000 de metri.

Caracteristicile geografice ale clusterului : Cel mai apropiat MPN de orice tip este departe, precum și cea mai apropiată gară și cea mai apropiată stație de transport public de suprafață. Distanța până la cea mai apropiată priză ka-network este departe.

· al 15-lea grup - aşezări economic active cu mai puţin de 100 de mii de locuitori.

Profilul clusterului : Singurul cluster în care există semne de activitate economică în strat. Cele mai mari rate ale activității de tranzacționare.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 12% din numărul total de puncte de vânzare cu amănuntul din strat. Acest cluster include 2.585 de puncte de vânzare cu amănuntul. Venitul populației este de 25-28 mii de ruble, ceea ce este semnificativ mai mic decât cel al altor straturi, dar mai mare decât alte grupuri. a acestui strat. Vânzările lunare sunt de 24-52 mii de ruble, care este cea mai mare cifră dintre toate straturile.

Există 2-7 MPN-uri de orice tip pe o rază de 1000 de metri.Numărul de ieșiri ale rețelelor non-ka pe o rază de 1000 de metri este de la 14 la 28 de bucăți, ieșiri ale rețelelor ka pe o rază de 1000 de metri de la 1 la 4 bucati.Gari in raza de 1000 metri nr.Numarul de opriri de transport in comun terestre pe o raza de 1000 metri nu este pentru majoritatea, pentru unii pana la 7.

Caracteristicile geografice ale clusterului : Este aproape de cel mai apropiat MPN de orice tip, și departe de cea mai apropiată gară, precum și de cea mai apropiată stație de transport public de suprafață. Distanța până la cea mai apropiată priză nu este mică de rețele ka - sunt în apropiere. Distanța până la cea mai apropiată priză a rețelei ka este de până la 500 m pentru jumătate și departe pentru restul.

3.7 Clustering gama de puncte de vânzare

Figura 38 Numărul de TT-uri cu un sortiment grupat

Prin aplicarea unei metode de analiză a clusterelor în două etape, sortimentul de puncte de vânzare a fost împărțit în 5 clustere. Măsura siluetei este 0,2, care este calitatea medie a grupării. Dimensiunile fiecăruia dintre ele pot fi văzute în figura de mai jos. Cel mai mare cluster este primul, el reprezintă aproape 59% (17.622 de puncte de vânzare) din toate clusterele. Cel mai mic cluster 5 este de aproape 2% - este de 452 de puncte de vânzare. Diferențele față de gruparea punctelor de desfacere: Împărțirea produselor cât mai diferite unele de altele și TT-urile au fost combinate conform principiului asemănării dintre ele.

17 Ponderea fiecărui cluster


Figura 39 Lărgimea sortimentului în fiecare grup

· Primul cluster - acesta este grupul de sortimente cu cea mai mică selecție. Acestea sunt dulciuri sau batoane de ciocolată în pachete mici. Astfel de bunuri sunt cel mai probabil prezentate la benzinării sau în corturi mici. Cele mai bine vândute cinci produse din acest grup: ciocolată amară Babaevsky 100 de grame, ciocolată Alenka 15 grame, ciocolată Alenka 100 de grame, baton de cofetărie " Companie bună» cu firimituri de vafe 80 grame si baton de ciocolata Good Company cu arahide 80 grame.

· Al doilea grup - un astfel de grup de mărfuri cu o alegere medie de sortiment se referă la magazinele din orașe cu o populație de peste 250 de mii de oameni. Cele mai bine vândute cinci produse din acest grup sunt: ​​Khorosha Kompaniya baton de cofetărie cu firimituri de vafe 80 de grame, ciocolată Alenka 20 de grame, Alenka lot de ciocolată cu lapte 100 de grame, Horoshaya Kompaniya baton de ciocolată cu alune 80 de grame și ciocolată Alenka cu lapte cu mai multe drajeuri colorate.

· Al treilea cluster - Acest grup conține o mică selecție de produse. Acestea sunt în principal produse de ciocolată și prăjituri de vafe. Magazinele din orașele sau satele mici pot fi atribuite acestei categorii de mărfuri. Cele mai bine vândute cinci produse din acest grup: ciocolată Alenka 100 grame, ciocolată Alenka 15 grame, ciocolată Alenka 20 grame, caramel Moskvichka și ciocolată amară Babaevsky 100 grame

· Al patrulea cluster - Acestea sunt grupuri cu o gamă largă de sortimente. Acest grup de mărfuri aparține magazinelor mari de cofetărie de marcă din orașele mari. Cele mai bine vândute cinci produse din acest grup sunt: ​​ciocolată Alenka 100 de grame, caramel Moskvichka, ciocolată amară Babaevsky 100 de grame, napolitane Korovka cu aromă de lapte copt și bomboane Romashka.

· Al cincilea cluster - acestea sunt clusterele cu cea mai mare selecție de sortimente. Acest grup de mărfuri aparține magazinelor mari de cofetărie de marcă din orașele satelit. Cele mai bine vândute cinci produse din acest grup sunt: ​​dulciuri Ptichye Moloko, caramel Moskvichka, ciocolată Alenka 100 de grame, Babaevsky bitter 100 de grame și napolitane Korovka cu aromă de lapte copt.

Se poate concluziona că cel mai popular produs este ciocolata Alenka. Este acest produs care se găsește în fiecare grup din plumb.

Concluzia celui de-al treilea capitol

Studiile efectuate prin metoda analizei cluster au ajutat la împărțirea punctelor de desfacere în straturi după locație, apoi fiecare strat a fost împărțit în clustere. Ca rezultat, o astfel de analiză de cluster a ajutat la reducerea omogenității cu 1,77. Au fost analizate și identificate relațiile dintre indicatorii socio-demografici (sex, vârstă, venit) și comportamentul consumatorului. De asemenea, s-a realizat o grupare a sortimentului de puncte de vânzare cu amănuntul, ceea ce a permis să dezvăluie că cel mai mic sortiment este prezentat în cel mai mare cluster din punct de vedere al numărului de puncte de vânzare.

Concluzie

Big Data nu este doar un alt hype pe piața IT, ci este o tranziție sistematică, de înaltă calitate, către compilarea lanțurilor valorice bazate pe cunoștințe. Efectul său poate fi comparat cu apariția tehnologiei computerizate la prețuri accesibile la sfârșitul secolului trecut. În timp ce conservatorii miopi vor aplica abordări profund depășite, întreprinderile care folosesc deja tehnologiile Big Data se vor găsi în poziții de lider și vor câștiga avantaje competitive pe piață în viitor. Nu există nicio îndoială că toate organizațiile majore vor implementa această tehnologie în următorii ani, deoarece este atât prezentă, cât și viitoare.

Acest munca de absolvent este o abordare științifică, sistematică a alegerii locației punctelor de desfacere, precum și a metodelor de obținere și analiză a informațiilor, obținerea rezultat final, sunt foarte bugetare, permițând ca o astfel de procedură să fie efectuată chiar și de către antreprenori individuali cu o cifră de afaceri mică de fonduri.

Având în vedere creșterea ratei de acumulare a informațiilor, este nevoie urgentă de tehnologii de analiză a datelor, care, în acest sens, se dezvoltă rapid și ele. Dezvoltarea acestor tehnologii în ultimii ani a făcut posibilă trecerea de la segmentarea clienților în grupuri cu preferințe similare la construirea de modele în timp real, pe baza, printre altele, pe solicitările clienților de pe Internet și vizitele pe anumite pagini. Devine realist să afișați oferte și reclame specifice pe baza analizei intereselor consumatorilor, făcând aceste oferte mult mai direcționate. De asemenea, este posibilă corectarea și reconfigurarea modelului în timp real.

Analiza cluster poate fi cu adevărat numită cel mai convenabil și cel mai optim instrument pentru identificarea segmentelor de piață. Utilizarea acestor metode a devenit deosebit de relevantă în era tehnologiei înalte, în care este atât de important să se accelereze procesele de lungă durată și care necesită forță de muncă cu ajutorul tehnologiei. Variabilele folosite ca bază pentru grupare vor fi alegerea corectă pe baza experienței studiilor anterioare, a fundamentelor teoretice, a diverselor ipoteze testate și, de asemenea, pe baza dorințelor cercetătorului. În plus, se recomandă să se ia o măsură adecvată de similitudine. O trăsătură distinctivă a grupării ierarhice este dezvoltarea unei structuri ierarhice. Cea mai comună și eficientă metodă de dispersie este metoda Bard. Metodele de grupare non-ierarhice sunt adesea denumite metode k-means. Alegerea metodei de grupare și alegerea măsurii distanței sunt interdependente. În gruparea ierarhică, un criteriu important pentru a decide numărul de clustere este distanța la care clusterele sunt combinate. Dimensiunile clusterului ar trebui să fie astfel încât să aibă sens să păstrați acest cluster și să nu îl îmbinați cu altele. Fiabilitatea și validitatea soluțiilor de clustering sunt evaluate în diferite moduri.

Studiile efectuate prin metoda analizei cluster au ajutat la împărțirea punctelor de desfacere în straturi după locație, apoi fiecare strat a fost împărțit în clustere. Ca rezultat, o astfel de analiză de cluster a ajutat la reducerea omogenității cu 1,77. Au fost analizate și identificate relațiile dintre indicatorii socio-demografici (sex, vârstă, venit) și comportamentul consumatorului. De asemenea, s-a realizat o grupare a sortimentului de puncte de vânzare cu amănuntul, ceea ce a permis să dezvăluie că cel mai mic sortiment este prezentat în cel mai mare cluster din punct de vedere al numărului de puncte de vânzare.

Bibliografie

1. StatSoft - Manual electronic de statistică

2. Mandel I.D. Analiza clusterelor, 1988

N. Paklin. „Clustering de date: un algoritm CLOPE scalabil”.

Olenderfer M.S., Blashfield R.K. Analiză cluster / Analiza factorială, discriminantă și cluster: per. din engleza; Sub. ed. I. S. Enyukova. - M.: Finanţe şi statistică, 1989-215 p.

Daniel Fasulo „Analiza lucrărilor recente privind algoritmii de clustering”.

Duran B., Odell P. Analiza clusterului. M.: Statistică, 1977

Jambue M. Analiza grupurilor ierarhice și corespondențe, 1988

Khaidukov D.S. Aplicarea analizei cluster în administrație publică// Filosofia matematicii: probleme reale. - M.: MAKS Press, 2009. - 287 p.

Clasificare și cluster. Ed. J. Wen Raizina. M.: Mir, 1980.

Tryon R.C. Analiza clusterului - Londra:, 1939. - 139 p.

Berikov V. S., Lbov G. S. Tendințele moderneîn analiza clusterului 2008. - 67 p.

Vyatchenin D. A. Metode fuzzy clasificare automată. - Minsk: Technoprint, 2004. - 320 p.

I. A. Chubukova Data Mining. Tutorial. - M.: Internet University of Information Technologies;

N. Paklin. „Clustering categoric de date: un algoritm CLOPE scalabil”.

16. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim „CURE: an eficient clustering algorithm for large databases”. Ediție electronică.

17. Tian Zhang, Raghu Ramakrishnan, Miron Livny „Mesteacan: O tehnică eficientă de grupare a datelor pentru baze de date foarte mari”.

N. Paklin „Algoritmi de clusterizare în serviciul data mining”.

Jan Janson „Modeling”.

20. I. A. Chubukova Data Mining. Manual, 2006.

. Analiza datelor accesibile de Anil Maheshwari

Kenneth Kekjer „Big data: o revoluție care va schimba modul în care trăim, muncim și gândim”

Cathy O'neil și Rachel Schutt „Data Science”

ANALIZA CLUSTERĂ ÎN PROBLEME DE PROVIZIUNE SOCIO-ECONOMICA

Introducere în analiza clusterelor.

Atunci când analizează și prognozează fenomene socio-economice, cercetătorul întâlnește adesea multidimensionalitatea descrierii acestora. Acest lucru se întâmplă atunci când se rezolvă problema segmentării pieței, se construiește o tipologie de țări în funcție de un număr suficient de mare de indicatori, se prevede condițiile pieței bunuri individuale, studiind și prezicând depresia economică și multe alte probleme.

Metodele de analiză multivariată reprezintă cel mai eficient instrument cantitativ pentru studierea proceselor socio-economice descrise de un număr mare de caracteristici. Acestea includ analiza cluster, taxonomia, recunoașterea modelelor și analiza factorială.

Analiza cluster reflectă cel mai clar caracteristicile analizei multivariate în clasificare, analiza factorială - în studiul comunicării.

Uneori, abordarea analizei cluster este menționată în literatură ca taxonomie numerică, clasificare numerică, recunoaștere prin auto-învățare etc.

Analiza cluster și-a găsit prima aplicație în sociologie. Denumirea de analiză a grupului provine din cuvântul englezesc cluster - bunch, acumulation. Pentru prima dată în 1939, subiectul analizei cluster a fost definit și descrierea acestuia a fost făcută de cercetătorul Trion. Scopul principal al analizei cluster este de a împărți setul de obiecte și caracteristici studiate în grupuri sau clustere care sunt omogene în sensul corespunzător. Aceasta înseamnă că problema clasificării datelor și identificării structurii corespunzătoare din acestea este în curs de rezolvare. Metodele de analiză a clusterelor pot fi aplicate într-o varietate de cazuri, chiar și în cazurile în care vorbim de o simplă grupare, în care totul se rezumă la formarea grupurilor după asemănarea cantitativă.

Marele avantaj al analizei cluster este că vă permite să partiționați obiectele nu după un parametru, ci după un întreg set de caracteristici. În plus, analiza cluster, spre deosebire de majoritatea metodelor matematice și statistice, nu impune nicio restricție asupra tipului de obiecte luate în considerare și ne permite să luăm în considerare un set de date inițiale de natură aproape arbitrară. Acest lucru este de mare importanță, de exemplu, pentru prognoza conjuncturii, când indicatorii au o varietate de forme care fac dificilă utilizarea abordărilor econometrice tradiționale.

Analiza cluster face posibilă luarea în considerare a unei cantități destul de mari de informații și reducerea drastică, comprimarea unor cantități mari de informații socio-economice, făcându-le compacte și vizuale.

Importanţă analiza cluster este aplicată la seturi de serii temporale care caracterizează dezvoltarea economică (de exemplu, condițiile economice generale și ale mărfurilor). Aici este posibil să se evidențieze perioadele în care valorile indicatorilor corespunzători au fost destul de apropiate, precum și să se determine grupurile de serii temporale, a căror dinamică este cel mai asemănătoare.

Analiza cluster poate fi utilizată ciclic. În acest caz, studiul se efectuează până la obținerea rezultatelor dorite. În același timp, fiecare ciclu de aici poate oferi informații care pot schimba foarte mult direcția și abordările de aplicare ulterioară a analizei cluster. Acest proces poate fi reprezentat ca un sistem de feedback.

În problemele de prognoză socio-economică, este foarte promițătoare să se combine analiza clusterului cu alte metode cantitative (de exemplu, cu analiza de regresie).

Ca orice altă metodă, analiza clusterului are anumite dezavantaje și limitări: în special, compoziția și numărul de clustere depind de criteriile de partiționare selectate. La reducerea matricei de date inițiale la o formă mai compactă, pot apărea anumite distorsiuni, iar caracteristicile individuale ale obiectelor individuale pot fi, de asemenea, pierdute din cauza înlocuirii lor cu caracteristicile valorilor generalizate ale parametrilor clusterului. La clasificarea obiectelor, de foarte multe ori este ignorată posibilitatea absenței oricăror valori de grup în setul considerat.

În analiza clusterului, se consideră că:

a) caracteristicile selectate permit, în principiu, gruparea dorită;

b) unitățile de măsură (scara) sunt alese corect.

Alegerea scalei joacă un rol important. De obicei, datele sunt normalizate prin scăderea mediei și împărțirea la abaterea standard, astfel încât varianța să fie egală cu unu.

Problema analizei clusterelor.

Sarcina analizei cluster este de a împărți mulțimea de obiecte G în m (m este un număr întreg) clustere (subseturi) Q1, Q2, ..., Qm, pe baza datelor conținute în mulțimea X, astfel încât fiecare obiect Gj aparține unuia și numai unui subset de partiții și că obiectele aparținând aceluiași cluster sunt similare, în timp ce obiectele aparținând unor clustere diferite sunt eterogene.

De exemplu, să fie G să includă n țări, fiecare dintre acestea fiind caracterizată de PNB pe cap de locuitor (F1), numărul M de mașini la 1.000 de persoane (F2), consumul de energie electrică pe cap de locuitor (F3), consumul de oțel pe cap de locuitor (F4), etc. Atunci X1 (vector de măsurare) este un set de caracteristici specificate pentru prima țară, X2 pentru a doua, X3 pentru a treia și așa mai departe. Provocarea este de a defalca țările după nivelul de dezvoltare.

Soluția problemei analizei cluster sunt partițiile care îndeplinesc un anumit criteriu de optimitate. Acest criteriu poate fi unul funcțional care exprimă nivelurile de dezirabilitate ale diferitelor partiții și grupări, care se numește funcție obiectiv. De exemplu, suma intragrupului a abaterilor pătrate poate fi luată ca funcție obiectiv:

unde xj - reprezintă măsurătorile obiectului j-lea.

Pentru a rezolva problema analizei cluster, este necesar să se definească conceptul de similaritate și eterogenitate.

Este clar că obiectele i-lea și j-lea ar cădea în același grup atunci când distanța (distanța) dintre punctele Xi și Xj ar fi suficient de mică și ar cădea în grupuri diferite când această distanță ar fi suficient de mare. Astfel, intrarea în unul sau mai multe grupuri de obiecte este determinată de conceptul distanței dintre Xi și Xj față de Ep, unde Ep este un spațiu euclidian p-dimensional. O funcție nenegativă d(Xi, Xj) se numește funcție de distanță (metrică) dacă:

a) d(Xi , Xj) ³ 0, pentru toate Xi și Xj din Ep

b) d(Xi, Xj) = 0 dacă și numai dacă Xi = Xj

c) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), unde Xj; Xi și Xk sunt oricare trei vectori din Ep.

Valoarea d(Xi, Xj) pentru Xi și Xj se numește distanța dintre Xi și Xj și este echivalentă cu distanța dintre Gi și Gj în funcție de caracteristicile selectate (F1, F2, F3, ..., Fр).

Cele mai frecvent utilizate funcții de distanță sunt:

1. Distanța euclidiană d2(Хi , Хj) =

2. l1 - norma d1(Хi , Хj) =

3. Supremum - norma d¥ (Хi , Хj) = sup

k = 1, 2, ..., p

4. lp - norma dр(Хi , Хj) =

Metrica euclidiană este cea mai populară. Valoarea l1 este cea mai ușor de calculat. Norma supremă este ușor de calculat și include o procedură de ordonare, în timp ce norma-lp acoperă funcțiile de distanță 1, 2, 3,.

Fie n măsurători X1, X2,..., Xn să fie reprezentate ca o matrice de date p´n:

Atunci distanța dintre perechile de vectori d(Хi , Хj) poate fi reprezentată ca o matrice de distanțe simetrice:

Conceptul opus distanței este conceptul de similitudine între obiectele Gi. iar Gj. O funcție reală nenegativă S(Хi ; Хj) = Sij se numește măsură de similaritate dacă: Valoarea Sij se numește coeficient de asemănare.

1.3. Metode de analiză a clusterelor.

Astăzi există multe metode de analiză a clusterelor. Să ne oprim asupra unora dintre ele (metodele prezentate mai jos sunt de obicei numite metode ale variației minime).

Fie X matricea de observație: X = (X1, X2,..., Xu) iar pătratul distanței euclidiene dintre Xi și Xj este determinat de formula:

1) Metoda conexiunilor complete.

Esența acestei metode este că două obiecte aparținând aceluiași grup (cluster) au un coeficient de similaritate care este mai mic decât o anumită valoare de prag S. În ceea ce privește distanța euclidiană d, aceasta înseamnă că distanța dintre două puncte (obiecte) de clusterul nu trebuie să depășească o anumită valoare prag h. Astfel, h determină diametrul maxim admisibil al unui subset care formează un cluster.

2) Metoda distanței locale maxime.

Fiecare obiect este considerat ca un cluster cu un singur punct. Obiectele sunt grupate după următoarea regulă: două grupuri sunt combinate dacă distanța maximă dintre punctele unui grup și punctele altuia este minimă. Procedura constă din n - 1 pași și are ca rezultat partiții care se potrivesc cu toate partițiile posibile din metoda anterioară pentru orice valoare de prag.

3) Metoda Word.

În această metodă, suma intragrup a abaterilor pătrate este utilizată ca funcție obiectiv, care nu este altceva decât suma distanțelor pătrate dintre fiecare punct (obiect) și media pentru clusterul care conține acest obiect. La fiecare pas se combină două clustere care conduc la creșterea minimă a funcției obiectiv, adică. suma de pătrate intragrup. Această metodă are ca scop combinarea clusterelor strâns distanțate.

LA STATISTICI sunt implementate metode clasice de analiză a clusterelor, inclusiv k-means, clustering ierarhic și metode de îmbinare cu două intrări.

Datele pot veni atât în ​​forma sa originală, cât și sub forma unei matrice a distanțelor dintre obiecte.

Observațiile și variabilele pot fi grupate folosind diverse măsuri de distanță (euclidian, pătrat euclidian, Manhattan, Chebyshev etc.) și diverse reguli de grupare (single, conexiune completă, medii de grup neponderate și ponderate pe perechi etc.).

Formularea problemei

Fișierul de date original conține următoarele informații despre vehicule și proprietarii acestora:

Scopul acestei analize este de a împărți mașinile și proprietarii acestora în clase, fiecare dintre acestea corespunzând unui anumit grup de risc. Observațiile care se încadrează într-un singur grup sunt caracterizate de aceeași probabilitate a unui eveniment asigurat, care este ulterior evaluată de către asigurător.

Utilizarea analizei cluster pentru a rezolva această problemă este cea mai eficientă. În cazul general, analiza cluster este concepută pentru a combina unele obiecte în clase (clustere) în așa fel încât cele mai asemănătoare să se încadreze într-o singură clasă, iar obiectele diferitelor clase să difere cât mai mult unele de altele. Scorul de similaritate este calculat într-o manieră predeterminată pe baza datelor care caracterizează obiectele.

Scala de măsurare

Toți algoritmii cluster trebuie să estimeze distanțele dintre clustere sau obiecte și este clar că atunci când se calculează distanța, este necesar să se specifice scara de măsurare.

Pentru că diferite măsurători folosesc absolut Tipuri variate scale, datele trebuie să fie standardizate (în meniu Date selectați elementul Standardiza), astfel încât fiecare variabilă va avea o medie de 0 și o abatere standard de 1.

Tabelul cu variabile standardizate este prezentat mai jos.

Pasul 1. Clasificarea ierarhică

În prima etapă, vom afla dacă mașinile formează grupuri „naturale” care pot fi înțelese.

Să alegem analiza grupuluiîn meniu Analiză - Analiză exploratorie multivariată pentru a afișa panoul de pornire al modulului analiza grupului. În acest dialog, alegeți Clasificarea ierarhicăși apăsați Bine.

Hai să apăsăm butonul Variabile, alege Toate, în câmp Obiecte alege Observatii (linii). Ca regulă sindicală, notăm Metoda linkului complet, ca măsură a proximității - distanta euclidiana. Hai să apăsăm Bine.

Metoda de legătură completă definește distanța dintre grupuri ca fiind cea mai mare distanță dintre oricare două obiecte din grupuri diferite (adică „vecinii cei mai îndepărtați”).

Măsura de proximitate definită de distanța euclidiană este distanța geometrică în spațiul n-dimensional și se calculează după cum urmează:

Cel mai important rezultat al grupării arborilor este arborele ierarhic. Hai să apăsăm butonul Dendrograma verticală.

Diagramele arborelui pot părea puțin confuze la început, dar după unele studii devin mai ușor de înțeles. Diagrama începe în partea de sus (pentru o dendrogramă verticală) cu fiecare mașină în propriul său grup.

Pe măsură ce începi să cobori, mașinile care sunt „mai aproape una de cealaltă” se unesc și formează grupuri. Fiecare nod al diagramei de mai sus reprezintă o unire a două sau mai multe clustere, poziția nodurilor pe axa verticală determină distanța la care au fost combinate clusterele respective.

Pasul 2. Clustering folosind metoda K înseamnă

Pe baza reprezentării vizuale a rezultatelor, se poate presupune că mașinile formează patru grupuri naturale. Să verificăm această ipoteză împărțind datele inițiale prin metoda K mijloacelor în 4 clustere și să verificăm semnificația diferenței dintre grupurile obținute.

În panoul de lansare al modulului analiza grupului alege Clustering prin intermediul K mijloace.

Hai să apăsăm butonul Variabileși alegeți Toate, în câmp Obiecte alege Observatii (linii), definim 4 clustere de partiții.

Metodă K-înseamnă este următoarea: calculele încep cu k observații alese aleatoriu (în cazul nostru, k=4), care devin centrele grupurilor, după care compoziția obiectului clusterelor este modificată pentru a minimiza variabilitatea în cadrul clusterelor și maximizează variabilitatea dintre clustere.

Fiecare observație următoare (K+1) aparține grupului a cărui măsură de similitudine cu centrul de greutate este minimă.

După modificarea compoziției clusterului, se calculează un nou centru de greutate, cel mai adesea ca vector de medii pentru fiecare parametru. Algoritmul continuă până când compoziția clusterelor încetează să se schimbe.

Când se obțin rezultatele clasificării, puteți calcula valoarea medie a indicatorilor pentru fiecare cluster pentru a evalua cât de mult diferă unul de celălalt.

La fereastră Rezultatele metodei K înseamnă alege Analiza variatiei pentru a determina semnificația diferenței dintre clusterele rezultate.

Deci valoarea lui p<0.05, что говорит о значимом различии.

Hai să apăsăm butonul Elemente de cluster și distanțele pentru a vizualiza observațiile incluse în fiecare dintre grupuri. Opțiunea vă permite, de asemenea, să afișați distanțele euclidiene ale obiectelor față de centrele (valorile medii) ale grupurilor lor respective.

Primul cluster:

Al doilea grup:

Al treilea cluster:

Al patrulea grup:

Deci, în fiecare dintre cele patru clustere există obiecte cu un impact similar asupra procesului de pierdere.

Pasul 3. Statistici descriptive

Cunoașterea statisticilor descriptive în fiecare grup este cu siguranță importantă pentru orice cercetător.

Clustering sarcini în Data Mining

Introducere în analiza clusterelor

Din întregul vast domeniu de aplicare al analizei cluster, de exemplu, problema previziunii socio-economice.

Atunci când analizează și prognozează fenomene socio-economice, cercetătorul întâlnește adesea multidimensionalitatea descrierii acestora. Acest lucru se întâmplă atunci când se rezolvă problema segmentării pieței, se construiește o tipologie de țări în funcție de un număr suficient de mare de indicatori, se prognozează situația pieței pentru bunuri individuale, se studiază și se prognozează depresiunea economică și multe alte probleme.

Metodele de analiză multivariată reprezintă cel mai eficient instrument cantitativ pentru studierea proceselor socio-economice descrise de un număr mare de caracteristici. Acestea includ analiza cluster, taxonomia, recunoașterea modelelor și analiza factorială.

analiza grupului reflectă cel mai clar caracteristicile analizei multivariate în clasificare, analiza factorială - în studiul comunicării.

Uneori, abordarea analizei cluster este menționată în literatură ca taxonomie numerică, clasificare numerică, recunoaștere prin auto-învățare etc.

Analiza cluster și-a găsit prima aplicație în sociologie. Denumirea de analiză a grupului provine din cuvântul englezesc cluster - bunch, acumulation. Pentru prima dată în 1939, subiectul analizei cluster a fost definit și descrierea acestuia a fost făcută de cercetătorul Trion. Scopul principal al analizei cluster este de a împărți setul de obiecte și caracteristici studiate în grupuri sau clustere care sunt omogene în sensul corespunzător. Aceasta înseamnă că problema clasificării datelor și identificării structurii corespunzătoare din acestea este în curs de rezolvare. Metodele de analiză a clusterelor pot fi aplicate într-o varietate de cazuri, chiar și în cazurile în care vorbim de o simplă grupare, în care totul se rezumă la formarea grupurilor după asemănarea cantitativă.

Marele avantaj al analizei cluster prin aceea că permite împărțirea obiectelor nu după un parametru, ci după un întreg set de caracteristici. În plus, analiza cluster, spre deosebire de majoritatea metodelor matematice și statistice, nu impune nicio restricție asupra tipului de obiecte luate în considerare și ne permite să luăm în considerare un set de date inițiale de natură aproape arbitrară. Acest lucru este de mare importanță, de exemplu, pentru prognoza conjuncturii, când indicatorii au o varietate de forme care fac dificilă utilizarea abordărilor econometrice tradiționale.

Analiza cluster face posibilă luarea în considerare a unei cantități destul de mari de informații și reducerea drastică, comprimarea marilor largi de informații socio-economice, făcându-le compacte și vizuale.

Analiza clusterelor este de mare importanță în raport cu seturile de serii cronologice care caracterizează dezvoltarea economică (de exemplu, condițiile economice generale și ale mărfurilor). Aici este posibil să se evidențieze perioadele în care valorile indicatorilor corespunzători au fost destul de apropiate, precum și să se determine grupurile de serii temporale, a căror dinamică este cel mai asemănătoare.

Analiza cluster poate fi utilizată ciclic. În acest caz, studiul se efectuează până la obținerea rezultatelor dorite. În același timp, fiecare ciclu de aici poate oferi informații care pot schimba foarte mult direcția și abordările de aplicare ulterioară a analizei cluster. Acest proces poate fi reprezentat ca un sistem de feedback.

În sarcinile de prognoză socio-economică, este foarte promițătoare să se combine analiza clusterului cu alte metode cantitative (de exemplu, cu analiza de regresie).

Ca orice altă metodă , analiza cluster are anumite dezavantaje și limitări: În special, alcătuirea numărului de clustere depinde de criteriile de partiţionare selectate. La reducerea matricei de date inițiale la o formă mai compactă, pot apărea anumite distorsiuni, iar caracteristicile individuale ale obiectelor individuale pot fi, de asemenea, pierdute din cauza înlocuirii lor cu caracteristicile valorilor generalizate ale parametrilor clusterului. La clasificarea obiectelor, de foarte multe ori este ignorată posibilitatea absenței oricăror valori de grup în setul considerat.

În analiza clusterului, se consideră că:

a) caracteristicile selectate permit, în principiu, gruparea dorită;

b) unitățile de măsură (scara) sunt alese corect.

Alegerea scalei joacă un rol important. De obicei, datele sunt normalizate prin scăderea mediei și împărțirea la abaterea standard, astfel încât varianța să fie egală cu unu.

1. Sarcina grupării

Sarcina grupării este de a, pe baza datelor conținute în set X, împărțiți o mulțime de obiecte G pe m (m– întregi) clustere (subseturi) Q1,Q 2, …,Qm, astfel încât fiecare obiect Gj aparțin unuia și numai unui subset de partiții și că obiectele aparținând aceluiași cluster sunt similare, în timp ce obiectele aparținând unor clustere diferite sunt eterogene.

De exemplu, lasa G include n țări, dintre care oricare este caracterizată de PNB pe cap de locuitor ( F1), număr M mașini la 1.000 de oameni F2), consumul de energie electrică pe cap de locuitor ( F3), consumul de oțel pe cap de locuitor ( F4) etc. Apoi X 1(vector de măsurare) este un set de caracteristici specificate pentru prima țară, X 2- pentru al doilea, X 3 pentru al treilea și așa mai departe. Provocarea este de a defalca țările după nivelul de dezvoltare.

Soluția problemei analizei cluster sunt partițiile care îndeplinesc un anumit criteriu de optimitate. Acest criteriu poate fi unul funcțional care exprimă nivelurile de dezirabilitate ale diferitelor partiții și grupări, care se numește funcție obiectiv. De exemplu, suma intragrupului a abaterilor pătrate poate fi luată ca funcție obiectiv:

Unde xj- reprezintă măsurători j-al-lea obiect.

Pentru a rezolva problema analizei cluster, este necesar să se definească conceptul de similaritate și eterogenitate.

Este clar că obiectele i -lea și j-th ar cădea într-un singur grup atunci când distanța (depărtarea) dintre puncte X iși X j ar fi suficient de mic și ar cădea în grupuri diferite atunci când această distanță ar fi suficient de mare. Astfel, lovirea unuia sau a diferitelor grupuri de obiecte este determinată de conceptul de distanță dintre X i și X j din da, Unde da - R-spaţiu euclidian dimensional. Funcția nenegativă d(X i, Х j) se numește funcție de distanță (metrică) dacă:

A) d(Xi , Х j)³ 0 , pentru toți X i și X j din da

b) d(Xi , Х j) = 0, dacă și numai dacă X i= Х j

în) d(Xi , X j) = d(X j , X i)

G) d(Xi , Х j)£ d(Xi, Xk) + d(Xk, Xj), unde Xj; Xi și Х k- oricare trei vectori din da.

Sens d(Xi , Х j) pentru Xiși X j se numește distanța dintre Xiși X jși este echivalentă cu distanța dintre Giși Gj conform caracteristicilor selectate (F 1, F 2, F 3, ..., F p).

Cele mai frecvent utilizate funcții de distanță sunt:

1. Distanța euclidiană d 2 (Xi , Х j) =

2. l 1- normă d 1 (Xi , Х j) =

3. Supremum - norma d ¥ (Xi , Х j) = sup

k = 1, 2, ..., p

4. lp- normă d p ​​(Xi , Х j) =

Metrica euclidiană este cea mai populară. Valoarea l 1 este cea mai ușor de calculat. Norma supremă este ușor de calculat și include o procedură de comandă, un lp- norma acoperă funcţiile distanţelor 1, 2, 3,.

Fie n măsurători X 1, X 2,..., Xn sunt prezentate sub forma unei matrice de date cu dimensiunea p´ n:

Apoi distanța dintre perechile de vectori d(X i, Х j) poate fi reprezentat ca o matrice de distanțe simetrice:

Conceptul opus distanței este conceptul de similitudine între obiecte. G i . și Gj. Funcție reală nenegativă S X i; X j) = S i j se numește măsură de similitudine dacă:

1) 0 £ S(X i , X j)< 1 pentru X i ¹ X j

2) S( Xi, Xi) = 1

3) S( Xi, Xj) = S(Xj, X i )

Perechile de valori de măsurare a similitudinii pot fi combinate într-o matrice de similaritate:

valoarea Sij numit coeficient de similitudine.

2. Metode de grupare

Astăzi există multe metode de analiză a clusterelor. Să ne oprim asupra unora dintre ele (metodele prezentate mai jos sunt de obicei numite metode ale variației minime).

Lasa X- matricea de observatie: X \u003d (X 1, X 2, ..., X u)și pătratul distanței euclidiene dintre X i și X j este determinată de formula:

1) Metoda de conectare completă.

Esența acestei metode este că două obiecte aparținând aceluiași grup (cluster) au un coeficient de similaritate care este mai mic decât o anumită valoare de prag. S. În ceea ce privește distanța euclidiană d aceasta înseamnă că distanța dintre două puncte (obiecte) ale clusterului nu trebuie să depășească o anumită valoare de pragh. Prin urmare, hdefinește diametrul maxim admis al unui subset care formează un cluster.

2) Metoda distanței locale maxime.

Fiecare obiect este considerat ca un cluster cu un singur punct. Obiectele sunt grupate după următoarea regulă: două grupuri sunt combinate dacă distanța maximă dintre punctele unui grup și punctele altuia este minimă. Procedura constă în n - 1 pași și rezultă în partiții care se potrivesc cu toate partițiile posibile din metoda anterioară pentru orice prag.

3) Metoda cuvântului.

În această metodă, suma intragrup a abaterilor pătrate este utilizată ca funcție obiectiv, care nu este altceva decât suma distanțelor pătrate dintre fiecare punct (obiect) și media pentru clusterul care conține acest obiect. La fiecare pas se combină două clustere care conduc la creșterea minimă a funcției obiectiv, adică. suma de pătrate intragrup. Această metodă are ca scop combinarea clusterelor strâns distanțate.

4) metoda centroidului.

Distanța dintre două clustere este definită ca distanța euclidiană dintre centrele (mediile) acestor clustere:

d2ij =(` X-` YT (` X-` Y) Clustering decurge în etape pe fiecare dintre n–1 pașii unesc două grupuri Gși p având valoarea minimă d2ijÎn cazul în care un n 1 mult mai mult n 2, atunci centrele de fuziune a două clustere sunt apropiate unul de celălalt, iar caracteristicile celui de-al doilea cluster sunt practic ignorate atunci când clusterele sunt comasate. Uneori, această metodă este uneori numită și metoda grupurilor ponderate.

3. Algoritm de clustering secvenţial

Considera I = (I 1 , I 2 , … In) tot atâtea clustere (I 1), (I 2),…(In). Să alegem două dintre ele, de exemplu, Ι i și Ιj, care sunt într-un fel mai aproape unul de celălalt și le combină într-un singur grup. Noul set de clustere, format deja din n -1 clustere, va fi:

(I 1 ), (I 2 )…, i, I j ), …, (In).

Repetând procesul, obținem seturi succesive de clustere formate din (n-2), (n-3), (n-4) etc. clustere. La sfârșitul procedurii, puteți obține un cluster format din n obiecte și care coincide cu setul original I = (I 1 , I 2 , … In).

Ca măsură a distanței, luăm pătratul metricii euclidiene d i j2. și calculați matricea D = (di j 2 ), unde deu j 2 este pătratul distanței dintre

Ι iși Ij:

….

eu n

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d 2n 2

….

d 3n 2

….

….

….

eu n

Lasă distanța dintre Ι iși Ι j va fi minim:

d i j 2 = min (d i j 2 , i¹ j). Formăm cu Ι iși Ι j cluster nou

i , I j ). Să construim un nou ((n-1), (n-1)) matricea distanțelor

( I i , I j )

….

eu n

( I i ; I j )

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d2n

….

d3n

(n-2) rândurile pentru ultima matrice sunt preluate din cea anterioară, iar primul rând este recalculat. Calculele pot fi reduse la minimum dacă se poate exprima d i j 2 k ,k = 1, 2,…,n (k¹ i¹ j) prin elementele matricei originale.

Inițial, distanța a fost determinată doar între clustere cu un singur element, dar este și necesar să se determine distanța dintre clusterele care conțin mai mult de un element. Acest lucru se poate face în diverse moduri și, în funcție de metoda aleasă, obținem algoritmi de analiză a clusterelor cu proprietăți diferite. Se poate, de exemplu, să pună distanța dintre cluster i + jși un alt cluster k, egală cu media aritmetică a distanțelor dintre clustere iși kși clustere jși k:

d i+j,k = ½ (d i k + d j k).

Dar se poate defini și d i+j,k ca minim dintre aceste două distanțe:

d i+j,k = min(d i k + d j k).

Astfel, este descris primul pas al operației algoritmului ierarhic aglomerativ. Următorii pași sunt aceiași.

O clasă destul de largă de algoritmi poate fi obținută dacă se folosește următoarea formulă generală pentru a recalcula distanțe:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk), Unde

A(w) = dacădik£ djk

A(w) = dacădik> djk

B(w) = dacăd i k £ djk

B(w) =, dacădik> djk

Unde n iși n j- numărul de elemente în clustere iși j, A w este un parametru liber, a cărui alegere determină un anumit algoritm. De exemplu, când w = 1 obținem așa-numitul algoritm de „conexiune medie”, pentru care formula de recalculare a distanțelor ia forma:

d i+j,k =

În acest caz, distanța dintre două grupuri la fiecare pas al algoritmului se dovedește a fi egală cu media aritmetică a distanțelor dintre toate perechile de elemente, astfel încât un element al perechii aparține unui grup, celălalt altuia.

Sensul vizual al parametrului w devine clar dacă punem w® ¥ . Formula de conversie a distanței ia forma:

d i+j,k =min (d i,kdjk)

Acesta va fi așa-numitul algoritm „cel mai apropiat vecin”, care face posibilă selectarea clusterelor cu o formă arbitrar complexă, cu condiția ca diferite părți ale unor astfel de clustere să fie conectate prin lanțuri de elemente apropiate unele de altele. În acest caz, distanța dintre două clustere la fiecare pas al algoritmului se dovedește a fi egală cu distanța dintre cele mai apropiate două elemente aparținând acestor două clustere.

Destul de des se presupune că sunt date distanțele inițiale (diferențele) dintre elementele grupate. În unele cazuri, acest lucru este adevărat. Cu toate acestea, sunt specificate doar obiectele și caracteristicile lor, iar matricea distanțelor este construită pe baza acestor date. În funcție de faptul că distanțele dintre obiecte sau dintre caracteristicile obiectelor sunt calculate, se folosesc metode diferite.

În cazul analizei în cluster a obiectelor, cea mai comună măsură a diferenței este fie pătratul distanței euclidiene

(Unde x ih, x jh- valori h-al-lea semn pentru i th și j-th obiecte, și m este numărul de caracteristici), sau distanța euclidiană însăși. Dacă caracteristicilor li se atribuie greutăți diferite, atunci aceste greutăți pot fi luate în considerare la calcularea distanței

Uneori, ca măsură a diferenței, se folosește distanța, calculată prin formula:

care se numesc: „Hamming”, „Manhattan” sau „oraș-bloc” distanță.

O măsură naturală a asemănării caracteristicilor obiectelor în multe probleme este coeficientul de corelație dintre ele

Unde m i ,m j ,d eu,d j- respectiv, abaterile medii și standard pentru caracteristici iși j. O măsură a diferenței dintre caracteristici poate fi valoarea 1-r. În unele probleme, semnul coeficientului de corelație este nesemnificativ și depinde doar de alegerea unității de măsură. În acest caz, ca măsură a diferenței dintre caracteristici, ô 1-r i j ô

4. Numărul de clustere

Extrem de problema importanta este problema alegerii numărului necesar de clustere. Uneori, m număr de clustere poate fi ales a priori. Cu toate acestea, în cazul general, acest număr este determinat în procesul de împărțire a setului în grupuri.

Studiile au fost efectuate de Fortier și Solomon și s-a constatat că numărul de clustere trebuie luat pentru a atinge probabilitatea A găsirea celei mai bune partiții. Astfel, numărul optim de partiții este o funcție a fracției date b cele mai bune sau, într-un anumit sens, partiții admisibile în setul tuturor celor posibile. Difuzarea totală va fi cu atât mai mare, cu atât mai mare va fi fracția b divizări admisibile. Fortier și Solomon au dezvoltat un tabel din care se poate găsi numărul de partiții necesare. S(A , b ) depinzând de A și b (Unde A este probabilitatea ca cea mai bună partiție să fie găsită, b este ponderea celor mai bune partiții în numărul total de partiții) Mai mult, ca măsură a eterogenității, nu se folosește măsura de împrăștiere, ci măsura apartenenței introdusă de Holzenger și Harman. Tabelul de valori S(A , b ) de mai jos.

Tabelul de valoriS(A , b )

b \ A

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Destul de des, criteriul de combinare (numărul de clustere) este schimbarea funcției corespunzătoare. De exemplu, sumele abaterilor pătrate:

Procesul de grupare trebuie să corespundă aici unei creșteri minime secvențiale a valorii criteriului E. Prezența unui salt brusc în valoare E poate fi interpretat ca o caracteristică a numărului de clustere care există în mod obiectiv în populația studiată.

Deci, a doua modalitate de a defini cel mai bun număr clusterele se reduce la identificarea salturilor determinate de tranziția de fază de la o stare a obiectelor puternic cuplată la o stare slab cuplată.

5. Dendograme

Cea mai cunoscută metodă de reprezentare a unei matrice de distanță sau similaritate se bazează pe ideea unei dendograme sau diagramă arborescentă. O dendrogramă poate fi definită ca imagine grafică rezultatele procesului de grupare secvenţială, care se realizează din punct de vedere al matricei distanţelor. Cu ajutorul unei dendograme, este posibilă reprezentarea grafică sau geometrică a procedurii de grupare, cu condiția ca această procedură să funcționeze numai cu elemente ale matricei de distanță sau similaritate.

Există multe moduri de a construi dendrograme. În dendrogramă, obiectele sunt situate vertical în stânga, rezultatele grupării sunt în dreapta. Valorile de distanță sau de similitudine corespunzătoare structurii noilor clustere sunt afișate de-a lungul unei linii drepte orizontale peste dendrograme.

Fig1

Figura 1 prezintă un exemplu de dendrogramă. Figura 1 corespunde cazului a șase obiecte ( n=6) și kcaracteristici (semne). Obiecte DARși Cu sunt cele mai apropiate și, prin urmare, sunt combinate într-un singur cluster la nivelul de proximitate egal cu 0,9. ObiecteDși E combinate la nivelul de 0,8. Acum avem 4 clustere:

(A, C), (F), ( D, E), ( B) .

Alte grupuri se formează (A, C, F) și ( E, D, B) , corespunzător nivelului de proximitate egal cu 0,7 și 0,6. În cele din urmă, toate obiectele sunt grupate într-un singur cluster la un nivel de 0,5.

Tipul dendogramei depinde de alegerea măsurii de similitudine sau de distanța dintre obiect și cluster și de metoda de grupare. Cel mai important punct este alegerea unei măsuri de similitudine sau a unei măsuri a distanței dintre un obiect și un cluster.

Numărul de algoritmi de analiză cluster este prea mare. Toate pot fi împărțite în ierarhice și neierarhice.

Algoritmii ierarhici sunt asociați cu construcția dendogramelor și sunt împărțiți în:

a) aglomerativ, caracterizat printr-o combinație consistentă de elemente inițiale și o scădere corespunzătoare a numărului de clustere;

b) divizibil (divizibil), în care numărul de clustere crește, începând de la unul, în urma căruia se formează o succesiune de grupuri de scindare.

Algoritmii de analiză a clusterelor au astăzi o implementare software bună care permite rezolvarea problemelor de cea mai mare dimensiune.

6. Date

Analiza cluster poate fi aplicată datelor de interval, frecvențe, date binare. Este important ca variabilele să se schimbe pe scale comparabile.

Eterogenitatea unităților de măsură și imposibilitatea rezultată a unei exprimări rezonabile a valorilor diverși indicatoriîntr-o scară duce la faptul că valoarea distanțelor dintre puncte, reflectând poziția obiectelor în spațiul proprietăților lor, se dovedește a fi dependentă de o scară aleasă în mod arbitrar. Pentru a elimina eterogenitatea măsurării datelor inițiale, toate valorile lor sunt preliminar normalizate, adică. sunt exprimate prin raportul dintre aceste valori la o anumită valoare care reflectă anumite proprietăți ale acestui indicator. Normalizarea datelor inițiale pentru analiza cluster se realizează uneori prin împărțirea valorilor inițiale la abaterea standard a indicatorilor corespunzători. O altă modalitate este de a calcula așa-numita contribuție standardizată. Se mai numeste Z-contribuție.

Z -contribuția arată câte abateri standard se separă o observație dată de medie:

Unde x ieste valoarea acestei observații,- media, S- deviație standard.

Media pentru Z -contribuția este zero și abaterea standard este 1.

Standardizarea permite compararea observațiilor din diferite distribuții. Dacă distribuția unei variabile este normală (sau aproape de normal) și media și varianța sunt cunoscute sau estimate din eșantioane mari, atunci Z -inputul de observație oferă informații mai specifice despre locația sa.

Rețineți că metodele de normalizare înseamnă recunoașterea tuturor trăsăturilor ca echivalente din punctul de vedere al elucidării similitudinii obiectelor luate în considerare. S-a remarcat deja că în raport cu economie, recunoașterea echivalenței diferiților indicatori nu pare întotdeauna justificată. Ar fi de dorit, împreună cu normalizarea, să se acorde fiecărui indicator o pondere care să reflecte semnificația sa în cursul stabilirii asemănărilor și diferențelor dintre obiecte.

În această situație, trebuie să recurgeți la metoda de determinare a ponderilor indicatorilor individuali - un sondaj de experți. De exemplu, la rezolvarea problemei clasificării țărilor după nivel dezvoltare economică a folosit rezultatele unui sondaj de 40 de experți de top din Moscova cu privire la problemele țărilor dezvoltate pe o scară de zece puncte:

indicatori generalizați ai dezvoltării socio-economice - 9 puncte;

indicatori de distribuție sectorială a populației ocupate - 7 puncte;

indicatori ai prevalenței forței de muncă angajate - 6 puncte;

indicatori care caracterizează elementul uman al forțelor productive - 6 puncte;

indicatori ai dezvoltării forțelor productive materiale - 8 puncte;

indicator al cheltuielilor publice - 4 puncte;

indicatori „militar-economici” - 3 puncte;

indicatori socio-demografici - 4 puncte.

Estimările experților au fost relativ stabile.

Evaluările experților oferă o bază binecunoscută pentru a determina importanța indicatorilor incluși într-un anumit grup de indicatori. Înmulțirea valorilor normalizate ale indicatorilor cu un coeficient corespunzător punctajului mediu al evaluării face posibilă calcularea distanțelor dintre punctele care reflectă poziția țărilor într-un spațiu multidimensional, ținând cont de ponderea inegală a caracteristicilor acestora.

Destul de des, atunci când se rezolvă astfel de probleme, se folosesc nu unul, ci două calcule: primul, în care toate semnele sunt considerate echivalente, al doilea, în care li se acordă ponderi diferite în conformitate cu valorile medii ale estimărilor experților.

7. Aplicarea analizei cluster

Să luăm în considerare câteva aplicații ale analizei cluster.

1. Împărțirea țărilor în grupe în funcție de nivelul de dezvoltare.

65 de țări au fost studiate în funcție de 31 de indicatori (venitul național pe cap de locuitor, ponderea populației ocupate în industrie în %, economiile pe cap de locuitor, ponderea populației ocupate în agriculturăîn %, speranța medie de viață, numărul de mașini la 1 mie de locuitori, numărul de forțe armate la 1 milion de locuitori, ponderea PIB-ului industrial în %, ponderea PIB-ului agricol în % etc.)

Fiecare dintre țări acționează în acest considerent ca un obiect caracterizat prin anumite valori a 31 de indicatori. În consecință, ele pot fi reprezentate ca puncte într-un spațiu cu 31 de dimensiuni. Un astfel de spațiu este de obicei numit spațiu de proprietate al obiectelor studiate. Compararea distanței dintre aceste puncte va reflecta gradul de proximitate a țărilor luate în considerare, asemănarea lor între ele. Sensul socio-economic al acestei înțelegeri a similitudinii înseamnă că țările sunt considerate cu cât mai asemănătoare, cu atât diferențele dintre aceiași indicatori cu care sunt descrise sunt mai mici.

Primul pas al unei astfel de analize este identificarea perechii de economii naționale incluse în matricea de similaritate, distanța dintre care este cea mai mică. Acestea vor fi, evident, cele mai asemănătoare economii. În considerarea următoare, ambele țări sunt considerate un singur grup, un singur grup. În consecință, matricea originală este transformată astfel încât elementele sale să fie distanțele dintre toate perechile posibile, nu 65, ci 64 de obiecte - 63 de economii și un cluster nou transformat - o uniune condiționată a celor două țări cele mai asemănătoare. Rândurile și coloanele corespunzătoare distanțelor de la o pereche de țări incluse în unire la toate celelalte sunt eliminate din matricea de similaritate inițială, dar se adaugă un rând și o coloană care conțin distanța dintre clusterul obținut de uniune și alte țări.

Se presupune că distanța dintre noul cluster și țări este egală cu media distanțelor dintre acesta din urmă și cele două țări care alcătuiesc noul cluster. Cu alte cuvinte, grupul combinat de țări este considerat ca un întreg cu caracteristici aproximativ egale cu media caracteristicilor țărilor sale constitutive.

Al doilea pas al analizei este să luăm în considerare o matrice transformată în acest fel cu 64 de rânduri și coloane. Din nou, se identifică o pereche de economii, distanța dintre care este de cea mai mică importanță și ele, la fel ca în primul caz, sunt reunite. În acest caz, cea mai mică distanță poate fi atât între o pereche de țări, cât și între orice țară și uniunea de țări obținută în etapa anterioară.

Alte proceduri sunt similare cu cele descrise mai sus: în fiecare etapă, matricea este transformată astfel încât două coloane și două rânduri care conțin distanța până la obiecte (perechi de țări sau asociații - clustere) reunite în etapa anterioară sunt excluse din aceasta. ; rândurile și coloanele excluse sunt înlocuite cu o coloană cu un rând care conține distanțele de la noile îmbinări la restul obiectelor; în continuare, în matricea modificată, se dezvăluie o pereche de obiecte cele mai apropiate. Analiza continuă până la epuizarea completă a matricei (adică până când toate țările sunt reunite). Rezultatele generalizate ale analizei matriceale pot fi reprezentate sub forma unui arbore de similaritate (dendogramă), similar celui descris mai sus, cu singura diferență că arborele de similaritate, care reflectă proximitatea relativă a tuturor celor 65 de țări pe care le luăm în considerare, este mult mai complicată decât schema în care apar doar cinci economii naţionale. Acest arbore, în funcție de numărul de obiecte potrivite, include 65 de niveluri. Primul nivel (inferior) conține puncte corespunzătoare fiecărei țări separat. Legătura dintre aceste două puncte la al doilea nivel arată o pereche de țări care sunt cele mai apropiate din punct de vedere al tipului general de economii naționale. La al treilea nivel, se notează următorul cel mai asemănător raport de perechi de țări (după cum sa menționat deja, fie o nouă pereche de țări, fie o nouă țară și o pereche deja identificată de țări similare pot fi într-un astfel de raport). Și așa mai departe până la ultimul nivel, la care toate țările studiate acționează ca un singur set.

Ca rezultat al aplicării analizei cluster, au fost obținute următoarele cinci grupuri de țări:

grup afro-asiatic

grup latino-asiatic;

grup latino-mediteranean;

grup de țări capitaliste dezvoltate (fără SUA)

S.U.A.

Introducerea de noi indicatori dincolo de cei 31 de indicatori utilizați aici, sau înlocuirea lor cu alții, duce în mod firesc la o modificare a rezultatelor clasificării țărilor.

2. Împărțirea țărilor după criteriul proximității de cultură.

După cum știți, marketingul trebuie să țină cont de cultura țărilor (obiceiuri, tradiții etc.).

Următoarele grupuri de țări au fost obținute prin grupare:

· arabă;

Orientul Mijlociu

· scandinavă;

vorbitor de germană

· Vorbitor de engleza;

romanic european;

· America Latină;

Orientul îndepărtat.

3. Elaborarea unei prognoze a pieței zincului.

Analiza cluster joacă un rol important în etapa de reducere a modelului economic și matematic al conjuncturii mărfurilor, contribuind la facilitarea și simplificarea procedurilor de calcul, asigurând o mai mare compactitate a rezultatelor obținute, păstrând în același timp acuratețea necesară. Utilizarea analizei cluster face posibilă împărțirea întregului set inițial de indicatori de piață în grupuri (clustere) în funcție de criteriile relevante, facilitând astfel selecția celor mai reprezentativi indicatori.

Analiza cluster este utilizată pe scară largă pentru a modela condițiile de piață. În practică, majoritatea sarcinilor de prognoză se bazează pe utilizarea analizei cluster.

De exemplu, sarcina de a dezvolta o prognoză a pieței zincului.

Inițial, au fost selectați 30 de indicatori cheie ai pieței globale de zinc:

X 1 - timp

Cifre de productie:

X 2 - în lume

X 4 - Europa

X 5 - Canada

X 6 - Japonia

X 7 - Australia

Indicatori de consum:

X 8 - în lume

X 10 - Europa

X 11 - Canada

X 12 - Japonia

X 13 - Australia

Stocuri de zinc ale producătorilor:

X 14 - în lume

X 16 - Europa

X 17 - alte țări

Stocuri de zinc de consum:

X 18 - în SUA

X 19 - în Anglia

X 10 - în Japonia

Import de minereuri și concentrate de zinc (mii de tone)

X 21 - în SUA

X 22 - în Japonia

X 23 - în Germania

Export de minereuri și concentrate de zinc (mii de tone)

X 24 - din Canada

X 25 - din Australia

Import de zinc (mii de tone)

X 26 - în SUA

X 27 - în Anglia

X 28 - în Germania

Export de zinc (mii de tone)

X 29 - din Canada

X 30 - din Australia

Pentru determinarea dependențelor specifice a fost utilizat aparatul de analiză de corelație și regresie. Relațiile au fost analizate pe baza unei matrice de coeficienți de corelație perechi. Aici s-a acceptat ipoteza distribuţiei normale a indicatorilor analizaţi ai conjuncturii.Este clar că r ij nu sunt singurul indicator posibil al relaţiei dintre indicatorii utilizaţi. Necesitatea utilizării analizei cluster în această problemă se datorează faptului că numărul de indicatori care afectează prețul zincului este foarte mare. Este necesar să le reducă din mai multe dintre următoarele motive:

a) lipsa datelor statistice complete pentru toate variabilele;

b) o complicare accentuată a procedurilor de calcul atunci când un număr mare de variabile sunt introduse în model;

c) utilizarea optimă a metodelor de analiză de regresie necesită depășirea numărului de valori observate asupra numărului de variabile de cel puțin 6-8 ori;

d) dorinta de a folosi variabile independente statistic in model etc.

Este foarte dificil să se realizeze o astfel de analiză direct pe o matrice relativ voluminoasă de coeficienți de corelație. Cu ajutorul analizei cluster, întregul set de variabile ale pieței poate fi împărțit în grupuri, astfel încât elementele fiecărui cluster să fie puternic corelate între ele, iar reprezentanții diferitelor grupuri se caracterizează printr-o corelație slabă.

Pentru a rezolva această problemă, a fost aplicat unul dintre algoritmii de analiză a clusterelor ierarhice aglomerative. La fiecare pas, numărul de clustere se reduce cu unul datorită unirii optime, într-un anumit sens, a două grupuri. Criteriul de alăturare este schimbarea funcției corespunzătoare. În funcție de aceasta, au fost utilizate valorile sumelor abaterilor pătrate calculate prin următoarele formule:

(j = 1, 2, …,m),

Unde j- numărul clusterului, n- numărul de elemente din cluster.

rij-coeficientul de corelare a perechii.

Astfel, procesul de grupare trebuie să corespundă unei creșteri minime secvențiale a valorii criteriului E.

În prima etapă, matricea inițială de date este prezentată ca un set format din clustere, incluzând câte un element fiecare. Procesul de grupare începe cu unirea unei astfel de perechi de clustere, ceea ce duce la o creștere minimă a sumei abaterilor pătrate. Acest lucru necesită estimarea valorilor sumei abaterilor pătrate pentru fiecare dintre posibilele asociații de cluster. În etapa următoare, valorile sumelor abaterilor pătrate sunt deja luate în considerare clustere etc. Acest proces va fi oprit la un pas. Pentru a face acest lucru, trebuie să monitorizați valoarea sumei abaterilor pătrate. Având în vedere o succesiune de valori crescătoare, se poate prinde un salt (una sau mai multe) în dinamica acesteia, care poate fi interpretat ca o caracteristică a numărului de grupuri „obiectiv” existente în populația studiată. În exemplul de mai sus, salturile au avut loc atunci când numărul de grupuri era 7 și 5. În plus, numărul de grupuri nu trebuie redus, deoarece aceasta duce la o scădere a calității modelului. După obținerea clusterelor, variabilele cele mai importante în sens economicși cel mai strâns legat de criteriul de piață ales - în acest caz, London Metal Exchange cotează pentru zinc. Această abordare vă permite să salvați o parte semnificativă a informațiilor conținute în setul original de indicatori inițiali ai conjuncturii.

Mulți dintre noi au auzit sintagma „analiza cluster”, dar nu toată lumea înțelege ce înseamnă. În plus, sună mai mult decât misterios! De fapt, acesta este doar numele unei metode de împărțire a unui eșantion de date în categorii de elemente după anumite criterii. De exemplu, analiza cluster vă permite să împărțiți oamenii în grupuri cu stima de sine ridicată, medie și scăzută. Mai simplu spus, un cluster este un tip de obiecte care sunt similare într-un anumit fel.

Analiza clusterelor: probleme în utilizare

Hotărând să folosesc în cercetarea mea aceasta metoda, trebuie amintit că clusterele selectate în cursul său pot fi instabile. Prin urmare, ca și în cazul lui analiza factorilor, trebuie să verificați rezultatele pe un alt grup de obiecte sau după o anumită perioadă de timp să calculați eroarea de măsurare. Mai mult decât atât, cel mai bine este să utilizați analiza cluster pe eșantioane mari selectate prin randomizare sau stratificare, deoarece aceasta este singura modalitate de a trage o concluzie științifică folosind inducție. S-a arătat cel mai bine în a testa ipoteze, și nu în a le crea de la zero.

Analiza clusterului ierarhic

Dacă trebuie să clasificați rapid elemente aleatorii, atunci puteți începe prin a le trata pe fiecare dintre ele inițial ca un cluster separat. Aceasta este esența unuia dintre cele mai ușor de înțeles tipuri de analiză de cluster. Folosind-o, cercetătorul din a doua etapă formează perechi de elemente care sunt similare în caracteristica dorită, apoi le conectează împreună de numărul necesar de ori. Clusterele situate la o distanță minimă între ele sunt determinate folosind o procedură integrativă. Se repetă până când este îndeplinit unul dintre următoarele criterii:

  • obținerea unui număr preplanificat de clustere;
  • fiecare dintre clustere conține numărul necesar de elemente;
  • fiecare grup are raportul necesar de eterogenitate și omogenitate în interiorul său.

Pentru a calcula corect distanța dintre clustere, se folosesc adesea următoarele metode:

  • comunicare unică și completă;
  • Relația rea ​​a lui King;
  • metoda centroidului;
  • luând medii de grup.

Pentru a evalua rezultatele grupării, se folosesc următoarele criterii:

  • indice de claritate;
  • raport de împărțire;
  • entropia obișnuită, normalizată și modificată;
  • al doilea și al treilea Rubens funcțional.

Metode de analiză a clusterelor

Cel mai adesea, atunci când se analizează un eșantion de obiecte, se utilizează metoda distanței minime. Constă în faptul că elementele cu un coeficient de similaritate mai mare decât o valoare de prag sunt combinate într-un cluster. Când se utilizează metoda distanței locale, se disting două grupuri: distanța dintre punctele primului dintre ele este maximă, iar a doua este minimă. Metoda de grupare centroid presupune calcularea distanțelor dintre valorile medii ale indicatorilor în grupuri. Și metoda Word este folosită cel mai rațional pentru gruparea clusterelor apropiate în parametrul studiat.