Monday, July 25, 2016

Sanatate, educatie, GINI - un fel de harta

Asta e un proiect mai tehnic in care incerc sa rezolv urmatoarea problema:
Am trei indicatori statistici care imi arata cum stau comparativ cu alte tari. Dar un indicator indica o pozitie buna si ceilalti doi o pozitie proasta. Cum stau de fapt, bine sau rau?

Sa zicem ca aleg (aproape arbitrar) 3 indicatori, sursa Banca Mondiala, doar pentru 67 de tari (cu raportari regulate):



-Cheltuielile totale pentru sanatate (% din PIB)(publice si private)
(Total health expenditure is the sum of public and private health expenditure. It covers the provision of health services (preventive and curative), family planning activities, nutrition activities, and emergency aid designated for health but does not include provision of water and sanitation.-Worldbank.org)
-Cheltuielilor guvernamentale pentru educatie (% din PIB)
(General government expenditure on education (current, capital, and transfers) is expressed as a percentage of GDP. It includes expenditure funded by transfers from international sources to government. General government usually refers to local, regional and central governments.-Worldbank.org)
-Coeficientul GINI (indice al inegalitatii veniturilor individuale)
(Gini index measures the extent to which the distribution of income (or, in some cases, consumption expenditure) among individuals or households within an economy deviates from a perfectly equal distribution. (...) a Gini index of 0 represents perfect equality, while an index of 100 implies perfect inequality.-Worldbank.org)

 


Si avem: sanatate locul 56 din 67 - rau,  educatie locul 57 din 67 - rau, iar GINI index locul 12 din 67 adica bun. Dar rezultatele sunt mixte si avem situatia de care pomeneam la inceput : care-i rezultatul global, cum ne comparam cu celelalte 66 de state?


1. "standardizam" cei 3 indicatori...
(adica pentru fiecare indicator al fiecarei tari (i) inlocuim valorile (Xi) raportate de Banca Mondiala cu noi valori obtinute astfel:
 Yi =(Xi-media) / (deviatia standard) . Astfel, noile valori vor avea o media 0 si deviatia standard 1 indiferent la ce indicator ne referim- sanatate, GINI, educatie. Iar o valoare de 1.4 de exemplu, pentru coeficientul GINI, va insemna ca acea tara are un coeficient mai mare cu 1.4 deviatii standard fata de media valorilor tuturor tarilor)

...si vom obtine valori "comparabile" ale indicatorilor dupa ce la inceput aveam valori obtinute pe scale diferite.

2. Avem astfel un spatiu tridimensional in care x,y,z -dimensiunile- sunt cei 3 indicatori modificati prin standardizare.


3. Grupam tarile in 4 categorii in functie de cat de similare sunt intre ele si facem asta masurand "distantele" care le separa in spatiul tridimensional. Ca sa deosebim grupurile le vom atribui culori diferite.
Facem toate astea cu un algoritm (K-mean clustering algorithm)

4. Vizualizarea
Toti pasii premergatori au ca finalitate obtinerea unei "imagini" despre similitudinile sau deosebirile intre tari atunci cand avem ca si criterii cei 3 indicatori de la care am pornit.
Pentru asta mai trebuie doar sa reducem spatiul cu 3 dimensiuni la unul cu doar 2 dimensiuni. Doar asa vom putea sa punem imaginea pe ecran sau s-o printam.
Si ca sa realizam asta folosim un algoritm. Alt algoritm.(PCA)

 



Ce n-am obtinut si cum nu se citeste graficul de mai sus

N-am obtinut un top al tarilor cum aveam in cazul indicatorilor individuali si nu mai putem spune pe ce loc se afla Romania fata de alte state. Plus sau minus, stanga sau dreapta nu au nicio semnificatie pe grafic. Nici sus/jos nu reprezinta mai bine sau mai rau.

Ce am obtinut si cum se citeste graficul
Ceea ce conteaza e pozitia relativa a tarilor una fata de alta. Graficul se citeste mai degraba ca o harta: cu cat doua tari sunt mai asemanatoare in privinta alocarii resurselor, cu atat sunt mai apropiate una de alta.

Tarile dezvoltate din UE sunt in majoritate in grupul rosu ca si SUA. Spania si Italia sunt la granita, dar in afara - ceea ce era oarecum de asteptat.

Tarile nordice, foarte grupate - iarasi de asteptat fiind un model distinct de dezvoltare.

Rusia in grupul portocaliu format in majoritate de tari din America Latina.

Kirghizstan si Moldova in grupul rosu (?) 

Romania e vecina cu Albania, Cambodgia si Kazahstan, la o distanta deprimant de mare  de grupul rosu la care ne iluzionam ca am aderat.


2 comments:

  1. Totuși principal component analysis (PCA) preia „informații” din seriile de date inițiale.
    Ochiometrul nostru antrenat cu rachie sugerează că axa orizontală indică ponderea în PIB a cheltuielilor pentru sănătate și educație, adică nivelul de welfare state, în timp ce axa verticală indică inegalitatea măsurată cu Gini: mare în AmLat și SUA, moderată în Europa dezvoltată și nominal mică în țări sărace sau rurale ca Pakistan și România, unde inegalitatea nu este neapărat vizibilă în termeni monetari, de piață, ci ca „putere” și poziție în ierarhie.
    Cam puține serii de date pentu PCA, aș fi băgat la greu :))

    ReplyDelete
    Replies
    1. Multumesc pentru comentarii, foarte interesante.
      Am ales indicatorii dupa urmatoarele criterii: sa reflecte distribuirea de resurse in societate, sa fie relevanti pentru individ (sanatate, educatie, inegalitate), sa am date :)
      Cu mai multe serii de date incarcam prea mult prima parte a analizei. Si probabil ca seriile ulterioare ar fi fost puternic corelate cu astea fara sa introduca informatii noi.

      Delete