### Análise Socioeconômica: Aprendizado Não Supervisionado


### Descrição do dataset

Para a realização do projeto, foi selecionada a base de dados do Subnational Human Development Index (SHDI), disponibilizada pelo Global Data Lab. Este dataset é particularmente adequado para uma análise socioeconômica via aprendizado não supervisionado, pois oferece uma visão do desenvolvimento humano em mais de 1.800 regiões subnacionais, abrangendo o período de 1990 a 2022.

A base detalha os três pilares do Índice de Desenvolvimento Humano (IDH), isto é, saúde, educação e renda, e inclui informações por gênero, o que fornece as múltiplas dimensões necessárias para que algoritmos não supervisionados possam identificar agrupamentos naturais, perfis socioeconômicos distintos e padrões de desigualdade regional que não seriam aparentes em uma análise de nível nacional.

O dataset contém indicadores sociais, econômicos e de desenvolvimento de 187 países ao todo. O objetivo é estudar e analisar desigualdades, desenvolvimento humano, condições de vida de diferentes regiões do mundo.
Significado das colunas:

**Identificadores Geográficos/Demográficos**

- `Country`: País
- `Continent`: Continente
- `ISO_Code`: O código de país de 3 letras
- `Level`: Se os dados se referem ao nível Nacional ou Subnacional (para uma região específica dentro do país)
- `GDLCODE`: Um código único do Global Data Lab (GDL) para identificar cada região específica.
- `Region`: O nome da região subnacional (aparece como Total quando a linha se refere aos dados do país inteiro).
- `Year`: O ano a que os dados se referem.
- `pop`: A população total da região ou país.


**Índices de Desenvolvimento Humano**

- `shdi` (Subnational Human Development Index): O Índice de Desenvolvimento Humano (IDH) para a região subnacional.
- `healthindex`: O componente de Saúde do IDH, calculado com base na expectativa de vida.
- `edindex`: O componente de Educação do IDH, calculado com base nos anos médios de escolaridade.
- `incindex` : O componente de Renda do IDH, calculado com base na Renda Nacional Bruta per capita.
- `sgdi` (Subnational Gender Development Index): O Índice de Desenvolvimento de Gênero, que compara o IDH das mulheres com o dos homens para medir a desigualdade de gênero.
- `shdif / shdim`: O IDH calculado especificamente para mulheres e homens.
- `healthindexf / healthindexm`: O índice de saúde para mulheres e homens.
- `edindexf / edindexm`: O índice de educação para mulheres e homens.
- `incindexf / incindexm`: O índice de renda para mulheres e homens.
- `lifexp`: Expectativa de vida ao nascer para a população total.
- `lifexpf / lifexpm`: Expectativa de vida para mulheres e homens.
- `msch`: Média de anos de escolaridade para a população total.
- `mschf / mschm`: Média de anos de escolaridade para mulheres e homens.

### Visualização do dataset


In [None]:
# Estabelece conexão com o Google Drive.
from google.colab import drive
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd

In [None]:
# Cria um DataFrame, cujos dados são lidos do arquivo CSV "GDL-Custom-set-of-indicators-(2022)-data.csv".
df = pd.read_csv("GDL-Custom-set-of-indicators-(2022)-data.csv")

Existem 27 colunas no dataset, que foram comentadas uma a uma anteriormente.

In [None]:
# Retorna as dimensões do DataFrame (quantidade de linhas, quantidade de colunas).
df.shape

(187, 27)

In [None]:
# Visualizar o DataFrame.
display(df)

Unnamed: 0,Country,Continent,ISO_Code,Level,GDLCODE,Region,Year,shdi,healthindex,edindex,...,edindexm,incindexf,incindexm,lifexp,lifexpf,lifexpm,msch,mschf,mschm,pop
0,Afghanistan,Asia/Pacific,AFG,National,AFGt,Total,2022,0.462,0.660,0.381,...,0.498,0.208,0.471,62.88,66.21,59.77,2.515,1.174,3.913,41129.0
1,Albania,Europe,ALB,National,ALBt,Total,2022,0.789,0.874,0.740,...,0.745,0.738,0.779,76.83,79.47,74.50,10.120,9.811,10.430,2778.0
2,Algeria,Africa,DZA,National,DZAt,Total,2022,0.745,0.879,0.663,...,0.659,0.551,0.783,77.13,78.46,75.85,6.987,6.491,7.482,44903.0
3,Andorra,Europe,AND,National,ANDt,Total,2022,0.884,0.978,0.742,...,0.746,,,83.55,85.84,81.43,11.610,11.520,11.700,79.8
4,Angola,Africa,AGO,National,AGOt,Total,2022,0.591,0.645,0.533,...,0.598,0.581,0.618,61.93,64.54,59.35,5.844,4.463,7.188,35589.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
182,Venezuela,America,VEN,National,VENt,Total,2022,0.699,0.786,0.696,...,0.660,0.568,0.664,71.11,75.66,66.88,9.628,9.786,9.470,28302.0
183,Vietnam,Asia/Pacific,VNM,National,VNMt,Total,2022,0.726,0.840,0.644,...,0.648,0.690,0.724,74.58,79.29,69.93,8.455,8.138,8.790,98187.0
184,Yemen,Asia/Pacific,YEM,National,YEMt,Total,2022,0.424,0.673,0.313,...,0.367,0.061,0.456,63.72,67.22,60.49,2.777,1.755,3.588,33697.0
185,Zambia,Africa,ZMB,National,ZMBt,Total,2022,0.569,0.643,0.549,...,0.583,0.488,0.549,61.80,64.51,59.06,7.285,6.433,8.326,20018.0


Detalhes sobre a natureza dos dados:

In [None]:
# Resume as informações do DataFrame, incluindo: número de linhas, número de colunas, nome e tipo das colunas, quantidade de valores não nulos.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 187 entries, 0 to 186
Data columns (total 27 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Country       187 non-null    object 
 1   Continent     187 non-null    object 
 2   ISO_Code      187 non-null    object 
 3   Level         187 non-null    object 
 4   GDLCODE       187 non-null    object 
 5   Region        187 non-null    object 
 6   Year          187 non-null    int64  
 7   shdi          187 non-null    float64
 8   healthindex   187 non-null    float64
 9   edindex       187 non-null    float64
 10  incindex      187 non-null    float64
 11  sgdi          170 non-null    float64
 12  shdif         170 non-null    float64
 13  shdim         170 non-null    float64
 14  healthindexf  182 non-null    float64
 15  healthindexm  182 non-null    float64
 16  edindexf      185 non-null    float64
 17  edindexm      185 non-null    float64
 18  incindexf     175 non-null    

As variáveis do dataset, que tinham natureza categórica, como Country, Continent, ISO_Code e Region, que não são quantitativas, serão fundamentais para a interpretação dos resultados.

Há também variáveis numéricas, como os índices de desenvolvimento (shdi, healthindex, edindex, incindex), os indicadores brutos (lifexp, msch, pop) e suas versões por gênero.

As features possuem escalas muito diferentes, como a população que está na casa dos milhões e os índices que variam entre 0 e 1. Assim, essa disparidade justifica a etapa de pré-processamento, como a normalização, para garantir que todas as variáveis tenham um peso equivalente na análise não supervisionada.

In [None]:
# Exibe estatísticas sobre as variáveis, como média, desvio padrão (variância), valor mínimo, quartis e valor máximo.
df.describe()

Unnamed: 0,Year,shdi,healthindex,edindex,incindex,sgdi,shdif,shdim,healthindexf,healthindexm,...,edindexm,incindexf,incindexm,lifexp,lifexpf,lifexpm,msch,mschf,mschm,pop
count,187.0,187.0,187.0,187.0,187.0,170.0,170.0,170.0,182.0,182.0,...,185.0,175.0,175.0,187.0,182.0,182.0,187.0,185.0,185.0,186.0
mean,2022.0,0.72008,0.796332,0.66915,0.710219,0.945165,0.698665,0.732871,0.797264,0.793868,...,0.673151,0.660777,0.748274,71.762299,74.327692,69.105659,8.948289,8.617216,9.219054,42197.69
std,0.0,0.155751,0.120188,0.178346,0.180376,0.071834,0.167182,0.145397,0.12205,0.120158,...,0.161276,0.192426,0.175,7.811753,7.937171,7.815074,3.199484,3.547536,2.933388,151638.9
min,2022.0,0.361,0.508,0.227,0.292,0.456,0.219,0.425,0.484,0.505,...,0.277,0.061,0.312,53.0,53.97,50.32,1.341,0.886,1.773,11.3
25%,2022.0,0.601,0.7075,0.5505,0.583,0.9225,0.5625,0.61825,0.714,0.70525,...,0.57,0.5065,0.617,65.975,68.905,63.3375,6.3335,5.553,7.04,2546.0
50%,2022.0,0.739,0.805,0.696,0.724,0.9685,0.71,0.744,0.819,0.796,...,0.683,0.68,0.767,72.3,75.74,69.24,9.221,9.292,9.23,9499.5
75%,2022.0,0.841,0.8895,0.812,0.8715,0.989,0.8305,0.8355,0.88875,0.88325,...,0.801,0.8325,0.901,77.8,80.2525,74.925,11.56,11.52,11.67,32364.5
max,2022.0,0.967,0.997,0.959,1.0,1.033,0.957,0.977,1.0,1.0,...,0.966,1.0,1.0,84.82,87.83,83.02,14.26,13.99,14.54,1417173.0


In [None]:
# Mostrar colunas numéricas do DataFrame original.
df_num = df.select_dtypes(include=['float64', 'int64']).dropna()
print("Colunas numéricas:", list(df_num.columns))

Colunas numéricas: ['Year', 'shdi', 'healthindex', 'edindex', 'incindex', 'sgdi', 'shdif', 'shdim', 'healthindexf', 'healthindexm', 'edindexf', 'edindexm', 'incindexf', 'incindexm', 'lifexp', 'lifexpf', 'lifexpm', 'msch', 'mschf', 'mschm', 'pop']


In [None]:
# Mostrar colunas categóricas (string) do DataFrame original.
df_cat = df.select_dtypes(exclude=['float64', 'int64'])
print("Colunas não numéricas:", list(df_cat.columns))

Colunas não numéricas: ['Country', 'Continent', 'ISO_Code', 'Level', 'GDLCODE', 'Region']


# Normalização de dados duplicados e/ou ausentes


# Dados  duplicados

In [None]:
df.duplicated().sum()

np.int64(0)

In [None]:
df = df.drop_duplicates() #remove duplicatas exatas

In [None]:
df = df.drop(columns=["Year", "Region", "Level", "GDLCODE"]) # Remove colunas desnecessárias do dataframe

# Dados Nulos

In [None]:
df.isnull().sum() # Mostra a soma de valores nulos em cada coluna

Unnamed: 0,0
Country,0
Continent,0
ISO_Code,0
shdi,0
healthindex,0
edindex,0
incindex,0
sgdi,17
shdif,17
shdim,17


In [None]:
cols_com_nulo = ['sgdi', 'shdif', 'shdim', 'healthindexf', 'healthindexm', 'edindexf', 'edindexm', 'incindexf', 'incindexm', 'lifexp', 'lifexpf', 'lifexpm', 'msch', 'mschf', 'mschm'] # Lista de nomes das colunas que serão preenchidas

df_preenchido = df.copy() # Cria uma cópia do DataFrame limpo para evitar modificar o original diretamente

for col in cols_com_nulo: # Inicia um loop que passará por cada nome de coluna na lista 'cols_com_nulo'
    df_preenchido[col] = df_preenchido.groupby('Continent')[col].transform(lambda x: x.fillna(x.mean())) # Agrupa por continente, calcula a média da coluna e preenche os valores nulos com essa média

# Passo de segurança: se algum valor ainda estiver nulo (ex: um continente inteiro sem dados), preenche com a média global
for col in cols_com_nulo: # Inicia outro loop pelas mesmas colunas para uma verificação final
    if df_preenchido[col].isnull().any(): # Se ainda existir algum valor nulo na coluna
        media_global = df_preenchido[col].mean() # media_global: Calcula a média geral da coluna
        df_preenchido[col].fillna(media_global, inplace=True) # Preenche os nulos restantes com a média geral

# Normalização

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Selecionar apenas as colunas numéricas que fazem sentido normalizar
cols_numericas = df_preenchido.select_dtypes(include=['number']).columns.tolist() # cols_numericas: Cria uma lista com os nomes de todas as colunas que contêm números
cols_para_normalizar = [col for col in cols_numericas if col not in ['Year', 'pop']] # cols_para_normalizar: Cria uma nova lista, excluindo 'Year' e 'pop' da normalização

df_normalizado = df_preenchido.copy() # Cria uma cópia do DataFrame preenchido para a normalização
scaler = MinMaxScaler() # Cria um objeto (instância) do MinMaxScaler, que escalará os dados para o intervalo [0, 1]

# Aplicar a normalização (Min-Max Scaling)
df_normalizado[cols_para_normalizar] = scaler.fit_transform(df_preenchido[cols_para_normalizar]) # Aplica a normalização nas colunas selecionadas, reescrevendo-as com os valores entre 0 e 1
df_normalizado.head() # Mostra as primeiras linhas do DataFrame normalizado


Unnamed: 0,Country,Continent,ISO_Code,shdi,healthindex,edindex,incindex,sgdi,shdif,shdim,...,edindexm,incindexf,incindexm,lifexp,lifexpf,lifexpm,msch,mschf,mschm,pop
0,Afghanistan,Asia/Pacific,AFG,0.166667,0.310838,0.210383,0.139831,0.287695,0.153117,0.197464,...,0.320755,0.15655,0.231105,0.310497,0.361488,0.288991,0.090874,0.021978,0.16762,41129.0
1,Albania,Europe,ALB,0.706271,0.748466,0.70082,0.661017,0.902946,0.760163,0.675725,...,0.679245,0.72098,0.678779,0.7489,0.753101,0.73945,0.679542,0.68109,0.678076,2778.0
2,Algeria,Africa,DZA,0.633663,0.758691,0.595628,0.590395,0.736568,0.627371,0.632246,...,0.554427,0.521832,0.684593,0.758328,0.723272,0.780734,0.437031,0.427732,0.447168,44903.0
3,Andorra,Europe,AND,0.863036,0.961145,0.703552,0.930791,0.918179,0.892241,0.843249,...,0.680697,0.851491,0.879615,0.960088,0.941229,0.951376,0.794876,0.811508,0.777551,79.8
4,Angola,Africa,AGO,0.379538,0.280164,0.418033,0.436441,0.778163,0.463415,0.353261,...,0.465893,0.553781,0.444767,0.280641,0.312168,0.276147,0.348556,0.27297,0.42414,35589.0
