# Projeto: Women Empowerment Index
Este notebook realiza a an√°lise explorat√≥ria do dataset Women Empowerment Index.
Objetivos:
- Entender estrutura e qualidade dos dados
- Limpar inconsist√™ncias
- Extrair insights iniciais


In [6]:
# Importar bibliotecas
import pandas as pd

## Estrutura inicial dos dados
Verificando dimens√µes, colunas e tipos para entender a base.

In [7]:
# Leitura dos dados

df = pd.read_csv("women_empowerment_index.csv")

In [10]:
df.shape
df.info("women_empowerment_index.csv")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 114 entries, 0 to 113
Data columns (total 7 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   Country                                   114 non-null    object 
 1   Women's Empowerment Index (WEI) - 2022    114 non-null    float64
 2   Women's Empowerment Group - 2022          114 non-null    object 
 3   Global Gender Parity Index (GGPI) - 2022  114 non-null    float64
 4   Gender Parity Group - 2022                114 non-null    object 
 5   Human Development Group - 2021            114 non-null    object 
 6   Sustainable Development Goal regions      114 non-null    object 
dtypes: float64(2), object(5)
memory usage: 6.4+ KB


In [11]:
# 1) Renomear colunas para nomes mais curtos e sem espa√ßos
df = df.rename(columns={
    "Women's Empowerment Index (WEI) - 2022": "WEI_2022",
    "Women's Empowerment Group - 2022": "WE_Group_2022",
    "Global Gender Parity Index (GGPI) - 2022": "GGPI_2022",
    "Gender Parity Group - 2022": "Gender_Parity_Group_2022",
    "Human Development Group - 2021": "HD_Group_2021",
    "Sustainable Development Goal regions": "SDG_Region"
})

# 2) Checar duplicados
print("Linhas duplicadas:", df.duplicated().sum())

# 3) Ver valores √∫nicos por coluna categ√≥rica
for col in ['Country','WE_Group_2022','Gender_Parity_Group_2022','HD_Group_2021','SDG_Region']:
    print(f"\nColuna: {col}")
    print(df[col].unique())


Linhas duplicadas: 0

Coluna: Country
['Australia' 'Belgium' 'Denmark' 'Iceland' 'Norway' 'Sweden' 'Austria'
 'Bulgaria' 'Canada' 'Croatia' 'Czechia' 'Estonia' 'Finland' 'France'
 'Germany' 'Hungary' 'Ireland' 'Italy' 'Latvia' 'Lithuania' 'Luxembourg'
 'Netherlands' 'Poland' 'Portugal' 'Serbia' 'Singapore' 'Slovenia' 'Spain'
 'Switzerland' 'United Kingdom' 'United States' 'Albania' 'Armenia'
 'Bolivia (Plurinational State of)' 'Brazil' 'Chile' 'China' 'Costa Rica'
 'Cyprus' 'Dominican Republic' 'Ecuador' 'Greece' 'Israel' 'Jamaica'
 'Japan' 'Malta' 'Mauritius' 'Moldova (Republic of)' 'Mongolia'
 'Montenegro' 'Namibia' 'North Macedonia' 'Peru' 'Philippines' 'Romania'
 'Slovakia' 'South Africa' 'Thailand' 'United Arab Emirates' 'Uruguay'
 'Viet Nam' 'Bangladesh' 'Belize' 'Benin' 'Bhutan'
 'Bosnia and Herzegovina' 'Botswana' 'Burkina Faso' 'Burundi' 'Cambodia'
 'Cameroon' 'Colombia' 'Congo (Democratic Republic of the)'
 "C√¥te d'Ivoire" 'Egypt' 'El Salvador' 'Gambia' 'Ghana' 'Guatemala'
 

## Limpeza e padroniza√ß√£o
- Renomeamos as colunas para nomes curtos (ex.: `WEI_2022`) para facilitar queries e gr√°ficos.
- Verificamos duplicados e analisamos valores √∫nicos das colunas categ√≥ricas.


In [13]:
df = df.rename(columns={
    "Women's Empowerment Index (WEI) - 2022": "WEI_2022",
    "Women's Empowerment Group - 2022": "WE_Group_2022",
    "Global Gender Parity Index (GGPI) - 2022": "GGPI_2022",
    "Gender Parity Group - 2022": "Gender_Parity_Group_2022",
    "Human Development Group - 2021": "HD_Group_2021",
    "Sustainable Development Goal regions": "SDG_Region"
})

print("Linhas duplicadas:", df.duplicated().sum())


Linhas duplicadas: 0


# üìä An√°lise Explorat√≥ria ‚Äì Women Empowerment Index 2022

Nesta etapa vamos explorar o conjunto de dados j√° limpo para:
- Entender a distribui√ß√£o dos √≠ndices num√©ricos (WEI e GGPI).
- Identificar pa√≠ses e regi√µes com maiores e menores valores.
- Investigar padr√µes por grupo de desenvolvimento humano e regi√£o.
- Avaliar a rela√ß√£o entre o Empowerment Index (WEI) e o Gender Parity Index (GGPI).

---

## 1Ô∏è‚É£ Estat√≠sticas Descritivas

Objetivo: verificar m√©dias, medianas, m√≠nimos e m√°ximos para ter uma vis√£o geral da varia√ß√£o dos √≠ndices.


In [14]:
df[['WEI_2022','GGPI_2022']].describe()

Unnamed: 0,WEI_2022,GGPI_2022
count,114.0,114.0
mean,0.607316,0.705237
std,0.134632,0.128897
min,0.141,0.141
25%,0.518,0.62225
50%,0.615,0.7265
75%,0.7055,0.802
max,0.828,0.925


## 2Ô∏è‚É£ Ranking dos Pa√≠ses

Objetivo: identificar os 10 pa√≠ses com **maiores** e **menores** √≠ndices de empoderamento feminino (WEI).


In [15]:
# Top 10
df.nlargest(10, 'WEI_2022')[['Country','WEI_2022']]

# Bottom 10
df.nsmallest(10, 'WEI_2022')[['Country','WEI_2022']]


Unnamed: 0,Country,WEI_2022
111,Yemen,0.141
97,Niger,0.307
99,Pakistan,0.337
84,Iraq,0.363
88,Lebanon,0.372
72,Congo (Democratic Republic of the),0.399
79,Guinea,0.4
93,Mali,0.4
63,Benin,0.418
76,Gambia,0.427


## 3Ô∏è‚É£ Compara√ß√µes por Grupos e Regi√µes

Objetivo: descobrir quais regi√µes e grupos de desenvolvimento humano apresentam as maiores m√©dias do √≠ndice.


In [16]:
# M√©dia por regi√£o (Sustainable Development Goal)
df.groupby('SDG_Region')['WEI_2022'].mean().sort_values(ascending=False)

# M√©dia por grupo de Desenvolvimento Humano
df.groupby('HD_Group_2021')['WEI_2022'].mean().sort_values(ascending=False)


HD_Group_2021
Very high    0.726261
High         0.595808
Medium       0.528864
Low          0.435000
Name: WEI_2022, dtype: float64

## 4Ô∏è‚É£ Correla√ß√£o entre WEI e GGPI

Objetivo: analisar a rela√ß√£o entre o Women Empowerment Index e o Global Gender Parity Index.


In [17]:
df[['WEI_2022','GGPI_2022']].corr()


Unnamed: 0,WEI_2022,GGPI_2022
WEI_2022,1.0,0.839409
GGPI_2022,0.839409,1.0


## 5Ô∏è‚É£ Visualiza√ß√µes R√°pidas

Objetivo: criar gr√°ficos simples para observar padr√µes e dispers√µes.


## üåç Distribui√ß√£o Global do Women Empowerment Index ‚Äì 2022

O mapa abaixo apresenta a varia√ß√£o do **Women Empowerment Index (WEI)** em 114 pa√≠ses.  
Quanto mais escura a cor, maior o √≠ndice de empoderamento feminino em 2022.


In [21]:
import plotly.express as px

fig = px.choropleth(
    df,
    locations="Country",
    locationmode="country names",
    color="WEI_2022",
    color_continuous_scale="YlGnBu",
    title="Distribui√ß√£o Global do Women Empowerment Index (2022)"
)
fig.show()

### üìù Insights Principais
- **Lideran√ßa**: [0.828] Pa√≠ses da Europa Ocidental e Am√©rica do Norte exibem √≠ndices acima de **0.80**, indicando pol√≠ticas consolidadas de igualdade de g√™nero.  
- **Baixos √≠ndices**: [0.141] Regi√µes da √Åfrica Subsaariana permanecem abaixo de **0.40**, evidenciando maiores desafios sociais e econ√¥micos.  
- **Tend√™ncia global**: A diferen√ßa entre as regi√µes mais e menos desenvolvidas revela oportunidades de coopera√ß√£o internacional e investimento em programas de empoderamento feminino.
