## PROMOTE GENDER EQUALITY AND EMPOWER WOMEN

## Análise Exploratória de Dados

In [None]:
from IPython.display import display, Markdown, Latex
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1 - Lendo os dados

In [None]:
#Dados incompletos pegados do site http://hdr.undp.org/en/content/developing-regions  (menu esquerda 'Download DB 2018')
filename = 'Dados/HDR_2018_data.xlsx'
first_data = pd.read_excel(filename)

#Dados conseguidos numa outra source para categorizar os paises por regiao e income type
metadata_filename = 'Dados/HDR_2018_country_metadata.xlsx'
country_metadata = pd.read_excel(metadata_filename)

In [None]:
print(first_data.shape)
print(country_metadata.shape)

In [None]:
first_data.head()

In [None]:
country_metadata.head()

In [None]:
#Fazemos merge para poder categorizar os dados por regiao e grupo de income
data = pd.merge(left=first_data, right=country_metadata, how='left', left_on='iso3', right_on='Code')

#Evitamos redundancias
data.drop('Code', axis=1, inplace=True) # 1 is the axis number (0 for rows and 1 for columns) & inplace to not have to reassign a new df

In [None]:
data.shape

In [None]:
data.head()

In [None]:
#Mudando nome de algumas colunas
data.rename(columns={'dimension':'category','iso3':'code','Long Name':'long_name','Income Group':'income_group','Region':'region'},inplace=True)

In [None]:
data.head()

In [None]:
data.info()

Os dados parecem estar corretamente classificados, sendo:
    * 'object' os dados de string
    * 'int' e 'float64' os dados numericos

## Convertindo o DataSet

Segundo o principio de 'tidy data':
    * Colunas representas variaveis diferentes
    * Linhas representam observacoes individuais

Entao o nosso dataset tem que ser modificado para ter nas colunas os dados que nos interessam.

In [None]:
data_per_year = pd.melt(frame=data, id_vars=['category','indicator_id','indicator_name','code', 'country_name','long_name','income_group','region'], var_name = 'year')

In [None]:
data_per_year.head()

In [None]:
data_per_year.shape

In [None]:
data_per_year.drop('category', axis=1, inplace=True)
data_per_year.drop('indicator_id', axis=1, inplace=True)
data_per_year.drop('long_name', axis=1, inplace=True)

In [None]:
data_per_year.head()

In [None]:
# 157 indicadores estudados
indicators = data.indicator_name.unique()
print(indicators.shape)

In [None]:
# Diferentes indicadores de genero estudados
gender_indicators = data[(data.category == 'Gender')].indicator_name.unique()
print(gender_indicators)

In [None]:
# Depois desse comando, vamos ter um MultiIndex
data_tidy = data_per_year.pivot_table(index=['code', 'country_name','income_group','region','year'],
                                     columns = 'indicator_name', values = 'value')

In [None]:
data_tidy.head(50)

In [None]:
data_tidy.shape

In [None]:
# Isso vai permitir voltar a um DataFrame normal
data_tidy.reset_index(inplace=True)

In [None]:
data_tidy.head(50)

In [None]:
data_tidy.shape
# vemos que temos bem 1 linha por pais e ano pois : 5655 = 29 * 195 (195 paises e 28 anos estudados e '9999' )


# teriamos q ter 162 colunas né ? pois 162 = 157 + 5 (157 indicadores e os 5 indicadores de pais)

In [None]:
# Valores mais recentes para fazer analises numericas
recent_data = data_tidy[(data_tidy.year == 2017)]

In [None]:
recent_data.head()

In [None]:
# Valores mais recentes de GENERO (com os indicadores de country) para fazer analises numericas
gender_indicators = data[(data.category == 'Gender')].indicator_name.unique()
other_indicators = np.asarray(['code', 'country_name','income_group','region','year'])
recent_indicators = np.concatenate((other_indicators, gender_indicators))
recent_data_gender = recent_data[recent_indicators]

In [None]:
recent_data_gender

## 2 - Dados numericos

### Examinando

In [None]:
# método de descrição de atributos numéricos (nao faz muito sentido pois tem todas as categorias diferentes)
data.describe()

#####ACHO QUE ISSO DAQUI NAO TA BOM POIS TERIAMOS QUE CRIAR UM DATAFRAME PARA CADA ASPECTO ESTUDADO...

## 3 - Dados categoricos

### Examinando

In [None]:
# Todos os paises nao tem dados para todas as categorias
data['country_name'].value_counts(dropna=False)

In [None]:
# Todos os indicadores nao tem o mesmo numero de respostas...
print(pd.DataFrame(data['indicator_name'].value_counts(dropna=False)))

In [None]:
#Numero de respostas por indicador de gênero
print(pd.DataFrame(data[(data.category == 'Gender')]['indicator_name'].value_counts(dropna=False)))

### Visualizando

### Examinando por categoria

## PERGUNTA 1 - blabla

## PERGUNTA 2 - blabla

## PERGUNTA 3 - blabla

## PERGUNTA 4 - blabla

## PERGUNTA 5 - blabla

## PERGUNTA 6 - blabla

## PERGUNTA 7 - blabla

## PERGUNTA 8 - blabla

## PERGUNTA 9 - blabla

## PERGUNTA 10 - blabla