# Extração e transformação para alcançar a massa de indicadores relevantes no período de tempo entre 1998 a 2013.

## 1. Importando libs

In [218]:
import pandas as pd
import numpy as np
import zipfile

## 2. Carregando o dataframe com os dados de todos os países e da faixa temporal.

In [219]:
zf = zipfile.ZipFile('../data/Edstats_csv.zip')
text_files = zf.infolist()
df_todos_paises = pd.DataFrame()
for csv_file in text_files:        
    if csv_file.filename == 'EdStatsData.csv':
        print("Abrindo o arquivo",csv_file.filename)
        df_todos_paises = pd.read_csv(zf.open(csv_file.filename))
        break

if df_todos_paises.empty:
    exit("Erro ao ler o arquivo 'EdStatsData.csv' que fica dentro do 'Edstats_csv.zip' na pasta 'data'.")
else:
    print("Arquivo 'EdStatsData.csv' carregado com sucesso.")

Abrindo o arquivo EdStatsData.csv
Arquivo 'EdStatsData.csv' carregado com sucesso.


## 3. Organizando nome de países definidos em "lista_suja_paises".

In [220]:
df_lista_suja_paises = pd.read_csv('../data/lista_suja_paises.csv', sep = ';')

df_lista_paises = df_lista_suja_paises.drop_duplicates()

df_lista_paises.index = range(df_lista_paises.shape[0])

df_lista_paises.to_csv('../data/lista_paises.csv', index = False)

## 4. Extraindo e transformando dados referentes aos países definidos em "lista_paises.csv".

In [226]:
df_todos_paises_lista_colunas = df_todos_paises.columns.tolist()
ultima_coluna_lixo_massa = df_todos_paises_lista_colunas[len(df_todos_paises_lista_colunas)-1]
df_todos_paises = df_todos_paises.drop([ultima_coluna_lixo_massa], axis=1)

df_paises_filtrados = df_todos_paises.loc[df_todos_paises['Country Name'].isin(df_lista_paises['Country Name'])]

df_lista_indicadores = pd.read_csv('../data/codigos_indicadores_relevantes.csv')
df_paises_filtrados = df_paises_filtrados.loc[df_paises_filtrados['Indicator Code'].isin(df_lista_indicadores['Indicator Code'])]

df_lista_anos = pd.read_csv('../data/lista_anos.csv')

menor_ano = df_lista_anos.min()
maior_ano = df_lista_anos.max()

for c in df_paises_filtrados.columns:
    if(df_paises_filtrados[c].dtype == np.float64):
        coluna_numerica = pd.to_numeric(df_paises_filtrados[c].name, errors='coerce')
        
        if(coluna_numerica < menor_ano[0] or coluna_numerica > maior_ano[0]):            
            del df_paises_filtrados[str(coluna_numerica)]

df_paises_filtrados.index = range(df_paises_filtrados.shape[0])

del df_paises_filtrados['Country Code']
del df_paises_filtrados['Indicator Name']

df_paises_filtrados = df_paises_filtrados.round({ '1998':2, '1999':2, '2000':2, '2000':2, '2001':2, '2002':2,
                                                '2003':2, '2004':2, '2005':2, '2006':2, '2007':2, '2008':2,
                                                '2009':2, '2010':2, '2011':2, '2012':2, '2013':2})

df_paises_filtrados.to_csv('../data/massa_bruta_pais_por_indicadores.csv', index = False)

## 5. Seleção de países com 70% dos valores (na faixa temporal) válidos.

In [205]:
df_massa_selecionada = df_paises_filtrados.fillna(0)

paises_com_maioria_dos_campos_preenchidos = []
for pais in df_lista_paises['Country Name']:
    df_por_pais = df_massa_selecionada.loc[df_massa_selecionada['Country Name'] == pais]
    df_por_pais = df_por_pais.drop(['Country Name', 'Indicator Code'], axis = 1)
    df_por_pais.index = range(df_por_pais.shape[0])
    qtd_zeros = (df_por_pais == 0).sum(1)
    qtd_zeros = qtd_zeros.sum()
    # Em um total de 944 campos (59 indicadores * 16 anos), será aceitável, pelo menos, 20% de valores zerados.
    if qtd_zeros <= 190:
        paises_com_maioria_dos_campos_preenchidos.append(pais)

df_massa_selecionada = df_paises_filtrados.loc[df_paises_filtrados['Country Name'].isin(paises_com_maioria_dos_campos_preenchidos)]

df_massa_selecionada = df_massa_selecionada.drop(['Country Code', 'Indicator Name'], axis = 1)

df_massa_selecionada.index = range(df_massa_selecionada.shape[0])