# Etapa 4: Transformação e unificação dos dados em um único dataset a ser utilizado para classificação.

## 1. Instalando e importando as bibliotecas utlizadas nesse notebook.

In [1]:
!pip3 install pandas
!pip3 install numpy



In [2]:
import pandas as pd
import numpy as np

## 2. Carga e transformação da massa bruta de todos os indicadores e países.

#### Nessa etapa serão carregados os datasets:
- "massa_bruta_pais_por_indicadores_aids": resultado do notebook "2_extracao_transformacao_massa_indicadores_todos_paises_aids";
- "massa_bruta_aids.csv": resultado do notebook "3_extracao_transformacao_massa_aids".

####  Ambos datasets serão úteis para tratar e aplicar os dados de países e seus respectivos indicadores nos processos de classificação.

In [3]:
massa_bruta_pais_por_indicadores = pd.read_csv('../data/massa_bruta_pais_por_indicadores_aids.csv')

massa_bruta_pais_por_indicadores.head()

Unnamed: 0,Country Name,Indicator Code,2010,2011,2012,2013,2014,2015,2016
0,Afghanistan,SE.PRM.TENR,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Afghanistan,NY.GDP.MKTP.CD,15936800000.0,17930240000.0,20536540000.0,20046330000.0,20050190000.0,19215560000.0,19469020000.0
2,Afghanistan,SE.XPD.TOTL.GD.ZS,3.46,3.44,2.53,3.48,3.78,3.32,0.0
3,Afghanistan,UIS.ILLPOP.AG25T64,0.0,6844552.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,IT.NET.USER.P2,4.0,5.0,5.45,5.9,7.0,8.26,10.6


In [4]:
massa_bruta_aids = pd.read_csv('../data/massa_bruta_aids.csv')

massa_bruta_aids.head()

Unnamed: 0,Country,2010,2011,2012,2013,2014,2015,2016
0,Afghanistan,3298,3498,3798,4198,4699,5299,5899
1,Albania,497,497,797,797,797,797,797
2,Algeria,3899,4199,4499,4799,5299,5599,5899
3,Angola,78000,81000,81000,80000,78000,78000,79000
4,Argentina,17800,18600,18800,18600,18400,19100,18500


#### Após essa carga, são separadas em listas os anos e os indicadores. Isso será será usado como referência para extrair dados do datasets "massa_bruta_pais_por_indicadores" e "massa_bruta_aids".
- 'NY.GDP.MKTP.CD': PIB do país;
- 'IT.NET.USER.P2': usuários de internet por 100 pessoas;
- 'SP.POP.GROW': crescimento populacional anual;
- 'SL.UEM.TOTL.ZS': percentual da força de trabalho desempregada;
- 'SE.XPD.TOTL.GD.ZS': gastos Governo com educação;
- 'UIS.LP.AG15T24': analfabetismo entre 15 e 24 anos;
- 'UIS.ILLPOP.AG25T64': analfabetismo entre 25 e 64 anos;
- 'SE.PRM.TCHR': quantidade de professores no ensino fundamental;
- 'UIS.ROFST.1': taxa de crianças fora da escola no ensino fundamental;
- 'SE.PRM.ENRL.TC.ZS': proporção de alunos por professor no ensino fundamental; e 
- 'SE.PRM.TENR': taxa de alunos que ingressaram no ensino fundamental.

In [5]:
anos = ['2010', '2011', '2012', '2013', '2014', '2015', '2016']

indicadores = ['AIDS', 'NY.GDP.MKTP.CD', 'IT.NET.USER.P2', 'SP.POP.GROW', 'SL.UEM.TOTL.ZS', 
               'SE.XPD.TOTL.GD.ZS', 'UIS.LP.AG15T24', 'UIS.ILLPOP.AG25T64',
               'SE.PRM.TCHR', 'UIS.ROFST.1', 'SE.PRM.ENRL.TC.ZS', 'SE.PRM.TENR']

indicadores_socioeconomicos = ['NY.GDP.MKTP.CD', 'IT.NET.USER.P2', 'SP.POP.GROW', 'SL.UEM.TOTL.ZS', 
                               'SE.XPD.TOTL.GD.ZS', 'UIS.LP.AG15T24', 'UIS.ILLPOP.AG25T64',
                               'SE.PRM.TCHR', 'UIS.ROFST.1', 'SE.PRM.ENRL.TC.ZS', 'SE.PRM.TENR']

indicador_aids = ['AIDS']

#### Aqui há a seleção dos nomes dos países, com valores preenchidos, do dataset  "massa_bruta_aids". Essa seleção guiará a extração dos valores de "massa_bruta_pais_por_indicadores" e a unificação dos conjuntos de dados.
#### Além disso, há também a filtragem do conjunto de dados "massa_bruta_aids" por países e do conjunto "massa_bruta_pais_por_indicadores" pelos países e indicadores. A lista de países ("paises") será definida abaixo e a de indicadores ("indicadores") foi definida na célula acima.

In [6]:
paises = []
for index, row in massa_bruta_aids.iterrows():
    if(row[1:6].astype(float).sum() > 0):
        paises.append(row[0])
        
df_massa_bruta_por_indicador = massa_bruta_pais_por_indicadores.loc[massa_bruta_pais_por_indicadores['Indicator Code'].isin(indicadores_socioeconomicos)]

df_massa_bruta_por_indicador = df_massa_bruta_por_indicador.loc[df_massa_bruta_por_indicador['Country Name'].isin(paises)]

df_massa_bruta_por_indicador.index = range(df_massa_bruta_por_indicador.shape[0])

df_massa_bruta_por_indicador.head()

Unnamed: 0,Country Name,Indicator Code,2010,2011,2012,2013,2014,2015,2016
0,Afghanistan,SE.PRM.TENR,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Afghanistan,NY.GDP.MKTP.CD,15936800000.0,17930240000.0,20536540000.0,20046330000.0,20050190000.0,19215560000.0,19469020000.0
2,Afghanistan,SE.XPD.TOTL.GD.ZS,3.46,3.44,2.53,3.48,3.78,3.32,0.0
3,Afghanistan,UIS.ILLPOP.AG25T64,0.0,6844552.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,IT.NET.USER.P2,4.0,5.0,5.45,5.9,7.0,8.26,10.6


In [7]:
df_massa_bruta_aids_por_pais = massa_bruta_aids.loc[massa_bruta_aids['Country'].isin(paises)]

df_massa_bruta_aids_por_pais.index = range(df_massa_bruta_aids_por_pais.shape[0])

df_massa_bruta_aids_por_pais.head()

Unnamed: 0,Country,2010,2011,2012,2013,2014,2015,2016
0,Afghanistan,3298,3498,3798,4198,4699,5299,5899
1,Albania,497,497,797,797,797,797,797
2,Algeria,3899,4199,4499,4799,5299,5599,5899
3,Angola,78000,81000,81000,80000,78000,78000,79000
4,Argentina,17800,18600,18800,18600,18400,19100,18500


#### O objetivo do processo abaixo é mesclar os dados dos conjuntos "df_massa_bruta_por_indicador" e "df_massa_bruta_aids_por_pais". Ambos possuem linhas com nomes de países, portanto esse é um dos pontos de interseção entre eles. Assim, serão inseridos os dados da quantidade de infectados pelo vírus da AIDS de um país no conjunto de indicadores socioeconômicos do mesmo país.

In [8]:
df_aids_socioeconomicos = pd.DataFrame(columns=['Country Name', 'Indicator Code', '2010', '2011', '2012', '2013', '2014', '2015', '2016'])

for pais in paises:
    df_pais_aids = df_massa_bruta_aids_por_pais.loc[df_massa_bruta_aids_por_pais['Country'] == pais]
    df_pais_aids.insert(1, "Indicator Code", ['AIDS'], True)    
    df_pais_aids = df_pais_aids.rename(columns={'Country':'Country Name',
                                                ' 2011':'2011', ' 2012':'2012', 
                                                ' 2013':'2013', ' 2014':'2014',
                                                ' 2015':'2015', ' 2016':'2016'})
    
    df_pais_indicador = df_massa_bruta_por_indicador.loc[df_massa_bruta_por_indicador['Country Name'] == pais]
    df_concatenacao = pd.concat([df_pais_indicador, df_pais_aids])
    df_aids_socioeconomicos = pd.concat([df_aids_socioeconomicos, df_concatenacao])

df_aids_socioeconomicos.index = range(df_aids_socioeconomicos.shape[0])
df_aids_socioeconomicos.head(12)

Unnamed: 0,Country Name,Indicator Code,2010,2011,2012,2013,2014,2015,2016
0,Afghanistan,SE.PRM.TENR,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Afghanistan,NY.GDP.MKTP.CD,15936800000.0,17930240000.0,20536540000.0,20046330000.0,20050190000.0,19215560000.0,19469020000.0
2,Afghanistan,SE.XPD.TOTL.GD.ZS,3.46,3.44,2.53,3.48,3.78,3.32,0.0
3,Afghanistan,UIS.ILLPOP.AG25T64,0.0,6844552.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,IT.NET.USER.P2,4.0,5.0,5.45,5.9,7.0,8.26,10.6
5,Afghanistan,SP.POP.GROW,2.81,3.1,3.27,3.32,3.18,2.94,2.69
6,Afghanistan,SE.PRM.ENRL.TC.ZS,44.42,43.52,44.68,45.71,0.0,44.33,0.0
7,Afghanistan,UIS.ROFST.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,Afghanistan,SE.PRM.TCHR,118858.0,121593.0,129093.0,130957.0,0.0,142880.0,0.0
9,Afghanistan,SL.UEM.TOTL.ZS,8.1,8.2,8.0,8.4,8.6,8.6,8.6


#### O passo abaixo processará os dados presentes em "df_aids_socioeconomicos":
- Trocará o valor das linhas do indicador de aids por zero ou um ("1" caso haja aumento de um ano para o outro e "0" não);
- Preencher o dataframe "df_resultado_transformacao" com o resultado disso;
- Ordernar "df_resultado_transformacao" pelo nome do país; e
- Ajustar os índices de "df_resultado_transformacao".

#### Os dados no dataframe "df_resultado_transformacao" estarão agrupados por país e indicadores.
#### Os valores de zero ou um nas linhas referentes ao indicador de infectados com aids mostram se, em cada ano, houve um aumento ou não da taxa de infecção.

In [9]:
colunas_transformacao = ['Pais', 'Indicador', '2010', '2011', '2012', '2013', '2014', '2015']
df_resultado_transformacao = pd.DataFrame(columns=colunas_transformacao)

for pais in paises:
    df_pais = df_aids_socioeconomicos.loc[df_aids_socioeconomicos['Country Name'] == pais]

    df_2010_a_2016 = df_pais.iloc[:, 2:9]
    df_2010_a_2016.index = range(df_2010_a_2016.shape[0])
   
    indicador = df_pais['Indicator Code']
    indicador.index = range(indicador.shape[0])
    
    for index, indicador in indicador.items():

        if indicador == 'AIDS':
            valor_2010_2011 = 1 if int(df_2010_a_2016['2011'].iloc[index]) - int(df_2010_a_2016['2010'].iloc[index]) > 0 else 0
            valor_2011_2012 = 1 if int(df_2010_a_2016['2012'].iloc[index]) - int(df_2010_a_2016['2011'].iloc[index]) > 0 else 0
            valor_2012_2013 = 1 if int(df_2010_a_2016['2013'].iloc[index]) - int(df_2010_a_2016['2012'].iloc[index]) > 0 else 0
            valor_2013_2014 = 1 if int(df_2010_a_2016['2014'].iloc[index]) - int(df_2010_a_2016['2013'].iloc[index]) > 0 else 0
            valor_2014_2015 = 1 if int(df_2010_a_2016['2015'].iloc[index]) - int(df_2010_a_2016['2014'].iloc[index]) > 0 else 0
            valor_2015_2016 = 1 if int(df_2010_a_2016['2016'].iloc[index]) - int(df_2010_a_2016['2015'].iloc[index]) > 0 else 0

            valores = [pais, indicador, valor_2010_2011, valor_2011_2012, valor_2012_2013, 
                       valor_2013_2014, valor_2014_2015, valor_2015_2016]

            df_auxiliar = pd.DataFrame([valores], columns=colunas_transformacao)
            df_auxiliar.index = range(df_auxiliar.shape[0])
            df_resultado_transformacao = pd.concat([df_auxiliar, df_resultado_transformacao])            

        elif indicador in indicadores_socioeconomicos:
            valores = [pais, indicador]
            valores.extend(df_2010_a_2016.drop(columns=['2016']).iloc[index].values.tolist())
            df_auxiliar = pd.DataFrame([valores], columns=colunas_transformacao)
            df_auxiliar.index = range(df_auxiliar.shape[0])
            df_resultado_transformacao = pd.concat([df_auxiliar, df_resultado_transformacao])

            
df_resultado_transformacao = df_resultado_transformacao.sort_values(['Pais'], ascending=[True])

df_resultado_transformacao.index = range(df_resultado_transformacao.shape[0])

df_resultado_transformacao.head(12)

Unnamed: 0,Pais,Indicador,2010,2011,2012,2013,2014,2015
0,Afghanistan,SE.PRM.TENR,0.0,0.0,0.0,0.0,0.0,0.0
1,Afghanistan,AIDS,1.0,1.0,1.0,1.0,1.0,1.0
2,Afghanistan,UIS.LP.AG15T24,0.0,2947366.0,0.0,0.0,0.0,0.0
3,Afghanistan,SL.UEM.TOTL.ZS,8.1,8.2,8.0,8.4,8.6,8.6
4,Afghanistan,SE.PRM.TCHR,118858.0,121593.0,129093.0,130957.0,0.0,142880.0
5,Afghanistan,UIS.ROFST.1,0.0,0.0,0.0,0.0,0.0,0.0
6,Afghanistan,NY.GDP.MKTP.CD,15936800000.0,17930240000.0,20536540000.0,20046330000.0,20050190000.0,19215560000.0
7,Afghanistan,SP.POP.GROW,2.81,3.1,3.27,3.32,3.18,2.94
8,Afghanistan,IT.NET.USER.P2,4.0,5.0,5.45,5.9,7.0,8.26
9,Afghanistan,UIS.ILLPOP.AG25T64,0.0,6844552.0,0.0,0.0,0.0,0.0


#### Transforma todos os dados dos indicadores em colunas (isso será útil para as etapas de análise e classificação). Também renomeia as colunas para facilitar o entendimento.

In [10]:
df_indicadores_em_colunas = pd.DataFrame()

for indicador in indicadores:
    df_indicador = df_resultado_transformacao.loc[df_resultado_transformacao['Indicador'] == indicador]
    df_indicador.index = range(df_indicador.shape[0])
    
    df_periodos_indicador = df_indicador.drop(['Pais', 'Indicador'], axis=1)    
    df_periodos_indicador = df_periodos_indicador.stack()
    df_periodos_indicador.index = range(df_periodos_indicador.shape[0])
    
    df_indicadores_em_colunas[indicador] = df_periodos_indicador.tolist()


nomes_colunas = {'NY.GDP.MKTP.CD':'PIB', 'IT.NET.USER.P2':'Usuários Internet', 
                 'SP.POP.GROW':'Crescimento Populacional', 'SL.UEM.TOTL.ZS': 'Desemprego',
                 'SE.XPD.TOTL.GD.ZS': 'Investimentos Educação', 'UIS.LP.AG15T24': 'Analfabetismo 15 e 24',
                 'UIS.ILLPOP.AG25T64': 'Analfabetismo 25 e 64', 'SE.PRM.TCHR': 'Qtd Professores EF',
                 'UIS.ROFST.1': 'Crianças Fora Escola', 'SE.PRM.ENRL.TC.ZS': 'Qtd Alunos por professor',
                 'SE.PRM.TENR': 'Qtd Alunos EF'}

df_indicadores_em_colunas = df_indicadores_em_colunas.rename(columns = nomes_colunas)

df_indicadores_em_colunas['PIB'] = df_indicadores_em_colunas['PIB'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Usuários Internet'] = df_indicadores_em_colunas['Usuários Internet'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Crescimento Populacional'] = df_indicadores_em_colunas['Crescimento Populacional'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Desemprego'] = df_indicadores_em_colunas['Desemprego'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Investimentos Educação'] = df_indicadores_em_colunas['Investimentos Educação'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Analfabetismo 15 e 24'] = df_indicadores_em_colunas['Analfabetismo 15 e 24'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Analfabetismo 25 e 64'] = df_indicadores_em_colunas['Analfabetismo 25 e 64'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Qtd Professores EF'] = df_indicadores_em_colunas['Qtd Professores EF'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Crianças Fora Escola'] = df_indicadores_em_colunas['Crianças Fora Escola'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Qtd Alunos por professor'] = df_indicadores_em_colunas['Qtd Alunos por professor'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')
df_indicadores_em_colunas['Qtd Alunos EF'] = df_indicadores_em_colunas['Qtd Alunos EF'].replace(to_replace=0, method='ffill').replace(to_replace=0, method='bfill')

df_indicadores_em_colunas.head()

Unnamed: 0,AIDS,PIB,Usuários Internet,Crescimento Populacional,Desemprego,Investimentos Educação,Analfabetismo 15 e 24,Analfabetismo 25 e 64,Qtd Professores EF,Crianças Fora Escola,Qtd Alunos por professor,Qtd Alunos EF
0,1.0,15936800000.0,4.0,2.81,8.1,3.46,2947366.0,6844551.6,118858.0,8.97,44.42,91.03
1,1.0,17930240000.0,5.0,3.1,8.2,3.44,2947366.0,6844551.6,121593.0,8.97,43.52,91.03
2,1.0,20536540000.0,5.45,3.27,8.0,2.53,2947366.0,6844551.6,129093.0,8.97,44.68,91.03
3,1.0,20046330000.0,5.9,3.32,8.4,3.48,2947366.0,6844551.6,130957.0,8.97,45.71,91.03
4,1.0,20050190000.0,7.0,3.18,8.6,3.78,2947366.0,6844551.6,130957.0,8.97,45.71,91.03


#### Transforma os valores da coluna "PIB" para a casa de bilhões.

In [11]:
df_indicadores_em_colunas['PIB'] = df_indicadores_em_colunas['PIB'].div(1000000000).round(2)
df_indicadores_em_colunas['PIB'].head()

0    15.94
1    17.93
2    20.54
3    20.05
4    20.05
Name: PIB, dtype: float64

#### Exporta os dados resultantes da transformação e unificação dos dois datasets para o arquivo "final_transformacao_dados_unificados_aids_indicadores.csv" que será utilizado para a aplicação dos classificadores.

In [12]:
df_indicadores_em_colunas.to_csv('../data/final_transformacao_dados_unificados_aids_indicadores.csv', index = False)