___
# Projeto 2 CDados
___

O principal objetivo do Projeto 2 é prever uma variável principal em função de
demais outras variáveis que podem influenciar em seu comportamento.

## Variável Target: taxa de fertilidade per capita por país

## Variável Feature: número médio de anos de escola frequentados por todas as mulheres na idade 15-24 anos por país

https://www.gapminder.org/data/

In [255]:
#Imports
%matplotlib inline
import pandas as pd

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

In [256]:
#Leitura dos arquivos Excel
fertilidade = pd.read_excel('bebes_por_mulher.xlsx') #bebês por mulher

escolaridade_anos = pd.read_excel('anos_na_escola_mulheres15-24.xlsx') #anos na escola, mulheres 15-24
emissao_co2 = pd.read_excel('co2_emissions_tonnes_per_person.xlsx') #toneladas por pessoa
pib_capita = pd.read_excel('gdppercapita_us_inflation_adjusted.xlsx') #PIB per capita
expectativa_vida = pd.read_excel('life_expectancy_years.xlsx') # em anos
densidade_populacional = pd.read_excel('population_density_per_square_km.xlsx', index_col=None) #por km²
mortalidade_infantil = pd.read_excel('child_mortality_0_5_year_olds_dying_per_1000_born.xlsx') #0-5 por 1000
idh = pd.read_excel('hdi_human_development_index.xlsx') #Índice de desenvolvimento Humano
#emissão CO2

In [257]:
#Cada linha representa um país e as colunas representam o ano
densidade_populacional.head(4)

Unnamed: 0,country,1949,1950,1951,1952,1953,1954,1955,1956,1957,...,2090,2091,2092,2093,2094,2095,2096,2097,2098,2099
0,Aruba,211.0,213.0,216.0,223.0,232.0,243.0,255.0,268.0,281.0,...,576,575,574,573,572,572,571,570,569,568
1,Afghanistan,11.9,12.0,12.2,12.3,12.5,12.7,12.9,13.1,13.3,...,117,117,117,117,116,116,116,115,115,115
2,Angola,3.65,3.7,3.78,3.87,3.96,4.05,4.12,4.19,4.26,...,135,136,138,140,142,144,146,147,149,151
3,Anguilla,56.9,59.1,60.9,62.2,63.4,64.2,65.0,65.6,66.0,...,158,157,156,156,155,154,154,153,152,152


# Inner Join

In [258]:
#Construindo DF e limpando linhas 

fertilidade_index = fertilidade.set_index('country')

escolaridade_anos_index = escolaridade_anos.set_index('country')
emissao_co2_index = emissao_co2.set_index('country')
pib_capita_index = pib_capita.set_index('country')
expectativa_vida_index = expectativa_vida.set_index('country')
densidade_populacional_index = densidade_populacional.set_index('country')

mortalidade_infantil_index = mortalidade_infantil.set_index('country')
idh_index = idh.set_index('country')

In [259]:
df1 = fertilidade_index.join(escolaridade_anos_index, how='outer', lsuffix='_fertilidade', rsuffix='_escolaridade')
df1 = df1[['2008_fertilidade','2008_escolaridade']].copy()
df1.head()

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,6.04,1.77
Albania,1.65,10.7
Algeria,2.83,9.28
Andorra,,15.4
Angola,6.24,5.16


In [260]:
df2 = df1.join(emissao_co2_index, how='outer')
df2 = df2[['2008_fertilidade','2008_escolaridade', 2008]].copy()
df2 = df2.rename(columns={2008: '2008_emissao co2'})
df2

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade,2008_emissao co2
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,6.04,1.77,0.238
Albania,1.65,10.70,1.470
Algeria,2.83,9.28,3.400
Andorra,,15.40,6.120
Angola,6.24,5.16,1.230
...,...,...,...
Virgin Islands (U.S.),2.41,,
Western Sahara,2.56,,
Yemen,4.80,3.08,1.080
Zambia,5.48,7.06,0.182


In [261]:
df3 = df2.join(pib_capita_index, how='outer')
df3 = df3[['2008_fertilidade','2008_escolaridade', '2008_emissao co2', 2008]].copy()
df3 = df3.rename(columns={2008: '2008_pib capita'})
df3

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade,2008_emissao co2,2008_pib capita
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Afghanistan,6.04,1.77,0.238,488
Albania,1.65,10.70,1.470,3930
Algeria,2.83,9.28,3.400,4400
American Samoa,,,,10.1k
Andorra,,15.40,6.120,41.7k
...,...,...,...,...
Virgin Islands (U.S.),2.41,,,39.7k
Western Sahara,2.56,,,
Yemen,4.80,3.08,1.080,1270
Zambia,5.48,7.06,0.182,1390


In [262]:
df4 = df3.join(expectativa_vida_index, how='outer')
df4 = df4[['2008_fertilidade','2008_escolaridade', '2008_emissao co2', '2008_pib capita', 2008]].copy()
df4 = df4.rename(columns={2008: '2008_expectativa vida'})
df4

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade,2008_emissao co2,2008_pib capita,2008_expectativa vida
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,6.04,1.77,0.238,488,59.9
Albania,1.65,10.70,1.470,3930,78.0
Algeria,2.83,9.28,3.400,4400,74.2
American Samoa,,,,10.1k,
Andorra,,15.40,6.120,41.7k,81.8
...,...,...,...,...,...
Virgin Islands (U.S.),2.41,,,39.7k,
Western Sahara,2.56,,,,
Yemen,4.80,3.08,1.080,1270,67.2
Zambia,5.48,7.06,0.182,1390,55.7


In [263]:
df5 = df4.join(densidade_populacional_index, how='outer')
df5 = df5[['2008_fertilidade','2008_escolaridade', '2008_emissao co2', '2008_pib capita', '2008_expectativa vida', 2008]].copy()
df5 = df5.rename(columns={2008: '2008_densidade populacional'})
df5

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade,2008_emissao co2,2008_pib capita,2008_expectativa vida,2008_densidade populacional
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,6.04,1.77,0.238,488,59.9,43.5
Albania,1.65,10.70,1.470,3930,78.0,109
Algeria,2.83,9.28,3.400,4400,74.2,14.8
American Samoa,,,,10.1k,,283
Andorra,,15.40,6.120,41.7k,81.8,180
...,...,...,...,...,...,...
Wallis et Futuna,,,,,,93.4
Western Sahara,2.56,,,,,1.78
Yemen,4.80,3.08,1.080,1270,67.2,42.6
Zambia,5.48,7.06,0.182,1390,55.7,17.8


In [264]:
df6 = df5.join(mortalidade_infantil_index, how='outer')
df6 = df6[['2008_fertilidade','2008_escolaridade', '2008_emissao co2', '2008_pib capita', '2008_expectativa vida', '2008_densidade populacional', 2008]].copy()
df6 = df6.rename(columns={2008: '2008_mortalidade_infantil'})
df6

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade,2008_emissao co2,2008_pib capita,2008_expectativa vida,2008_densidade populacional,2008_mortalidade_infantil
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Afghanistan,6.04,1.77,0.238,488,59.9,43.5,91.90
Albania,1.65,10.70,1.470,3930,78.0,109,14.40
Algeria,2.83,9.28,3.400,4400,74.2,14.8,28.30
American Samoa,,,,10.1k,,283,
Andorra,,15.40,6.120,41.7k,81.8,180,4.39
...,...,...,...,...,...,...,...
Wallis et Futuna,,,,,,93.4,
Western Sahara,2.56,,,,,1.78,
Yemen,4.80,3.08,1.080,1270,67.2,42.6,58.00
Zambia,5.48,7.06,0.182,1390,55.7,17.8,85.10


In [265]:
df = df6.join(idh_index, how='outer')
df = df[['2008_fertilidade','2008_escolaridade', '2008_emissao co2', '2008_pib capita', '2008_expectativa vida', '2008_densidade populacional', '2008_mortalidade_infantil', 2008]].copy()
df = df.rename(columns={2008: '2008_idh'})
df

Unnamed: 0_level_0,2008_fertilidade,2008_escolaridade,2008_emissao co2,2008_pib capita,2008_expectativa vida,2008_densidade populacional,2008_mortalidade_infantil,2008_idh
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Afghanistan,6.04,1.77,0.238,488,59.9,43.5,91.90,0.447
Albania,1.65,10.70,1.470,3930,78.0,109,14.40,0.729
Algeria,2.83,9.28,3.400,4400,74.2,14.8,28.30,0.720
American Samoa,,,,10.1k,,283,,
Andorra,,15.40,6.120,41.7k,81.8,180,4.39,0.830
...,...,...,...,...,...,...,...,...
Wallis et Futuna,,,,,,93.4,,
Western Sahara,2.56,,,,,1.78,,
Yemen,4.80,3.08,1.080,1270,67.2,42.6,58.00,0.503
Zambia,5.48,7.06,0.182,1390,55.7,17.8,85.10,0.521


In [266]:
'''
df3 = df2.join(pib_capita_index, how='outer')
df3 = df3.rename(columns={'2008': '2008_pib capita'})

df4 = df3.join(expectativa_vida_index, how='outer')
df4 = df4.rename(columns={'2008': '2008_expectativa vida'})

df5 = df4.join(densidade_populacional, how='outer')
df5 = df5.rename(columns={'2008': '2008_densidade pop'})
'''

"\ndf3 = df2.join(pib_capita_index, how='outer')\ndf3 = df3.rename(columns={'2008': '2008_pib capita'})\n\ndf4 = df3.join(expectativa_vida_index, how='outer')\ndf4 = df4.rename(columns={'2008': '2008_expectativa vida'})\n\ndf5 = df4.join(densidade_populacional, how='outer')\ndf5 = df5.rename(columns={'2008': '2008_densidade pop'})\n"

In [268]:
#Seleciona o ano de 2010 e remove os NaNs
#df1 = df1[['2010_fertilidade','2010_escolaridade']].dropna()
#df2 = df2[['2010_produção energia','2010_PIB capita']].dropna()
#df3 = df3[['2010_expectativa vida','2010_densidade pop']].dropna()
#teste