# Projeto 1 - Ciência dos Dados

### Parte 1 - Data frame e anos de interesse

Arthur Carvalho



Pergunta: Como o setor terciário influencia o idh de um país da SADC? Países africanos que fazem parte da SADC se configuram como mais desenvolvidos (a partir do idh e do setor terciário) em relação ao resto da África? E em relação ao resto do mundo, como esse bloco econômico se equipara? 

Hipótese teórica: Países dentro do SADC terão um setor terciário maior que o resto da África e, respectivamente, terá um IDH maior. Porém, ao ser comparado ao resto do mundo, o setor terciário e o IDH ainda serão menores que a média

### Mecanismos utilizados

Para o desenvolvimento do projeto serão feitos gráficos e tabelas os quais mostrarão o IDH dos países em um bloco econômico, a porcentagem contribuinte do setor terciário para a economia, e análises que serão feitas a partir dos dados coletados, chegando assim em uma conclusão de acordo com a pergunta proposta



### Links para planilhas usadas 

IDH : https://hdr.undp.org/en


SPGDP : https://data.worldbank.org/indicator/NV.SRV.TETC.ZS

In [82]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import pearsonr

In [83]:
#1 - ler os arquivos do excel

IDHx1 = pd.read_excel('hdi_human_development_index.xlsx') #Lê arquivo excel relativo ao idh
SPGDPx1 = pd.read_excel('services_percent_of_gdp.xlsx') #Lê arquivo excel relativo à porcentagem do pib em serviços

In [84]:
#2 - formalizar o índice das planilhas

IDH_idx = IDHx1.set_index('country') 
SPGDP_idx = SPGDPx1.set_index('country')

#3 - declarar os anos em comum

IDH = IDH_idx[[2005,2013]]
SPGDP = SPGDP_idx[[2005,2013]]

**Juntar anos de interesse em um Dataframe**

In [85]:
data = SPGDP.join(IDH, how = 'inner', lsuffix = '_SPGDP', rsuffix = '_HDI')

In [86]:
data.head()

Unnamed: 0_level_0,2005_SPGDP,2013_SPGDP,2005_HDI,2013_HDI
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Afghanistan,39.6,53.0,0.405,0.476
Albania,46.9,44.6,0.696,0.761
Algeria,,,0.686,0.741
Andorra,75.2,79.3,,0.85
Angola,24.8,18.7,0.439,0.527


## Categorizar os países em três variáveis: SADC, África ou Mundo

Faremos isso pois, de acordo com a nossa pergunta guiadora, estamos procurando comparar os países do SADC com os outros países da África e, depois, com o resto do mundo. Isso nos dará um insight em como o bloco se comporta em relação aos países do mesmo continente, já que esses tem mais semelhanças entre si, e, após isso, perante ao resto do mundo.

In [87]:
data['Bloco'] = 'Mundo'
data.loc[['Angola','Botswana','Comoros','Congo','Lesotho','Madagascar','Malawi','Mauritius','Mozambique','Namibia','Seychelles','South Africa','Swaziland','Tanzania','Zambia','Zimbabwe'], ['Bloco']] = 'SADC'
data.loc[['Algeria','Benin','Burkina Faso','Cameroon','Cape Verde','Central African Republic','Chad','Congo Rep',"Cote d'Ivoire",'Equatorial Guinea','Ethiopia','Gabon','Gambia','Ghana','Guinea','Guinea-Bissau','Kenya','Liberia','Mali','Mauritania','Morocco','Niger','Nigeria','Rwanda','Sao Tome and Principe','Senegal','Sierra Leone', 'Sudan','Togo','Uganda'],['Bloco']] = 'África'
data.head()

Unnamed: 0_level_0,2005_SPGDP,2013_SPGDP,2005_HDI,2013_HDI,Bloco
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,39.6,53.0,0.405,0.476,Mundo
Albania,46.9,44.6,0.696,0.761,Mundo
Algeria,,,0.686,0.741,África
Andorra,75.2,79.3,,0.85,Mundo
Angola,24.8,18.7,0.439,0.527,SADC


# Começando a ánalise 

Iremos começar a análise 