# Projeto 1 - Ciência dos Dados

#### Feito por: Gabriel Kabbani

# Motivação: 

O projeto é inspirado pela verificação dos objetivos econômicos da União Européia. Em seus objetivos, constam os seguintes: 

1. Desenvolvimento sustentável baseado no crescimento econômico equilibrado e na estabilidade de preços, uma economia de mercado altamente competitiva com pleno emprego e progresso social, e proteção ambiental.

2. Reforçar a coesão económica, social e territorial e a solidariedade entre os países da UE.

Dessa forma, é interessante verificar até que ponto a suposta "coesão econômica" e o "crescimento econômico equilibrado" de fato fazem um impacto na economia. Para isso, esse projeto será destinado à comparação de índices econômicos entre os países que participam da União Européia e aqueles que não fazem parte.

# Pergunta:

Com relação à totalidade dos países no mundo, com ênfase nos europeus, existe uma vantagem econômica por estar na União Européia, considerando PIB, exportações, e investimento estrangeiro?

# Bases de dado utilizadas:

Bases de dado do gapminder utilizadas:
1. Foreign Direct Investment Net Inflows as Percent of GDP.
2. Exports as Percent of GDP.
3. GDP Per Capita US Inflation Adjusted.
4. HDI Human Development Index.

Todas podem ser encontradas no seguinte link: https://www.gapminder.org/data/

# Hipótese e Mecanismo:

Considerando os objetivos mencionados acima, pode se dizer que o participar da União Européia, o comércio com os outros países participantes é bastante facilitado, algo que não somente aumenta os mercados consumidores, mas que também estimula a economia local e os investimentos estrangeiros nela, fazendo com que o PIB e a quantidade de exportações sejam maiores. Essa hipótese foi em parte fundamentada por pesquisas que exploram os benefícios da União Européia, como a disponível no site 'econ.economicshelp.org', referenciada no final do projeto. 

Para responder a pergunta e verificar a hipótese acima, vou analisar os anos 2010, 2014, e 2017 de todos os países cujos dados estão disponíveis, para ter uma análise geral referente à esta última década, começando após a crise de 2008, para mostrar o impacto da união ao longo do tempo, mesmo em períodos de recuperação, mas sem ter os dados possívelmente influenciados de maneira considerável pela crise, algo que poderia ter acontecido caso anos anteriores fossem escolhidos. Ademais, para analisá-los, vou utilizar o PIB per capita (ajustado pela inflação americana ao longo dos anos), a quantidade de investimento estrangeiro sendo alocado no país, como porcentagem do PIB, e as o capital decorrido de exportações, também como porcentagem do PIB. Estes indicadores possibilitam diversar análises sobre a situação econômica do país, sendo ótimas ferramentas responder a pergunta acima.

Mais especificamente, os indicadores serão utilizados para comparar a variação entre os três grupos de países (que pertencem à União Européia, que são europeus mas não pertencem, e os países não europeus) ao decorrer dos anos escolhidos. Assim, poderei investigar a inclinação com qual cresce os indicadores de cada grupo, para ver as diferenças no desenvolvimento econômico médio entre eles. Além disso, poderei investigar como cada observação pode ou não ser resultado do pertencimento à união, e se o crescimento ocorre somente nos países mais desenvolvidos. Para isso, utilizarei o Índice de Desenvolvimento Humano, adicionando uma outra camada de análises, para ter certeza de que um eventual crescimento ocorre devido à União Européia, e não somente pelo país ser mais desenvolvido. Infelizmente, só estão disponíveis os dados de IDH até 2015 (a partir disso somente poucos países podem ser facilmente integrados, algo que comprometeria a análise), então essa análise com relação ao desenvolvimento será limitada aos anos de 2010 e 2014. 

# Montagem do database:

In [89]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [90]:
import os
print (os.getcwd())

/Users/Kabbani/Desktop/Insper/Ciência dos Dados/P1


In [91]:
dados_export = pd.read_excel('exports_percent_of_gdp.xlsx')
dados_gdp = pd.read_excel('gdppercapita_us_inflation_adjusted.xlsx')
dados_fdi = pd.read_excel('foreign_direct_investment_net_inflows_percent_of_gdp.xlsx')
dados_idh= pd.read_excel('hdi_human_development_index.xlsx')

In [92]:
dados_gdp.insert(1, "EU", 0)
dados_gdp.loc[(dados_gdp.country == 'Albania') | (dados_gdp.country == 'Andorra') | (dados_gdp.country == 'Belarus') | (dados_gdp.country == 'Bosnia and Herzegovina') | (dados_gdp.country == 'Iceland') | (dados_gdp.country == 'Liechtenstein') | (dados_gdp.country == 'Macedonia') | (dados_gdp.country == 'Moldova') | (dados_gdp.country == 'Monaco') | (dados_gdp.country == 'Montenegro') | (dados_gdp.country == 'Norway')| (dados_gdp.country == 'Russia') | (dados_gdp.country == 'San Marino') | (dados_gdp.country == 'Serbia') | (dados_gdp.country == 'Switzerland') | (dados_gdp.country == 'Turkey') | (dados_gdp.country == 'Ukraine') , ['EU']]='1'
dados_gdp.loc[(dados_gdp.country == 'Austria') | (dados_gdp.country == 'Belgium')| (dados_gdp.country == 'Bulgaria')| (dados_gdp.country == 'Croatia')| (dados_gdp.country == 'Cyprus')| (dados_gdp.country == 'Czech Republic') | (dados_gdp.country == 'Denmark') | (dados_gdp.country == 'Estonia') | (dados_gdp.country == 'Finland') | (dados_gdp.country == 'France') | (dados_gdp.country == 'Germany') | (dados_gdp.country == 'Greece') | (dados_gdp.country == 'Hungary') | (dados_gdp.country == 'Ireland') | (dados_gdp.country == 'Italy') | (dados_gdp.country == 'Latvia') | (dados_gdp.country == 'Lithuania') | (dados_gdp.country == 'Luxembourg') | (dados_gdp.country == 'Malta') | (dados_gdp.country == 'Netherlands') | (dados_gdp.country == 'Poland') | (dados_gdp.country == 'Portugal') | (dados_gdp.country == 'Romania') | (dados_gdp.country == 'Slovak Republic') | (dados_gdp.country == 'Slovenia') | (dados_gdp.country == 'Spain') | (dados_gdp.country == 'Sweden') | (dados_gdp.country == 'United Kingdom'),['EU']] = '2'
dados_gdp.EU= dados_gdp.EU.astype('category')
dados_gdp.EU.cat.categories=['Não-Europeu','Europeu-não-participante','Participante']

In [93]:
gdp_2010_14_17 = dados_gdp.loc[:,['country',"EU",2010,2014,2017]]
exp_2010_14_17 = dados_export.loc[:,['country',2010,2014,2017]]
fdi_2010_14_17 = dados_fdi.loc[:,['country',2010,2014,2017]]
idh_2010_14_17 = dados_idh.loc[:,['country',2010,2014,2017]]

In [94]:
gdp = gdp_2010_14_17.set_index('country')     #('GDP per capita inflation-adjusted')
exp = exp_2010_14_17.set_index('country')     #('Exports as % of GDP')
fdi = fdi_2010_14_17.set_index('country')     #('Foreign Direct Investment as % of GDP')
idh = idh_2010_14_17.set_index('country')

In [95]:
data = gdp.join(exp, how='inner', lsuffix='_PIB', rsuffix='_Exports')
data = data.join(fdi,how='inner', rsuffix='_FDI')
data.rename(columns={2010:"2010_FDI",2014:"2014_FDI",2017:"2017_FDI","EU":"UE"}, inplace=True)
data = data.join(idh,how='inner', rsuffix='_IDH')
data.rename(columns={2010:"2010_IDH",2014:"2014_IDH",2017:"2017_IDH"}, inplace=True)
data.head()

Unnamed: 0_level_0,UE,2010_PIB,2014_PIB,2017_PIB,2010_Exports,2014_Exports,2017_Exports,2010_FDI,2014_FDI,2017_FDI,2010_IDH,2014_IDH,2017_IDH
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Afghanistan,Não-Europeu,553,630.0,618.0,10.0,6.57,,1.2,0.208,0.256,0.454,0.479,
Albania,Europeu-não-participante,4090,4410.0,4870.0,28.0,28.2,31.5,9.14,8.69,7.84,0.738,0.762,
Algeria,Não-Europeu,4460,4680.0,4830.0,38.4,30.2,24.0,1.43,0.703,0.705,0.724,0.743,
Angola,Não-Europeu,3530,3750.0,3480.0,62.3,48.0,29.9,-3.91,1.52,-5.96,0.495,0.531,
Antigua and Barbuda,Não-Europeu,12200,12400.0,13600.0,45.5,46.1,,8.39,3.36,3.97,0.782,0.784,


Como pode se evidenciar na célula abaixo, quatro países europeus não participantes estão faltando na tabela, devido à falta de dados, que comprometeria severamente a análise. Mesmo assim, a análise continua válida sem esses países pelo fato de ainda haverem vários outros para fornecer os dados necessários.

In [96]:
data.UE.value_counts()

Não-Europeu                 139
Participante                 28
Europeu-não-participante     12
Name: UE, dtype: int64

# Análise dos Dados:

# Conclusão:

# Referências:

https://econ.economicshelp.org/2007/03/benefits-of-european-union.html

https://europa.eu/european-union/about-eu/eu-in-brief_en

https://www.gapminder.org/data/