___
# Análise Exploratória de Dados: Pandas e Junção de conjuntos de dados
___

## Aula 02


**Links Úteis:**
1. https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
2. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html?highlight=join#pandas.DataFrame.join

**Hoje:**
1.	Trabalhar com Pandas 

**Próxima aula:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): pág. 9 a 16 – destacando para variáveis qualitativas.


___

##  Renda per capita, Emissão de CO2 per capita e países sem litoral

Foram coletados dois conjuntos de dados do site https://www.gapminder.org/:
1. Emissão de CO2 per capita
1. Renda per capita (sendo usado PBI como uma `proxy` de renda)

Nesses *dataframes*, as linhas representam os países e as colunas representam o ano.

No *dataframe* *co2* criado a seguir, o conteúdo de cada célula é a medida de CO2 de um determinado ano (coluna) para determinado país (linha). 

No *dataframe* *income* criado a seguir, o conteúdo de cada célula é a medida de PIB per capita de um determinado ano (coluna) para um determinado país (linha). 

Também usamos as colunas *landlocked* e *region* do primeiro encontro. Neste caso não há uma coluna ano a ano porque este atributo muda só quando mudam as fronteiras de um país.


Como os arquivos estão separados, será preciso juntá-los cruzando o país.

Vamos nos restringir a analisar o ano de **2010**.

___

## Leitura dos arquivos e mudanças de índices

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import math as math
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
#Leitura dos arquivos em Excel
co2 = pd.read_excel('indicator CDIAC carbon_dioxide_emissions_per_capita.xlsx')
income = pd.read_excel('indicator gapminder gdp_per_capita_ppp.xlsx')
landlocked = pd.read_excel('landlocked_region.xlsx')

### CO2

É possível verificar que cada linha representa um país e as colunas representam o ano.


In [3]:
co2.head()

Unnamed: 0,CO2 per capita,1751,1755,1762,1763,1764,1765,1766,1767,1768,...,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012
0,Abkhazia,,,,,,,,,,...,,,,,,,,,,
1,Afghanistan,,,,,,,,,,...,0.022704,0.027472,0.03678,0.04709,0.068312,0.131602,0.213325,0.262174,,
2,Akrotiri and Dhekelia,,,,,,,,,,...,,,,,,,,,,
3,Albania,,,,,,,,,,...,1.382066,1.332966,1.353789,1.22431,1.27942,1.297753,1.215055,1.336544,,
4,Algeria,,,,,,,,,,...,2.899236,2.76222,3.25701,3.113135,3.312875,3.328945,3.564361,3.480977,3.562504,3.785654
5,American Samoa,,,,,,,,,,...,,,,,,,,,,
6,Andorra,,,,,,,,,,...,7.414281,7.49969,7.390955,6.83994,6.622435,6.527241,6.17852,6.0921,,
7,Angola,,,,,,,,,,...,0.58781,1.17761,1.161662,1.308849,1.435044,1.474353,1.500054,1.593918,,


Vamos manter apenas o ano de 2010:

In [7]:
co2_2010 = co2.loc[:, ["CO2 per capita", 2010]]
co2_2010.head()

Unnamed: 0,CO2 per capita,2010
0,Abkhazia,
1,Afghanistan,0.262174
2,Akrotiri and Dhekelia,
3,Albania,1.336544
4,Algeria,3.480977


### Renda

O mesmo se aplica a renda.

Lembrando que GDP significa *gross domestic product*, ou *produto interno bruto* 

In [5]:
income_2010 = income.loc[:, ["GDP per capita", 2010]]
income_2010.head()

Unnamed: 0,GDP per capita,2010
0,Abkhazia,
1,Afghanistan,1637.0
2,Akrotiri and Dhekelia,


### Landlocked e Region

Lembrando das colunas *landlocked*, que indica se um país tem litoral ou não, e *region*, que  indica a que região pertence

In [6]:
landlocked.head()

Unnamed: 0,Country,region,landlocked
0,Albania,europe_east,0
1,Algeria,africa_north,0
2,Angola,africa_sub_saharan,0
3,Antigua and Barbuda,america_north,0
4,Argentina,america_south,0


___
# Inner Join

Vamos agora juntar as três tabelas, selecionar apenas o ano de 2010 e remover os NaNs.

**Sugestão**: pesquise sobre a função DataFrame.join(), pode ser muito útil no futuro.

Para fazer essa junção, vamos utilizar o nome do país para `index` já que é a variável comum nos três arquivos.

Mudando o índice do *co2*:

In [8]:
co2_idx = co2_2010.set_index('CO2 per capita')
co2_idx.head() 
# Note que os índices numéricos sumiram, e que agora o nome do país está em negrito. 
# Essa mudança indica que os nomes agora são os índices de referência para fazer a junção das bases de dados.

Unnamed: 0_level_0,2010
CO2 per capita,Unnamed: 1_level_1
Abkhazia,
Afghanistan,0.262174
Akrotiri and Dhekelia,
Albania,1.336544
Algeria,3.480977


Mudando o índice do *income*: 



In [9]:
inco_idx = income_2010.set_index('GDP per capita')
inco_idx.head()

Unnamed: 0_level_0,2010
GDP per capita,Unnamed: 1_level_1
Abkhazia,
Afghanistan,1637.0
Akrotiri and Dhekelia,
Albania,9374.0
Algeria,12494.0


Mudando o índice do *landlocked*:

In [10]:
land_idx = landlocked.set_index('Country')
land_idx.head()

Unnamed: 0_level_0,region,landlocked
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,europe_east,0
Algeria,africa_north,0
Angola,africa_sub_saharan,0
Antigua and Barbuda,america_north,0
Argentina,america_south,0


___
# A junção das bases de dados deve ser feita duas-a-duas

As duas bases de dados possuem mesmo nome da variável `2010`. Logo é necessário renomear esses nomes dos `dataset´s` da esquerda (left) e da direita (right).



In [15]:
df = co2_idx.join(inco_idx, how='inner', lsuffix='_co2', rsuffix='_income')
df.head()

Unnamed: 0,2010_co2,2010_income
Abkhazia,,
Afghanistan,0.262174,1637.0
Akrotiri and Dhekelia,,
Albania,1.336544,9374.0
Algeria,3.480977,12494.0


Junção da terceira base de dados com o *dataframe* acima:

In [16]:
data = df.join(land_idx, how="inner")

Por que no exemplo acima não foi necessário usar prefixos ou sufixos?

In [17]:
data.head()

Unnamed: 0,2010_co2,2010_income,region,landlocked
Albania,1.336544,9374.0,europe_east,0
Algeria,3.480977,12494.0,africa_north,0
Angola,1.593918,7047.0,africa_sub_saharan,0
Antigua and Barbuda,5.786646,20567.0,america_north,0
Argentina,4.466338,15765.0,america_south,0


Vamos agora **salvar** o *dataframe* para tornar mais fácil continuar a análise depois, se necessário. 

Note que esse será um requisito do Projeto 1 - salvar um *dataframe* e usar o arquivo salvo para fazer a análise.

In [18]:
#Salvando o DataFrame em um arquivo CSV (comma separated values)
data.to_csv( 'co2_income.csv', index=True)

In [19]:
data.to_excel('co2_income.xlsx')

___
# Explorando os índices

Indexação: vamos ver como descobrir se a Argentina é landlocked

In [21]:
data.loc["Argentina", "landlocked"]

0

In [22]:
data["landlocked"]["Argentina"]

0

In [23]:
data.landlocked["Argentina"]

0

___
# Atividade 1 

Veja no tutorial como fazer uma seleção só com os países da América do Norte.

* Atenção: Considere como América do Norte apenas Estados Unidos, Canadá e México.



In [20]:
data.loc[["United States", "Canada", "Mexico"], :]

Unnamed: 0,2010_co2,2010_income,region,landlocked
United States,17.502718,49373.0,america_north,0
Canada,14.672016,40773.0,america_north,0
Mexico,3.911319,15460.0,america_north,0


Podemos também selecionar pela variável `region` considerando a categoria `america_north`, mas essa <font color=red> contém países que na verdade são da América Central</font>.


In [24]:
data[data.region=="america_north"]

Unnamed: 0,2010_co2,2010_income,region,landlocked
Antigua and Barbuda,5.786646,20567.0,america_north,0
Bahamas,7.18625,22915.0,america_north,0
Belize,1.353113,8209.0,america_north,0
Canada,14.672016,40773.0,america_north,0
Costa Rica,1.667709,12322.0,america_north,0
Cuba,3.40742,18477.0,america_north,0
Dominica,2.002253,10375.0,america_north,0
El Salvador,1.008882,7237.0,america_north,0
Grenada,2.491538,11178.0,america_north,0
Guatemala,0.772631,6849.0,america_north,0


___
#  Atividade 2

Qual o valor de *2010_income* que separa os $75\%$ mais ricos?  Monte um *dataframe* separado só com os $80\%$ mais ricos segundo a coluna *2010_income*?  

Dica: Veja as funções [quantile](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.quantile.html) e [percentile](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.percentile.html)

O `describe()` já traz esse valor que separa os 75% mais pobres. Esse valor é chamando de 3o. quartil, ou seja, Q3.

In [25]:
data["2010_income"].describe()

count       168.000000
mean      16898.964286
std       19264.053119
min         632.000000
25%        3327.500000
50%       10393.000000
75%       21675.500000
max      127984.000000
Name: 2010_income, dtype: float64

Note que os 80% mais ricos ficam <font color=red>**a partir dos 20% mais pobres**</font>

In [28]:
p20=data["2010_income"].quantile(0.2)
p20

2507.0

Podemos também fazer usando a função `np.percentile`. Note que esta função espera um **percentil** de 0 a 100.

In [29]:
p20=np.percentile(data["2010_income"], q = 20)
p20

2507.0

In [33]:
#Monte um *dataframe* separado só com os $80\%$ mais ricos segundo a coluna *2010_income*?  
data[data['2010_income']>p20]

Unnamed: 0,2010_co2,2010_income,region,landlocked
Albania,1.336544,9374.0,europe_east,0
Algeria,3.480977,12494.0,africa_north,0
Angola,1.593918,7047.0,africa_sub_saharan,0
Antigua and Barbuda,5.786646,20567.0,america_north,0
Argentina,4.466338,15765.0,america_south,0
Armenia,1.364888,6508.0,europe_east,1
Australia,16.752301,41330.0,east_asia_pacific,0
Austria,7.969244,42861.0,europe_west,1
Azerbaijan,4.976935,15950.0,europe_east,1
Bahamas,7.186250,22915.0,america_north,0
