# Minicurso: Análise e Manipulação de Dados com Python: Parte 2

**Minicurso:** Análise e Manipulação de Dados com Python

**Instrutor:** Humberto da Silva Neto

**Aluno:** 

## Tabela de conteúdos:

### [Parte 1:](https://github.com/hsneto/py-pandas-minicourse/blob/master/notebooks/pandas_basic.ipynb)

1. Introdução ao Pandas

2. Correção dos dados
 - Identificando e lidando com valores ausentes
 - Corrigindo os tipos dos dados
 
3. Padronização de dados
 
4. Normalização de dados
 
5. _Binning_
 
6. Correlação

### Parte 2:
7. [Preparando os dados](#prep)
8. [Visualização de dados usando Matplotlib](#visualizacao)
 - [Gráficos de Linha](#line-plots)
 - [Gráficos de Área](#area-plots)
 - [Histogramas](#hist-plots)
 - [Gráficos de Barras](#bar-plots)
 - [Gráficos de Pizza](#pie-plots)
 - [Diagrama de Caixa](#box-plots)
 - [Gráfico de Dispersão](#scatter-plots)

### Outros:

- [Dicas e observações](#dicas)
- [Referências](#ref)

## Preparando os dados<a name="prep"></a>

### The Dataset: Immigration to Canada from 1980 to 2013<a name="dataset"></a>

![image](https://raw.githubusercontent.com/hsneto/mc-adp/master/docs/canada-dataset.png)

Dataset Source: [International migration flows to and from selected countries - The 2015 revision](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.shtml).

O conjunto de dados contém dados anuais sobre os fluxos de imigrantes internacionais, conforme registrados pelos países de destino. Os dados apresentam entradas e saídas de acordo com o local de nascimento, cidadania ou local de residência anterior / próxima para estrangeiros e nacionais. A versão atual apresenta dados referentes a 45 países.

Neste laboratório, nos concentraremos nos dados de imigração do Canadá.

In [0]:
from __future__ import print_function

import pandas as pd
import numpy as np

In [0]:
# Instale o modulo requerido para para ler arquivos de excel
!pip install xlrd
print("xlrd instalado!")

In [0]:
# Lendo o arquivo .xlsx
xlxs = pd.ExcelFile("https://ibm.box.com/shared/static/lw190pt9zpy5bd1ptyg2aw15awomz9pu.xlsx")
df = pd.read_excel(xlxs, sheet_name="Canada by Citizenship", 
                   skiprows=range(20), skipfooter=2)


df.head(2)

In [0]:
# Verifique as informacoes do dataframe
df.info()

### Correção da tabela<a name="clean"></a>

Vamos limpar o conjunto de dados para remover algumas colunas desnecessárias. Podemos usar o método pandas [**`df.drop()`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html)$^{[1]}$ da seguinte maneira:

```python
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```

---
$^{[1]}$_**Parameters:**_

_**labels:** single label or list-like_
> _Index or column labels to drop._

_**axis:** {0 or ‘index’, 1 or ‘columns’}, default 0_
> _Whether to drop labels from the index (0 or ‘index’) or columns (1 or ‘columns’)._

_**index, columns:** single label or list-like_
> _Alternative to specifying axis (labels, axis=1 is equivalent to columns=labels)._

_**level:** int or level name, optional_
> _For MultiIndex, level from which the labels will be removed._

_**inplace:** bool, default False_
> _If True, do operation inplace and return None._

_**errors:** {‘ignore’, ‘raise’}, default ‘raise’_
> _If ‘ignore’, suppress error and only existing labels are dropped._


In [0]:
############################################################################
# TODO: Remova as colunas: 'AREA','REG','DEV','Type','Coverage'            #
############################################################################
pass
df.drop(['AREA','REG','DEV','Type','Coverage'], axis=1, inplace=True)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Verifique se as colunas foram removidas
df.head(2)

Vamos renomear as colunas para que façam sentido. Podemos usar o método [**`df.rename()`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html) passando um dicionário de nomes antigos e novos da seguinte forma:

```python
DataFrame.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None)
```

In [0]:
############################################################################
# TODO: Altere os nomes das seguintes colunas:                             #
# - Odname   --> Country                                                   #
# - AreaName --> Continent                                                 #
# - RegName  --> Region                                                    #
############################################################################
pass
df.rename(columns={'OdName':'Country', 
                   'AreaName':'Continent', 
                   'RegName':'Region'}, inplace=True)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Verifique os nomes das colunas
df.columns

Também adicionaremos uma coluna `"Total"` que resume o total de imigrantes por país durante todo o período de 1980 a 2013.

---
Obs.: Esperamos os seguintes valores para as três primeiras linhas

|   Country   | ... | Total |
|:-----------:|:---:|-------|
| Afghanistan | ... | 58639 |
|   Albania   | ... | 15699 |
|   Algeria   | ... | 69439 |

In [0]:
############################################################################
# TODO: Crie uma coluna com o nome "Total" que representa a soma do numero # 
# de imigrantes de 1980 a 2013 para todos os países.                       #
#                                                                          #
# DICA: O comando dataframe.sum() pode ser util.                           #
############################################################################
pass
df['Total'] = df.sum(axis=1)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Verifique a coluna criada
df.head(2)

Também é possível detectar valores ausentes do dataframe com os métodos [**`df.isnull()`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isnull.html) e [**`df.isna()`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isna.html). Com isso dito, determine quantos valores ausentes temos em nossa tabela.

In [0]:
############################################################################
# TODO: Calcule quantos valores ausentes o dataframe possui                #
############################################################################
pass
df.isnull().sum()
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

Finalmente, vamos ver um breve resumo de cada coluna em nosso dataframe usando o método [**`df.describe()`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html).

In [0]:
# Gere estatísticas descritivas que resumem o dataframe
df.describe()

### Indexação e Seleção<a name="clean"></a>

**Selecionando colunas:**

Existem duas maneiras de filtrar um nome de coluna:

**Método 1:** Rápido e fácil, mas só funciona se o nome da coluna **NÃO** tiver espaços ou caracteres especiais.
```python
     df.column_name
         (retorna a série)
```

**Método 2:** mais robusto e pode filtrar em várias colunas.

```python
     df ["coluna"]
         (retorna a série)
```

```python
     df [["coluna 1", "coluna 2"]]
         (retorna o dataframe)
```

Obs.: Utilize o comando **`print()`** para exibir os dados extraídos nos próximos exercícios!

In [0]:
print("###################################")
print("     pandas.core.series.Series     ")
print("###################################")

print("\nMETODO 1:")
############################################################################
# TODO: Utilize o metodo 1 para selecionar a coluna "Country".             #
#                                                                          #  
# Verifique o tipo e os dados da Serie encontrada.                         #      
############################################################################
pass
df_aux = df.Country

print(type(df_aux))
print(df_aux.head(2))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################


print("\nMETODO 2:")
############################################################################
# TODO: Utilize o metodo 2 para selecionar a coluna "Country".             #
#                                                                          #  
# Verifique o tipo e os dados da Serie encontrada.                         #      
############################################################################
pass
df_aux = df['Country']

print(type(df_aux))
print(df_aux.head(2))

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

In [0]:
print("####################################")
print("    pandas.core.series.DataFrame    ")
print("####################################")

############################################################################
# TODO: Utilize o metodo 2 para selecionar a coluna "Country".             #
#                                                                          #  
# Verifique o tipo e os dados do Dataframe encontrado.                     #      
############################################################################
pass
df_aux = df[['Country']]

print(type(df_aux))
print(df_aux.head(2), "\n")
############################################################################
#                             END OF YOUR CODE                             #
############################################################################


############################################################################
# TODO: Utilize o metodo 2 para selecionar as colunas "Country" e "Total". #
#                                                                          #  
# Verifique o tipo e os dados do Dataframe encontrado.                     #      
############################################################################
pass
df_aux = df[['Country', 'Total']]

print(type(df_aux))
print(df_aux.head(2))

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

**Selecionando linhas:**

Existem duas$^{[1]}$ maneiras de selecionar uma linha:

**Método 1:** filtra pelos rótulos do índice / coluna

```python
    df.loc[label]        
```

**Método 2:** filtra pelas posições do índice / coluna

```python
    df.iloc[index]       
```

---
$^{[1]}$ O método `df.ix[label/index]` está obsoleto!

Antes de prosseguirmos, observe que o índice _default_ do conjunto de dados é um intervalo numérico de 0 a 194. Isso dificulta muito a realização de uma consulta por um país específico. Por exemplo, para procurar dados no Japão, precisamos saber o valor do índice dele.

Outro detalhe, é que os métodos `df.loc` e `df.iloc` recebem o mesmo argumento nesse caso uma vez que o rótulo do índice é também seu index.

Para resolver esse problema, nós iremos definir a coluna **'Country'** como o índice utilizando o método [**`df.set_index()`**](https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.DataFrame.set_index.html).

In [0]:
############################################################################
# TODO: Altere o indice da tabela usando a coluna "Country".               #
############################################################################
pass
df.set_index('Country', inplace=True)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Exiba o DataFrame
df.head(2)

In [0]:
############################################################################
# TODO: Remova o nome do index.                                            #
#                                                                          #
# DICA: O comando dataframe.index.name pode ser util.                      #
############################################################################
pass
df.index.name = None
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Exiba o DataFrame
df.head(2)

In [0]:
print("###################################")
print("     pandas.core.series.Series     ")
print("###################################")

print("\nMETODO 1:")
############################################################################
# TODO: Utilize o metodo 1 para selecionar os dados da Alemanha (Germany). #
#                                                                          #  
# Verifique o tipo e os dados da Serie encontrada.                         #      
############################################################################
pass
df_aux = df.loc['Germany']

print(type(df_aux))
print(df_aux.head())
############################################################################
#                             END OF YOUR CODE                             #
############################################################################


print("\nMETODO 2:")
############################################################################
# TODO: Utilize o metodo 2 para selecionar os dados da Alemanha (row 67).  #
#                                                                          #  
# Verifique o tipo e os dados da Serie encontrada.                         #      
############################################################################
pass
df_aux = df.iloc[67]

print(type(df_aux))
print(df_aux.head())

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

In [0]:
print("####################################")
print("    pandas.core.series.DataFrame    ")
print("####################################")

print("\nMETODO 1:")
############################################################################
# TODO: Utilize o metodo 1 para selecionar os dados da Alemanha (Germany)  #
# e do Brasil (Brazil).                                                    #                                                      
#                                                                          #
# Verifique o tipo e os dados do DataFrame encontrado.                     #      
############################################################################
pass
df_aux = df.loc[['Brazil', 'Germany']]

print(type(df_aux))
print(df_aux.head())
############################################################################
#                             END OF YOUR CODE                             #
############################################################################


print("\nMETODO 2:")
############################################################################
# TODO: Utilize o metodo 2 para selecionar os dados da Alemanha (row 67)   #
# e do Brasil (row 24).                                                    #                                                      
#                                                                          #  
# Verifique o tipo e os dados do DataFrame encontrado.                     #      
############################################################################
pass
df_aux = df.iloc[[24, 67]]

print(type(df_aux))
print(df_aux.head())

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

In [0]:
print("\nMETODO 1:")
############################################################################
# TODO: Utilizando o metodo 1, selecione somente a coluna "Total" da       #
# Alemanha.                                                                #
#                                                                          #
# OBS.: Imprima o dados dados obtidos.                                     #
############################################################################
pass
df_aux = df.loc['Germany', 'Total']
print(df_aux)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

print("\nMETODO 2:")
############################################################################
# TODO: Utilizando o metodo 2, selecione somente a coluna "Total" da       #
# Alemanha.                                                                #
#                                                                          #
# OBS.: Imprima o dados dados obtidos.                                     #
############################################################################
pass
df_aux = df.iloc[67, 37]
print(df_aux)

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

In [0]:
print("\nMETODO 1:")
############################################################################
# TODO: Utilizando o metodo 1, selecione somente a coluna "Total" da       #
# Alemanha e do Brasil.                                                    #
#                                                                          #
# OBS.: Imprima o dados dados obtidos.                                     #
############################################################################
pass
df_aux = df.loc[['Brazil', 'Germany'], 'Total']
print(df_aux)

############################################################################
#                             END OF YOUR CODE                             #
############################################################################

print("\nMETODO 2:")
############################################################################
# TODO: Utilizando o metodo 2, selecione somente a coluna "Total" da       #
# Alemanha e do Brasil.                                                    #
#                                                                          #
# OBS.: Imprima o dados dados obtidos.                                     #
############################################################################
pass
df_aux = df.iloc[[24, 67], 37]
print(df_aux)

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

Para evitar ambiguidades e manter um padrão, iremos converter todos os nomes do cabeçalho para `str`.

In [0]:
def count_type(df):
  """
  Imprime o numero de colunas do cabecalho que sao do tipo int ou str.
  """
  
  c_int = 0
  c_str = 0
  
  for x in df.columns.values:
    if isinstance(x, int):
      c_int +=1  
    
    elif isinstance(x, str):
      c_str +=1
        
    else:
      print('A coluna {} e de um tipo desconhecido'.format(x))
      
  print('Numero de classes do tipo int: ', c_int)
  print('Numero de classes do tipo str: ', c_str)
  print()

In [0]:
# Verifica o numero de colunas do cabecalho que sao do tipo int ou str
print("Antes de transformar: \n")
count_type(df)

In [0]:
############################################################################
# TODO: Converta todos os nomes do cabecalho para o tipo str.              #
#                                                                          #
# DICA: O metodo map pode ser util.                                        #
############################################################################
pass
df.columns = list(map(str, df.columns))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Verifica o numero de colunas do dataframe que sao do tipo int ou str
print("Depois de transformar: \n")
count_type(df)

**Filtragem baseada em um critério**

Para filtrar o dataframe com base em uma condição, simplesmente passamos a condição como um vetor booleano.

Por exemplo, vamos filtrar o dataframe para mostrar os dados em países asiáticos (Continent = Asia).

In [0]:
############################################################################
# TODO: Crie uma condicao para verificar quais paises pertencem ao         #
# continente: Oceania.                                                     #
############################################################################
condicao = df['Continent'] == 'Oceania'
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

print(type(condicao), '\n')
print(condicao.head(10))

In [0]:
############################################################################
# TODO: Selecione os dados do dataframe que cumprem a condicao criada.     #
############################################################################
pass
df[condicao]
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

## Visualização de dados usando Matplotlib<a name="visualizacao"></a>

A principal biblioteca de plotagem que exploraremos no curso é o Matplotlib. Como mencionado em seu site:

> O Matplotlib é uma biblioteca de plotagem 2D em Python que produz números de qualidade de publicação em uma variedade de formatos impressos e ambientes interativos entre plataformas. O Matplotlib pode ser usado em scripts Python, no shell Python e IPython, Jupyter Notebook, em servidores de aplicativos da Web e em quatro kits de ferramentas de interface gráfica com o usuário.

Se você pretende criar uma visualização impactante com o python, o Matplotlib é uma ferramenta essencial para você ter à sua disposição.

Vamos começar importando o **`Matplotlib`** e o **`Matplotlib.pyplot`** da seguinte maneira:

---

* Opcional: Aplique um estilo no Matplotlib com **`mpl.style.use`**. Para vericar as opções, use:

```python
print(plt.style.available)
```

In [0]:
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline 

# Aplicando o estilo 'seaborn-darkgrid'
mpl.style.use(['seaborn-darkgrid'])

### Plotagem em *Pandas*

Felizmente, o Pandas têm uma implementação embutida do Matplotlib que podemos usar. Plotar em *Pandas* é tão simples quanto acrescentar um método [**`.plot()`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html) a uma série ou dataframe.

Documentação:
- [Plotting with Series](http://pandas.pydata.org/pandas-docs/stable/api.html#plotting)
- [Plotting with Dataframes](http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-plotting)

Desde que convertemos os anos para string, vamos declarar uma variável que nos permita recorrer facilmente a toda a gama de anos:

In [0]:
# Isso sera usado para chamar os dados de 1980 a 2014 do dataframe
years = list(map(str, range(1980, 2014)))

### Gráficos de linha<a name="line-plots"></a>

**O que é um gráfico de linha e por que usá-lo?**

Um gráfico de linha ou gráfico de linha é um tipo de gráfico que exibe informações como uma série de pontos de dados chamados 'marcadores' conectados por segmentos de linha reta. É um tipo básico de gráfico comum em muitos campos. Use plotagem de linha quando você tiver um conjunto de dados contínuo. Eles são mais adequados para visualizações de dados com base em tendências durante um período de tempo.

**Cuidado:**

O gráfico de linhas é uma ferramenta útil para exibir várias variáveis dependentes contra uma variável independente. No entanto, recomenda-se que não mais do que 5-10 linhas em um único gráfico; mais do que isso e torna-se difícil de interpretar.


**Vamos começar com um estudo de caso:**

Em 2010, o Haiti sofreu um terremoto catastrófico de magnitude 7,0. O terremoto causou devastação generalizada e perda de vidas e cerca de três milhões de pessoas foram afetadas por este desastre natural. Como parte do esforço humanitário do Canadá, o governo do Canadá intensificou seus esforços para aceitar refugiados do Haiti. Podemos visualizar rapidamente esse esforço usando um gráfico de linha:

---

**Questão:** Faça um gráfico de linha da imigração do Haiti usando **`.plot()`**. 

    [Dica]: Extraia a série de dados para o Haiti.

In [0]:
############################################################################
# TODO: Plote um grafico de linha com os dados de imigracao do Haiti entre #
# 1980 e 2014.                                                             #
############################################################################
pass
df_haiti = df.loc["Haiti", years]
df_haiti.plot()
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

*Pandas* preencheu automaticamente o eixo x com os valores do índice (anos) e o eixo y com os valores da coluna (população).

Vamos rotular os eixos x e y usando **`plt.title()`**, **`plt.ylabel()`** e **`plt.xlabel()`** da seguinte forma:

In [0]:
############################################################################
# TODO: Repita o codigo da celula acima.                                   #
############################################################################
pass
df_haiti = df.loc["Haiti", years]
df_haiti.plot(figsize=(15,10))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration from Haiti')
plt.ylabel('Number of immigrants')
plt.xlabel('Years')

# Precisa desta linha para mostrar as atualizações feitas na figura
plt.show() 

**Questão:** Agora compare os números de imigração entre a China e a India.

In [0]:
############################################################################
# TODO: Plote um grafico de linha com os dados de imigracao da China e da  #
# India entre 1980 e 2014.                                                 #
############################################################################
pass
df_ci = df.loc[["China", "India"], years]
df_ci.plot(figsize=(15,10))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

Isso não parece certo ...

Lembre-se de que *Pandas* plota os índices no eixo x e as colunas como linhas individuais no eixo y. Como os dados selecionados são um dataframe com **`country`** como o índice e **`years`** como as colunas, devemos primeiro transpor o dataframe usando o método **`.transpose()`** para trocar as linhas e colunas.

In [0]:
############################################################################
# TODO: Repita o processo da celula acima e aplique o metodo .transpose no #
# dataframe selecionado.                                                   #
############################################################################
pass
df_ci = df.loc[["China", "India"], years].transpose()
df_ci.plot(figsize=(15,10))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigrants from China and India')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
plt.show() 

**Questão:** Compare a tendência dos cinco principais países que mais contribuíram para a imigração para o Canadá.

In [0]:
############################################################################
# TODO: Selecione os cinco paises que mais contribuiram para a imigracao   #
# no Canada desde 1980.                                                       #
#                                                                          #
# DICA: Tente ordenar o dataframe antes de selecionar os dados.            #
#                                                                          #
# OBS.: Salve esses dados em uma variavel, usaremos eles no futuro!        #
############################################################################
pass
df.sort_values(by='Total', ascending=False, axis=0, inplace=True)
df_top5 = df.head(5)
df_top5
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

In [0]:
############################################################################
# TODO: Plote um grafico de linha com os dados dos cinco paises que mais   #
# contribuiram para a imigracao Canada desde 1980.                         #
#                                                                          #
# OBS.: Para melhor visualização, modifique o tamanho da figura plotada.   #
# Para tal, utilize o argumento figsize=(x,y) no metodo .plot              #
############################################################################
pass
df_top5[years].transpose().plot(kind='line', figsize=(14, 8))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
plt.show()

### Gráficos de área <a name="area-plots"></a>

Gráficos de área são empilhados por padrão. E para produzir um gráfico de área empilhada, cada coluna deve ser todos os valores positivos ou negativos (quaisquer valores NaN serão padronizados como 0). Para produzir um gráfico não empilhado, passe **`stacked=False`**. 

In [0]:
############################################################################
# TODO: Plote um grafico de área com os dados dos cinco paises que mais    #
# contribuiram para a imigracao Canada desde 1980.                         #
#                                                                          #
# OBS.: Defina o parametro stacked=False                                   #
############################################################################
pass
df_top5[years].transpose().plot(kind='area', stacked=False, figsize=(20, 9))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
plt.show()

O gráfico não empilhado tem uma transparência padrão (valor alpha) em 0,5. Podemos modificar esse valor passando o parâmetro **`alpha`**.

In [0]:
############################################################################
# TODO: Repita o processo da celula acima, mas dessa vez altere o valor do #
# parametro alpha e verifique o que acontece.                              #
############################################################################
pass
df_top5[years].transpose().plot(kind='area', stacked=False, 
                                alpha=0.25, figsize=(20, 9))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
plt.show()

Agora, plote um gráfico empilhado.

In [0]:
############################################################################
# TODO: Plote um grafico de área com os dados dos cinco paises que mais    #
# contribuiram para a imigracao Canada desde 1980.                         #
#                                                                          #
# OBS.: Defina o parametro stacked=True                                    #
############################################################################
pass
df_top5[years].transpose().plot(kind='area', stacked=True, 
                                alpha=0.5, figsize=(20, 9))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
plt.show()

### Histogramas <a name="hist-plots"></a>

Um histograma é uma maneira de representar a distribuição de frequência do conjunto de dados numéricos. A maneira como funciona é dividir o eixo x em compartimentos, atribuir cada ponto de dados em nosso conjunto de dados a um bloco e, em seguida, contar o número de pontos de dados que foram atribuídos a cada bloco. Portanto, o eixo y é a frequência ou o número de pontos de dados em cada caixa. Observe que podemos alterar o tamanho da caixa e, geralmente, é necessário ajustá-lo para que a distribuição seja exibida corretamente.


**Qustão:** Qual é a distribuição de frequência do número (população) de novos imigrantes dos vários países para o Canadá em 2013?

Antes de prosseguirmos com a criação do gráfico do histograma, vamos primeiro examinar os dados divididos em intervalos. Para fazer isso, nos usaremos o método de histrograma do Numpy para obter os intervalos de bin e as contagens de frequência da seguinte maneira:

In [0]:
# Determine o histograma do ano de 2013
count, bin_edges = np.histogram(df['2013'])
print(count)
print(bin_edges) 

Por padrão, o método **`histrogram`** divide o dataset em 10 blocos. A figura abaixo resume a distribuição de frequência da imigração em 2013 para cada bloco. Podemos ver que em 2013:
* 178 países contribuíram com 0 a 3412,9 imigrantes
* 11 países contribuíram entre 3412,9 e 6825,8 imigrantes
* 1 país contribuiu entre 6285,8 e 10238,7 imigrantes e assim por diante.

<img src = "https://ibm.box.com/shared/static/g54s9q97mrjok0h4272o7g09cyigei0v.jpg" align="center" width=800>


In [0]:
############################################################################
# TODO: Plote o histograma referente a imigracao no ano de 2013.           #
############################################################################
pass
df['2013'].plot(kind='hist', figsize=(8, 5))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Histogram of Immigration from 195 Countries in 2013') 
plt.ylabel('Number of Countries') 
plt.xlabel('Number of Immigrants')
plt.show()

Na plotagem acima, o eixo x representa a faixa populacional de imigrantes em intervalos de 3412,9. O eixo y representa o número de países que contribuíram para a população mencionada.

Observe que os rótulos do eixo x não correspondem ao tamanho dos intervalos. Isso pode ser corrigido passando-se uma palavra-chave **`xticks`** que contém a lista dos tamanhos desses intervalos.

In [0]:
############################################################################
# TODO: Plote o histograma referente a imigracao no ano de 2013, mas desta #
# vez altere o parametro xticks para corrigir o tamanho dos intervalos.    #
############################################################################
pass
df['2013'].plot(kind='hist', figsize=(8, 5), xticks=bin_edges)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Histogram of Immigration from 195 Countries in 2013') 
plt.ylabel('Number of Countries') 
plt.xlabel('Number of Immigrants')
plt.show()

**Questão:** Qual é a distribuição de imigração para a Dinamarca, Noruega e Suécia para os anos 1980 - 2013?

In [0]:
############################################################################
# TODO: Plote o histograma referente a imigracao da Dinamarca (Denmark),   #
# Noruega (Norway) e Suécia (Sweden) entre 1980 e 2013.                    #
############################################################################
pass
df.loc[['Denmark', 'Norway', 'Sweden'], years].plot.hist()
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Histogram of Immigration from Denmark, Norway, and Sweden from 1980 - 2013')
plt.ylabel('Number of Years')
plt.xlabel('Number of Immigrants')
plt.show()

Ao invés de traçar a distribuição da frequência populacional da população para os 3 países, o *pandas* traçou a distribuição da frequência populacional para os anos.

Isso pode ser facilmente corrigido, primeiro transpondo o conjunto de dados e, em seguida, plotando.

In [0]:
############################################################################
# TODO: Corriga o problema da celula acima e plote novamente o histograma. #
############################################################################
pass
df.loc[['Denmark', 'Norway', 'Sweden'], years].transpose().plot.hist()
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Histogram of Immigration from Denmark, Norway, and Sweden from 1980 - 2013')
plt.ylabel('Number of Years')
plt.xlabel('Number of Immigrants')
plt.show()

Vamos fazer algumas modificações para melhorar o impacto e a estética do plot anterior:
* Aumentar o tamanho do bin para 15 passando o parâmetro **`bins`**
* defina a transparência para 60% passando o parâmetro **`alpha`**
* rotule o eixo x passando no parâmetro **`x-label`**
* mudar as cores dos gráficos passando no parâmetro **`color`**

In [0]:
# Vamos pegar os valores de x-tick
df_aux = df.loc[['Denmark', 'Norway', 'Sweden'], years].transpose()
count, bin_edges = np.histogram(df_aux, 15)

# Histograma não empilhado
df_aux.plot(kind ='hist', 
          figsize=(10, 6),
          bins=15,
          alpha=0.6,
          xticks=bin_edges,
          color=['coral', 'darkslateblue', 'mediumseagreen'])

plt.title('Histogram of Immigration from Denmark, Norway, and Sweden from 1980 - 2013')
plt.ylabel('Number of Years')
plt.xlabel('Number of Immigrants')
plt.show()

del df_aux

Se não quisermos que os gráficos se sobreponham uns aos outros, podemos empilhá-los usando o parâmetro **stacked=True``**.

In [0]:
############################################################################
# TODO: Baseando-se na celula acima, crie um histograma empilhado.         #
############################################################################
pass
df_aux = df.loc[['Denmark', 'Norway', 'Sweden'], years].transpose()

df_aux.plot(kind ='hist', 
          figsize=(10, 6),
          bins=15,
          alpha=1.0,
          xticks=bin_edges,
          stacked=True,
          color=['coral', 'darkslateblue', 'mediumseagreen'])

del df_aux
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Histogram of Immigration from Denmark, Norway, and Sweden from 1980 - 2013')
plt.ylabel('Number of Years')
plt.xlabel('Number of Immigrants')
plt.show()

### Gráficos de barras <a name="bar-plots"></a>

Um gráfico de barras é uma maneira de representar dados em que o * comprimento * das barras representa a magnitude / tamanho do recurso / variável. Gráficos de barras geralmente representam variáveis numéricas e categóricas agrupadas em intervalos.

Para criar um gráfico de barras, podemos passar um dos dois argumentos através do parâmetro **`kind`** em **`plot()`**:

* **`kind = bar`** $\to$ cria um gráfico de barra vertical 
* **`kind = barh`** $\to$ cria um gráfico de barras  horizontal 

#### Gráficos de barras verticais

Nos gráficos de barras verticais, o eixo x é usado para rotular e o comprimento das barras no eixo y corresponde à magnitude da variável sendo medida. Gráficos de barras verticais são particularmente úteis na análise de dados de séries temporais. Uma desvantagem é que eles não têm espaço para a rotulagem de texto no pé de cada barra.

** Vamos começar analisando o efeito da crise financeira da Islândia: **

A crise financeira islandesa de 2008 a 2011 foi um importante evento econômico e político na Islândia. Em relação ao tamanho de sua economia, o colapso bancário sistêmico da Islândia foi o maior experimentado por qualquer país na história econômica. A crise levou a uma grave depressão econômica em 2008 - 2011 e uma agitação política significativa.

** Questão: ** Vamos comparar o número de imigrantes islandeses (país = "Iceland") ao Canadá do ano de 1980 a 2013.
  
    [Dica]: Extraia a série de dados para a Islândia.

In [0]:
############################################################################
# TODO: Plote um grafico de barras com os dados de imigracao da Islandia   #
# (Iceland) entre 1980 e 2014.                                             #
#                                                                          #
# OBS.: Altere o parametro color e defina uma cor para as barras.          #
############################################################################
pass
df_iceland = df.loc["Iceland", years]
df_iceland.plot(kind='bar', figsize=(10, 6), color='steelblue')
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.xlabel('Year')
plt.ylabel('Number of immigrants') 
plt.title('Icelandic immigrants to Canada from 1980 to 2013') 
plt.show()

**Extra:** Adicione o código abaixo antes de **`plt.show()`**

```python
# Anotar seta
plt.annotate('',                      # s: str. Deixa em branco para nenhum texto
             xy=(32, 70),             # coloque a ponta da seta no ponto (ano de 2012, pop 70)
             xytext=(28, 20),         # coloque a base da seta no ponto (ano de 2008, pop 20)
             xycoords='data',         # usará o sistema de coordenadas do objeto que está sendo anotado
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='blue', lw=2))

# Anotar texto
plt.annotate('2008 - 2011 Financial Crisis', # texto a ser exibido
             xy=(28,30),                     # comece o texto no ponto (ano de 2008, pop 30)
             rotation=72.5,                  # Baseado em tentativa e erro para coincidir com a seta
             va='bottom',                    # Deseja que o texto seja alinhado verticalmente na parte inferior
             ha='left')                      # Deseja que o texto seja horizontalmente 'deixado' algned.
```

In [0]:
############################################################################
# TODO: Repita o codigo da celula acima                                    #
############################################################################
pass
df_iceland = df.loc["Iceland", years]
df_iceland.plot(kind='bar', figsize=(10, 6), color='steelblue')
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Anotar seta
plt.annotate('',                      # s: str. Deixa em branco para nenhum texto
             xy=(32, 70),             # coloque a ponta da seta no ponto (ano de 2012, pop 70)
             xytext=(28, 20),         # coloque a base da seta no ponto (ano de 2008, pop 20)
             xycoords='data',         # usará o sistema de coordenadas do objeto que está sendo anotado
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='blue', lw=2))

# Anotar texto
plt.annotate('2008 - 2011 Financial Crisis', # texto a ser exibido
             xy=(28,30),                     # comece o texto no ponto (ano de 2008, pop 30)
             rotation=72.5,                  # Baseado em tentativa e erro para coincidir com a seta
             va='bottom',                    # Deseja que o texto seja alinhado verticalmente na parte inferior
             ha='left')                      # Deseja que o texto seja horizontalmente 'deixado' algned.

plt.xlabel('Year')
plt.ylabel('Number of immigrants') 
plt.title('Icelandic immigrants to Canada from 1980 to 2013') 
plt.show()

#### Gráficos de barras horizontais

Às vezes é mais prático representar os dados horizontalmente, especialmente se você precisar de mais espaço para rotular as barras. Nos gráficos de barras horizontais, o eixo y é usado para rotular e o comprimento das barras no eixo x corresponde à magnitude da variável sendo medida. Como você verá, há mais espaço no eixo y para rotular variáveis categóricas.

**Questão:** Usando o conjunto de dados **df**, crie um gráfico de barras horizontais mostrando o número total de imigrantes para o Canadá dos 15 países que mais imigraram, para o período de 1980 a 2013. Rotule cada país com a contagem total de imigrantes.

In [0]:
############################################################################
# TODO: Plote um grafico de barras horizontais com o "Total" dos 15 paises #
# que mais contribuiram para a imigracao no Canada desde 1980.             # 
#                                                                          #
# OBS.: Salve esses dados na variavel df_top15                             #
############################################################################
pass
df_top15 = df["Total"].head(15)
df_top15.plot(kind='barh', figsize=(12, 12), color='steelblue')
############################################################################
#                             END OF YOUR CODE                             #
############################################################################


# anotar rótulos de valor para cada país
for index, value in enumerate(df_top15): 
  label = format(int(value), ',')
  
  # coloque o texto no final da barra (subtraindo 47000 de x e 0,1 de y para ajustá-lo dentro da barra)
  plt.annotate(label, xy=(value - 47000, index - 0.10), color='white')
    
plt.xlabel('Number of Immigrants')
plt.title('Top 15 Conuntries Contributing to the Immigration to Canada between 1980 - 2013')
plt.show()

### Gráficos de Pizza <a name="pie-plots"></a>

Um `gráfico de pizza` é um gráfico circular que exibe proporções numéricas dividindo um círculo (ou pizza) em fatias proporcionais. Você provavelmente já está familiarizado com gráficos de pizza, pois é amplamente utilizado em negócios e mídia. Podemos criar gráficos de pizza no Matplotlib passando a palavra-chave  **`kind = pie`**.



**Questão:** Usando um gráfico de pizza, explore a proporção (porcentagem) de novos imigrantes agrupados por continentes no ano de 2013.

---

**Etapa 1:** Coletar dados.

Vamos usar o método *pandas * [**`dataframe.groupby`**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) para resumir os dados de imigração por Continente. O processo geral do **`groupby`** envolve os seguintes passos:

1. ** Dividir: ** Dividindo os dados em grupos com base em alguns critérios.
2. ** Aplicar: ** Aplicando uma função para cada grupo de forma independente:
        .soma()
        .contagem()
        .significar()
        .std ()
        .agregar()
        .Aplique()
        .etc ..
3. ** Combinar: ** Combinando os resultados em uma estrutura de dados.

<img src = "https://ibm.box.com/shared/static/tkfhxqkehfzpclco8f0eazhie33uxj9j.png" align="center" height=300>

In [0]:
############################################################################
# TODO: Agrupe os países por continentes.                                  #
############################################################################
df_continents = df.groupby('Continent', axis=0)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Nota: a saída do método groupby é um objeto groupby.
# não podemos usá-lo até aplicarmos uma função (por exemplo, .sum ())
print(type(df_continents))

In [0]:
############################################################################
# TODO: Agrupe os países por continentes novamente. Dessa vez aplique a    #
# funcao .sum()                                                            #
############################################################################
df_continents = df.groupby('Continent', axis=0).sum()
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

df_continents.head()

**Etapa 2:** plote os dados. Vamos passar a palavra-chave **`kind = "pie"`**, juntamente com os seguintes parâmetros adicionais:

- **`autopct`** - é uma string ou função usada para rotular o valor numérico. O rótulo será colocado dentro da máscara (por exemplo, controlar o número de casas decimais do rótulo). Se for uma string de formato, o rótulo será `fmt% pct`.

- **`startangle`** - gira o início do gráfico de pizza em graus de ângulo no sentido anti-horário a partir do eixo x.

- **`shadow`** - Desenha uma sombra sob a pizza (para dar uma sensação 3D).

In [0]:
############################################################################
# TODO: Plote um grafico de pizza agrupando o total de imigracoes desde    #
# 1980 por continente.                                                     #
#                                                                          #
# OBS.: Sinta-se livre para alterar os parametros adicionais citados acima.#
############################################################################
pass
df_continents['Total'].plot(kind='pie', figsize=(15, 6),
                            autopct='%1.2f%%', startangle=90, 
                            shadow=True)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration to Canada by Continent [1980 - 2013]')
plt.axis('equal') # Define o gráfico de pizza para se parecer com um círculo.
plt.show()

O visual acima não é muito claro, os números e o texto se sobrepõem em alguns casos. Vamos fazer algumas modificações para melhorar o visual:

* Remova os rótulos de texto no gráfico de pizza passando em "legend" e adicione-o como uma legenda separada usando **`plt.legend()`**.
* Empurre as porcentagens para ficar fora do gráfico de pizza passando o parâmetro **`pctdistance`**.
* Passar em um conjunto personalizado de cores para os continentes, passando no parâmetro **`colors`**.
* Explode o gráfico de pizza para enfatizar os três continentes mais baixos (África, América do Norte e América Latina e Caribe) passando o parâmetro **`explode`**.

In [0]:
colors_list = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue', 'lightgreen', 'pink']
explode_list = [0.1, 0, 0, 0, 0.1, 0.1]

df_continents['Total'].plot(kind='pie',
                            figsize=(15, 6),
                            autopct='%1.1f%%', 
                            startangle=90,    
                            shadow=True,       
                            labels=None,
                            pctdistance=1.12,
                            colors=colors_list,
                            explode=explode_list)

# Escale o título em 12% para corresponder à pctdistance
plt.title('Immigration to Canada by Continent [1980 - 2013]', y=1.12) 
plt.axis('equal') 
plt.legend(labels=df_continents.index, loc='upper left') 
plt.show()

### Diagrama de caixa <a name="box-plots"></a>

Um diagrama de caixa é uma forma de representar estatisticamente a distribuição dos dados através de cinco dimensões principais:

- ** Minimun: ** O menor número no conjunto de dados.
- ** Primeiro quartil: ** Número do meio entre o "mínimo" e o "mediano".
- ** Segundo quartil (Mediana): ** Número do meio do conjunto de dados (classificado).
- ** Terceiro quartil: ** Número do meio entre "mediano" e "máximo".
- ** Máximo: ** Maior número no conjunto de dados.

<img src = "https://ibm.box.com/shared/static/9nkxsfihu8mgt1go2kfasf61sywlu123.png" width=440, align = "center">



Para fazer uma plotagem de caixa, podemos usar kind = box no método de plotagem chamado em uma série ou dataframe.

**Questão:** Escreva a caixa para os imigrantes japoneses entre 1980 - 2013.

---

**Etapa 1:** 

Obtenha o conjunto de dados. Mesmo que estejamos puxando informações para apenas um país, vamos obtê-lo como um dataframe. Isso nos ajudará a chamar o método **`dataframe.describe()`** para visualizar os percentis.

In [0]:
############################################################################
# TODO: Plote um diagrama de caixa sobre os dados do Japao (Japan). Antes  #
# disso, salve os dados do Japao em uma variavel chamada df_japan          #
#                                                                          #
# OBS.: Selecione os dados do Japao como DataFrame e nao como uma Serie!   #
############################################################################
pass
df_japan = df.loc[['Japan'], years].transpose()
df_japan.plot(kind='box', figsize=(8, 6))
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Box plot of Japanese Immigrants from 1980 - 2013')
plt.ylabel('Number of Immigrants')
plt.show()

Podemos fazer imediatamente algumas observações importantes do gráfico acima:
1. O número mínimo de imigrantes é de cerca de 200 (min), o número máximo é de cerca de 1300 (max) e o número médio de imigrantes é de cerca de 900 (mediana).
2. 25% dos anos para o período de 1980 a 2013 tiveram uma contagem anual de imigrantes de ~ 500 ou menos (primeiro quartil).
3. 75% dos anos para o período de 1980 a 2013 tiveram uma contagem anual de imigrantes de ~ 1100 ou menos (terceiro quartil).

Podemos ver os números reais chamando o método **`describe()`** no dataframe.

In [0]:
df_japan.describe()

Um dos principais benefícios dos box plots é comparar a distribuição de vários conjuntos de dados. Em um dos módulos anteriores, observamos que a China e a Índia tinham tendências de imigração muito semelhantes. Vamos analisar mais usando gráficos de caixa.

**Questão:** Compare a distribuição do número de novos imigrantes da Índia e da China para o período de 1980 a 2013.

In [0]:
############################################################################
# TODO: Plote um diagrama de caixa sobre os dados do da China e da India   #
# para comparar. Confira os dados do diagrama com o metodo .describe       #
############################################################################
pass
df_ci.plot(kind='box', figsize=(10, 7), color='blue', vert=False)
print(df_ci.describe())
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Box plots of Immigrants from China and India (1980 - 2013)')
plt.xlabel('Number of Immigrants')
plt.show()

Podemos observar que, embora ambos os países tenham aproximadamente a mesma população média de imigrantes (~ 20.000), a faixa populacional de imigrantes na China é mais disseminada do que a da Índia. A população máxima da Índia para qualquer ano (36.210) é cerca de 15% menor que a população máxima da China (42.584).

In [0]:
# crie uma figura
fig = plt.figure()

# crie as regios do subplot
ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122) 

############################################################################
# TODO: Com o DataDrame criado com os dados da China e da India, plote um  #
# grafico de linhas e um diagrama de caixa lado a lado.                    #
#                                                                          #
# OBS.: Utilize o parametro ax para definir a regiao da figura em que o    # 
# grafico sera plotado.                                                    #
############################################################################
pass
df_ci.plot(kind='box', color='blue', vert=False, figsize=(20, 6), ax=ax0)
df_ci.plot(kind='line', figsize=(20, 6), ax=ax1)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

ax0.set_title('Box Plots of Immigrants from China and India (1980 - 2013)')
ax0.set_xlabel('Number of Immigrants')
ax0.set_ylabel('Countries')

ax1.set_title ('Line Plots of Immigrants from China and India (1980 - 2013)')
ax1.set_ylabel('Number of Immigrants')
ax1.set_xlabel('Years')

plt.show()

**Questão:** Crie uma caixa para visualizar a distribuição dos 15 principais países (com base na imigração total) agrupados nas décadas de 1980, 1990 e 2000.

In [0]:
# Criando uma lista de todos os anos nas decada de 80 e 90
years_80s = list(map(str, range(1980, 1990))) 
years_90s = list(map(str, range(1990, 2000))) 
years_00s = list(map(str, range(2000, 2010))) 

############################################################################
# TODO: Selecione os dados dos 15 paises que mais imigraram para o Canada. #
# Agrupe-os pelo numero total de imigracoes em cada decada. Para isso,     #
# salve esses valores em tres Series distintas:                            #
#   - df_80s : Serie contendo o total de imigracoes entre 1980 e 1990      #
#   - df_90s : Serie contendo o total de imigracoes entre 1990 e 2000      #
#   - df_00s : Serie contendo o total de imigracoes entre 2000 e 2010      #
#                                                                          #
# OBS.: As variaveis criadas acima (years_80s, years_90s, years_00s) podem #
# ser uteis.                                                               #
############################################################################
pass
df_top15 = df.sort_values(['Total'], ascending=False, axis=0).head(15)

df_80s = df_top15.loc[:, years_80s].sum(axis=1) 
df_90s = df_top15.loc[:, years_90s].sum(axis=1) 
df_00s = df_top15.loc[:, years_00s].sum(axis=1)
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

# Mesclar as Series criadas em um novo DataFrame
df_aux = pd.DataFrame({'1980s': df_80s, '1990s': df_90s, '2000s':df_00s}) 

print(df_aux)
df_aux.describe()

In [0]:
############################################################################
# TODO:  Plote um diagrama de caixas do DataFrame criado acima.            #
#                                                                          #
# OBS.: Se necessario, utilize o parametro sym para exibir os outliers.    #
############################################################################
pass
df_aux.plot(kind='box', figsize=(10, 6), sym='ko')
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Immigration from top 15 countries for decades 80s, 90s and 2000s')
plt.show()

del df_aux

### Gráfico de dispersão <a name="scatter-plots"></a>

Um gráfico de dispersão (2D) é um método útil para comparar variáveis entre si. Os gráficos de dispersão são semelhantes aos gráficos de linhas, pois ambos mapeiam variáveis independentes e dependentes em um gráfico 2D. Embora os pontos de dados estejam conectados por uma linha em um gráfico de linhas, eles não estão conectados em um gráfico de dispersão. Os dados em um gráfico de dispersão são considerados para expressar uma tendência. Com uma análise mais aprofundada usando ferramentas como a regressão, podemos calcular matematicamente esse relacionamento e usá-lo para prever tendências fora do conjunto de dados.

**Questão:** Usando um gráfico de dispersão, visualize a tendência da imigração total para o Canadá (todos os países combinados) para os anos 1980 - 2013.

**Etapa 1:**

Obtenha o conjunto de dados. Como esperamos usar a relação entre anos e população total, converteremos anos em tipo flutuante.

In [0]:
# Podemos usar o método sum() para obter a população total por ano
df_tot = pd.DataFrame(df[years].sum(axis=0))

# Altere os anos para float (util para regressão mais tarde)
df_tot.index = map(float,df_tot.index)

# Redefinir o índice
df_tot.reset_index(inplace = True)

# Renomear colunas
df_tot.columns = ['year', 'total']

# Veja o dataframe final
df_tot.head()

**Etapa 2:**

Plotar dados. No `Matplotlib`, podemos criar um gráfico de dispersão ao passar em **`kind = "scatter"`** como argumento de plotagem. Também precisaremos passar as palavras-chave **`x`** e **`y`** para especificar as colunas que vão nos eixos x e y.

In [0]:
############################################################################
# TODO:  Plote um grafico de dispersao do DataFrame df_tot.                #
############################################################################
pass
df_tot.plot(kind='scatter', x='year', y='total', 
            figsize=(10, 6), color='darkblue')
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Total Immigration to Canada from 1980 - 2013')
plt.xlabel('Year')
plt.ylabel('Number of Immigrants')
plt.show()

Observe como o gráfico de dispersão não conecta os pontos de dados juntos. Podemos observar claramente uma tendência ascendente nos dados: à medida que os anos passam, o número total de imigrantes aumenta. Podemos analisar matematicamente essa tendência ascendente usando uma linha de regressão (linha de melhor ajuste).

**Questão:** Faça uma linha linear de melhor ajuste e use-a para prever o número de imigrantes em 2015.

---

**Etapa 1:** obtenha a equação da linha de melhor ajuste. Vamos usar o método **`polyfit()`** do ** Numpy ** passando o seguinte:
- **`x`:** coordenadas x dos dados.
- **`y`:** coordenadas y dos dados.
- **`deg`: ** Grau de ajuste polinomial. 1 = linear, 2 = quadrático e assim por diante

In [0]:
x = df_tot.year      
y = df_tot.total    
fit = np.polyfit(x, y, deg=1)

print(fit)

A saída é uma matriz com os coeficientes polinomiais, as maiores potências primeiro. Como estamos plotando uma regressão linear **`y = a*x + b`**, nossa saída tem 2 elementos **`[5.56709228e + 03, -1.09261952e + 07]`** com a inclinação na posição 0 e intercepta na posição 1.

**Etapa 2: **

Plote a linha de regressão no gráfico de dispersão.

In [0]:
############################################################################
# TODO:  Plote um grafico de dispersao do DataFrame df_tot.                #
############################################################################
pass
df_tot.plot(kind='scatter', x='year', y='total', 
            figsize=(10, 6), color='darkblue')
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

plt.title('Total Immigration to Canada from 1980 - 2013')
plt.xlabel('Year')
plt.ylabel('Number of Immigrants')

# Plote a linha de melhor ajuste
plt.plot(x,fit[0]*x + fit[1], color='red') # recall that x is the Years
plt.annotate('y={0:.0f} x + {1:.0f}'.format(fit[0], fit[1]), xy=(2000, 150000))
plt.show()

# Imprima a linha de melhor ajuste
print('No. Immigrants = {0:.0f} * Year + {1:.0f}'.format(fit[0], fit[1]) )

Usando a equação da linha de melhor ajuste, podemos estimar o número de imigrantes em 2015:
`` `python
Não. Imigrantes = 5567 * Ano - 10926195
Não. Imigrantes = 5567 * 2015 - 10926195
Não. Imigrantes = 291.310
`` `
Quando comparado com os dados reais do Relatório Anual 2016 da Cidadania e Imigração (CIC) (http://www.cic.gc.ca/english/resources/publications/annual-report-2016/index.asp), que o Canadá aceitou 271.845 imigrantes em 2015. Nosso valor estimado de 291.310 está dentro de 7% do número real, o que é muito bom considerando que nossos dados originais vieram das Nações Unidas (e podem diferir ligeiramente dos dados do CIC).

Como uma nota lateral, podemos observar que a imigração deu um mergulho em torno de 1993-1997. Uma análise mais aprofundada sobre o tema revelou que em 1993 o Canadá interveio Bill C-86, que introduziu revisões no sistema de determinação de refugiados, principalmente restritivo. Outras emendas aos Regulamentos de Imigração cancelaram o patrocínio requerido para "parentes assistidos" e reduziram os pontos atribuídos a eles, tornando mais difícil para os membros da família (exceto família nuclear) imigrar para o Canadá. Estas medidas restritivas tiveram um impacto direto nos números da imigração nos próximos anos.

---

Parabéns, você chegou ao fim do minicurso!
---

![pd-dance](https://media1.tenor.com/images/7b28d68e6b3a4b2cf3ee611060ab73ad/tenor.gif?itemid=3356568)

---
## Dicas e observações:<a name="dicas"></a>

### Utilizando o Google  Colaboratory:

#### 1. Comandos no terminal:
Para utilizar qualquer comando no terminal, comece com um **`!`**. Por exemplo, para mostrar os arquivos do diretório atual utilize

```sh
!ls
```

#### 2. Baixar biliotecas:
Em caso do módulo não estar instalado na máquina, utilize o comando 

```python
!pip install nome_do_modulo
```

#### 3. Importando arquivos:
Para importar arquivos da sua máquina para o Colaboratory, o comando abaixo pode ser útil
```pyhon
from google.colab import files
uploaded = files.upload()
```

Para importar de seu drive, o comando abaixo pode ser útil


```python
!apt-get install -y -qq software-properties-common python-software-properties module-init-tools
!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null
!apt-get update -qq 2>&1 > /dev/null
!apt-get -y install -qq google-drive-ocamlfuse fuse
from google.colab import auth
auth.authenticate_user()
from oauth2client.client import GoogleCredentials
creds = GoogleCredentials.get_application_default()
import getpass
!google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret} < /dev/null 2>&1 | grep URL
vcode = getpass.getpass()
!echo {vcode} | google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret}

!mkdir -p drive
!google-drive-ocamlfuse drive
```


---
## Referências: <a name="ref"></a>

### Livros:

- [Python for Data Analysis, 2nd Edition](http://shop.oreilly.com/product/0636920050896.do)

### Cursos onlines:
- [Cognitive Class (IBM): *Applied Data Science with Python*](https://cognitiveclass.ai/learn/data-science-with-python/)