# **Conhecendo os dados - Matplotlib**

Dado o seguinte conjunto de dados na atividade do canvas, faça os seguintes procedimentos:



1.   Importe a planilha CSV disponibilizada no CANVAS dentro do desafio.
2.   Interprete e realize o processo de extração dos dados contidos nas tabelas do arquivo CSV.



In [1]:
# Libraries imports
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.io as pio

In [2]:
def show_missing(df):
    """Return a Pandas dataframe describing the contents of a source dataframe including missing values."""
    
    variables = []
    dtypes = []
    count = []
    unique = []
    missing = []
    pc_missing = []
    
    for item in df.columns:
        variables.append(item)
        dtypes.append(df[item].dtype)
        count.append(len(df[item]))
        unique.append(len(df[item].unique()))
        missing.append(df[item].isna().sum())
        pc_missing.append(round((df[item].isna().sum() / len(df[item])) * 100, 2))

    output = pd.DataFrame({
        'variable': variables, 
        'dtype': dtypes,
        'count': count,
        'unique': unique,
        'missing': missing, 
        'pc_missing': pc_missing
    })    
        
    return output


### Realize alguns tratamentos e retorne os dados entre 1980 a 2014. Elabore o script com base no anterior. 

In [35]:
# Load DataFrame
df = pd.read_csv('./assets/imigrantes_canada-2.csv')

df.head()

Unnamed: 0,País,Continente,Região,1980,1981,1982,1983,1984,1985,1986,...,2005,2006,2007,2008,2009,2010,2011,2012,2013,Total
0,Afeganistão,Ásia,Sul da Ásia,16,39,39,47,71,340,496,...,3436,3009,2652,2111,1746,1758,2203,2635,2004,58639
1,Albânia,Europa,Sul da Europa,1,0,0,0,0,0,1,...,1223,856,702,560,716,561,539,620,603,15699
2,Argélia,África,Norte da África,80,67,71,69,63,44,69,...,3626,4807,3623,4005,5393,4752,4325,3774,4331,69439
3,Samoa Americana,Oceânia,Polinésia,0,1,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,6
4,Andorra,Europa,Sul da Europa,0,0,0,0,0,0,2,...,0,1,1,0,0,0,0,1,1,15


In [36]:
show_missing(df)

Unnamed: 0,variable,dtype,count,unique,missing,pc_missing
0,País,object,195,195,0,0.0
1,Continente,object,195,6,0,0.0
2,Região,object,195,22,0,0.0
3,1980,int64,195,103,0,0.0
4,1981,int64,195,103,0,0.0
5,1982,int64,195,101,0,0.0
6,1983,int64,195,100,0,0.0
7,1984,int64,195,106,0,0.0
8,1985,int64,195,103,0,0.0
9,1986,int64,195,109,0,0.0


In [37]:
df_melted = df.melt(id_vars=['Continente', 'País', 'Região', 'Total'], var_name='Ano', value_name='Imigrantes')
df_melted.head()

Unnamed: 0,Continente,País,Região,Total,Ano,Imigrantes
0,Ásia,Afeganistão,Sul da Ásia,58639,1980,16
1,Europa,Albânia,Sul da Europa,15699,1980,1
2,África,Argélia,Norte da África,69439,1980,80
3,Oceânia,Samoa Americana,Polinésia,6,1980,0
4,Europa,Andorra,Sul da Europa,15,1980,0


In [33]:
fig = px.bar(df_melted, 
             x="Continente", 
             y="Imigrantes", 
             color="Região",
             barmode='relative',
             animation_frame="Ano",
             range_y=[0, 170000])
fig.show()

### **Extraia uma série de dados para o Brasil**


In [46]:
df_brasil = df_melted[df_melted['País'] == 'Brasil']
df_brasil

Unnamed: 0,Continente,País,Região,Total,Ano,Imigrantes
24,América Latina e o Caribe,Brasil,América do Sul,29659,1980,211
219,América Latina e o Caribe,Brasil,América do Sul,29659,1981,220
414,América Latina e o Caribe,Brasil,América do Sul,29659,1982,192
609,América Latina e o Caribe,Brasil,América do Sul,29659,1983,139
804,América Latina e o Caribe,Brasil,América do Sul,29659,1984,145
999,América Latina e o Caribe,Brasil,América do Sul,29659,1985,130
1194,América Latina e o Caribe,Brasil,América do Sul,29659,1986,205
1389,América Latina e o Caribe,Brasil,América do Sul,29659,1987,244
1584,América Latina e o Caribe,Brasil,América do Sul,29659,1988,394
1779,América Latina e o Caribe,Brasil,América do Sul,29659,1989,650


### **Criando o primeiro gráfico com Matplotlib**
Documentação da biblioteca: https://matplotlib.org/

Crie um gráfico que retorne todos os dados do Brasil contidos no arquivo CSV

In [51]:
areachart = px.area(
    data_frame=df_brasil,
    x='Ano',
    y='Imigrantes',
    title='Quantidade de Imigrantes saindo do Brasil'
)

pio.show(areachart)


### **Escolhendo quais anos aparecerem no eixo X com plt.xticks**

In [72]:
fig = px.bar(df_brasil, 
             x="Ano", 
             y="Imigrantes", 
             color="Imigrantes",
             color_continuous_scale=px.colors.sequential.Blues,
             barmode='group',
             #range_y=[0, 170000], #Essa função é responsável por alterar os ticks do eixo Y
             #range_x=[] Essa função é responsável por alterar os ticks do eixo X
             ).update_layout(
                template='plotly_dark',
                plot_bgcolor='rgba(0, 0, 0, 0)',
                paper_bgcolor='rgba(0, 0, 0, 0)',
             )
fig.show()

### **Alterando os ticks do eixo Y com plt.yticks**