In [140]:
# Importando os pacotes necessários
import plotly.express as px
import pandas as pd
import seaborn as sns

# Importando o dataset
df = pd.read_csv('canada.csv')

# Reaizando a primeira plotagem
fig = px.bar(df, x='Country of Citizenship', y='2015')

# Editando alguns detalhes para compreender os dados
fig.update_layout(
    title='Imigrantes estudantis - Canadá',
    xaxis_title='Cidade de Nascimento',
    yaxis_title='Ano'
)

fig.show()

# Transformando as colunas em uma lista de dados para uso em operações de possíveis repetições
list(df.columns[1:])

['2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '2023']

In [141]:
df_melted = pd.melt(
    df,
    id_vars=['Country of Citizenship'],
    value_vars=list(df.columns),
    var_name='Ano',
    value_name='Imigrantes'
)

df_melted

Unnamed: 0,Country of Citizenship,Ano,Imigrantes
0,Afghanistan,2015,95
1,Albania,2015,115
2,Algeria,2015,1060
3,Andorra,2015,0
4,Angola,2015,65
...,...,...,...
1948,"Virgin Islands, British",2023,0
1949,Western Sahara,2023,0
1950,Yemen,2023,155
1951,Zambia,2023,195


In [142]:
# Agrupando os dados por Imigrantes e tentando remover países com dados irrelevantes (abaixo de 1500)
# Agrupar esse dataset dá um grande problema pois eu perco os dados temporais para plotar

# Agrupando dados
df_teste = df_melted.groupby(df_melted['Country of Citizenship'])['Imigrantes'].mean().reset_index()

# Utilizando uma máscara para visualizar apenas dados irrelevantes
df_teste = df_teste.loc[(df_teste['Imigrantes'] < 1500)]

# Printando o resultado
df_teste

Unnamed: 0,Country of Citizenship,Imigrantes
0,Afghanistan,106.666667
1,Albania,281.111111
3,Andorra,1.666667
4,Angola,61.111111
5,Anguilla,0.000000
...,...,...
212,"Virgin Islands, British",0.000000
213,Western Sahara,0.000000
214,Yemen,221.666667
215,Zambia,136.111111


In [145]:
# Toda a transformação realizada para df_teste resultou na igualdade de index com o dataframe inicial
# Utilizando essa tática eu dropo todos os index que estão no df_teste do df principal
# Armazeno tudo em um outro dataframe para trabalhar com ele depois
df_trabalhado = df.drop(df_teste.index)

# Criando a tabela meltada com os dados organizados e prontos para serem plotados
df_final = pd.melt(
    df_trabalhado,
    id_vars=['Country of Citizenship'],
    value_vars=list(df.columns),
    var_name='Ano',
    value_name='Imigrantes',
)

df.rename(columns={'Country of Citizenship':'País de Origem'})

df_final

Unnamed: 0,Country of Citizenship,Ano,Imigrantes
0,Algeria,2015,1060
1,Bangladesh,2015,1400
2,Brazil,2015,6625
3,"Cameroon, Federal Republic of",2015,1100
4,"China, People's Republic of",2015,68350
...,...,...,...
301,Turkey,2023,3920
302,Ukraine,2023,5955
303,United Kingdom and Overseas Territories,2023,2080
304,United States of America,2023,7735


In [144]:
# Começando a plotagem
fig = px.line(
    df_final,
    x='Ano',
    y='Imigrantes',
    color='Country of Citizenship',
    title='Imigrantes estudantis - Canadá',
    markers=True
)

# Finalizando a plotagem
fig.show()