## ETL Project (Extract, Transform, Load)
## Projecto de ETL (Extract, Transform, Load)

#### In this project, ETL is performed for data processing and cleaning; these steps are fundamental to ensure the quality, reliability, and usefulness of the dataset for exploratory analyses.
#### Neste Projeto é feito o ETL para tratamento e limpeza dos dados, essas etapas são fundamentais para garantir qualidade, confiabilidade e utilidade do dataset para análises exploratórias. 
#### -------------------------------------------------------------------------------------------------------------------------------------------------
#### Dataset: 'Estrang_Resid_PT_1960_a_2023.csv'
#### Os dados foram retirados de um repositório público através do website https://www.pordata.pt/pt/estatisticas/
#### The data was retrieved from a public repository through the website https://www.pordata.pt/pt/estatisticas/

In [1]:
import pandas as pd
import numpy as np
import os

In [4]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)     
pd.options.display.float_format = '{:.2f}'.format

#### Ao verifica que os dados são em português, é preciso utilizar encoding='latin1' para corrigir erros que possam ser gerados.
#### When verifying that the data is in Portuguese, you must use encoding='latin1' to correct errors that may be generated.

In [6]:
# Carrega o arquivo CSV com separador ponto e vírgula, codificação latin1 para dataset em Portugues.
# Load CSV file with semicolon separator, latin1 encoding to Portuguese dataset.
df=pd.read_csv('Estrang_Resid_PT_1960_a_2023.csv', sep = ',', encoding='latin1')
df.head(20)

Unnamed: 0,01. Ano,02. Nome RegiÃ£o (Portugal),03. Ãmbito GeogrÃ¡fico,04. Filtro 1,05. Filtro 2,06. Filtro 3,08. SÃ­mbolo,07. Escala,09. Valor
0,1960.0,Portugal,,1. Ãfrica,,,,pessoas,96.0
1,1960.0,Portugal,,1.1. Angola,,,x,pessoas,
2,1960.0,Portugal,,1.2.Cabo-Verde,,,x,pessoas,
3,1960.0,Portugal,,1.3. GuinÃ©-Bissau,,,x,pessoas,
4,1960.0,Portugal,,1.4. MoÃ§ambique,,,x,pessoas,
5,1960.0,Portugal,,1.5. SÃ£o TomÃ© e PrÃ­ncipe,,,x,pessoas,
6,1960.0,Portugal,,2. AmÃ©rica,,,,pessoas,1980.0
7,1960.0,Portugal,,2.1. Brasil,,,,pessoas,611.0
8,1960.0,Portugal,,3. Ãsia,,,,pessoas,208.0
9,1960.0,Portugal,,3.1. China,,,x,pessoas,


In [9]:
df.tail(10)

Unnamed: 0,01. Ano,02. Nome RegiÃ£o (Portugal),03. Ãmbito GeogrÃ¡fico,04. Filtro 1,05. Filtro 2,06. Filtro 3,08. SÃ­mbolo,07. Escala,09. Valor
104826,2023.0,Vouzela,MunicÃ­pio,4.3. ItÃ¡lia,,,x,pessoas,
104827,2023.0,Vouzela,MunicÃ­pio,4.4. RepÃºblica da Moldova,,,,pessoas,0.0
104828,2023.0,Vouzela,MunicÃ­pio,4.5. Reino Unido,,,,pessoas,8.0
104829,2023.0,Vouzela,MunicÃ­pio,4.6. RomÃ©nia,,,,pessoas,0.0
104830,2023.0,Vouzela,MunicÃ­pio,4.7. UcrÃ¢nia,,,,pessoas,10.0
104831,2023.0,Vouzela,MunicÃ­pio,Total,,,,pessoas,260.0
104832,,,,,,,,,
104833,,Indicador: PopulaÃ§Ã£o estrangeira com estatut...,,,,,,,
104834,,Ultima atualizaÃ§Ã£o: 18.11.2024 14:07:46,,,,,,,
104835,,"Fonte: AgÃªncia para a IntegraÃ§Ã£o, MigraÃ§Ãµ...",,,,,,,


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104836 entries, 0 to 104835
Data columns (total 9 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   01. Ano                      104832 non-null  float64
 1   02. Nome RegiÃ£o (Portugal)  104835 non-null  object 
 2   03. Ãmbito GeogrÃ¡fico      103488 non-null  object 
 3   04. Filtro 1                 104832 non-null  object 
 4   05. Filtro 2                 0 non-null       float64
 5   06. Filtro 3                 0 non-null       float64
 6   08. SÃ­mbolo                 9996 non-null    object 
 7   07. Escala                   104832 non-null  object 
 8   09. Valor                    101461 non-null  float64
dtypes: float64(4), object(5)
memory usage: 7.2+ MB


In [8]:
df.shape

(104836, 9)

In [19]:
valores_unicos = []

for coluna in df.columns[0:10].tolist():
    contagem = len(df[coluna].astype(object).value_counts())
    print(coluna, ':', contagem)
    valores_unicos.append(contagem)
valores_unicos

01. Ano : 64
02. Nome RegiÃ£o (Portugal) : 312
03. Ãmbito GeogrÃ¡fico : 1
04. Filtro 1 : 21
05. Filtro 2 : 0
06. Filtro 3 : 0
08. SÃ­mbolo : 3
07. Escala : 1
09. Valor : 4385


[64, 312, 1, 21, 0, 0, 3, 1, 4385]

#### É preciso apagar as colunas que não são necessarias para a analise exploratoria
#### It is necessary to delete the columns that are not necessary for the exploratory analysis.

In [23]:
apagar_colunas=df.drop(columns=['03. Ãmbito GeogrÃ¡fico', '05. Filtro 2', '06. Filtro 3', '08. SÃ­mbolo', '07. Escala'])
apagar_colunas.head()

Unnamed: 0,01. Ano,02. Nome RegiÃ£o (Portugal),04. Filtro 1,09. Valor
0,1960.0,Portugal,1. Ãfrica,96.0
1,1960.0,Portugal,1.1. Angola,
2,1960.0,Portugal,1.2.Cabo-Verde,
3,1960.0,Portugal,1.3. GuinÃ©-Bissau,
4,1960.0,Portugal,1.4. MoÃ§ambique,


#### Os Indices das colunas devem ser renomeados para melhor entendimento do dataset.
#### Column indices should be renamed for better understanding of the dataset.

In [16]:
renomear_colunas = apagar_colunas

In [22]:

renomear_colunas = apagar_colunas.rename(columns={'01. Ano': 'Ano', '02. Nome RegiÃ£o (Portugal)': 'Regiao', '04. Filtro 1': 'Pais de Origem', '09. Valor': 'Total'})
renomear_colunas.head()

Unnamed: 0,Ano,Regiao,Pais de Origem,Total
0,1960.0,Portugal,1. Ãfrica,96.0
1,1960.0,Portugal,1.1. Angola,
2,1960.0,Portugal,1.2.Cabo-Verde,
3,1960.0,Portugal,1.3. GuinÃ©-Bissau,
4,1960.0,Portugal,1.4. MoÃ§ambique,


In [24]:
renomear_colunas.tail(10)

Unnamed: 0,Ano,Regiao,Pais de Origem,Total
104826,2023.0,Vouzela,4.3. ItÃ¡lia,
104827,2023.0,Vouzela,4.4. RepÃºblica da Moldova,0.0
104828,2023.0,Vouzela,4.5. Reino Unido,8.0
104829,2023.0,Vouzela,4.6. RomÃ©nia,0.0
104830,2023.0,Vouzela,4.7. UcrÃ¢nia,10.0
104831,2023.0,Vouzela,Total,260.0
104832,,,,
104833,,Indicador: PopulaÃ§Ã£o estrangeira com estatut...,,
104834,,Ultima atualizaÃ§Ã£o: 18.11.2024 14:07:46,,
104835,,"Fonte: AgÃªncia para a IntegraÃ§Ã£o, MigraÃ§Ãµ...",,


#### Há 4 linhas desnecessarias no final do dataframe, precisamos excluí-las

#### There are 4 unnecessary rows at the end of the dataframe, we need to delete them

In [None]:
apagar_linhas = renomear_colunas
apagar_ultimas_linhas = apagar_linhas.drop(apagar_linhas.index[-4:])
apagar_ultimas_linhas.tail(10)

Unnamed: 0,Ano,Regiao,Pais de Origem,Total
104822,2023.0,Vouzela,3.3. Nepal,
104823,2023.0,Vouzela,4. Europa,
104824,2023.0,Vouzela,4.1. Espanha,
104825,2023.0,Vouzela,4.2. FranÃ§a,
104826,2023.0,Vouzela,4.3. ItÃ¡lia,
104827,2023.0,Vouzela,4.4. RepÃºblica da Moldova,0.0
104828,2023.0,Vouzela,4.5. Reino Unido,8.0
104829,2023.0,Vouzela,4.6. RomÃ©nia,0.0
104830,2023.0,Vouzela,4.7. UcrÃ¢nia,10.0
104831,2023.0,Vouzela,Total,260.0


In [27]:
valores_unicos = []

for coluna in apagar_ultimas_linhas.columns[0:10].tolist():
    contagem = len(apagar_ultimas_linhas[coluna].astype(object).value_counts())
    print(coluna, ':', contagem)
    valores_unicos.append(contagem)
valores_unicos

Ano : 64
Regiao : 309
Pais de Origem : 21
Total : 4385


[64, 309, 21, 4385]

In [28]:
col_repetida = apagar_ultimas_linhas
coluna_origem = 'Pais de Origem'
repetidos = col_repetida[coluna_origem].value_counts()
repetidos = repetidos[repetidos > 1]
print(repetidos)


Pais de Origem
1. Ãfrica                     4992
1.1. Angola                    4992
1.2.Cabo-Verde                 4992
1.3. GuinÃ©-Bissau             4992
1.4. MoÃ§ambique               4992
1.5. SÃ£o TomÃ© e PrÃ­ncipe    4992
2. AmÃ©rica                    4992
2.1. Brasil                    4992
3. Ãsia                       4992
3.1. China                     4992
3.2. Ãndia                    4992
3.3. Nepal                     4992
4. Europa                      4992
4.1. Espanha                   4992
4.2. FranÃ§a                   4992
4.3. ItÃ¡lia                   4992
4.4. RepÃºblica da Moldova     4992
4.5. Reino Unido               4992
4.6. RomÃ©nia                  4992
4.7. UcrÃ¢nia                  4992
Total                          4992
Name: count, dtype: int64


In [34]:
# Converter a coluna 'Pais de Origem' para categórica
categoria = col_repetida['Pais de Origem'].astype('category')

# Substituir valores específicos por novos nomes
col_repetida['Pais de Origem'] = col_repetida['Pais de Origem'].replace({'1. Ãfrica': 'Africa', 
                                                                   '1.1. Angola': 'Angola',
                                                                   '1.2.Cabo-Verde': 'Cabo Verde',
                                                                   '1.3. GuinÃ©-Bissau': 'Guine-Bissau',
                                                                   '1.4. MoÃ§ambique': 'Mocambique',
                                                                   '1.5. SÃ£o TomÃ© e PrÃ­ncipe': 'Sao Tome e Principe',
                                                                   '2. AmÃ©rica': 'America',
                                                                   '2.1. Brasil': 'Brasil',
                                                                   '3. Ãsia': 'Asia',
                                                                   '3.1. China': 'China',
                                                                   '3.2. Ãndia': 'India',
                                                                   '3.3. Nepal': 'Nepal',
                                                                   '4. Europa': 'Europa',
                                                                   '4.1. Espanha': 'Espanha',
                                                                   '4.2. FranÃ§a': 'Franca',
                                                                   '4.3. ItÃ¡lia': 'Italia',
                                                                   '4.4. RepÃºblica da Moldova': 'Republica da Moldova',
                                                                   '4.5. Reino Unido': 'Reino Unido',
                                                                   '4.6. RomÃ©nia': 'Romania',
                                                                   '4.7. UcrÃ¢nia': 'Ucrania',})


#### É preciso renomear as categorias da coluna
#### You need to rename the column categories

In [35]:
col_repetida = apagar_ultimas_linhas
coluna_origem = 'Pais de Origem'
repetidos = col_repetida[coluna_origem].value_counts()
repetidos = repetidos[repetidos > 1]
print(repetidos)

Pais de Origem
Africa                  4992
Angola                  4992
Cabo Verde              4992
Guine-Bissau            4992
Mocambique              4992
Sao Tome e Principe     4992
America                 4992
Brasil                  4992
Asia                    4992
China                   4992
India                   4992
Nepal                   4992
Europa                  4992
Espanha                 4992
Franca                  4992
Italia                  4992
Republica da Moldova    4992
Reino Unido             4992
Romania                 4992
Ucrania                 4992
Total                   4992
Name: count, dtype: int64


#### É preciso transformar dados não numéricos, células vazias ou com caracteres especiais, nulas em NaN.
#### It is necessary to transform non-numeric data, empty cells or cells with special characters, null into NaN

In [36]:
tipo_var = col_repetida
tipo_var.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104832 entries, 0 to 104831
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Ano             104832 non-null  float64
 1   Regiao          104832 non-null  object 
 2   Pais de Origem  104832 non-null  object 
 3   Total           101461 non-null  float64
dtypes: float64(2), object(2)
memory usage: 3.2+ MB


#### É preciso retirar os possiveis espaçamentos entre os valores
#### It is necessary to remove any possible spaces between the values

In [None]:
esp_valor = tipo_var
esp_valor['Ano'] = pd.to_numeric(esp_valor['Ano'].astype(str).str.replace(' ', '', regex=False), errors='coerce')
# Remover espaços na coluna e converter para numérico, substituindo erros por NaN
esp_valor['Total'] = pd.to_numeric(esp_valor['Total'].astype(str).str.replace(' ', '', regex=False), errors='coerce')

#### É preciso modificar o tipo das variaveis 'Ano' e 'Total' para numericos inteiros
#### It is necessary to change the type of the variables 'Ano' and 'Total' to integer numbers

In [43]:
var_int = ['Ano', 'Total']

for col in var_int:
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').round().astype('Int64')

# converte o valor para int permitindo NaNs / converts the value to int allowing NaNs

In [45]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104832 entries, 0 to 104831
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   Ano             104832 non-null  Int64 
 1   Regiao          104832 non-null  object
 2   Pais de Origem  104832 non-null  object
 3   Total           101461 non-null  Int64 
dtypes: Int64(2), object(2)
memory usage: 3.4+ MB


In [46]:
esp_valor.head()

Unnamed: 0,Ano,Regiao,Pais de Origem,Total
0,1960,Portugal,Africa,96.0
1,1960,Portugal,Angola,
2,1960,Portugal,Cabo Verde,
3,1960,Portugal,Guine-Bissau,
4,1960,Portugal,Mocambique,


#### Após completar o ETL verificar os dados do dataset e adicionar a variavel final.
#### After completing the ETL, check the dataset data and add the final variable.

In [47]:
Imigracao_1960_a_2023 = esp_valor

#### Ao finalizar o ETL, o dataset é renomeado e salvo em um novo arquivo 'ETL_Imigracao_1960_a_2023.csv'.
#### Upon completion of the ETL, the dataset is renamed and saved in a new file 'ETL_Imigracao_1960_a_2023.csv'.

In [48]:
caminho_arquivo = os.path.join('ETL_Imigracao_1960_a_2023.csv')
Imigracao_1960_a_2023.to_csv(caminho_arquivo, index=False, sep=';')