## ETL Project (Extract, Transform, Load)
## Projecto de ETL (Extract, Transform, Load)

#### In this project, ETL is performed for data processing and cleaning; these steps are fundamental to ensure the quality, reliability, and usefulness of the dataset for exploratory analyses.
#### Neste Projeto é feito o ETL para tratamento e limpeza dos dados, essas etapas são fundamentais para garantir qualidade, confiabilidade e utilidade do dataset para análises exploratórias. 
#### -------------------------------------------------------------------------------------------------------------------------------------------------
#### Dataset: 'Taxa_Mortalidade_1900_a_2023.csv'
#### Os dados foram retirados de um repositório público através do website https://dados.gov.pt/pt/
#### The data was retrieved from a public repository through the website https://dados.gov.pt/pt/

In [2]:
import pandas as pd
import numpy as np
import os

#### Ao verifica que os dados são em português, é preciso utilizar encoding='latin1' para corrigir erros que possam ser gerados.
#### When verifying that the data is in Portuguese, you must use encoding='latin1' to correct errors that may be generated.

In [4]:
# Carrega o arquivo CSV com separador ponto e vírgula, codificação latin1 para dataset em Portugues.
# Load CSV file with semicolon separator, latin1 encoding to Portuguese dataset.
df=pd.read_csv('Taxa_Mortalidade_1900_a_2023.csv', sep = ';', encoding='latin1')
df.head(30)

Unnamed: 0,"Figura 6.2.3 Indicadores de mortalidade, Portugal (série longa)",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Índice
0,,,,,,,,,,,...,,,,,,,,,,
1,Anos,Óbitos (N.º),,,,,,,,,...,Taxa de mortalidade infantil,,Taxa de mortalidade neonatal,Taxa de mortalidade perinatal,,Taxa de mortalidade fetal tardia,,Esperança de vida à nascença (d),,
2,,Total (a) (b),,,,,,Menos de 1 ano (c),,Neonatais,...,,,,,,,,,,
3,,HM,,H,,M,,,,,...,,,,,,,,(Anos),,
4,1900,110 330,,56 304,,54 026,,x,,x,...,x,,x,x,,x,,x,,
5,1910,113 161,,58 132,,55 653,,25 024,,x,...,1339,,x,x,,x,,x,,
6,1920,142 862,,72 220,,70 662,,33 302,,x,...,1641,,x,x,,x,,x,,
7,1930,116 352,,59 508,,56 844,,29 077,,x,...,1436,,x,x,,x,,x,,
8,1940,120 486,,60 930,,59 556,,23 690,,x,...,1261,,x,x,,x,,x,,
9,1950,102 798,,52 366,,50 432,,19 308,,x,...,941,,x,x,,x,,x,,


####  O argumento skiprows=2 é aplicado no codigo anterior para que as quatro primeiras linhas do arquivo sejam ignoradas na leitura, para a organização dos dados.
#### The skiprows=2 argument is applied in the previous code so that the first four lines of the file are ignored when reading, to organize the data.

In [6]:
# É adicionado o skiprows=2 para ignorar as duas primeiras linhas do arquivo que não são necessárias.
# The skiprows=2 is added to ignore the first two lines of the file that are not necessary.
df=pd.read_csv('Taxa_Mortalidade_1900_a_2023.csv', sep = ';', encoding='latin1', skiprows=2)
df.head(20)

Unnamed: 0,Anos,Óbitos (N.º),Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Taxa de mortalidade infantil,Unnamed: 18,Taxa de mortalidade neonatal,Taxa de mortalidade perinatal,Unnamed: 21,Taxa de mortalidade fetal tardia,Unnamed: 23,Esperança de vida à nascença (d),Unnamed: 25,Unnamed: 26
0,,Total (a) (b),,,,,,Menos de 1 ano (c),,Neonatais,...,,,,,,,,,,
1,,HM,,H,,M,,,,,...,,,,,,,,(Anos),,
2,1900.0,110 330,,56 304,,54 026,,x,,x,...,x,,x,x,,x,,x,,
3,1910.0,113 161,,58 132,,55 653,,25 024,,x,...,1339,,x,x,,x,,x,,
4,1920.0,142 862,,72 220,,70 662,,33 302,,x,...,1641,,x,x,,x,,x,,
5,1930.0,116 352,,59 508,,56 844,,29 077,,x,...,1436,,x,x,,x,,x,,
6,1940.0,120 486,,60 930,,59 556,,23 690,,x,...,1261,,x,x,,x,,x,,
7,1950.0,102 798,,52 366,,50 432,,19 308,,x,...,941,,x,x,,x,,x,,
8,1960.0,94 883,,48 110,,46 773,,16 576,,x,...,775,,x,x,,x,,x,,
9,1970.0,92 854,,47 179,,45 675,,10 026,,x,...,555,,x,x,,x,,x,,


In [15]:
apagar_colunas=df.drop(columns=['Unnamed: 2', 'Unnamed: 4', 'Unnamed: 6', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13', 'Unnamed: 14', 'Unnamed: 16', 'Unnamed: 18', 'Unnamed: 21', 'Unnamed: 23', 'Unnamed: 25', 'Unnamed: 26'])
apagar_colunas.head(20)

Unnamed: 0,Anos,Óbitos (N.º),Unnamed: 3,Unnamed: 5,Unnamed: 7,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Taxa de mortalidade neonatal,Taxa de mortalidade perinatal,Taxa de mortalidade fetal tardia,Esperança de vida à nascença (d)
0,,Total (a) (b),,,Menos de 1 ano (c),,,,,,
1,,HM,H,M,,(),,,,,(Anos)
2,1900.0,110 330,56 304,54 026,x,204,x,x,x,x,x
3,1910.0,113 161,58 132,55 653,25 024,192,1339,x,x,x,x
4,1920.0,142 862,72 220,70 662,33 302,237,1641,x,x,x,x
5,1930.0,116 352,59 508,56 844,29 077,171,1436,x,x,x,x
6,1940.0,120 486,60 930,59 556,23 690,157,1261,x,x,x,x
7,1950.0,102 798,52 366,50 432,19 308,122,941,x,x,x,x
8,1960.0,94 883,48 110,46 773,16 576,107,775,x,x,x,x
9,1970.0,92 854,47 179,45 675,10 026,107,555,x,x,x,x


#### Os Indices das colunas devem ser renomeados para melhor entendimento do dataset.
#### Column indices should be renamed for better understanding of the dataset.

In [16]:
renomear_colunas = apagar_colunas

In [22]:

renomear_colunas = apagar_colunas.rename(columns={'Óbitos (N.º)': 'Total de Obitos', 'Unnamed: 3': 'Masculino', 'Unnamed: 5': 'Feminino', 'Unnamed: 7': 'Obitos menos de 1 ano', 'Esperança de vida à nascença (d)': 'Esperanca de vida a nascenca' })
renomear_colunas.head()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Taxa de mortalidade neonatal,Taxa de mortalidade perinatal,Taxa de mortalidade fetal tardia,Esperanca de vida a nascenca
0,,Total (a) (b),,,Menos de 1 ano (c),,,,,,
1,,HM,H,M,,(),,,,,(Anos)
2,1900.0,110 330,56 304,54 026,x,204,x,x,x,x,x
3,1910.0,113 161,58 132,55 653,25 024,192,1339,x,x,x,x
4,1920.0,142 862,72 220,70 662,33 302,237,1641,x,x,x,x


#### São eliminadas as colunas 'Taxa de mortalidade neonatal', 'Taxa de mortalidade perinatal' e 'Taxa de mortalidade fetal tardia', pois não têm utilidade para o dataset.
#### The columns 'Taxa de mortalidade neonatal', 'Taxa de mortalidade perinatal' e 'Taxa de mortalidade fetal tardia' are deleted, as they are of no use to the dataset.

In [23]:
Apagar_3_colunas=renomear_colunas.drop(columns=['Taxa de mortalidade neonatal', 'Taxa de mortalidade perinatal', 'Taxa de mortalidade fetal tardia'])
Apagar_3_colunas.head()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
0,,Total (a) (b),,,Menos de 1 ano (c),,,
1,,HM,H,M,,(),,(Anos)
2,1900.0,110 330,56 304,54 026,x,204,x,x
3,1910.0,113 161,58 132,55 653,25 024,192,1339,x
4,1920.0,142 862,72 220,70 662,33 302,237,1641,x


#### A linha 0 e 1 são eliminadas, pois não são necessárias para o dataset, já que os índices foram renomeados.
#### Line 0 and 1 are deleted as it are not needed for the dataset, since the indexes have been renamed.

In [24]:
apagar_linhas = Apagar_3_colunas.drop([0, 1], axis=0)
apagar_linhas.head()


Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
2,1900,110 330,56 304,54 026,x,204,x,x
3,1910,113 161,58 132,55 653,25 024,192,1339,x
4,1920,142 862,72 220,70 662,33 302,237,1641,x
5,1930,116 352,59 508,56 844,29 077,171,1436,x
6,1940,120 486,60 930,59 556,23 690,157,1261,x


In [25]:
print(apagar_linhas.tail(25))


                                                 Anos Total de Obitos  \
35                                              2005          107 464   
36                                              2006          101 990   
37                                              2007          103 512   
38                                              2008          104 280   
39                                              2009          104 434   
40                                              2010          105 954   
41                                              2011          102 848   
42                                              2012          107 612   
43                                              2013          106 554   
44                                              2014          104 843   
45                                              2015          108 539   
46                                              2016          110 573   
47                                              201

In [26]:
print(apagar_linhas.index)

RangeIndex(start=2, stop=60, step=1)


#### É preciso ver se existem linhas duplicadas, assim será usado o método .duplicated()
#### You need to see if there are duplicate lines, so the .duplicated() method will be used.

In [27]:
duplicados = apagar_linhas.duplicated()
ha_duplicados = duplicados.any() # true se existem

print(f"Existem Duplicados? {ha_duplicados}")

Existem Duplicados? False


#### É preciso saber quantas linhas duplicadas há.
#### You need to know how many duplicate lines there are.

In [28]:
num_duplicados = duplicados.sum()
print(f"Numero de linhas duplicadas: {num_duplicados}")

Numero de linhas duplicadas: 0


#### Revisar se ainda há linhas desnecessárias

#### Check if there are still unnecessary lines

In [30]:
apagar_linhas.tail(25)

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
35,2005,107 464,55 493,51 971,384.0,102.0,35.0,7772.0
36,2006,101 990,53 471,48 519,349.0,97.0,33.0,7818.0
37,2007,103 512,53 379,50 133,353.0,98.0,34.0,7850.0
38,2008,104 280,53 582,50 698,340.0,99.0,33.0,7874.0
39,2009,104 434,53 310,51 124,362.0,99.0,36.0,7894.0
40,2010,105 954,54 219,51 734,256.0,100.0,25.0,7929.0
41,2011,102 848,52 544,50 301,302.0,97.0,31.0,7955.0
42,2012,107 612,54 473,53 139,303.0,102.0,34.0,7978.0
43,2013,106 554,54 184,52 369,243.0,102.0,29.0,8003.0
44,2014,104 843,53 233,51 610,236.0,101.0,29.0,8032.0


#### Há 6 linhas desnecessarias no final do dataframe, precisamos excluí-las

#### There are 6 unnecessary rows at the end of the dataframe, we need to delete them

In [31]:
apagar_ultimas_linhas = apagar_linhas.drop(apagar_linhas.index[-6:])
apagar_ultimas_linhas.tail(25)

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
29,1999,107 871,56 179,51 692,651,106,56,7565
30,2000,105 364,55 023,50 341,662,102,55,7595
31,2001,105 092,54 838,50 254,567,101,50,7657
32,2002,106 258,55 377,50 881,574,102,50,7673
33,2003,108 795,55 966,52 829,466,104,41,7698
34,2004,102 012,53 202,48 810,420,97,38,7743
35,2005,107 464,55 493,51 971,384,102,35,7772
36,2006,101 990,53 471,48 519,349,97,33,7818
37,2007,103 512,53 379,50 133,353,98,34,7850
38,2008,104 280,53 582,50 698,340,99,33,7874


#### É preciso transformar dados não numéricos, células vazias ou com caracteres especiais, nulas em NaN.
#### It is necessary to transform non-numeric data, empty cells or cells with special characters, null into NaN

In [35]:
apagar_ultimas_linhas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 2 to 53
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Anos                          52 non-null     object
 1   Total de Obitos               52 non-null     object
 2   Masculino                     52 non-null     object
 3   Feminino                      52 non-null     object
 4   Obitos menos de 1 ano         52 non-null     object
 5   Taxa bruta de mortalidade     52 non-null     object
 6   Taxa de mortalidade infantil  52 non-null     object
 7   Esperanca de vida a nascenca  52 non-null     object
dtypes: object(8)
memory usage: 3.4+ KB


In [34]:
tranf_valor_nan = apagar_ultimas_linhas

In [36]:
# Substituir valores não numéricos comuns.
# Replace common non-numeric values.
tranf_valor_nan.replace({'-': np.nan,'x': np.nan, '?': np.nan, '': np.nan}, inplace=True)

#### Verificar se os valores estão consistentes.
#### Check if the values ​​are consistent.

In [37]:
tranf_valor_nan.head()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
2,1900,110 330,56 304,54 026,,204,,
3,1910,113 161,58 132,55 653,25 024,192,1339.0,
4,1920,142 862,72 220,70 662,33 302,237,1641.0,
5,1930,116 352,59 508,56 844,29 077,171,1436.0,
6,1940,120 486,60 930,59 556,23 690,157,1261.0,


In [38]:
tranf_valor_nan.tail()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
49,2019,111 843,55 869,55 974,249,108,29,8105
50,2020,123 396,61 395,62 001,206,119,24,8122
51,2021,124 841,62 728,62 113,193,120,24,8097
52,2022,124 361,61 739,62 621,219,119,26,8096
53,2023,118 295,59 261,59 034,210,112,25,8117


#### Verificar quais os tipos de variáveis que existem no dataset para transforma-las todas em numericos
#### Check which types of variables exist in the dataset to transform them all into numeric values.

In [39]:
tranf_valor_nan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 2 to 53
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Anos                          52 non-null     object
 1   Total de Obitos               52 non-null     object
 2   Masculino                     52 non-null     object
 3   Feminino                      52 non-null     object
 4   Obitos menos de 1 ano         51 non-null     object
 5   Taxa bruta de mortalidade     52 non-null     object
 6   Taxa de mortalidade infantil  51 non-null     object
 7   Esperanca de vida a nascenca  42 non-null     object
dtypes: object(8)
memory usage: 3.4+ KB


#### Os valores das colunas 'Total de Obitos', 'Masculino', 'Feminino' e 'Obitos menos de 1 ano' estão com espaçamento, é preciso removê-los para transformá-los em valores numéricos inteiros.
#### The values ​​in the columns 'Total de Obitos', 'Masculino', 'Feminino' e 'Obitos menos de 1 ano' have spaces, they need to be removed to transform them into integer numeric values.

In [40]:
esp_valor = tranf_valor_nan

In [41]:
colunas = ['Total de Obitos', 'Masculino', 'Feminino', 'Obitos menos de 1 ano']

# Remover espaços e converter para string antes de converter para numérico
# Remove spaces and convert to string before converting to numeric
esp_valor[colunas] = esp_valor[colunas].astype(str).apply(lambda x: x.str.replace(' ', ''))

In [43]:
esp_valor.head()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
2,1900,110330,56304,54026,,204,,
3,1910,113161,58132,55653,25024.0,192,1339.0,
4,1920,142862,72220,70662,33302.0,237,1641.0,
5,1930,116352,59508,56844,29077.0,171,1436.0,
6,1940,120486,60930,59556,23690.0,157,1261.0,


#### Logo após, será preciso modificar o tipo das variáveis das colunas 'Anos', 'Total de Obitos', 'Masculino', 'Feminino' e 'Obitos menos de 1 ano' de object para valores inteiros e o restantes das variáveis para float.
#### Afterwards, you will need to change the type of the variables in the columns 'Anos', 'Total de Obitos', 'Masculino', 'Feminino' e 'Obitos menos de 1 ano' from object to integer values ​​and the remaining variables to float.

In [44]:
change_var_inteiro = ['Anos', 'Total de Obitos', 'Masculino', 'Feminino', 'Obitos menos de 1 ano']

for col in change_var_inteiro:
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').round().astype('Int64')

# converte o valor para int permitindo NaNs / converts the value to int allowing NaNs

In [45]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 2 to 53
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Anos                          52 non-null     Int64 
 1   Total de Obitos               52 non-null     Int64 
 2   Masculino                     52 non-null     Int64 
 3   Feminino                      52 non-null     Int64 
 4   Obitos menos de 1 ano         51 non-null     Int64 
 5   Taxa bruta de mortalidade     52 non-null     object
 6   Taxa de mortalidade infantil  51 non-null     object
 7   Esperanca de vida a nascenca  42 non-null     object
dtypes: Int64(5), object(3)
memory usage: 3.6+ KB


In [46]:
esp_valor.head()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
2,1900,110330,56304,54026,,204,,
3,1910,113161,58132,55653,25024.0,192,1339.0,
4,1920,142862,72220,70662,33302.0,237,1641.0,
5,1930,116352,59508,56844,29077.0,171,1436.0,
6,1940,120486,60930,59556,23690.0,157,1261.0,


In [47]:
esp_valor.tail()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
49,2019,111843,55869,55974,249,108,29,8105
50,2020,123396,61395,62001,206,119,24,8122
51,2021,124841,62728,62113,193,120,24,8097
52,2022,124361,61739,62621,219,119,26,8096
53,2023,118295,59261,59034,210,112,25,8117


#### É preciso modificar tipo de variaveis das colunas restantes de object pra float, retirar espaços entre os dados e mudar valores separados por virgula em ponto.
#### It is necessary to change the variable type of the remaining columns from object to float, remove spaces between the data and change values ​​separated by comma to dot.

In [48]:
# Seleciono colunas restantes do tipo object para converter em float
# Select remaining columns of type object to convert to float
colunas_para_float = [col for col in esp_valor.columns if col not in change_var_inteiro and esp_valor[col].dtype == 'object']

# Converte colunas restantes para float com tratamento para espaços e valores inválidos, modificando virgula para ponto
# Convert remaining columns to float with treatment for spaces and invalid values, changing comma to dot 
for col in colunas_para_float:
    esp_valor[col] = esp_valor[col].astype(str).str.replace(' ', '').str.replace(',', '.')
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').astype('float64')

In [49]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 2 to 53
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Anos                          52 non-null     Int64  
 1   Total de Obitos               52 non-null     Int64  
 2   Masculino                     52 non-null     Int64  
 3   Feminino                      52 non-null     Int64  
 4   Obitos menos de 1 ano         51 non-null     Int64  
 5   Taxa bruta de mortalidade     52 non-null     float64
 6   Taxa de mortalidade infantil  51 non-null     float64
 7   Esperanca de vida a nascenca  42 non-null     float64
dtypes: Int64(5), float64(3)
memory usage: 3.6 KB


In [50]:
esp_valor.head()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
2,1900,110330,56304,54026,,20.4,,
3,1910,113161,58132,55653,25024.0,19.2,133.9,
4,1920,142862,72220,70662,33302.0,23.7,164.1,
5,1930,116352,59508,56844,29077.0,17.1,143.6,
6,1940,120486,60930,59556,23690.0,15.7,126.1,


In [51]:
esp_valor.tail()

Unnamed: 0,Anos,Total de Obitos,Masculino,Feminino,Obitos menos de 1 ano,Taxa bruta de mortalidade,Taxa de mortalidade infantil,Esperanca de vida a nascenca
49,2019,111843,55869,55974,249,10.8,2.9,81.05
50,2020,123396,61395,62001,206,11.9,2.4,81.22
51,2021,124841,62728,62113,193,12.0,2.4,80.97
52,2022,124361,61739,62621,219,11.9,2.6,80.96
53,2023,118295,59261,59034,210,11.2,2.5,81.17


#### Após completar o ETL verificar os dados do dataset e adicionar a variavel final.
#### After completing the ETL, check the dataset data and add the final variable.

In [52]:
Taxa_Mortalidade_1900_a_2023 = esp_valor

#### Ao finalizar o ETL, o dataset é renomeado e salvo em um novo arquivo 'ETL_Natalidade_1900_a_2023.csv'.
#### Upon completion of the ETL, the dataset is renamed and saved in a new file 'ETL_Natalidade_1900_a_2023.csv'.

In [53]:
caminho_arquivo = os.path.join('ETL_Taxa_Mortalidade_1900_a_2023.csv')
Taxa_Mortalidade_1900_a_2023.to_csv(caminho_arquivo, index=False, sep=';')