## ETL Project (Extract, Transform, Load)
## Projecto de ETL (Extract, Transform, Load)

#### In this project, ETL is performed for data processing and cleaning; these steps are fundamental to ensure the quality, reliability, and usefulness of the dataset for exploratory analyses.
#### Neste Projeto é feito o ETL para tratamento e limpeza dos dados, essas etapas são fundamentais para garantir qualidade, confiabilidade e utilidade do dataset para análises exploratórias. 
#### -------------------------------------------------------------------------------------------------------------------------------------------------
#### Dataset: 'Natalidade_1900_a_2023.csv'
#### Os dados foram retirados de um repositório público através do website https://dados.gov.pt/pt/
#### The data was retrieved from a public repository through the website https://dados.gov.pt/pt/

In [1]:
import pandas as pd
import os

#### Ao abrir o dataset, retorna uma mensagem de erro, a seguir isso é corrigido.
#### When opening the dataset, an error message appears; this is then corrected.

In [2]:
df=pd.read_csv('Natalidade_1900_a_2023.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 51: invalid continuation byte

#### O dataset dá erro ao abrir, pois estamos a utilizar dados em português, desta forma, é utilizado encoding='latin1' para corrigir o erro.
#### The dataset gives an error when opening, as we are using data in Portuguese, so encoding='latin1' is used to correct the error.

In [3]:
# Carrega o arquivo CSV com separador ponto e vírgula, codificação latin1.
# Load CSV file with semicolon separator, latin1 encoding.
df=pd.read_csv('Natalidade_1900_a_2023.csv', sep = ';', encoding='latin1')
df.head()

Unnamed: 0,"Figura 6.2.2 Indicadores de natalidade, Portugal (série longa)",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Índice
0,,,,,,,,,,,
1,Anos,Nados-vivos (N.º) (a) (b),,,,,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeir...,Idade média da mulher ao nascimento de um filho,
2,,Total,,,Fora do casamento,,,,,,
3,,HM,H,M,,,(),(N.º),(anos),,
4,1900,165 245,85 274,79 971,19 236,,306,x,x,x,


####  O argumento skiprows=2 é aplicado no codigo anterior para que as quatro primeiras linhas do arquivo sejam ignoradas na leitura, para a organização dos dados.
#### The skiprows=2 argument is applied in the previous code so that the first four lines of the file are ignored when reading, to organize the data.

In [4]:
# É adicionado o skiprows=2 para ignorar as duas primeiras linhas do arquivo que não são necessárias.
# The skiprows=2 is added to ignore the first two lines of the file that are not necessary.
df=pd.read_csv('Natalidade_1900_a_2023.csv', sep = ';', encoding='latin1', skiprows=2)
df.head()

Unnamed: 0,Anos,Nados-vivos (N.º) (a) (b),Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho,Unnamed: 10
0,,Total,,,Fora do casamento,,,,,,
1,,HM,H,M,,,(),(N.º),(anos),,
2,1900.0,165 245,85 274,79 971,19 236,,306,x,x,x,
3,1910.0,186 953,96 845,90 108,20 601,,317,x,x,x,
4,1920.0,202 908,103 984,98 924,27 274,,337,x,x,x,


#### Os Indices das colunas devem ser renomeados para melhor entendimento do dataset.
#### Column indices should be renamed for better understanding of the dataset.

In [5]:
renomear_colunas = df.rename(columns={'Nados-vivos (N.º) (a) (b)': 'Total de Nados-vivos', 'Unnamed: 2': 'Masculino', 'Unnamed: 3': 'Feminino', 'Unnamed: 4': 'Nascimento Fora do Casamento'})
renomear_colunas.head()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Unnamed: 5,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho,Unnamed: 10
0,,Total,,,Fora do casamento,,,,,,
1,,HM,H,M,,,(),(N.º),(anos),,
2,1900.0,165 245,85 274,79 971,19 236,,306,x,x,x,
3,1910.0,186 953,96 845,90 108,20 601,,317,x,x,x,
4,1920.0,202 908,103 984,98 924,27 274,,337,x,x,x,


#### São eliminadas as colunas 'Unnamed: 5' e 'Unnamed: 10', pois não têm utilidade para o dataset.
#### The columns 'Unnamed: 5' e 'Unnamed: 10' are deleted, as they are of no use to the dataset.

In [6]:
Apagar_2_colunas=renomear_colunas.drop(columns=['Unnamed: 5', 'Unnamed: 10'])
Apagar_2_colunas.head()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
0,,Total,,,Fora do casamento,,,,
1,,HM,H,M,,(),(N.º),(anos),
2,1900.0,165 245,85 274,79 971,19 236,306,x,x,x
3,1910.0,186 953,96 845,90 108,20 601,317,x,x,x
4,1920.0,202 908,103 984,98 924,27 274,337,x,x,x


#### A linha 0 e 1 são eliminadas, pois não são necessárias para o dataset, já que os índices foram renomeados.
#### Line 0 and 1 are deleted as it are not needed for the dataset, since the indexes have been renamed.

In [7]:
apagar_linhas = Apagar_2_colunas.drop([0, 1], axis=0)
apagar_linhas.head()


Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
2,1900,165 245,85 274,79 971,19 236,306,x,x,x
3,1910,186 953,96 845,90 108,20 601,317,x,x,x
4,1920,202 908,103 984,98 924,27 274,337,x,x,x
5,1930,202 529,103 928,98 601,29 409,298,x,x,x
6,1940,187 892,97 147,90 745,29 463,244,x,x,x


In [8]:
print(apagar_linhas.tail(25))


                                                 Anos Total de Nados-vivos  \
51                                              2021                79 582   
52                                              2022                83 671   
53                                              2023                85 699   
54                                                NaN                  NaN   
55                                             Notas:                  NaN   
56  (a) Até 1980, os valores de nados-vivos corres...                  NaN   
57  (b) O valor total de nados-vivos pode não corr...                  NaN   
58  (c) Os valores de nados-vivos, total e por sex...                  NaN   
59                                                NaN                  NaN   
60                                                NaN                  NaN   
61                                                NaN                  NaN   
62                                                NaN           

In [9]:
print(apagar_linhas.index)

RangeIndex(start=2, stop=76, step=1)


#### É preciso ver se existem linhas duplicadas, assim será usado o método .duplicated()
#### You need to see if there are duplicate lines, so the .duplicated() method will be used.

In [10]:
duplicados = apagar_linhas.duplicated()
ha_duplicados = duplicados.any() # true se existem

print(f"Existem Duplicados? {ha_duplicados}")

Existem Duplicados? True


#### É preciso saber quantas linhas duplicadas há.
#### You need to know how many duplicate lines there are.

In [11]:
num_duplicados = duplicados.sum()
print(f"Numero de linhas duplicadas: {num_duplicados}")

Numero de linhas duplicadas: 17


#### É preciso Verificar quais são as linhas duplicadas.

#### You need to check which lines are duplicates.

In [12]:
linhas_duplicadas = apagar_linhas[apagar_linhas.duplicated()]
print(linhas_duplicadas)

   Anos Total de Nados-vivos Masculino Feminino Nascimento Fora do Casamento  \
59  NaN                  NaN       NaN      NaN                          NaN   
60  NaN                  NaN       NaN      NaN                          NaN   
61  NaN                  NaN       NaN      NaN                          NaN   
62  NaN                  NaN       NaN      NaN                          NaN   
63  NaN                  NaN       NaN      NaN                          NaN   
64  NaN                  NaN       NaN      NaN                          NaN   
65  NaN                  NaN       NaN      NaN                          NaN   
66  NaN                  NaN       NaN      NaN                          NaN   
67  NaN                  NaN       NaN      NaN                          NaN   
68  NaN                  NaN       NaN      NaN                          NaN   
69  NaN                  NaN       NaN      NaN                          NaN   
70  NaN                  NaN       NaN  

In [13]:
apagar_linhas_duplicadas = apagar_linhas.drop_duplicates()


In [14]:
print(apagar_linhas_duplicadas)

                                                 Anos Total de Nados-vivos  \
2                                               1900               165 245   
3                                               1910               186 953   
4                                               1920               202 908   
5                                               1930               202 529   
6                                               1940               187 892   
7                                               1950               205 163   
8                                               1960               213 895   
9                                               1970               180 690   
10                                              1980               158 309   
11                                              1981               152 071   
12                                              1982               151 002   
13                                              1983            

#### Revisar se ainda há linhas desnecessárias

#### Check if there are still unnecessary lines

In [15]:
apagar_linhas_duplicadas.tail(25)

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
34,2004,109 298,56 212,53 086,31 766,104.0,141.0,271.0,292.0
35,2005,109 399,56 612,52 787,33 633,104.0,142.0,273.0,293.0
36,2006,105 449,54 057,51 392,33 331,100.0,138.0,275.0,294.0
37,2007,102 492,52 683,49 809,34 443,97.0,135.0,276.0,295.0
38,2008,104 594,53 976,50 618,37 854,99.0,140.0,277.0,296.0
39,2009,99 491,50 873,48 618,37 928,94.0,135.0,279.0,297.0
40,2010,101 381,51 535,49 846,41 844,96.0,139.0,281.0,298.0
41,2011,96 856,49 688,47 167,41 489,92.0,135.0,284.0,301.0
42,2012,89 841,46 161,43 680,40 950,85.0,129.0,286.0,302.0
43,2013,82 787,42 219,40 567,39 434,79.0,121.0,289.0,304.0


#### Há 5 linhas desnecessarias no final do dataframe, precisamos excluí-las

#### There are 5 unnecessary rows at the end of the dataframe, we need to delete them

In [19]:
apagar_ultimas_linhas = apagar_linhas_duplicadas.drop(apagar_linhas_duplicadas.index[-5:])
apagar_ultimas_linhas.tail(25)

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
29,1999,116 002,59 774,56 228,24 186,114,151,264,285
30,2000,120 008,62 222,57 786,26 642,117,155,265,286
31,2001,112 774,58 365,54 409,26 814,109,145,266,288
32,2002,114 383,59 303,55 080,29 117,110,147,268,289
33,2003,112 515,58 210,54 305,30 236,108,144,271,290
34,2004,109 298,56 212,53 086,31 766,104,141,271,292
35,2005,109 399,56 612,52 787,33 633,104,142,273,293
36,2006,105 449,54 057,51 392,33 331,100,138,275,294
37,2007,102 492,52 683,49 809,34 443,97,135,276,295
38,2008,104 594,53 976,50 618,37 854,99,140,277,296


#### Revisar se ainda ha linhas duplicadas

#### Check if there are still duplicate lines

In [20]:
revisar_duplicados = apagar_linhas_duplicadas.duplicated()
ainda_ha_duplicados = revisar_duplicados.any() # true se existem

print(f"Existem Duplicados? {ainda_ha_duplicados}")

Existem Duplicados? False


#### É preciso transformar dados não numéricos, células vazias ou com caracteres especiais, nulas em NaN.
#### It is necessary to transform non-numeric data, empty cells or cells with special characters, null into NaN

In [21]:
tranf_valor_nan = apagar_ultimas_linhas

In [23]:
# Substituir valores não numéricos comuns.
# Replace common non-numeric values.
import numpy as np

tranf_valor_nan.replace({'-': np.nan,'x': np.nan, '?': np.nan, '': np.nan}, inplace=True)

#### Verificar se os valores estão consistentes.
#### Check if the values ​​are consistent.

In [24]:
tranf_valor_nan.head()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
2,1900,165 245,85 274,79 971,19 236,306,,,
3,1910,186 953,96 845,90 108,20 601,317,,,
4,1920,202 908,103 984,98 924,27 274,337,,,
5,1930,202 529,103 928,98 601,29 409,298,,,
6,1940,187 892,97 147,90 745,29 463,244,,,


In [25]:
tranf_valor_nan.tail()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
49,2019,86 579,44 539,42 040,49 140,84,143,299,314
50,2020,84 530,43 451,41 079,48 972,81,141,302,316
51,2021,79 582,40 762,38 820,47 785,76,135,304,318
52,2022,83 671,42 925,40 746,50 329,80,143,303,317
53,2023,85 699,43 748,41 951,51 119,81,144,302,316


#### Verificar quais os tipos de variáveis que existem no dataset para transforma-las todas em numericos
#### Check which types of variables exist in the dataset to transform them all into numeric values.

In [27]:
tranf_valor_nan.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, 2 to 53
Data columns (total 9 columns):
 #   Column                                                 Non-Null Count  Dtype 
---  ------                                                 --------------  ----- 
 0   Anos                                                   52 non-null     object
 1   Total de Nados-vivos                                   52 non-null     object
 2   Masculino                                              52 non-null     object
 3   Feminino                                               52 non-null     object
 4   Nascimento Fora do Casamento                           52 non-null     object
 5   Taxa bruta de natalidade                               52 non-null     object
 6   Índice sintético de fecundidade                        46 non-null     object
 7   Idade média da mulher ao nascimento do primeiro filho  44 non-null     object
 8   Idade média da mulher ao nascimento de um filho        44 non-null  

#### Os valores das colunas 'Total de Nados-vivos', 'Masculino', 'Feminino' estão com espaçamento, é preciso removê-los para transformá-los em valores numéricos inteiros.
#### The values ​​in the columns 'Total de Nados-vivos', 'Masculino', 'Feminino' have spaces, they need to be removed to transform them into integer numeric values.

In [26]:
esp_valor = tranf_valor_nan

In [30]:
colunas = ['Total de Nados-vivos', 'Masculino', 'Feminino', 'Nascimento Fora do Casamento']

# Remover espaços e converter para string antes de converter para numérico
# Remove spaces and convert to string before converting to numeric
esp_valor[colunas] = esp_valor[colunas].astype(str).apply(lambda x: x.str.replace(' ', ''))

In [31]:
esp_valor.tail()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
49,2019,86579,44539,42040,49140,84,143,299,314
50,2020,84530,43451,41079,48972,81,141,302,316
51,2021,79582,40762,38820,47785,76,135,304,318
52,2022,83671,42925,40746,50329,80,143,303,317
53,2023,85699,43748,41951,51119,81,144,302,316


#### Logo após, será preciso modificar o tipo das variáveis das colunas 'Anos', 'Total de Nados-vivos', 'Masculino', 'Feminino' e 'Nascimento Fora do casamento' de object para valores inteiros e o restantes das variáveis para float.
#### Afterwards, you will need to change the type of the variables in the columns 'Anos', 'Total de Nados-vivos', 'Masculino', 'Feminino' e 'Nascimento Fora do casamento' from object to integer values ​​and the remaining variables to float.

In [38]:
change_var_inteiro = ['Anos', 'Total de Nados-vivos', 'Masculino', 'Feminino', 'Nascimento Fora do Casamento']

for col in change_var_inteiro:
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').round().astype('Int64')

# converte o valor para int permitindo NaNs / converts the value to int allowing NaNs

In [39]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, 2 to 53
Data columns (total 9 columns):
 #   Column                                                 Non-Null Count  Dtype 
---  ------                                                 --------------  ----- 
 0   Anos                                                   52 non-null     Int64 
 1   Total de Nados-vivos                                   52 non-null     Int64 
 2   Masculino                                              52 non-null     Int64 
 3   Feminino                                               52 non-null     Int64 
 4   Nascimento Fora do Casamento                           52 non-null     Int64 
 5   Taxa bruta de natalidade                               52 non-null     object
 6   Índice sintético de fecundidade                        46 non-null     object
 7   Idade média da mulher ao nascimento do primeiro filho  44 non-null     object
 8   Idade média da mulher ao nascimento de um filho        44 non-null  

In [40]:
esp_valor.head()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
2,1900,165245,85274,79971,19236,306,,,
3,1910,186953,96845,90108,20601,317,,,
4,1920,202908,103984,98924,27274,337,,,
5,1930,202529,103928,98601,29409,298,,,
6,1940,187892,97147,90745,29463,244,,,


In [41]:
esp_valor.tail()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
49,2019,86579,44539,42040,49140,84,143,299,314
50,2020,84530,43451,41079,48972,81,141,302,316
51,2021,79582,40762,38820,47785,76,135,304,318
52,2022,83671,42925,40746,50329,80,143,303,317
53,2023,85699,43748,41951,51119,81,144,302,316


#### É preciso modificar tipo de variaveis das colunas restantes de object pra float, retirar espaços entre os dados e mudar valores separados por virgula em ponto.
#### It is necessary to change the variable type of the remaining columns from object to float, remove spaces between the data and change values ​​separated by comma to dot.

In [42]:
# Seleciono colunas restantes do tipo object para converter em float
# Select remaining columns of type object to convert to float
colunas_para_float = [col for col in esp_valor.columns if col not in change_var_inteiro and esp_valor[col].dtype == 'object']

# Converte colunas restantes para float com tratamento para espaços e valores inválidos, modificando virgula para ponto
# Convert remaining columns to float with treatment for spaces and invalid values, changing comma to dot 
for col in colunas_para_float:
    esp_valor[col] = esp_valor[col].astype(str).str.replace(' ', '').str.replace(',', '.')
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').astype('float64')

In [43]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, 2 to 53
Data columns (total 9 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   Anos                                                   52 non-null     Int64  
 1   Total de Nados-vivos                                   52 non-null     Int64  
 2   Masculino                                              52 non-null     Int64  
 3   Feminino                                               52 non-null     Int64  
 4   Nascimento Fora do Casamento                           52 non-null     Int64  
 5   Taxa bruta de natalidade                               52 non-null     float64
 6   Índice sintético de fecundidade                        46 non-null     float64
 7   Idade média da mulher ao nascimento do primeiro filho  44 non-null     float64
 8   Idade média da mulher ao nascimento de um filho        44 

In [44]:
esp_valor.head()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
2,1900,165245,85274,79971,19236,30.6,,,
3,1910,186953,96845,90108,20601,31.7,,,
4,1920,202908,103984,98924,27274,33.7,,,
5,1930,202529,103928,98601,29409,29.8,,,
6,1940,187892,97147,90745,29463,24.4,,,


In [45]:
esp_valor.tail()

Unnamed: 0,Anos,Total de Nados-vivos,Masculino,Feminino,Nascimento Fora do Casamento,Taxa bruta de natalidade,Índice sintético de fecundidade,Idade média da mulher ao nascimento do primeiro filho,Idade média da mulher ao nascimento de um filho
49,2019,86579,44539,42040,49140,8.4,1.43,29.9,31.4
50,2020,84530,43451,41079,48972,8.1,1.41,30.2,31.6
51,2021,79582,40762,38820,47785,7.6,1.35,30.4,31.8
52,2022,83671,42925,40746,50329,8.0,1.43,30.3,31.7
53,2023,85699,43748,41951,51119,8.1,1.44,30.2,31.6


#### Após completar o ETL verificar os dados do dataset e adicionar a variavel final.
#### After completing the ETL, check the dataset data and add the final variable.

In [46]:
Natalidade_1900_a_2023 = esp_valor

#### Ao finalizar o ETL, o dataset é renomeado e salvo em um novo arquivo 'ETL_Natalidade_1900_a_2023.csv'.
#### Upon completion of the ETL, the dataset is renamed and saved in a new file 'ETL_Natalidade_1900_a_2023.csv'.

In [47]:
caminho_arquivo = os.path.join('ETL_Natalidade_1900_a_2023.csv')
Natalidade_1900_a_2023.to_csv(caminho_arquivo, index=False, sep=';')