## ETL Project (Extract, Transform, Load)
## Projecto de ETL (Extract, Transform, Load)

#### In this project, ETL is performed for data processing and cleaning; these steps are fundamental to ensure the quality, reliability, and usefulness of the dataset for exploratory analyses.
#### Neste Projeto é feito o ETL para tratamento e limpeza dos dados, essas etapas são fundamentais para garantir qualidade, confiabilidade e utilidade do dataset para análises exploratórias. 
#### -------------------------------------------------------------------------------------------------------------------------------------------------
#### Dataset: 'Indice_Demografico_1900_a_2023.csv'
#### Os dados foram retirados de um repositório público através do website https://dados.gov.pt/pt/
#### The data was retrieved from a public repository through the website https://dados.gov.pt/pt/

In [2]:
import pandas as pd
import os

#### Ao abrir o dataset, retorna uma mensagem de erro, a seguir isso é corrigido.
#### When opening the dataset, an error message appears; this is then corrected.

In [3]:
df=pd.read_csv('Indice_Demografico_1900_a_2023.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 34: invalid continuation byte

#### O dataset dá erro ao abrir, pois estamos a utilizar dados em português, desta forma, é utilizado encoding='latin1' para corrigir o erro.
#### The dataset gives an error when opening, as we are using data in Portuguese, so encoding='latin1' is used to correct the error.

In [4]:
# Carrega o arquivo CSV com separador ponto e vírgula, codificação latin1.
# Load CSV file with semicolon separator, latin1 encoding.
df=pd.read_csv('Indice_Demografico_1900_a_2023.csv', sep = ';', encoding='latin1')
df.head()

Unnamed: 0,"Figura 6.2.1 Indicadores de população residente, Portugal (série longa)",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Índice
0,,,,,,,,,,,,
1,Anos,,População residente (N.º) (a),,,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Índice de envelhecimento (N.º),,,
2,,,HM,H,M,(%),,,HM,H,M,
3,1900,,5 446 760,x,x,x,x,x,x,x,x,
4,1911,,5 999 146,x,x,x,x,x,x,x,x,


####  O argumento skiprows=2 é aplicado no codigo anterior para que as duas primeiras linhas do arquivo sejam ignoradas na leitura, para a organização dos dados.
#### The skiprows=2 argument is applied in the previous code so that the first two lines of the file are ignored when reading, to organize the data.

In [5]:
# É adicionado o skiprows=2 para ignorar as duas primeiras linhas do arquivo que não são necessárias.
# The skiprows=2 is added to ignore the first two lines of the file that are not necessary.
df=pd.read_csv('Indice_Demografico_1900_a_2023.csv', sep = ';', encoding='latin1', skiprows=2)
df.head()

Unnamed: 0,Anos,Unnamed: 1,População residente (N.º) (a),Unnamed: 3,Unnamed: 4,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Índice de envelhecimento (N.º),Unnamed: 9,Unnamed: 10,Unnamed: 11
0,,,HM,H,M,(%),,,HM,H,M,
1,1900.0,,5 446 760,x,x,x,x,x,x,x,x,
2,1911.0,,5 999 146,x,x,x,x,x,x,x,x,
3,1920.0,,6 080 135,x,x,x,x,x,x,x,x,
4,1930.0,,6 802 429,x,x,x,x,x,x,x,x,


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57 entries, 0 to 56
Data columns (total 12 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Anos                            54 non-null     object 
 1   Unnamed: 1                      1 non-null      object 
 2   População residente (N.º) (a)   53 non-null     object 
 3   Unnamed: 3                      53 non-null     object 
 4   Unnamed: 4                      53 non-null     object 
 5   Taxa de crescimento natural     53 non-null     object 
 6   Taxa de crescimento migratório  52 non-null     object 
 7   Taxa de crescimento efetivo     52 non-null     object 
 8   Índice de envelhecimento (N.º)  53 non-null     object 
 9   Unnamed: 9                      53 non-null     object 
 10  Unnamed: 10                     53 non-null     object 
 11  Unnamed: 11                     0 non-null      float64
dtypes: float64(1), object(11)
memory usage

#### Os Indices das colunas devem ser renomeados para melhor entendimento do dataset.
#### Column indices should be renamed for better understanding of the dataset.

In [7]:
renomear_colunas = df.rename(columns={'População residente (N.º) (a)': 'Populacao Residente Total', 'Unnamed: 3': 'Populacao Homens', 'Unnamed: 4': 'Populacao Mulheres', 'Índice de envelhecimento (N.º)': 'Envelhecimento Populacional Total'})
renomear_colunas.head()

Unnamed: 0,Anos,Unnamed: 1,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total,Unnamed: 9,Unnamed: 10,Unnamed: 11
0,,,HM,H,M,(%),,,HM,H,M,
1,1900.0,,5 446 760,x,x,x,x,x,x,x,x,
2,1911.0,,5 999 146,x,x,x,x,x,x,x,x,
3,1920.0,,6 080 135,x,x,x,x,x,x,x,x,
4,1930.0,,6 802 429,x,x,x,x,x,x,x,x,


#### São eliminadas as colunas 'Unnamed: 1', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', pois não têm utilidade para o dataset.
#### The columns 'Unnamed: 1', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11' are deleted, as they are of no use to the dataset.

In [8]:
Apagar_4_colunas=renomear_colunas.drop(columns=['Unnamed: 1', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11'])
Apagar_4_colunas.head()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
0,,HM,H,M,(%),,,HM
1,1900.0,5 446 760,x,x,x,x,x,x
2,1911.0,5 999 146,x,x,x,x,x,x
3,1920.0,6 080 135,x,x,x,x,x,x
4,1930.0,6 802 429,x,x,x,x,x,x


#### A linha 0 é eliminada, pois não é necessária para o dataset, já que os índices foram renomeados.
#### Line 0 is deleted as it is not needed for the dataset, since the indexes have been renamed.

In [9]:
apagar_linha_0 = Apagar_4_colunas.drop(0)
apagar_linha_0.head()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
1,1900,5 446 760,x,x,x,x,x,x
2,1911,5 999 146,x,x,x,x,x,x
3,1920,6 080 135,x,x,x,x,x,x
4,1930,6 802 429,x,x,x,x,x,x
5,1940,7 755 423,3 734 348,4 021 075,x,x,x,202


In [10]:
apagar_linha_0.tail()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
52,2023,10 639 726,5 083 568,5 556 158,-31.0,147.0,116.0,1881.0
53,,,,,,,,
54,Nota:,,,,,,,
55,(a) 1900-1930 - recenseamentos gerais da popul...,,,,,,,
56,,,,,,,,


In [11]:
print(apagar_linha_0.index)

RangeIndex(start=1, stop=57, step=1)


#### É preciso ver se existem linhas duplicadas, assim será usado o método .duplicated()
#### You need to see if there are duplicate lines, so the .duplicated() method will be used.

In [12]:
duplicados = apagar_linha_0.duplicated()
ha_duplicados = duplicados.any() # true se existem

print(f"Existem Duplicados? {ha_duplicados}")

Existem Duplicados? True


#### É preciso saber quantas linhas duplicadas há.
#### You need to know how many duplicate lines there are.

In [13]:
num_duplicados = duplicados.sum()
print(f"Numero de linhas duplicadas: {num_duplicados}")

Numero de linhas duplicadas: 1


#### É preciso Verificar quais são as linhas duplicadas.

#### You need to check which lines are duplicates.

In [14]:
linhas_duplicadas = apagar_linha_0[apagar_linha_0.duplicated()]
print(linhas_duplicadas)

   Anos Populacao Residente Total Populacao Homens Populacao Mulheres  \
56  NaN                       NaN              NaN                NaN   

   Taxa de crescimento natural Taxa de crescimento migratório  \
56                         NaN                            NaN   

   Taxa de crescimento efetivo Envelhecimento Populacional Total  
56                         NaN                               NaN  


#### É preciso transformar dados não numéricos, células vazias ou com caracteres especiais, nulas em NaN.
#### It is necessary to transform non-numeric data, empty cells or cells with special characters, null into NaN

In [15]:
tranf_valor_nan = apagar_linha_0

In [None]:
# Substituir valores não numéricos comuns.
# Replace common non-numeric values.
tranf_valor_nan.replace({'-': np.nan,'x': np.nan, '?': np.nan, '': np.nan}, inplace=True)

In [16]:
tranf_valor_nan.head()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
1,1900,5 446 760,x,x,x,x,x,x
2,1911,5 999 146,x,x,x,x,x,x
3,1920,6 080 135,x,x,x,x,x,x
4,1930,6 802 429,x,x,x,x,x,x
5,1940,7 755 423,3 734 348,4 021 075,x,x,x,202


In [17]:
tranf_valor_nan.tail()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
52,2023,10 639 726,5 083 568,5 556 158,-31.0,147.0,116.0,1881.0
53,,,,,,,,
54,Nota:,,,,,,,
55,(a) 1900-1930 - recenseamentos gerais da popul...,,,,,,,
56,,,,,,,,


In [18]:
# Remover linhas desnecessárias, como notas no final (se existirem)
# Remove unnecessary lines, such as notes at the end (if any)
linhas_desnecessarias = tranf_valor_nan.dropna(thresh=2)  # mantém apenas linhas com 2+ valores não NaN (ajustar conforme necessário) / keeps only rows with 2+ non-NaN values (adjust as necessary)

#### Verificar se os valores estão consistentes.
#### Check if the values ​​are consistent.

In [19]:
linhas_desnecessarias.head()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
1,1900,5 446 760,x,x,x,x,x,x
2,1911,5 999 146,x,x,x,x,x,x
3,1920,6 080 135,x,x,x,x,x,x
4,1930,6 802 429,x,x,x,x,x,x
5,1940,7 755 423,3 734 348,4 021 075,x,x,x,202


In [20]:
linhas_desnecessarias.tail()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
48,2019,10 375 395,4 926 990,5 448 405,-24,65,40,1694
49,2020,10 394 297,4 942 871,5 451 426,-37,56,18,1756
50,2021,10 421 117,4 967 262,5 453 855,-43,69,26,1813
51,2022,10 516 621,5 020 648,5 495 973,-39,130,91,1844
52,2023,10 639 726,5 083 568,5 556 158,-31,147,116,1881


#### Os valores das colunas 'Populacao Residente Total', 'Populacao Homem', 'Populacao Mulheres' estão com espaçamento, é preciso removê-los para transformá-los em valores numéricos inteiros.
#### The values ​​in the columns 'Populacao Residente Total', 'Populacao Homem', 'Populacao Mulheres' have spaces, they need to be removed to transform them into integer numeric values.

In [21]:
esp_valor = linhas_desnecessarias

In [None]:
colunas = ['Populacao Residente Total', 'Populacao Homens', 'Populacao Mulheres']

# Remover espaços e converter para string antes de converter para numérico
# Remove spaces and convert to string before converting to numeric
esp_valor[colunas] = esp_valor[colunas].astype(str).apply(lambda x: x.str.replace(' ', ''))

In [23]:
esp_valor.tail()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
48,2019,10375395,4926990,5448405,-24,65,40,1694
49,2020,10394297,4942871,5451426,-37,56,18,1756
50,2021,10421117,4967262,5453855,-43,69,26,1813
51,2022,10516621,5020648,5495973,-39,130,91,1844
52,2023,10639726,5083568,5556158,-31,147,116,1881


#### Logo após, será preciso modificar o tipo das variáveis das colunas 'Anos', 'Populacao Residente Total', 'Populacao Homens', 'Populacao Mulheres' de object para valores inteiros e o restantes das variáveis para float.
#### Afterwards, you will need to change the type of the variables in the columns 'Anos', 'Populacao Residente Total', 'Populacao Homens', 'Populacao Mulheres' from object to integer values ​​and the remaining variables to float.

In [24]:
change_var_int = esp_valor

In [None]:
change_var_int = ['Anos', 'Populacao Residente Total', 'Populacao Homens', 'Populacao Mulheres']

for col in change_var_int:
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').astype('Int64')  # converte o valor para int permitindo NaNs / converts the value to int allowing NaNs

In [26]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, 1 to 52
Data columns (total 8 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   Anos                               52 non-null     Int64 
 1   Populacao Residente Total          52 non-null     Int64 
 2   Populacao Homens                   48 non-null     Int64 
 3   Populacao Mulheres                 48 non-null     Int64 
 4   Taxa de crescimento natural        52 non-null     object
 5   Taxa de crescimento migratório     52 non-null     object
 6   Taxa de crescimento efetivo        52 non-null     object
 7   Envelhecimento Populacional Total  52 non-null     object
dtypes: Int64(4), object(4)
memory usage: 3.9+ KB


In [27]:
esp_valor.head()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
1,1900,5446760,,,x,x,x,x
2,1911,5999146,,,x,x,x,x
3,1920,6080135,,,x,x,x,x
4,1930,6802429,,,x,x,x,x
5,1940,7755423,3734348.0,4021075.0,x,x,x,202


In [28]:
esp_valor.tail()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
48,2019,10375395,4926990,5448405,-24,65,40,1694
49,2020,10394297,4942871,5451426,-37,56,18,1756
50,2021,10421117,4967262,5453855,-43,69,26,1813
51,2022,10516621,5020648,5495973,-39,130,91,1844
52,2023,10639726,5083568,5556158,-31,147,116,1881


#### É preciso modificar tipo de variaveis das colunas restantes de object pra float, retirar espaços entre os dados e mudar valores separados por virgula em ponto.
#### It is necessary to change the variable type of the remaining columns from object to float, remove spaces between the data and change values ​​separated by comma to dot.

In [None]:
# Seleciono colunas restantes do tipo object para converter em float
# Select remaining columns of type object to convert to float
colunas_para_float = [col for col in esp_valor.columns if col not in change_var_int and esp_valor[col].dtype == 'object']

# Converte colunas restantes para float com tratamento para espaços e valores inválidos, modificando virgula para ponto
# Convert remaining columns to float with treatment for spaces and invalid values, changing comma to dot 
for col in colunas_para_float:
    esp_valor[col] = esp_valor[col].astype(str).str.replace(' ', '').str.replace(',', '.')
    esp_valor[col] = pd.to_numeric(esp_valor[col], errors='coerce').astype('float64')

In [30]:
esp_valor.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, 1 to 52
Data columns (total 8 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Anos                               52 non-null     Int64  
 1   Populacao Residente Total          52 non-null     Int64  
 2   Populacao Homens                   48 non-null     Int64  
 3   Populacao Mulheres                 48 non-null     Int64  
 4   Taxa de crescimento natural        46 non-null     float64
 5   Taxa de crescimento migratório     47 non-null     float64
 6   Taxa de crescimento efetivo        47 non-null     float64
 7   Envelhecimento Populacional Total  48 non-null     float64
dtypes: Int64(4), float64(4)
memory usage: 3.9 KB


#### Após completar o ETL verificar os dados do dataset e adicionar a variavel final.
#### After completing the ETL, check the dataset data and add the final variable.

In [33]:
indice_demografico_1900_a_2023 = esp_valor

In [34]:
indice_demografico_1900_a_2023.head()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
1,1900,5446760,,,,,,
2,1911,5999146,,,,,,
3,1920,6080135,,,,,,
4,1930,6802429,,,,,,
5,1940,7755423,3734348.0,4021075.0,,,,20.2


In [35]:
indice_demografico_1900_a_2023.tail()

Unnamed: 0,Anos,Populacao Residente Total,Populacao Homens,Populacao Mulheres,Taxa de crescimento natural,Taxa de crescimento migratório,Taxa de crescimento efetivo,Envelhecimento Populacional Total
48,2019,10375395,4926990,5448405,-0.24,0.65,0.4,169.4
49,2020,10394297,4942871,5451426,-0.37,0.56,0.18,175.6
50,2021,10421117,4967262,5453855,-0.43,0.69,0.26,181.3
51,2022,10516621,5020648,5495973,-0.39,1.3,0.91,184.4
52,2023,10639726,5083568,5556158,-0.31,1.47,1.16,188.1


In [36]:
indice_demografico_1900_a_2023.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, 1 to 52
Data columns (total 8 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Anos                               52 non-null     Int64  
 1   Populacao Residente Total          52 non-null     Int64  
 2   Populacao Homens                   48 non-null     Int64  
 3   Populacao Mulheres                 48 non-null     Int64  
 4   Taxa de crescimento natural        46 non-null     float64
 5   Taxa de crescimento migratório     47 non-null     float64
 6   Taxa de crescimento efetivo        47 non-null     float64
 7   Envelhecimento Populacional Total  48 non-null     float64
dtypes: Int64(4), float64(4)
memory usage: 3.9 KB


#### Ao finalizar o ETL, o dataset é renomeado e salvo em um novo arquivo 'ETL_Indice_Demografico_1900_a_2023.csv'.
#### Upon completion of the ETL, the dataset is renamed and saved in a new file 'ETL_Indice_Demografico_1900_a_2023.csv'.

In [38]:
caminho_arquivo = os.path.join('ETL_Indice_Demografico_1900_a_2023.csv')
indice_demografico_1900_a_2023.to_csv(caminho_arquivo, index=False, sep=';')