# Limpeza de Dados para Análise de Séries Temporais

## Objetivos:
- Limpar e preparar os dados para análise de séries temporais.


In [3]:
# Importar bibliotecas necessárias
import pandas as pd


In [4]:
# Carregar o ficheiro CSV original num DataFrame
caminho_ficheiro = 'births_PT.csv'
df = pd.read_csv(caminho_ficheiro)

df.head()


Unnamed: 0,PopName,Area,Year,YearReg,Month,Vital,Births,Access,Note1,Note2,Note3,RefCode,LDB
0,PRT,1,1901,.,1,1,15178,O,.,.,.,1,1
1,PRT,1,1901,.,2,1,15826,O,.,.,.,1,1
2,PRT,1,1901,.,3,1,14132,O,.,.,.,1,1
3,PRT,1,1901,.,4,1,16179,O,.,.,.,1,1
4,PRT,1,1901,.,5,1,15070,O,.,.,.,1,1


In [5]:
# Filtrar linhas onde o valor da coluna 'Month' não é numérico
df = df[df['Month'].apply(lambda x: x.isnumeric())]

# Converter 'Year' e 'Month' para o tipo de dados string
df['Year'] = df['Year'].astype(str)
df['Month'] = df['Month'].astype(str)

# Criar uma nova coluna 'Date' combinando 'Year' e 'Month'
df['Date'] = pd.to_datetime(df['Year'] + '-' + df['Month'] + '-01')

df.head()


Unnamed: 0,PopName,Area,Year,YearReg,Month,Vital,Births,Access,Note1,Note2,Note3,RefCode,LDB,Date
0,PRT,1,1901,.,1,1,15178,O,.,.,.,1,1,1901-01-01
1,PRT,1,1901,.,2,1,15826,O,.,.,.,1,1,1901-02-01
2,PRT,1,1901,.,3,1,14132,O,.,.,.,1,1,1901-03-01
3,PRT,1,1901,.,4,1,16179,O,.,.,.,1,1,1901-04-01
4,PRT,1,1901,.,5,1,15070,O,.,.,.,1,1,1901-05-01


In [6]:
# Eliminar colunas irrelevantes
colunas_a_eliminar = ['PopName', 'Area', 'Year', 'YearReg', 'Month', 'Vital', 'Access', 'Note1', 'Note2', 'Note3', 'RefCode', 'LDB']
df_limpo = df.drop(columns=colunas_a_eliminar)

df_limpo.head()


Unnamed: 0,Births,Date
0,15178,1901-01-01
1,15826,1901-02-01
2,14132,1901-03-01
3,16179,1901-04-01
4,15070,1901-05-01


## Conclusão

Os dados estão agora limpos e prontos para análises adicionais.


In [8]:
# Salvar o DataFrame limpo num novo ficheiro CSV
caminho_ficheiro_saida = 'births_PT_limpo.csv'
df_limpo.to_csv(caminho_ficheiro_saida, index=False)

caminho_ficheiro_saida


'births_PT_limpo.csv'