# 01 - Pré-processamento dos Dados

Este notebook realiza a importação, filtragem, padronização e unificação dos dados de obras públicas do IFSP no período de 2014 a 2024. Os dados foram extraídos do Portal da Transparência e estão organizados por ano em arquivos CSV.

In [None]:
# Importação de bibliotecas
import pandas as pd
import os
import glob

## Leitura e consolidação dos arquivos CSV
Vamos localizar todos os arquivos na pasta `dados/` com extensão `.csv` e combiná-los em um único DataFrame.

In [None]:
# Localiza todos os arquivos CSV na pasta 'dados'
caminho_arquivos = glob.glob('../dados/*.csv')

# Lista para armazenar os DataFrames de cada arquivo
lista_df = []

# Leitura de cada arquivo e adição à lista
for arquivo in caminho_arquivos:
    df = pd.read_csv(arquivo, sep=';', encoding='latin1')  # ajustar separador e codificação se necessário
    lista_df.append(df)

# Combinação de todos os DataFrames em um só
df_consolidado = pd.concat(lista_df, ignore_index=True)

## Visualização inicial dos dados
Vamos verificar as primeiras linhas do DataFrame consolidado.

In [None]:
df_consolidado.head()

## Seleção de colunas relevantes e padronização de nomes
Selecionamos apenas as colunas úteis para a análise e padronizamos seus nomes para facilitar o uso posterior.

In [None]:
# Renomear colunas de interesse (exemplo, pode ser ajustado conforme os arquivos reais)
df_consolidado = df_consolidado.rename(columns={
    'Ano': 'ano',
    'Mês': 'mes',
    'CNPJ Favorecido': 'cnpj',
    'Valor Empenhado': 'valor_empenhado',
    'Valor Pago': 'valor_pago',
    'Número do Empenho': 'n_empenho',
    'Fase': 'fase'
})

## Exportação do DataFrame consolidado para CSV
Salvamos a base de dados unificada em um novo arquivo para ser utilizado nas etapas seguintes da análise.

In [None]:
# Salvar arquivo consolidado
df_consolidado.to_csv('../dados/OBRAS_IFSP_2014_2024.csv', index=False, encoding='utf-8')