# Construindo um Pipeline ETL com Python - Análise de Dados de Fomento à Cultura

Neste notebook, vamos construir um pipeline ETL (Extração, Transformação e Carga) para analisar dados de fomento à cultura a partir de um arquivo CSV. Vamos extrair os números de projetos e os valores captados por região e unidade federativa, calcular médias por região e criar gráficos para visualizar os valores originais e as médias.

Para isso, seguiremos as etapas a seguir:
1. Extração de dados do arquivo CSV.
2. Transformação dos dados para calcular médias por região.
3. Criação de gráficos para visualização dos valores originais e médias.


In [1]:
# Etapa 1: Extração de dados
import matplotlib.pyplot as plt
import pandas as pd

# Carregando os dados do arquivo CSV
file_path = "grid_Comparativo_Captacao_PorAno_Regiao_UF.csv"
df = pd.read_csv('grid_Comparativo_Captacao_PorAno_Regiao_UF.csv')

# Visualizando as primeiras linhas do DataFrame
print(df.head())

In [2]:
# Etapa 2: Transformação dos dados

# Dividir o trecho de dados em linhas
lines = data.split('\n')

# Dividir as linhas em partes separadas por ';'
data_list = [line.split(';') for line in lines]

# Remover linhas em branco
data_list = [line for line in data_list if line]

# Criar um DataFrame
df = pd.DataFrame(data_list[1:], columns=data_list[0])

# Reorganizar as colunas de 'Valor Captado' para ficar ao lado das colunas de anos
columns = df.columns.tolist()
captado_columns = [col for col in columns if "Vl.Captado" in col]

# Criar um novo DataFrame para armazenar os valores com tags de ano
df_com_anos = df[['', 'Quantidade']]
for col in captado_columns:
    ano = col.split(';')[0]
    df_com_anos[ano] = df[col].str.replace(',', '', regex=False).str.replace('.', '', regex=False).str.replace(' ', '', regex=False).str.replace('R$', '', regex=False).astype(float)

# Converter as colunas de 'Valor Captado' para tipo numérico
df_com_anos = df_com_anos.fillna(0)

# Calcular a média por região
media_por_regiao = df_com_anos.groupby('').mean().reset_index()

# Exibir o DataFrame com tags de ano e as médias por região
print(df_com_anos)
print(media_por_regiao)

# Calculando a média por região
media_por_regiao = df.groupby('Região')['Valor Captado'].mean().reset_index()

# Visualizando as médias
media_por_regiao

In [3]:
# Etapa 3: Criação de gráficos
import seaborn as sns

# Gráfico de barras para valores originais
plt.figure(figsize=(12, 6))
sns.barplot(data=df, x='Unidade Federativa', y='Valor Captado', hue='Região')
plt.title('Valores Originais por Região e Unidade Federativa')
plt.xticks(rotation=90)
plt.show()

# Gráfico de barras para médias por região
plt.figure(figsize=(10, 5))
sns.barplot(data=media_por_regiao, x='Região', y='Valor Captado')
plt.title('Médias por Região')
plt.xticks(rotation=45)
plt.show()