<a href="https://colab.research.google.com/github/BVictorsk/SDW23_ETL/blob/main/sdw2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto de Pipeline de ETL para Acompanhamento de Gastos Pessoais

**Contexto:** Este projeto tem como objetivo criar um Pipeline de ETL (Extração, Transformação e Carga) no ambiente do Google Colab para realizar o acompanhamento de gastos pessoais. O acompanhamento de gastos é uma prática importante para manter o controle financeiro e tomar decisões informadas sobre finanças pessoais.

**Processos de ETL**

**E**xtract:
> Nesta fase, vamos extrair os dados de um arquivo CSV que contém informações sobre os gastos pessoais. O arquivo CSV pode ser obtido a partir de fontes como aplicativos bancários, planilhas ou outras fontes de registro de despesas. Vamos usar bibliotecas Python para importar esses dados no ambiente do Google Colab.

**T**ransform:
>Uma vez que os dados tenham sido extraídos, realizaremos diversas transformações para prepará-los para análise. Isso pode incluir limpeza de dados, conversão de tipos, agregação e cálculos para criar métricas relevantes. Por exemplo, podemos calcular despesas totais por categoria, médias mensais de gastos e outras estatísticas úteis.

**L**oad:
>Após a transformação dos dados, vamos carregá-los em um local de armazenamento adequado. Isso pode ser um banco de dados, uma planilha, ou outro formato de armazenamento que facilite a consulta e a análise dos dados no futuro.

**Objetivos do Projeto**

- Controle financeiro: Acompanhar os gastos pessoais ajuda a controlar despesas e evitar o endividamento excessivo.
- Tomada de decisões informadas: Com dados concretos sobre seus gastos, você pode tomar decisões financeiras mais bem embasadas.
- Aprendizado de ETL: Este projeto oferece uma oportunidade de aprender sobre o processo de Extração, Transformação e Carga de dados, uma habilidade valiosa em ciência de dados e análise de dados.

## Preparação do ambiente

### Importando Bibliotecas

In [64]:
import pandas as pd

### Criação de DataFrame

In [65]:
arquivo_csv = '/content/sdw23.csv'
df = pd.read_csv(arquivo_csv)
print(df)

          Data          Categoria   Valor
0   2023-01-02        Alimentação   50.00
1   2023-01-03              Lazer   45.50
2   2023-01-03        Alimentação   65.70
3   2023-01-03      Conta de água  155.76
4   2023-01-02        Alimentação  150.20
5   2023-01-06   Conta de energia  185.00
6   2023-01-07  Conta de internet  126.99
7   2023-01-08         Transporte   30.00
8   2023-01-15        Alimentação  200.20
9   2023-01-20  Cartão de crédito  650.00
10  2023-02-03        Alimentação  350.40
11  2023-02-03              Lazer   75.00
12  2023-02-03      Conta de água  135.90
13  2023-02-07  Conta de internet  127.00
14  2023-02-03              Lazer     NaN
15  2023-01-06   Conta de energia  195.00
16  2023-02-08         Transporte   60.00
17  2023-03-01        Alimentação  555.00
18  2023-03-01                NaN  700.00
19  2023-03-03        Alimentação  350.40
20  2023-03-03              Lazer  100.00
21  2023-03-03      Conta de água  135.90
22  2023-03-07  Conta de internet 

## Transformação dos Dados

### Transformação de dados com assitencia do ChatGPT

***Caso deseje utilizar o chat gpt para assistencia na Limpeza , Agregação, Filtragem dos dados***

```
api_key = 'sua chave'

# Função para obter assistência do ChatGPT
def get_help(texto):
    answer = openai.Completion.create(
        engine="text-davinci-002",
        prompt=texto,
        max_tokens=50,  # Ajuste o número de tokens conforme necessário
        api_key=api_key
    )
    return answer.choices[0].text

# Exemplo de uso para obter assistência na transformação dos dados
example_text = "Preciso de ajuda para limpar os valores ausentes no meu conjunto de dados."
help = get_help(example_text)
print(assistencia)
```




### Transformação Manual

***Limpeza de dados:*** Caso possua linhas com valores ausentes, essas serão removidas

In [69]:
df.dropna(inplace=True)
print(df)

          Data          Categoria   Valor
0   2023-01-02        Alimentação   50.00
1   2023-01-03              Lazer   45.50
2   2023-01-03        Alimentação   65.70
3   2023-01-03      Conta de água  155.76
4   2023-01-02        Alimentação  150.20
5   2023-01-06   Conta de energia  185.00
6   2023-01-07  Conta de internet  126.99
7   2023-01-08         Transporte   30.00
8   2023-01-15        Alimentação  200.20
9   2023-01-20  Cartão de crédito  650.00
10  2023-02-03        Alimentação  350.40
11  2023-02-03              Lazer   75.00
12  2023-02-03      Conta de água  135.90
13  2023-02-07  Conta de internet  127.00
15  2023-01-06   Conta de energia  195.00
16  2023-02-08         Transporte   60.00
17  2023-03-01        Alimentação  555.00
19  2023-03-03        Alimentação  350.40
20  2023-03-03              Lazer  100.00
21  2023-03-03      Conta de água  135.90
22  2023-03-07  Conta de internet  127.00
23  2023-03-03              Lazer   45.00
24  2023-03-06   Conta de energia 

***Agregação de Dados:*** Função Calcula a soma dos gastos por categoria.

In [70]:
# Converter a coluna 'Data' para o tipo de data
df['Data'] = pd.to_datetime(df['Data'])

# Extraia o mês da coluna 'Data' e crie uma nova coluna 'Mês'
df['Mês'] = df['Data'].dt.strftime('%Y-%m')

# gastos por categoria (gpc)
gpc = df.groupby(['Mês', 'Categoria'])['Valor'].sum().reset_index()

# Exiba os gastos por mês e categoria
print(gpc)

        Mês          Categoria   Valor
0   2023-01        Alimentação  466.10
1   2023-01  Cartão de crédito  650.00
2   2023-01   Conta de energia  380.00
3   2023-01  Conta de internet  126.99
4   2023-01      Conta de água  155.76
5   2023-01              Lazer   45.50
6   2023-01         Transporte   30.00
7   2023-02        Alimentação  350.40
8   2023-02  Conta de internet  127.00
9   2023-02      Conta de água  135.90
10  2023-02              Lazer   75.00
11  2023-02         Transporte   60.00
12  2023-03        Alimentação  905.40
13  2023-03   Conta de energia  195.00
14  2023-03  Conta de internet  127.00
15  2023-03      Conta de água  135.90
16  2023-03              Lazer  145.00
17  2023-03         Transporte   60.00


***Filtragem de Dados:*** Seleciona apenas gastos que forem maiores que um valor específico, por exemplo, R$ 50,00.

In [74]:
# Gastos acima de 50 (ga50)
ga50 = gpc[gpc['Valor'] > 100.00]
print(ga50)

        Mês          Categoria   Valor
0   2023-01        Alimentação  466.10
1   2023-01  Cartão de crédito  650.00
2   2023-01   Conta de energia  380.00
3   2023-01  Conta de internet  126.99
4   2023-01      Conta de água  155.76
7   2023-02        Alimentação  350.40
8   2023-02  Conta de internet  127.00
9   2023-02      Conta de água  135.90
12  2023-03        Alimentação  905.40
13  2023-03   Conta de energia  195.00
14  2023-03  Conta de internet  127.00
15  2023-03      Conta de água  135.90
16  2023-03              Lazer  145.00


***Renomear Colunas:*** Renomeie as colunas do DataFrame, se necessário.

In [79]:
ga50.rename(columns={'Mês': 'Mês da Compra', 'Categoria': 'Tipo de Despesa'}, inplace=True)

# Crie um novo DataFrame chamado 'df_transformado' com os dados transformados
df_transformado = ga50.copy()

   Mês da Compra    Tipo de Despesa   Valor
0        2023-01        Alimentação  466.10
1        2023-01  Cartão de crédito  650.00
2        2023-01   Conta de energia  380.00
3        2023-01  Conta de internet  126.99
4        2023-01      Conta de água  155.76
7        2023-02        Alimentação  350.40
8        2023-02  Conta de internet  127.00
9        2023-02      Conta de água  135.90
12       2023-03        Alimentação  905.40
13       2023-03   Conta de energia  195.00
14       2023-03  Conta de internet  127.00
15       2023-03      Conta de água  135.90
16       2023-03              Lazer  145.00


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ga50.rename(columns={'Mês': 'Mês da Compra', 'Categoria': 'Tipo de Despesa'}, inplace=True)


## Salvar os Dados (Load)

Salve os dados transformados em um novo arquivo CSV ou em outro formato de sua escolha.

In [84]:
#novo caminho do arquivo (nca)
nca = '/content/sdw23_transformado.csv'

# Salve os dados transformados em um novo arquivo CSV
df_transformado.to_csv(nca, index=False, float_format='%.2f')