# Análise de Gastos Mensais

## 02 - Entendimento dos dados
Neste notebook será realizado o entendimento inicial do conjunto de dados utilizado no projeto. O objetivo é explorar a estrutura do dataset, identificar as variáveis disponíveis, seus tipos de dados e verificar se os dados estão adequados para as análises estatísticas propostas.


### 2.1 Importação das bibliotecas

Nesta etapa, são importadas as bibliotecas que serão utilizadas ao longo da análise. Essas ferramentas fornecem os recursos necessários para manipulação, organização e processamento dos dados, além de servirem como base para as análises estatísticas realizadas nos próximos passos.

- **pandas**: biblioteca utilizada para manipulação e análise de dados estruturados, permitindo a criação, limpeza, transformação e exploração de tabelas de dados por meio de DataFrames.

- **numpy**: biblioteca fundamental para computação numérica em Python, fornecendo suporte a operações matemáticas eficientes e estruturas como arrays, que servem de base para diversas análises estatísticas.


In [None]:
import pandas as pd
import numpy as np

### 2.2 Leitura do dataset

Nesta etapa, o conjunto de dados é carregado para o ambiente de análise a partir de um arquivo no formato CSV. A leitura do dataset permite transformar os dados brutos em uma estrutura tabular, facilitando sua manipulação, visualização e análise nas etapas seguintes do projeto.

O arquivo contém os registros dos gastos mensais fictícios e é importado utilizando a biblioteca pandas, sendo armazenado em um DataFrame chamado `df`, que servirá como base para todas as análises subsequentes.

In [5]:
df = pd.read_csv("../data/raw/gastos.csv")

### 2.3 Visualização inicial dos dados

Após a leitura do dataset, é importante realizar uma visualização inicial dos dados para compreender sua estrutura geral. Essa etapa permite verificar como as informações estão organizadas, identificar as colunas disponíveis, observar exemplos de registros e confirmar se a importação ocorreu corretamente.

A visualização inicial também auxilia na detecção preliminar de possíveis inconsistências, como valores ausentes, tipos de dados inesperados ou erros de formatação, que podem impactar as análises posteriores.


In [6]:
df.head()

Unnamed: 0,mes,categoria,valor_gasto,quantidade_compras,forma_pagamento,tipo_gasto
0,Janeiro,Aluguel,1000.0,1,Pix,Fixo
1,Janeiro,Internet,99.9,1,Debito,Fixo
2,Janeiro,Telefone,59.99,1,Debito,Fixo
3,Janeiro,Mercado,557.89,4,Debito,Variavel
4,Janeiro,Alimentacao,347.13,13,Credito,Variavel


### 2.4 Dimensões do dataset

Nesta etapa, é analisado o tamanho do conjunto de dados, identificando a quantidade de registros (linhas) e de variáveis (colunas) presentes no dataset. Essa verificação é importante para compreender a escala dos dados que serão utilizados nas análises posteriores e garantir que a estrutura esteja de acordo com o esperado. O formato do retorno é (linhas, colunas)

In [4]:
df.shape

(144, 6)

### 2.5 Descrição das variáveis

Nesta etapa, são apresentadas e descritas as variáveis que compõem o conjunto de dados. O objetivo é esclarecer o significado de cada coluna, o tipo de informação que ela representa e como será utilizada ao longo da análise.

Essa descrição facilita a compreensão do dataset, evita interpretações incorretas e serve como base para as etapas de análise exploratória e estatística descritiva.

As variáveis do conjunto de dados são:

- **mes**: indica o mês de referência do gasto, variando de janeiro a dezembro.
- **categoria**: representa a categoria do gasto, como aluguel, alimentação, transporte, lazer, entre outras.
- **valor_gasto**: corresponde ao valor monetário gasto na categoria durante o mês, expresso em reais.
- **quantidade_compras**: indica o número de compras ou ocorrências associadas ao gasto no mês.
- **forma_pagamento**: informa a forma de pagamento utilizada, como crédito, débito ou boleto.
- **tipo_gasto**: classifica o gasto como fixo ou variável.

### 2.5 Classificação das variáveis

Nesta etapa, as variáveis do conjunto de dados são classificadas de acordo com seu tipo estatístico. Essa classificação é fundamental para definir quais técnicas de análise e visualização são mais adequadas em cada caso.

A classificação das variáveis é a seguinte:

- **mes**  
  Tipo: *Qualitativo ordinal*  
  Justificativa: representa categorias com uma ordem natural (janeiro a dezembro).

- **categoria**  
  Tipo: *Qualitativo nominal*  
  Justificativa: representa categorias distintas de gastos, sem uma ordem específica.

- **valor_gasto**  
  Tipo: *Quantitativo contínuo*  
  Justificativa: representa valores monetários que podem assumir qualquer valor real dentro de um intervalo.

- **quantidade_compras**  
  Tipo: *Quantitativo discreto*  
  Justificativa: representa uma contagem de ocorrências, assumindo apenas valores inteiros.

- **forma_pagamento**  
  Tipo: *Qualitativo nominal*  
  Justificativa: indica categorias de pagamento sem hierarquia entre elas.

- **tipo_gasto**  
  Tipo: *Qualitativo nominal*  
  Justificativa: classifica os gastos em fixos ou variáveis, sem ordem entre as categorias.

Essa classificação será utilizada nas próximas etapas para orientar a escolha de medidas estatísticas e visualizações adequadas para cada tipo de dado.

### 2.6 Verificação de valores ausentes

Antes de avançar para as análises exploratórias e estatísticas, é importante verificar se o conjunto de dados possui valores ausentes (nulos). A presença de dados faltantes pode impactar os resultados da análise e exigir tratamentos específicos, como remoção ou imputação de valores. 

Para isso, é realizada uma verificação da quantidade de valores nulos em cada variável do dataset. Essa etapa permite avaliar a qualidade dos dados e confirmar se o conjunto está adequado para as próximas análises.

O código abaixo retorna o número de valores ausentes por coluna:

In [13]:
df.isnull().sum()

mes                   0
categoria             0
valor_gasto           0
quantidade_compras    0
forma_pagamento       0
tipo_gasto            0
dtype: int64

### Encerramento do Entendimento dos Dados

Com as etapas apresentadas neste notebook, foi possível compreender a estrutura do conjunto de dados, identificar e classificar as variáveis, além de verificar a presença de valores ausentes. Esse entendimento é fundamental para garantir que as análises realizadas nas próximas etapas sejam consistentes e confiáveis.

## Próximos Passos

No [próximo](03_analise_exploratoria.ipynb) notebook, será realizada a análise exploratória dos dados, utilizando tabelas resumo e visualizações gráficas, como histogramas, com o objetivo de identificar padrões, distribuições e possíveis comportamentos dos gastos ao longo do tempo.