# Módulo 2: Mão na Massa - Análise Exploratória de Vendas 🕵️‍♀️

## Cenário

Parabéns! Você é o(a) novo(a) analista de dados da nossa lanchonete. Sua primeira tarefa é receber os dados de vendas, que estão em uma planilha, e fazer uma primeira exploração para entender a "saúde" dos nossos dados.

Neste módulo, vamos aprender a:
1.  Carregar dados de um arquivo `.csv`.
2.  Fazer uma exploração inicial para entender a estrutura dos dados.
3.  Identificar problemas comuns como tipos de dados incorretos e valores ausentes.
4.  Realizar a limpeza e transformação desses dados para deixá-los prontos para análise.

Vamos começar!

### Passo 0: Configuração do Ambiente

Toda análise de dados em Python começa com a importação das bibliotecas que vamos usar. A mais importante para nós é o **Pandas**. Vamos importá-la e dar o "apelido" de `pd`, que é uma convenção universal no mundo dos dados.

In [None]:
import pandas as pd

### Passo 1: Carregando os Dados

Nossos dados de vendas estão em um arquivo chamado `vendas_lanchonete.csv`, que está no nosso repositório do GitHub.

Usaremos a função `pd.read_csv()` para carregar esses dados diretamente da internet para um DataFrame do Pandas.

In [None]:
# URL do arquivo CSV bruto no GitHub
url = 'https://raw.githubusercontent.com/Miriam1s/mini_curso_inobar/main/vendas_lanchonete.csv'

# Carregando os dados em um DataFrame chamado 'df'
df = pd.read_csv(url)

### Passo 2: A Primeira Olhada (Análise Exploratória)

Ótimo! Os dados estão na memória. Mas como eles são? Antes de qualquer cálculo, precisamos "sentir" os dados. Vamos usar alguns comandos básicos para inspecionar nosso DataFrame.

#### 2.1 Visualizando as primeiras linhas

O comando `.head()` nos mostra as 5 primeiras linhas do DataFrame. É a forma mais rápida de ter uma ideia das colunas e do tipo de dado que elas contêm.

In [None]:
df.head()

> **Para Saber Mais:** Você pode passar um número para o `.head()` para ver mais (ou menos) linhas. Tente `df.head(10)`!
> Documentação oficial do `DataFrame.head()`

#### 2.2 Verificando a estrutura com `.info()`

O método `.info()` é um dos mais importantes. Ele nos dá um resumo técnico do DataFrame, incluindo:
- O número de linhas e colunas.
- O nome e a contagem de valores não-nulos de cada coluna.
- O **tipo de dado (Dtype)** de cada coluna.

In [None]:
df.info()

#### 🕵️ **Hora da Investigação! O que encontramos com o `.info()`?**

1.  **`RangeIndex: 8 entries`**: Nosso conjunto de dados tem 8 linhas.
2.  **`Data columns (total 5 columns)`**: Temos 5 colunas.
3.  **`Preco`**: Está como `object` (que geralmente significa texto/string). Isso é um problema! Não podemos fazer cálculos matemáticos (soma, média) com texto. O motivo é que o separador decimal está como vírgula (`,`) em vez de ponto (`.`).
4.  **`ID_Cliente`**: Tem apenas `6 non-null` valores, mas temos 8 linhas no total. Isso significa que há **2 valores ausentes (nulos)** nesta coluna. Precisamos decidir o que fazer com eles.
5.  **`Data`**: Também está como `object`. Para análises de tempo (vendas por dia, por mês), é muito melhor converter esta coluna para um tipo de data (`datetime`).

### Passo 3: Limpeza e Transformação de Dados

Agora que identificamos os problemas, vamos corrigi-los. Esta etapa é crucial e é onde um analista de dados passa grande parte do seu tempo.

#### 3.1 Corrigindo a coluna `Preco`

Precisamos fazer duas coisas:
1.  Substituir a vírgula (`,`) por ponto (`.`).
2.  Converter a coluna para um tipo numérico (`float`).

Podemos fazer isso em uma única linha de código, encadeando os métodos.

In [None]:
# Acessamos os métodos de string com .str, substituímos a vírgula e convertemos o tipo
df['Preco'] = df['Preco'].str.replace(',', '.').astype(float)

> **Para Saber Mais:**
> * `Series.str.replace()`: Usado para substituir texto em uma coluna.
> * `Series.astype()`: Usado para converter o tipo de dado de uma coluna.

#### 3.2 Tratando valores ausentes em `ID_Cliente`

Temos 2 vendas sem `ID_Cliente`. O que isso significa? Pode ser um cliente que não quis se identificar ou um erro de digitação. Para nossa análise, não podemos deixar esses valores em branco.

Uma estratégia comum é preencher esses valores com um número que não exista nos IDs de clientes, como `0` ou `-1`, para representar "Cliente Não Identificado". Vamos usar `0`.

Primeiro, vamos confirmar a quantidade de nulos:

In [None]:
df.isnull().sum()

Agora, vamos preencher os valores nulos com `0` e também converter a coluna para inteiro, já que IDs não precisam de casas decimais.

In [None]:
# Preenche os valores nulos (NaN) com 0
df['ID_Cliente'].fillna(0, inplace=True)

# Converte a coluna para o tipo inteiro
df['ID_Cliente'] = df['ID_Cliente'].astype(int)

> **Para Saber Mais:**
> * `Series.fillna()`: Preenche valores ausentes.
> * O argumento `inplace=True` modifica o DataFrame diretamente, sem a necessidade de fazer `df['ID_Cliente'] = ...`. Use com cuidado!

#### 3.3 Convertendo a coluna `Data`

Por fim, vamos converter a coluna `Data` para o formato `datetime`. Isso nos permitirá fazer filtros e agrupamentos por dia, mês ou ano de forma muito mais fácil no futuro.

In [None]:
df['Data'] = pd.to_datetime(df['Data'])

> **Para Saber Mais:**
> * `pandas.to_datetime()` é uma função poderosa que consegue converter a maioria dos formatos de texto em datas.

### Passo 4: Verificação Final

Fizemos todas as limpezas! Agora, vamos rodar o `.info()` e o `.head()` novamente para garantir que nossos dados estão perfeitos e prontos para a análise.

In [None]:
df.info()

**Sucesso!** 🎉

Observe as mudanças:
- `Data`: Agora é `datetime64[ns]`.
- `Preco`: Agora é `float64`.
- `ID_Cliente`: Agora é `int32` (ou `int64`) e tem 8 valores não-nulos.

Nossos dados estão limpos! Vamos ver como eles ficaram:

In [None]:
df.head(10) # Mostrando todas as 8 linhas

### Passo 5: Desafio! 🏆

Agora que os dados estão limpos, você pode começar a responder perguntas.

**Seu desafio:** Crie uma nova coluna chamada `Total_Venda`. Essa coluna deve ser o resultado da multiplicação da coluna `Quantidade` pela coluna `Preco`.

Isso nos dirá o valor total de cada transação.

In [None]:
# Escreva seu código aqui!
# Dica: df['Nova_Coluna'] = df['Coluna1'] * df['Coluna2']



#### Solução do Desafio

In [None]:
df['Total_Venda'] = df['Preco'] * df['Quantidade']
df.head(10)

## Conclusão do Módulo 2

Parabéns! Você completou uma das etapas mais importantes (e muitas vezes mais difíceis) da análise de dados: a **exploração e limpeza**.

Você aprendeu a:
✅ Carregar dados com o Pandas.
✅ Inspecionar a qualidade dos dados com `.head()` e `.info()`.
✅ Corrigir tipos de dados (`.astype()`, `.str.replace()`).
✅ Tratar valores ausentes (`.fillna()`).
✅ Criar novas colunas a partir de outras existentes.

Com um DataFrame limpo e estruturado, agora estamos prontos para a parte mais divertida: **gerar insights e visualizações!**

Nos vemos no Módulo 3!