# M√≥dulo 2: M√£o na Massa - An√°lise Explorat√≥ria de Vendas üïµÔ∏è‚Äç‚ôÄÔ∏è

## Cen√°rio

Parab√©ns! Voc√™ √© o(a) novo(a) analista de dados da nossa lanchonete. Sua primeira tarefa √© receber os dados de vendas, que est√£o em uma planilha, e fazer uma primeira explora√ß√£o para entender a "sa√∫de" dos nossos dados.

Neste m√≥dulo, vamos aprender a:
1.  Carregar dados de um arquivo `.csv`.
2.  Fazer uma explora√ß√£o inicial para entender a estrutura dos dados.
3.  Identificar problemas comuns como tipos de dados incorretos e valores ausentes.
4.  Realizar a limpeza e transforma√ß√£o desses dados para deix√°-los prontos para an√°lise.

Vamos come√ßar!

### Passo 0: Configura√ß√£o do Ambiente

Toda an√°lise de dados em Python come√ßa com a importa√ß√£o das bibliotecas que vamos usar. A mais importante para n√≥s √© o **Pandas**. Vamos import√°-la e dar o "apelido" de `pd`, que √© uma conven√ß√£o universal no mundo dos dados.

In [None]:
import pandas as pd

### Passo 1: Carregando os Dados

Nossos dados de vendas est√£o em um arquivo chamado `vendas_lanchonete.csv`, que est√° no nosso reposit√≥rio do GitHub.

Usaremos a fun√ß√£o `pd.read_csv()` para carregar esses dados diretamente da internet para um DataFrame do Pandas.

In [None]:
# URL do arquivo CSV bruto no GitHub
url = 'https://raw.githubusercontent.com/Miriam1s/mini_curso_inobar/main/vendas_lanchonete.csv'

# Carregando os dados em um DataFrame chamado 'df'
df = pd.read_csv(url)

### Passo 2: A Primeira Olhada (An√°lise Explorat√≥ria)

√ìtimo! Os dados est√£o na mem√≥ria. Mas como eles s√£o? Antes de qualquer c√°lculo, precisamos "sentir" os dados. Vamos usar alguns comandos b√°sicos para inspecionar nosso DataFrame.

#### 2.1 Visualizando as primeiras linhas

O comando `.head()` nos mostra as 5 primeiras linhas do DataFrame. √â a forma mais r√°pida de ter uma ideia das colunas e do tipo de dado que elas cont√™m.

In [None]:
df.head()

> **Para Saber Mais:** Voc√™ pode passar um n√∫mero para o `.head()` para ver mais (ou menos) linhas. Tente `df.head(10)`!
> Documenta√ß√£o oficial do `DataFrame.head()`

#### 2.2 Verificando a estrutura com `.info()`

O m√©todo `.info()` √© um dos mais importantes. Ele nos d√° um resumo t√©cnico do DataFrame, incluindo:
- O n√∫mero de linhas e colunas.
- O nome e a contagem de valores n√£o-nulos de cada coluna.
- O **tipo de dado (Dtype)** de cada coluna.

In [None]:
df.info()

#### üïµÔ∏è **Hora da Investiga√ß√£o! O que encontramos com o `.info()`?**

1.  **`RangeIndex: 8 entries`**: Nosso conjunto de dados tem 8 linhas.
2.  **`Data columns (total 5 columns)`**: Temos 5 colunas.
3.  **`Preco`**: Est√° como `object` (que geralmente significa texto/string). Isso √© um problema! N√£o podemos fazer c√°lculos matem√°ticos (soma, m√©dia) com texto. O motivo √© que o separador decimal est√° como v√≠rgula (`,`) em vez de ponto (`.`).
4.  **`ID_Cliente`**: Tem apenas `6 non-null` valores, mas temos 8 linhas no total. Isso significa que h√° **2 valores ausentes (nulos)** nesta coluna. Precisamos decidir o que fazer com eles.
5.  **`Data`**: Tamb√©m est√° como `object`. Para an√°lises de tempo (vendas por dia, por m√™s), √© muito melhor converter esta coluna para um tipo de data (`datetime`).

### Passo 3: Limpeza e Transforma√ß√£o de Dados

Agora que identificamos os problemas, vamos corrigi-los. Esta etapa √© crucial e √© onde um analista de dados passa grande parte do seu tempo.

#### 3.1 Corrigindo a coluna `Preco`

Precisamos fazer duas coisas:
1.  Substituir a v√≠rgula (`,`) por ponto (`.`).
2.  Converter a coluna para um tipo num√©rico (`float`).

Podemos fazer isso em uma √∫nica linha de c√≥digo, encadeando os m√©todos.

In [None]:
# Acessamos os m√©todos de string com .str, substitu√≠mos a v√≠rgula e convertemos o tipo
df['Preco'] = df['Preco'].str.replace(',', '.').astype(float)

> **Para Saber Mais:**
> * `Series.str.replace()`: Usado para substituir texto em uma coluna.
> * `Series.astype()`: Usado para converter o tipo de dado de uma coluna.

#### 3.2 Tratando valores ausentes em `ID_Cliente`

Temos 2 vendas sem `ID_Cliente`. O que isso significa? Pode ser um cliente que n√£o quis se identificar ou um erro de digita√ß√£o. Para nossa an√°lise, n√£o podemos deixar esses valores em branco.

Uma estrat√©gia comum √© preencher esses valores com um n√∫mero que n√£o exista nos IDs de clientes, como `0` ou `-1`, para representar "Cliente N√£o Identificado". Vamos usar `0`.

Primeiro, vamos confirmar a quantidade de nulos:

In [None]:
df.isnull().sum()

Agora, vamos preencher os valores nulos com `0` e tamb√©m converter a coluna para inteiro, j√° que IDs n√£o precisam de casas decimais.

In [None]:
# Preenche os valores nulos (NaN) com 0
df['ID_Cliente'].fillna(0, inplace=True)

# Converte a coluna para o tipo inteiro
df['ID_Cliente'] = df['ID_Cliente'].astype(int)

> **Para Saber Mais:**
> * `Series.fillna()`: Preenche valores ausentes.
> * O argumento `inplace=True` modifica o DataFrame diretamente, sem a necessidade de fazer `df['ID_Cliente'] = ...`. Use com cuidado!

#### 3.3 Convertendo a coluna `Data`

Por fim, vamos converter a coluna `Data` para o formato `datetime`. Isso nos permitir√° fazer filtros e agrupamentos por dia, m√™s ou ano de forma muito mais f√°cil no futuro.

In [None]:
df['Data'] = pd.to_datetime(df['Data'])

> **Para Saber Mais:**
> * `pandas.to_datetime()` √© uma fun√ß√£o poderosa que consegue converter a maioria dos formatos de texto em datas.

### Passo 4: Verifica√ß√£o Final

Fizemos todas as limpezas! Agora, vamos rodar o `.info()` e o `.head()` novamente para garantir que nossos dados est√£o perfeitos e prontos para a an√°lise.

In [None]:
df.info()

**Sucesso!** üéâ

Observe as mudan√ßas:
- `Data`: Agora √© `datetime64[ns]`.
- `Preco`: Agora √© `float64`.
- `ID_Cliente`: Agora √© `int32` (ou `int64`) e tem 8 valores n√£o-nulos.

Nossos dados est√£o limpos! Vamos ver como eles ficaram:

In [None]:
df.head(10) # Mostrando todas as 8 linhas

### Passo 5: Desafio! üèÜ

Agora que os dados est√£o limpos, voc√™ pode come√ßar a responder perguntas.

**Seu desafio:** Crie uma nova coluna chamada `Total_Venda`. Essa coluna deve ser o resultado da multiplica√ß√£o da coluna `Quantidade` pela coluna `Preco`.

Isso nos dir√° o valor total de cada transa√ß√£o.

In [None]:
# Escreva seu c√≥digo aqui!
# Dica: df['Nova_Coluna'] = df['Coluna1'] * df['Coluna2']



#### Solu√ß√£o do Desafio

In [None]:
df['Total_Venda'] = df['Preco'] * df['Quantidade']
df.head(10)

## Conclus√£o do M√≥dulo 2

Parab√©ns! Voc√™ completou uma das etapas mais importantes (e muitas vezes mais dif√≠ceis) da an√°lise de dados: a **explora√ß√£o e limpeza**.

Voc√™ aprendeu a:
‚úÖ Carregar dados com o Pandas.
‚úÖ Inspecionar a qualidade dos dados com `.head()` e `.info()`.
‚úÖ Corrigir tipos de dados (`.astype()`, `.str.replace()`).
‚úÖ Tratar valores ausentes (`.fillna()`).
‚úÖ Criar novas colunas a partir de outras existentes.

Com um DataFrame limpo e estruturado, agora estamos prontos para a parte mais divertida: **gerar insights e visualiza√ß√µes!**

Nos vemos no M√≥dulo 3!