# Lendo dados com Pandas
Pandas é a principal biblioteca de Python para análise de dados tabulares (tipo Excel).

Ela permite:
- Ler arquivos de dados
- Manipular colunas e linhas
- Fazer cálculos e estatísticas
- Criar filtros e agrupamentos


## 📌 Código completo
```python
import pandas as pd

df = pd.read_csv("clientes.csv")
df.head()
```

In [1]:
import pandas as pd

In [None]:
df_clientes_raw = pd.read_csv("datasets/clientes_dataset.csv")

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/clientes_dataset.csv'

In [5]:
df_clientes_raw.head()

Unnamed: 0,cliente_id,nome,email,idade,cidade,estado,data_ultima_compra,total_gasto,frequencia_compras,forma_pagamento,satisfacao,cliente_ativo
0,1,Norma Fisher,christopherbond@yahoo.com,62,Elliottmouth,NJ,2025-01-26,4635.94,21,Crédito,1,False
1,2,Jorge Sullivan,jeaton@yahoo.com,65,East Adam,PA,2024-05-24,1615.33,5,Boleto,4,False
2,3,Elizabeth Woods,mfuller@jones-taylor.com,18,Whitetown,GA,2024-09-29,2075.77,13,Boleto,3,True
3,4,Susan Wagner,lauren75@gmail.com,21,Jamesside,RI,2025-01-03,3202.0,22,Débito,5,False
4,5,Peter Montgomery,tdaugherty@pratt-crawford.com,21,Heidiborough,TN,2024-11-28,4464.2,18,Crédito,5,True


## Linha 1: `import pandas as pd`
- Importa a biblioteca `pandas`, que é usada para análise de dados em Python.
- O `as pd` é um **apelido** para evitar escrever `pandas` toda hora.

## Linha 2: `df = pd.read_csv("clientes.csv")`
- Lê um arquivo CSV chamado `clientes.csv`.
- O conteúdo vira um **DataFrame**, que é uma tabela com linhas e colunas.
- `df` é o nome que damos para esse DataFrame.


## Linha 3: `df.head()`
- Mostra as 5 primeiras linhas do DataFrame.
- Muito útil para **verificar se a leitura do arquivo funcionou corretamente**.

## Extras úteis:
- `df.shape` → mostra quantas linhas e colunas existem
- `df.columns` → mostra os nomes das colunas
- `df.info()` → mostra tipos de dados e valores nulos
- `df.describe()` → mostra estatísticas básicas das colunas numéricas

##Como saber se precisa de parênteses?

- Se for algo que você quer “ver” ou “pegar” → provavelmente é atributo (sem parênteses).

- Se for algo que você quer “fazer” ou “pedir” para rodar → provavelmente é função (com parênteses).

In [6]:
df_clientes_raw.shape

(1000, 12)

In [7]:
df_clientes_raw.columns

Index(['cliente_id', 'nome', 'email', 'idade', 'cidade', 'estado',
       'data_ultima_compra', 'total_gasto', 'frequencia_compras',
       'forma_pagamento', 'satisfacao', 'cliente_ativo'],
      dtype='object')

In [9]:
df_clientes_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   cliente_id          1000 non-null   int64  
 1   nome                1000 non-null   object 
 2   email               1000 non-null   object 
 3   idade               1000 non-null   int64  
 4   cidade              1000 non-null   object 
 5   estado              1000 non-null   object 
 6   data_ultima_compra  1000 non-null   object 
 7   total_gasto         1000 non-null   float64
 8   frequencia_compras  1000 non-null   int64  
 9   forma_pagamento     1000 non-null   object 
 10  satisfacao          1000 non-null   int64  
 11  cliente_ativo       1000 non-null   bool   
dtypes: bool(1), float64(1), int64(4), object(6)
memory usage: 87.0+ KB


In [10]:
df_clientes_raw.describe()

Unnamed: 0,cliente_id,idade,total_gasto,frequencia_compras,satisfacao
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,43.267,2546.46217,12.27,3.35
std,288.819436,15.242311,1426.640132,6.603234,1.25502
min,1.0,18.0,100.3,1.0,1.0
25%,250.75,30.0,1305.9925,7.0,3.0
50%,500.5,43.0,2546.455,12.0,4.0
75%,750.25,56.0,3775.495,18.0,4.0
max,1000.0,69.0,4999.28,24.0,5.0


# Problemas comuns

Nem todo arquivo de dados está bem formatado. Aqui estão os erros mais comuns e como resolvê-los.

## 1️⃣ Separador errado
- O pandas assume que o separador é vírgula (`,`)
- No Brasil, muitos arquivos usam ponto e vírgula (`;`)

### Sintoma:
- Só aparece **uma coluna** com tudo misturado

### Solução:
```python
df = pd.read_csv("arquivo.csv", sep=";")
```

## 2️⃣ Problema de codificação (encoding)
- Arquivos com acentos ou ç podem estar com codificação diferente de UTF-8

### Sintoma:
- Erros como `UnicodeDecodeError`
- Caracteres estranhos: `Ã`, `Ã©`, `Ã§`

### Solução:
```python
df = pd.read_csv("arquivo.csv", encoding="latin1")
```

## 3️⃣ Cabeçalho na linha errada
- Às vezes o nome das colunas não está na primeira linha do arquivo

### Sintoma:
- Colunas chamadas `Unnamed: 0`, `Unnamed: 1`, etc.

### Solução:
```python
df = pd.read_csv("arquivo.csv", header=1)  # pula a primeira linha
```

## 4️⃣ Arquivo Excel com múltiplas abas
- O `read_excel()` por padrão lê apenas a primeira aba

### Solução:
```python
df = pd.read_excel("arquivo.xlsx", sheet_name="Planilha2")
```

In [13]:
df_clientes_excel_raw = pd.read_excel("/content/clientes_dataset.csv")

ValueError: Excel file format cannot be determined, you must specify an engine manually.

In [15]:
df_clientes_excel_raw.head()

Unnamed: 0,cliente_id,nome,email,idade,cidade,estado,data_ultima_compra,total_gasto,frequencia_compras,forma_pagamento,satisfacao,cliente_ativo
0,1,Norma Fisher,christopherbond@yahoo.com,62,Elliottmouth,NJ,2025-01-26,4635.94,21,Crédito,1,False
1,2,Jorge Sullivan,jeaton@yahoo.com,65,East Adam,PA,2024-05-24,1615.33,5,Boleto,4,False
2,3,Elizabeth Woods,mfuller@jones-taylor.com,18,Whitetown,GA,2024-09-29,2075.77,13,Boleto,3,True
3,4,Susan Wagner,lauren75@gmail.com,21,Jamesside,RI,2025-01-03,3202.0,22,Débito,5,False
4,5,Peter Montgomery,tdaugherty@pratt-crawford.com,21,Heidiborough,TN,2024-11-28,4464.2,18,Crédito,5,True


## ✅ Boas práticas para evitar erros
- Sempre olhe o arquivo em um editor de texto antes (como Bloco de Notas)
- Use `df.head()` e `df.info()` para conferir se os dados foram lidos corretamente
- Teste manualmente diferentes parâmetros: `sep`, `encoding`, `header`, `sheet_name`
- Documente suas decisões de leitura no notebook!