# [M1S05] Ex. 01 - Leitura e Estruturação dos Dados (Pandas)

Importe os arquivos clientes.csv, pedidos.csv e produtos.csv usando Pandas. Explore os dados para entender sua estrutura.

Entrega: todo o desenvolvimento da prática deve ser realizado no Notebook Jupyter (local ou online), sendo anexado no card a entrega descrição.

In [1]:
import pandas as pd
import numpy as np

In [5]:
clientes_df = pd.read_csv('/content/clientes.csv')
pedidos_df = pd.read_csv('/content/pedidos.csv')
produtos_df = pd.read_csv('/content/produtos.csv')

## Visualizando dados

In [20]:
clientes_df.head()

Unnamed: 0,id_cliente,nome,idade,cidade
0,1,Ana Souza,28,Fortaleza
1,2,Carlos Lima,35,Recife
2,3,Mariana Alves,42,Salvador
3,4,João Pereira,31,Belo Horizonte
4,5,Luciana Costa,25,São Paulo


Vemos com a operação `head()` que os dados em clientes.csv estão distribuídos nas seguintes colunas:

- id_cliente: identificador único do cliente
- nome: nome do cliente
- idade: idade do cliente
- cidade: cidade de residência do cliente

In [21]:
pedidos_df.head()

Unnamed: 0,id_pedido,id_cliente,data_pedido,valor_total
0,101,1,2025-09-01,320.5
1,102,2,2025-09-03,780.0
2,103,3,2025-09-05,150.0
3,104,4,2025-09-07,540.9
4,105,5,2025-09-10,220.0


Já nos dados obtidos em pedidos.csv, trouxemos os seguintes dados:

- id_pedido: indentificador único do pedido
- id_cliente: indentificador único do cliente (comunicando-se com os dados anteriores em clientes.csv)
- data_pedido: data de realização do pedido
- valor_total: valor da compra efetuada pelo cliente num determinado pedido

In [22]:
produtos_df.head()

Unnamed: 0,id_produto,nome,categoria,preco
0,201,Fone Bluetooth,Eletrônicos,199.9
1,202,Notebook Gamer,Eletrônicos,4999.0
2,203,Livro Python,Livros,89.9
3,204,Cadeira Gamer,Móveis,799.0
4,205,Smartphone,Eletrônicos,2999.0


Por fim, os dados de produtos.csv trazem:

- id_produto: identificador único do produtdo no conjunto de dados da loja
- nome: nome do produto
- categoria: conjunto categórico do produto
- preco: valor unitário do produto em reais (R$)

## Verificar tipos e nulos

In [23]:
clientes_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id_cliente  10 non-null     int64 
 1   nome        10 non-null     object
 2   idade       10 non-null     int64 
 3   cidade      10 non-null     object
dtypes: int64(2), object(2)
memory usage: 452.0+ bytes


Com o método `info()` no conjunto de dados dos clientes, podemos aferir que há dados de valores númericos inteiros (id_cliente e idade) e dados qualitativos (nome e cidade). Temos dentro da tabela 10 registros e nenhum deles aparecem como nulas, como o método `isnull().sum()` abaixo evidencia.

In [36]:
clientes_df.isnull().sum()

Unnamed: 0,0
id_cliente,0
nome,0
idade,0
cidade,0


In [26]:
pedidos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_pedido    10 non-null     int64  
 1   id_cliente   10 non-null     int64  
 2   data_pedido  10 non-null     object 
 3   valor_total  10 non-null     float64
dtypes: float64(1), int64(2), object(1)
memory usage: 452.0+ bytes


Quanto aos dados de pedidos, também obtivemos 10 registros e nenhum nulo, confimado abaixo. Desta vez, além dos dados númericos discretos (id_pedido e id_cliente) também tivemos o dado numérico contínuo (valor_total) e, apesar de ser passado como strig, data_pedido deve ser transformado em um datetime para melhores maniulações futuras.

In [27]:
pedidos_df.isnull().sum()

Unnamed: 0,0
id_pedido,0
id_cliente,0
data_pedido,0
valor_total,0


In [28]:
produtos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_produto  10 non-null     int64  
 1   nome        10 non-null     object 
 2   categoria   10 non-null     object 
 3   preco       10 non-null     float64
dtypes: float64(1), int64(1), object(2)
memory usage: 452.0+ bytes


Por fim, obtivemos também 10 registros não nulos, com valores numéricos discretos (id_produto) e contínuo (preco). Outros dois dados categóricos foram passados (nome e categoria).

In [29]:
produtos_df.isnull().sum()

Unnamed: 0,0
id_produto,0
nome,0
categoria,0
preco,0


## Estatísticas

In [37]:
clientes_df.describe()

Unnamed: 0,id_cliente,idade
count,10.0,10.0
mean,5.5,33.3
std,3.02765,6.650814
min,1.0,25.0
25%,3.25,28.25
50%,5.5,32.0
75%,7.75,37.25
max,10.0,45.0


As estatísticas sugerem, ignorando o identificador dos clientes, que a média de idade nos registro é de 32 anos, ainda que a maior parte deles se aproximem dos 33 anos. A maior idade nos clientes aparece como 45 anos e a menor idade como 25.

In [31]:
pedidos_df.describe()

Unnamed: 0,id_pedido,id_cliente,valor_total
count,10.0,10.0,10.0
mean,105.5,5.5,508.14
std,3.02765,3.02765,364.60488
min,101.0,1.0,150.0
25%,103.25,3.25,242.5
50%,105.5,5.5,375.25
75%,107.75,7.75,720.225
max,110.0,10.0,1200.0


Sobre os pedidos, o valor médido gasto pelos clientes é de R\$ 375,25. Variando entre R\$ 150,00 a R$ 1200,00. Os clientes costumam fazer pedidos próximos de R\$ 508,14 na maior parte das vezes.

In [32]:
produtos_df.describe()

Unnamed: 0,id_produto,preco
count,10.0,10.0
mean,205.5,974.63
std,3.02765,1677.374824
min,201.0,39.9
25%,203.25,82.4
50%,205.5,164.9
75%,207.75,686.725
max,210.0,4999.0


Os preços dos produtos começam e R\$ 39,90 até R\$ 4999,00 e a média aparecem com R\$ 164,90. Dentro da variedade de produtos que temos registrados, a maior parte deles têm preços próximos de R\$ 974,63.