# Estatística com Python - Aula 1: Entendendo os dados

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('base.csv')

In [57]:
df.head()

Unnamed: 0,id_compra,sexo_biologico,idade_cliente,regiao_cliente,categoria_produto,preco_unitario,quantidade,total_compra,tempo_entrega,avaliacao
0,9f86e969-221a-4b1a-9b48-9aba719b61cf,Masculino,33,Sul,Ferramentas e Construção,96.8,2,193.6,18,1
1,659f9b07-be10-4849-b2ab-dd542498a1e8,Feminino,33,Nordeste,Alimentos e Bebidas,247.68,1,247.68,6,4
2,d317d7df-1126-42e5-bf4b-0e178bd4e14e,Feminino,36,Sudeste,Eletrônicos,627.46,2,1254.92,8,5
3,bb99bcf6-b333-493e-9ec2-c39f8695503c,Feminino,21,Sul,Eletrônicos,2025.07,8,16200.56,6,5
4,898e4624-84e9-4c41-b181-66d3b7ccfef7,Masculino,31,Centro-Oeste,Papelaria e Escritório,99.24,5,496.2,13,5


In [6]:
# verificando a quantidade de linhas e colunas
df.shape

(200000, 10)

In [7]:
# verificando os tipos de dados e se há valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   id_compra          200000 non-null  object 
 1   sexo_biologico     200000 non-null  object 
 2   idade_cliente      200000 non-null  int64  
 3   regiao_cliente     200000 non-null  object 
 4   categoria_produto  200000 non-null  object 
 5   preco_unitario     200000 non-null  float64
 6   quantidade         200000 non-null  int64  
 7   total_compra       200000 non-null  float64
 8   tempo_entrega      200000 non-null  int64  
 9   avaliacao          200000 non-null  int64  
dtypes: float64(2), int64(4), object(4)
memory usage: 15.3+ MB


**O valor: non-null indica que não há valores nulos. Se houvesse a quantidade de linhas retornadas para aquela coluna seria menor do que o total porque os valores nulos não são contados**

In [17]:
# verificando todas as categorias de produtos existentes de forma única no e-commerce
df['categoria_produto'].unique()

array(['Ferramentas e Construção', 'Alimentos e Bebidas', 'Eletrônicos',
       'Papelaria e Escritório', 'Beleza e Cuidados Pessoais',
       'Casa e Mobílias', 'Roupas, Calçados e Acessórios', 'Livros',
       'Brinquedos', 'Esporte e Lazer'], dtype=object)

In [14]:
# verificando quantas categorias de produtos existem de forma única no e-commerce
df['categoria_produto'].unique().size

10

In [16]:
# usando drop_duplicates as duplicatas são removidas e é retornado uma série com os valores únicos
df['categoria_produto'].drop_duplicates()

0          Ferramentas e Construção
1               Alimentos e Bebidas
2                       Eletrônicos
4            Papelaria e Escritório
5        Beleza e Cuidados Pessoais
6                   Casa e Mobílias
8     Roupas, Calçados e Acessórios
11                           Livros
20                       Brinquedos
25                  Esporte e Lazer
Name: categoria_produto, dtype: object

In [24]:
# extraindo as notas da avaliação de forma única
df['avaliacao'].unique()

array([1, 4, 5, 3, 2])

In [42]:
# ordenando as notas das avaliações
sorted(df['avaliacao'].unique())

[np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5)]

## Criando variáveis categóricas com Pandas

Método ensinado pela professora

In [53]:
# criando variáveis categóricas com o pandas
df['avaliacao_indicador'] = pd.Categorical(df['avaliacao'], categories=[1, 2, 3, 4, 5], ordered=True)

# dicionário com chave (avaliacao) e valor (categoria)
avaliacao_labels =  {1: 'Péssimo', 2: 'Ruim', 3: 'Regular', 4: 'Bom', 5: 'Ótimo'}

# mapeando os valores
df['avaliacao_indicador'] = df['avaliacao_indicador'].map(avaliacao_labels)

In [54]:
# verificando se o mapeamento foi feito de forma correta
df[['avaliacao', 'avaliacao_indicador']].drop_duplicates()

Unnamed: 0,avaliacao,avaliacao_indicador
0,1,Péssimo
1,4,Bom
2,5,Ótimo
8,3,Regular
14,2,Ruim


In [55]:
# exibindo o dataframe com a nova coluna de avaliacao_indicador
df.head()

Unnamed: 0,id_compra,sexo_biologico,idade_cliente,regiao_cliente,categoria_produto,preco_unitario,quantidade,total_compra,tempo_entrega,avaliacao,avaliacao_indicador
0,9f86e969-221a-4b1a-9b48-9aba719b61cf,Masculino,33,Sul,Ferramentas e Construção,96.8,2,193.6,18,1,Péssimo
1,659f9b07-be10-4849-b2ab-dd542498a1e8,Feminino,33,Nordeste,Alimentos e Bebidas,247.68,1,247.68,6,4,Bom
2,d317d7df-1126-42e5-bf4b-0e178bd4e14e,Feminino,36,Sudeste,Eletrônicos,627.46,2,1254.92,8,5,Ótimo
3,bb99bcf6-b333-493e-9ec2-c39f8695503c,Feminino,21,Sul,Eletrônicos,2025.07,8,16200.56,6,5,Ótimo
4,898e4624-84e9-4c41-b181-66d3b7ccfef7,Masculino,31,Centro-Oeste,Papelaria e Escritório,99.24,5,496.2,13,5,Ótimo


## Criando variáveis categóricas com Pandas

Método ensinado pelo ChatGPT

In [59]:
# df['avaliacao_indicador'] = (
#     pd.Categorical(
#         df['avaliacao'],
#         categories=[1, 2, 3, 4, 5],
#         ordered=True
#     )
#     .rename_categories(['Péssimo', 'Ruim', 'Regular', 'Bom', 'Ótimo'])
# )

# df.head()

## Analisando as variáveis quantitivas discretas e contínuas

In [60]:
# extraindo os valores da quantidade de vendas de forma única
df['quantidade'].unique()

array([ 2,  1,  8,  5,  3,  7,  6,  4, 10,  9])

In [61]:
# buscando a maior quantidade vendida
df['quantidade'].max()

np.int64(10)

In [62]:
# buscando a menor quantidade vendida
df['quantidade'].min()

np.int64(1)

In [67]:
# buscando o maior valor de compra
df['total_compra'].max()

np.float64(20744.7)

In [68]:
# buscando o menor valor de compra
df['total_compra'].min()

np.float64(5.05)