In [21]:
import pandas as pd

df = pd.DataFrame({
    "id_venda": [1, 2, 3, 4, 5, 6],
    "produto": ["Notebook", "Mouse", "Notebook", "Teclado", "Mouse", "Notebook"],
    "categoria": ["Eletrônicos", "Acessórios", "Eletrônicos", "Acessórios", "Acessórios", "Eletrônicos"],
    "valor": [3500, 150, 3600, 300, None, 3400],
    "data_venda": ["2024-01-10", "2024-01-12", "2024-02-05", "2024-02-10", "2024-02-15", None]
})

In [22]:
df.head()
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_venda    6 non-null      int64  
 1   produto     6 non-null      object 
 2   categoria   6 non-null      object 
 3   valor       5 non-null      float64
 4   data_venda  5 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 372.0+ bytes


Unnamed: 0,id_venda,valor
count,6.0,5.0
mean,3.5,2190.0
std,1.870829,1795.967706
min,1.0,150.0
25%,2.25,300.0
50%,3.5,3400.0
75%,4.75,3500.0
max,6.0,3600.0


In [23]:
df["data_venda"] = pd.to_datetime(df["data_venda"])
df["valor"] = df["valor"].fillna(0)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id_venda    6 non-null      int64         
 1   produto     6 non-null      object        
 2   categoria   6 non-null      object        
 3   valor       6 non-null      float64       
 4   data_venda  5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 372.0+ bytes


In [24]:
#Linhas e colunas do df
df.shape

(6, 5)

In [25]:
#Listar apenas colunas de produto e valor
df[["produto", "valor"]]

Unnamed: 0,produto,valor
0,Notebook,3500.0
1,Mouse,150.0
2,Notebook,3600.0
3,Teclado,300.0
4,Mouse,0.0
5,Notebook,3400.0


In [26]:
#Vendas da categoria Acessórios
df[df["categoria"] == "Acessórios"]

Unnamed: 0,id_venda,produto,categoria,valor,data_venda
1,2,Mouse,Acessórios,150.0,2024-01-12
3,4,Teclado,Acessórios,300.0,2024-02-10
4,5,Mouse,Acessórios,0.0,2024-02-15


In [27]:
#Quantas vendas tem valor prenchido
df.isna().sum()

id_venda      0
produto       0
categoria     0
valor         0
data_venda    1
dtype: int64

In [28]:
#Ordenar o df pelo valor descrescente
df.sort_values(by="valor", ascending=False)

Unnamed: 0,id_venda,produto,categoria,valor,data_venda
2,3,Notebook,Eletrônicos,3600.0,2024-02-05
0,1,Notebook,Eletrônicos,3500.0,2024-01-10
5,6,Notebook,Eletrônicos,3400.0,NaT
3,4,Teclado,Acessórios,300.0,2024-02-10
1,2,Mouse,Acessórios,150.0,2024-01-12
4,5,Mouse,Acessórios,0.0,2024-02-15


In [33]:
#total de vendas por mes
df_analise = df
df_analise["mes_venda"] = df_analise["data_venda"].dt.strftime("%b")
df_analise.groupby(by="mes_venda")["valor"].sum().reset_index()

Unnamed: 0,mes_venda,valor
0,Feb,3900.0
1,Jan,3650.0


In [35]:
#produto que aparece mais vezes
df_analise["produto"].value_counts()

produto
Notebook    3
Mouse       2
Teclado     1
Name: count, dtype: int64

In [36]:
#Valores faltantes em cada coluna
df_analise.isna().sum()

id_venda      0
produto       0
categoria     0
valor         0
data_venda    1
mes_venda     1
dtype: int64

In [37]:
# categoria com mais faturamento
df_analise.groupby(by="categoria")["valor"].sum()

categoria
Acessórios       450.0
Eletrônicos    10500.0
Name: valor, dtype: float64

In [42]:
df.shape
df.isna().sum()

id_venda      0
produto       0
categoria     0
valor         0
data_venda    1
mes_venda     1
dtype: int64

In [43]:
df.groupby(by="categoria")["valor"].sum()

categoria
Acessórios       450.0
Eletrônicos    10500.0
Name: valor, dtype: float64

In [44]:
df.nlargest(3, "valor")

Unnamed: 0,id_venda,produto,categoria,valor,data_venda,mes_venda
2,3,Notebook,Eletrônicos,3600.0,2024-02-05,Feb
0,1,Notebook,Eletrônicos,3500.0,2024-01-10,Jan
5,6,Notebook,Eletrônicos,3400.0,NaT,


In [45]:
df.groupby(by="produto")["valor"].mean()

produto
Mouse         75.0
Notebook    3500.0
Teclado      300.0
Name: valor, dtype: float64