# Aula 4 – Estatísticas, funções e tratamento de dados ausentes

**🎯 Objetivo da Aula**

Aprender a:

* gerar estatísticas descritivas rapidamente,

* aplicar funções personalizadas com apply, map e lambda,

* entender e tratar valores ausentes (NaN).

Esses recursos são o coração do pré-processamento de dados, etapa essencial antes de qualquer análise.

**🧠 1. Teoria simples**

O pandas oferece métodos prontos para resumo estatístico, mas também permite aplicar funções customizadas em colunas e linhas.

Além disso, dados do mundo real sempre têm valores ausentes (NaN) — entender como identificá-los e tratá-los é indispensável.

**💻 2. Demonstração prática**

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Produto": ["Notebook", "Mouse", "Teclado", "Monitor", "Headset"],
    "Preço": [2500, 45.90, 120, np.nan, 199.50],
    "Vendas": [20, 13, 35, 50, np.nan]
})
print(df)

    Produto   Preço  Vendas
0  Notebook  2500.0    20.0
1     Mouse    45.9    13.0
2   Teclado   120.0    35.0
3   Monitor     NaN    50.0
4   Headset   199.5     NaN


**🔹 Estatísticas descritivas**

In [4]:
print(df.describe())       # resumo numérico
print(df["Preço"].mean())  # média de uma coluna
print(df["Vendas"].sum())  # soma
print(df["Produto"].value_counts())  # contagem de categorias

             Preço     Vendas
count     4.000000   4.000000
mean    716.350000  29.500000
std    1190.752951  16.462078
min      45.900000  13.000000
25%     101.475000  18.250000
50%     159.750000  27.500000
75%     774.625000  38.750000
max    2500.000000  50.000000
716.35
118.0
Produto
Notebook    1
Mouse       1
Teclado     1
Monitor     1
Headset     1
Name: count, dtype: int64


**🔹 Aplicação de funções**

Usando `apply()` e `lambda`

In [5]:
# Preço com desconto de 10%
df["Preço_Desconto"] = df["Preço"].apply(lambda x: x * 0.9 if pd.notnull(x) else x)
print(df)

    Produto   Preço  Vendas  Preço_Desconto
0  Notebook  2500.0    20.0         2250.00
1     Mouse    45.9    13.0           41.31
2   Teclado   120.0    35.0          108.00
3   Monitor     NaN    50.0             NaN
4   Headset   199.5     NaN          179.55


Usando `map()` em `Series`

In [6]:
# Converter para letras maiúsculas
df["Produto"] = df["Produto"].map(str.upper)

**🔹 Tratando valores ausentes**

In [7]:
print(df.isnull())         # identifica valores nulos
print(df.isnull().sum())   # total de nulos por coluna

# Remover linhas com NaN
df_sem_nulos = df.dropna()

# Substituir valores ausentes
df_preenchido = df.fillna({"Preço": df["Preço"].mean(), "Vendas": 0})

   Produto  Preço  Vendas  Preço_Desconto
0    False  False   False           False
1    False  False   False           False
2    False  False   False           False
3    False   True   False            True
4    False  False    True           False
Produto           0
Preço             1
Vendas            1
Preço_Desconto    1
dtype: int64


**💡 Dica:**

`dropna()` → remove dados incompletos (bom para datasets grandes e limpos).

`fillna()` → preenche lacunas (útil quando a perda de dados é indesejada).


**3. Exemplo do mundo real: limpeza de dados de vendas**

In [8]:
vendas = pd.DataFrame({
    "Produto": ["Notebook", "Mouse", "Monitor", "Headset", "Teclado"],
    "Preço": [np.nan, 49.90, 799.00, 199.50, np.nan],
    "Quantidade": [10, 25, np.nan, 40, 30]
})

# Mostrar dados faltantes
print(vendas.isnull().sum())

# Substituir preço ausente pela média
vendas["Preço"].fillna(vendas["Preço"].mean(), inplace=True)

# Substituir quantidades ausentes por 0
vendas["Quantidade"].fillna(0, inplace=True)

# Calcular receita total
vendas["Receita"] = vendas["Preço"] * vendas["Quantidade"]
print(vendas)

Produto       0
Preço         2
Quantidade    1
dtype: int64
    Produto       Preço  Quantidade       Receita
0  Notebook  349.466667        10.0   3494.666667
1     Mouse   49.900000        25.0   1247.500000
2   Monitor  799.000000         0.0      0.000000
3   Headset  199.500000        40.0   7980.000000
4   Teclado  349.466667        30.0  10484.000000


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  vendas["Preço"].fillna(vendas["Preço"].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  vendas["Quantidade"].fillna(0, inplace=True)


# Exercícios

**Fácil**

Crie um DataFrame com colunas `Produto`, `Preço`, `Estoque`.

Mostre as estatísticas com `.describe()`.

Mostre a soma e média dos preços.

Mostre quantos produtos diferentes existem (`value_counts()`).

In [16]:
df_produtos = pd.DataFrame({
    "Produto": ["Notebook", "Mouse", "Teclado", "Monitor", "Headset", "Tablet", "Impressora", "SSD", "Webcam", "Cadeira"],
    "Preço": [3200.00, 89.90, 249.00, 899.00, 199.50, 1150.00, 689.00, 389.90, 159.00, 1299.00],
    "Estoque": [15, 42, 28, 12, 35, 8, 10, 50, 25, 5]
})

print(df_produtos)
print(f"\n{df_produtos.describe()}")
print(f"\nSoma dos preços:\nR${df_produtos["Preço"].sum():.2f}")
print(f"\nMedia dos preços:\nR${df_produtos["Preço"].mean():.2f}")
print(f"\nQuantidade de Produtos:\n{df_produtos["Produto"].value_counts()}")

      Produto   Preço  Estoque
0    Notebook  3200.0       15
1       Mouse    89.9       42
2     Teclado   249.0       28
3     Monitor   899.0       12
4     Headset   199.5       35
5      Tablet  1150.0        8
6  Impressora   689.0       10
7         SSD   389.9       50
8      Webcam   159.0       25
9     Cadeira  1299.0        5

             Preço    Estoque
count    10.000000  10.000000
mean    832.430000  23.000000
std     936.341119  15.513435
min      89.900000   5.000000
25%     211.875000  10.500000
50%     539.450000  20.000000
75%    1087.250000  33.250000
max    3200.000000  50.000000

Soma dos preços:
R$8324.30

Media dos preços:
R$832.43

Quantidade de Produtos:
Produto
Notebook      1
Mouse         1
Teclado       1
Monitor       1
Headset       1
Tablet        1
Impressora    1
SSD           1
Webcam        1
Cadeira       1
Name: count, dtype: int64


**Intermediário**

Monte um DataFrame com colunas `Produto`, `Custo`, `Venda`, `Lucro`.

Use `apply` e `lambda` para calcular a margem de lucro em `%`.

Mostre os produtos com lucro acima de 30%.

In [None]:
df_lucro = pd.DataFrame({
    "Produto": ["Notebook", "Mouse", "Teclado", "Monitor", "Headset", "Tablet", "Impressora", "SSD", "Webcam", "Cadeira"],
    "Custo": [2500.00, 45.00, 150.00, 650.00, 120.00, 850.00, 450.00, 250.00, 90.00, 800.00],
    "Venda": [3200.00, 89.90, 249.00, 899.00, 199.50, 1150.00, 689.00, 389.90, 159.00, 1299.00],
    "Lucro": [700.00, 44.90, 99.00, 249.00, 79.50, 300.00, 239.00, 139.90, 69.00, 499.00]
})

df_lucro["Margem_Lucro"] = df_lucro.apply(lambda row: (row["Lucro"] / row["Venda"]) * 100, axis=1)

print(round(df_lucro, 2))

filtro_margem_30_lucro = df_lucro["Margem_Lucro"] > 30

print(round(df_lucro[filtro_margem_30_lucro], 2))

      Produto   Custo   Venda  Lucro  Margem_Lucro
0    Notebook  2500.0  3200.0  700.0         21.88
1       Mouse    45.0    89.9   44.9         49.94
2     Teclado   150.0   249.0   99.0         39.76
3     Monitor   650.0   899.0  249.0         27.70
4     Headset   120.0   199.5   79.5         39.85
5      Tablet   850.0  1150.0  300.0         26.09
6  Impressora   450.0   689.0  239.0         34.69
7         SSD   250.0   389.9  139.9         35.88
8      Webcam    90.0   159.0   69.0         43.40
9     Cadeira   800.0  1299.0  499.0         38.41
      Produto  Custo   Venda  Lucro  Margem_Lucro
1       Mouse   45.0    89.9   44.9         49.94
2     Teclado  150.0   249.0   99.0         39.76
4     Headset  120.0   199.5   79.5         39.85
6  Impressora  450.0   689.0  239.0         34.69
7         SSD  250.0   389.9  139.9         35.88
8      Webcam   90.0   159.0   69.0         43.40
9     Cadeira  800.0  1299.0  499.0         38.41


**Desafio (aplicação real)**

Monte um DataFrame com colunas `Cliente`, `Idade`, `Gasto_Total`.
Simule alguns valores ausentes (use `np.nan`).

Use `isnull().sum()` para detectar os faltantes.

Preencha idades ausentes com a média das idades.

Preencha `Gasto_Total` ausente com `0`.

Crie uma coluna `Faixa_Etária`:

até 25 anos → "Jovem"

26–40 → "Adulto"

40 → "Sênior"

💡 Dica: use `.apply(lambda x: ...)` com condições.

In [27]:
df_clientes = pd.DataFrame({
    "Cliente": ["Ana Silva", "Carlos Santos", "Maria Oliveira", "João Pereira", "Fernanda Lima", 
                "Ricardo Alves", "Juliana Costa", "Pedro Souza", "Camila Rocha", "Lucas Martins"],
    "Idade": [24, np.nan, 35, 42, 29, np.nan, 31, 38, 23, 45],
    "Gasto_Total": [1250.00, 890.50, np.nan, 2100.00, 745.80, 1320.00, np.nan, 1680.90, 920.00, np.nan]
})

print(df_clientes)

df_clientes["Faixa_Etária"] = df_clientes["Idade"].apply(
    lambda idade: "Jovem" if idade <= 25 else
                 "Adulto" if idade <= 40 else
                 "Sênior" if pd.notnull(idade) else
                 np.nan
)

print(df_clientes)

          Cliente  Idade  Gasto_Total
0       Ana Silva   24.0       1250.0
1   Carlos Santos    NaN        890.5
2  Maria Oliveira   35.0          NaN
3    João Pereira   42.0       2100.0
4   Fernanda Lima   29.0        745.8
5   Ricardo Alves    NaN       1320.0
6   Juliana Costa   31.0          NaN
7     Pedro Souza   38.0       1680.9
8    Camila Rocha   23.0        920.0
9   Lucas Martins   45.0          NaN
          Cliente  Idade  Gasto_Total Faixa_Etária
0       Ana Silva   24.0       1250.0        Jovem
1   Carlos Santos    NaN        890.5          NaN
2  Maria Oliveira   35.0          NaN       Adulto
3    João Pereira   42.0       2100.0       Sênior
4   Fernanda Lima   29.0        745.8       Adulto
5   Ricardo Alves    NaN       1320.0          NaN
6   Juliana Costa   31.0          NaN       Adulto
7     Pedro Souza   38.0       1680.9       Adulto
8    Camila Rocha   23.0        920.0        Jovem
9   Lucas Martins   45.0          NaN       Sênior
