# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# VII. Introdução ao **pandas** (parte 1)

Este notebook é um guia **prático** para estudar a biblioteca **pandas**.

O **pandas** é uma biblioteca do Python voltada para análise e manipulação de dados. Fornece estruturas de dados rápidas e flexíveis que facilitam trabalhar com tabelas, planilhas e séries temporais.

Principais estruturas do **pandas**:
- `Series`: é como uma coluna de uma planilha ou uma lista com rótulos (índices).
- `DataFrame`: é como uma tabela, formada por linhas e colunas, similar a uma planilha do Excel ou uma tabela de banco de dados.

O que dá para fazer com **pandas**?
- Carregar dados de várias fontes: CSV, Excel, SQL, JSON, Parquet, etc.
- Limpar e transformar dados: remover valores nulos, filtrar linhas, renomear colunas, alterar tipos de dados.
- Analisar dados: calcular médias, somas, contagens, estatísticas descritivas.
- Agrupar e combinar dados: juntar várias tabelas, agrupar por categorias e resumir valores.
- Trabalhar com datas e séries temporais: muito usado em dados financeiros e científicos.
- Exportar dados: salvar resultados em diferentes formatos.

Conforme vimos anteriormente, o **numpy** é uma biblioteca para computação numérica em Python, oferecendo arrays eficientes e operações vetorizadas rápidas. No entanto, sua flexibilidade para manipular dados é limitada: arrays do **numpy** exigem tipos **homogêneos** e não possuem rótulos para linhas e colunas, o que dificulta operações como seleção por nome, manipulação de dados e integração com fontes de dados variadas. Por isso, o **pandas** se destaca ao facilitar o trabalho com tabelas e dados heterogêneos. O **pandas** utiliza o **numpy** para armazenar e processar dados de forma eficiente, aproveitando a velocidade dos arrays do **numpy**, mas adicionando rótulos e funcionalidades avançadas para manipulação de tabelas.

In [24]:
# Importação das bibliotecas
!pip install pandas numpy
import pandas as pd
import numpy as np

pd.__version__ # exibe a versão instalada (opcional)




[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: C:\Users\renan\AppData\Local\Programs\Python\Python312\python.exe -m pip install --upgrade pip


'2.3.2'

## 1. Series <a id="sec1"></a>
Uma `Series` é um vetor 1D, similar ao `ndarrays` do **numpy**, porém com a possibilidade de definição de **rótulos** (índices). `Series` podem ser vistas como equivalentes aos dicionários python, porém mais eficientes.

Pense em `Series` como uma tabela de duas colunas invisíveis com:
- Índice (rótulos)
- Valores (dados)

In [25]:
# ndarray
a = np.array([10, 20, 30])
print("ndarray do numpy:", a)

# series sem definição do índice
s = pd.Series([10, 20, 30])
print("\nSeries do pandas:\n", s)

# series com definição do índice
s = pd.Series([10, 20, 30], index=["a","b","c"], name="valores")
print("\nSeries do pandas:\n", s)

ndarray do numpy: [10 20 30]

Series do pandas:
 0    10
1    20
2    30
dtype: int64

Series do pandas:
 a    10
b    20
c    30
Name: valores, dtype: int64


A partir das `Series` é possível consultar os **dados** por meio dos *índices* e *posições*.

In [26]:
print(s['b'])   # consulta o índice 'b'
#print(s[1])       # consulta pelo número da posição (1 = segunda posição)

print(s[['a','c']])  # consulta múltiplos índices

print(s.iloc[1])  # consulta pelo número da posição (1 = segunda posição)
print(s.loc['b'])  # consulta pelo rótulo do índice ('b')

20
a    10
c    30
Name: valores, dtype: int64
20
20


A principal diferença entre `.loc` e `.iloc` está na forma como selecionam dados em uma `Series` (ou `Dataframe`):

- `.loc` seleciona **por rótulo** (nome do índice ou coluna). 
  - Por exemplo: `s.loc[0]` acessa o valor cujo índice é `0`, enquanto `s.loc[3]` acessa o valor cujo índice é `3`, mesmo que os índices não estejam em ordem.
- `.iloc` seleciona **por posição** (inteiro baseado na ordem). 
  - Por exemplo: `s.iloc[0]` acessa o **primeiro** elemento da `Series`, `s.iloc[3]` acessa o **quarto** elemento, independentemente do nome do índice.

É possível também consultar todos os valores ou todos os índices, chamando os métodos *values* ou *index* sobre a `Series`.

In [27]:
print(s.values) # retorna os valores em forma de ndarray
# s.values.tolist() # converte para lista (opcional)

print(s.index) # retorna os índices
# s.index.tolist() # converte para lista (opcional)

# É possível consultar propriedades adicionais da Series:
print(s.name) # retorna o nome da Series
print(s.shape) # retorna o shape da Series
print(s.dtype) # retorna o dtype dos elementos da Series
print(s.size) # retorna o tamanho da Series
print(s.ndim) # retorna o número de dimensões da Series

[10 20 30]
Index(['a', 'b', 'c'], dtype='object')
valores
(3,)
int64
3
1


Como a `Series` é baseada no `ndarray` do **numpy**, é possível realizar operações vetorizadas diretamente sobre ela:

In [28]:
# Operações vetorizadas
s + 5, s * 2, np.log1p(s)

(a    15
 b    25
 c    35
 Name: valores, dtype: int64,
 a    20
 b    40
 c    60
 Name: valores, dtype: int64,
 a    2.397895
 b    3.044522
 c    3.433987
 Name: valores, dtype: float64)

Uma `Series` pode conter qualquer tipo de dado: **números, strings, objetos Python, até listas ou dicionários**.
Mas, internamente, o **pandas** tenta sempre otimizar (por exemplo, usar int64, float64, datetime64, category etc.).

In [29]:
# Exemplo de Series com tipos heterogêneos
s = pd.Series([10, "texto", 3.14, True])
print(s)

0       10
1    texto
2     3.14
3     True
dtype: object


É possível realizar operações entre `Series`. Ao realizar operações entre duas `Series`, o **pandas** alinha pelos *índices*, não pela posição, diferentemente do **numpy** que considera apenas a posição.

In [30]:
# Exemplo de alinhamento de índices em operações entre Series
s1 = pd.Series([1, 2, 3], index=["a", "b", "c"])
s2 = pd.Series([10, 20, 30], index=["b", "c", "d"])

print(s1 + s2)

a     NaN
b    12.0
c    23.0
d     NaN
dtype: float64


Uma `Series` aceita valores nulos `(NaN, None)` e possui métodos específicos para lidar com esse tipo de dados:
- `s.isna()`: retorna True para valores nulos
- `s.notna()`: retorna True para valores não nulos
- `s.fillna(valor)`: substitui valores nulos por 'valor'
- `s.dropna()`: remove valores nulos

In [31]:
s = pd.Series([10, np.nan, 30, None, 50])
print(s)

# s.isna() # retorna True para valores nulos (.isnull() é equivalente)
# s.notna() # retorna True para valores não nulos (.notnull() é equivalente)
# s.fillna(0.0) # substitui valores nulos por 'valor'
s.dropna() # remove valores nulos

0    10.0
1     NaN
2    30.0
3     NaN
4    50.0
dtype: float64


0    10.0
2    30.0
4    50.0
dtype: float64

## 2. `Dataframe` <a id="sec2"></a>
Um `Dataframe` do **pandas** é uma estrutura de dados 2D (tabela), composta por linhas e colunas, onde cada coluna pode ter um tipo diferente (números, textos, datas, etc.). Isto é, um `Dataframe` é uma tabela com linhas e colunas nomeadas. Ele é similar a uma planilha do Excel ou uma tabela de banco de dados.

Principais características:
- **Colunas nomeadas**: cada coluna tem um nome único.
- **Índice**: cada linha possui um rótulo (índice), que pode ser numérico ou personalizado.
- **Flexibilidade**: permite seleção, filtragem, ordenação, agregação, junção e transformação dos dados de forma eficiente.
- **Integração**: pode importar/exportar dados de diversos formatos (CSV, Excel, SQL, JSON, Parquet).

Exemplo de criação:

In [32]:
# Dados em formato de dicionário
dados = {
    "produto": ["Caderno", "Caneta", "Mouse", "Teclado", "Café", "Refri"],
    "categoria": ["Papelaria", "Papelaria", "Eletrônicos", "Eletrônicos", "Alimentos", "Alimentos"],
    "preco": [19.9, 3.5, 120.0, 180.0, 7.0, 5.5],
    "qtd": [3, 10, 2, 1, 5, 8],
} 

# Criação do DataFrame
df = pd.DataFrame(dados)

df # exibe o DataFrame

Unnamed: 0,produto,categoria,preco,qtd
0,Caderno,Papelaria,19.9,3
1,Caneta,Papelaria,3.5,10
2,Mouse,Eletrônicos,120.0,2
3,Teclado,Eletrônicos,180.0,1
4,Café,Alimentos,7.0,5
5,Refri,Alimentos,5.5,8


In [33]:
# df.shape # (número de linhas, número de colunas)

# df.columns.tolist() # lista com os nomes das colunas

# TODO: pq nao está mostrando as linhas?

df.index[:3] # exibe os primeiros 3 índices (linhas)

RangeIndex(start=0, stop=3, step=1)

In [34]:
df.info() # resumo do DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   produto    6 non-null      object 
 1   categoria  6 non-null      object 
 2   preco      6 non-null      float64
 3   qtd        6 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 324.0+ bytes


In [35]:
df.describe() # estatísticas descritivas das colunas numéricas

Unnamed: 0,preco,qtd
count,6.0,6.0
mean,55.983333,4.833333
std,75.475438,3.544949
min,3.5,1.0
25%,5.875,2.25
50%,13.45,4.0
75%,94.975,7.25
max,180.0,10.0


O método `.describe()` do **pandas** gera um resumo estatístico das colunas numéricas de um `Dataframe` ou `Series`. Ele retorna métricas como contagem (`count`), média (`mean`), desvio padrão (`std`), valores mínimo e máximo (`min`, `max`), além dos quartis (`25%`, `50%`, `75%`). Essas estatísticas ajudam a entender a distribuição e as características dos dados, facilitando a análise exploratória.

## 3. Criação, importação e exportação de `Dataframe` e `Series`<a id="sec3"></a>

`Dataframes` **pandas** podem ser criados de diversas formas:

- A partir de `Series`: cada coluna pode ser uma `Series`, alinhadas pelo índice.
- A partir de listas de dicionários: cada dicionário representa uma linha, com chaves como nomes das colunas.
- A partir de dicionários de listas ou arrays: cada chave é o nome da coluna e o valor é a lista/array de dados.
- A partir de arrays **numpy**: arrays com nomes de campos podem ser convertidos diretamente.
- A partir de arquivos externos: como CSV, Excel, JSON, Parquet, SQL, entre outros formatos.
- A partir de outros `Dataframes`: por cópia, seleção ou transformação.

Essa flexibilidade permite importar, combinar e manipular dados de diversas fontes e formatos.

In [36]:
# Dataframe a partir de Series
s1 = pd.Series([10, 20, 30], index=["a", "b", "c"])
s2 = pd.Series([1.5, 2.5, 3.5], index=["a", "b", "c"])
df = pd.DataFrame({"valores": s1, "taxa": s2})
print(df)

   valores  taxa
a       10   1.5
b       20   2.5
c       30   3.5


In [37]:
# Dataframe a partir de listas de dicionários
dados = [
    {"nome": "Ana", "idade": 23},
    {"nome": "Beto", "idade": 34, "cidade": "RJ"},
    {"nome": "Carlos"}  # pode faltar coluna
]

df = pd.DataFrame(dados)
print(df)

     nome  idade cidade
0     Ana   23.0    NaN
1    Beto   34.0     RJ
2  Carlos    NaN    NaN


In [38]:
# Dataframe a partir de dicionários de listas ou arrays
df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Carlos"],
    "idade": [23, 34, 45],
    "cidade": ["SP", "RJ", "BH"]
})
print(df)

     nome  idade cidade
0     Ana     23     SP
1    Beto     34     RJ
2  Carlos     45     BH


In [39]:
# Dataframe a partir de arrays NumPy bidimensionais
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

df = pd.DataFrame(arr, columns=["A", "B", "C"])
print(df)

# Dataframe a partir de arrays NumPy estruturados
arr = np.array([(1, "Ana"), (2, "Beto")],
               dtype=[("id", "i4"), ("nome", "U10")]) # i4 = int32, U10 = string de até 10 caracteres

df = pd.DataFrame(arr)
print(df)

   A  B  C
0  1  2  3
1  4  5  6
   id  nome
0   1   Ana
1   2  Beto


In [40]:
# Dataframe a partir de arquivos externos
# CSV
df_csv = pd.read_csv("files/clientes_filtrados.csv") # Método .read_csv()
print(df_csv)
print()
# Excel
df_excel = pd.read_excel("files/planilha_clientes.xlsx") # Método .read_excel()
print(df_excel)
print()
# JSON
df_json = pd.read_json("files/pedidos.json") # Método .read_json()
print(df_json)

   id   nome       cidade data_cadastro
0   1    Ana        Natal    2024-05-01
1   3  Carla    Fortaleza    2024-06-10
2   4  Diego  João Pessoa    2024-07-02

   id   nome       cidade data_cadastro
0   1    Ana        Natal    2024-05-01
1   2  Bruno       Recife    2024-05-03
2   3  Carla    Fortaleza    2024-06-10
3   4  Diego  João Pessoa    2024-07-02

   pedido_id  cliente_id  valor                      itens
0        101           1  123.5          [caderno, caneta]
1        102           2   55.9                    [mouse]
2        103           1  310.0  [teclado, mouse, hub usb]


## Exercício proposto: 

Procure na Internet arquivos .csv, .json e .xlsx para que sejam carregados pelos métodos acima. Responda abaixo:

In [41]:
# Espaço para respostas do exercícios proposto:

url = "https://dados.ufrn.br/dataset/8bf1a468-48ff-4f4d-95ee-b17b7a3a5592/resource/6a8e5461-e748-45c6-aac6-432188d88dde/download/docentes.csv"

docentes = pd.read_csv(url, sep=';')
docentes.head()

Unnamed: 0,siape,nome,sexo,formacao,tipo_jornada_trabalho,vinculo,categoria,classe_funcional,id_unidade_lotacao,lotacao,admissao
0,1543339,ADELE GUIMARAES UBARANA SANTOS,F,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,Classe C ...,1452,NÚCLEO DE EDUCAÇÃO DA INFÂNCIA,2006/07/24 00:00:00.000000000
1,1554468,AFRANIO CESAR DE ARAUJO,M,DOUTORADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,Titular ...,351,ESCOLA AGRÍCOLA DE JUNDIAÍ,2008/09/12 00:00:00.000000000
2,1177821,AIRTON FERNANDES GUIMARAES FILHO,M,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,Classe C ...,284,ESCOLA DE MÚSICA,1998/04/28 00:00:00.000000000
3,2360824,ALDAIR RODRIGUES DA SILVA,M,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,Classe B ...,351,ESCOLA AGRÍCOLA DE JUNDIAÍ,2017/01/25 00:00:00.000000000
4,2364334,ALESSANDRA MENDES PACHECO,F,DOUTORADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,Titular ...,351,ESCOLA AGRÍCOLA DE JUNDIAÍ,2009/10/13 00:00:00.000000000


In [42]:
# Criação de Series a partir de DataFrames
df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Carlos"],
    "idade": [23, 34, 45],
    "cidade": ["SP", "RJ", "BH"]
})

s = df["idade"]   # pega a coluna "idade"
print(s)
#print(type(s))

0    23
1    34
2    45
Name: idade, dtype: int64


## 4. Seleção e indexação

A seleção e indexação de `Dataframes` no **pandas** permite acessar, filtrar e manipular dados de forma eficiente. 

Os principais métodos são:
- **Colunas**: Para selecionar uma coluna, use `df["coluna"]` ou `df.coluna`. 
    - Para múltiplas colunas, use `df[["col1", "col2"]]`.
- **Linhas por índice**: Use `df.loc[]` para selecionar por rótulo (nome do índice) e `df.iloc[]` para selecionar por posição (inteiro).
    - Exemplo: `df.loc[0]` retorna a linha com índice 0; `df.iloc[0]` retorna a primeira linha.
- **Linhas e colunas**: Combine seleção de linhas e colunas: `df.loc[linhas, colunas]` ou `df.iloc[linhas, colunas]`.
    - Exemplo: `df.loc[0:2, ["nome", "idade"]]` retorna as linhas de 0 a 2 das colunas "nome" e "idade".
- **Filtragem condicional**: Use expressões booleanas para filtrar linhas, como `df[df["idade"] > 30]`.
- **Atributos auxiliares**: Métodos como `.head()`, `.tail()`, `.sample()` e `.query()` facilitam a visualização e seleção de dados.

In [43]:
# DataFrame simples para trabalhar os conceitos
df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Carlos", "Diana", "Edu"],
    "idade": [23, 34, 45, 29, 40],
    "cidade": ["SP", "RJ", "BH", "SP", "RS"]
})

print(df)

     nome  idade cidade
0     Ana     23     SP
1    Beto     34     RJ
2  Carlos     45     BH
3   Diana     29     SP
4     Edu     40     RS


In [44]:
# Seleção de colunas

# Selecionar uma única coluna
print(df["nome"])
print(df.nome)   # funciona se o nome da coluna não tiver espaços

# Selecionar múltiplas colunas
print(df[["nome", "idade"]])


0       Ana
1      Beto
2    Carlos
3     Diana
4       Edu
Name: nome, dtype: object
0       Ana
1      Beto
2    Carlos
3     Diana
4       Edu
Name: nome, dtype: object
     nome  idade
0     Ana     23
1    Beto     34
2  Carlos     45
3   Diana     29
4     Edu     40


In [45]:
# Seleção de linhas por índice

# Selecionar por rótulo do índice (loc)
print(df.loc[0])   # retorna a linha com índice 0
print()
print(df.loc[0:2]) # linhas de 0 a 2 (inclusive)
print()

# Selecionar por posição numérica (iloc)
print(df.iloc[0])   # primeira linha
print()
print(df.iloc[0:3]) # linhas de 0 até 2


nome      Ana
idade      23
cidade     SP
Name: 0, dtype: object

     nome  idade cidade
0     Ana     23     SP
1    Beto     34     RJ
2  Carlos     45     BH

nome      Ana
idade      23
cidade     SP
Name: 0, dtype: object

     nome  idade cidade
0     Ana     23     SP
1    Beto     34     RJ
2  Carlos     45     BH


In [46]:
# Seleção de linhas e colunas
 
# Usando loc: linhas de 0 a 2 e apenas colunas "nome" e "idade"
print(df.loc[0:2, ["nome", "idade"]])
print()
# Usando iloc: linhas de 0 a 2 e primeiras duas colunas
print(df.iloc[0:3, 0:2])
print()
print(df.iloc[0:3, 1:3])

     nome  idade
0     Ana     23
1    Beto     34
2  Carlos     45

     nome  idade
0     Ana     23
1    Beto     34
2  Carlos     45

   idade cidade
0     23     SP
1     34     RJ
2     45     BH


In [47]:
# Filtragem condicional

# Selecionar apenas pessoas com idade maior que 30
print(df[df["idade"] > 30])

# Selecionar apenas pessoas da cidade de SP
print(df[df["cidade"] == "SP"])

     nome  idade cidade
1    Beto     34     RJ
2  Carlos     45     BH
4     Edu     40     RS
    nome  idade cidade
0    Ana     23     SP
3  Diana     29     SP


In [48]:
# Atributos auxiliares
print(df.head(3))    # primeiras 3 linhas
print(df.tail(2))    # últimas 2 linhas
print(df.sample(2))  # 2 linhas aleatórias
print(df.query("idade > 30 and cidade == 'SP'"))

     nome  idade cidade
0     Ana     23     SP
1    Beto     34     RJ
2  Carlos     45     BH
    nome  idade cidade
3  Diana     29     SP
4    Edu     40     RS
     nome  idade cidade
2  Carlos     45     BH
4     Edu     40     RS
Empty DataFrame
Columns: [nome, idade, cidade]
Index: []


In [49]:
# Condições compostas

# Pessoas com idade > 30 e cidade SP
filtro1 = (df["idade"] > 30) & (df["cidade"] == "SP")
print("\nIdade > 30 E cidade == SP:")
print(df[filtro1])

# Pessoas com idade < 30 ou cidade RJ
filtro2 = (df["idade"] < 30) | (df["cidade"] == "RJ")
print("\nIdade < 30 OU cidade == RJ:")
print(df[filtro2])

# Pessoas que NÃO são de SP
filtro3 = ~(df["cidade"] == "SP")
print("\nCidade diferente de SP:")
print(df[filtro3])


Idade > 30 E cidade == SP:
Empty DataFrame
Columns: [nome, idade, cidade]
Index: []

Idade < 30 OU cidade == RJ:
    nome  idade cidade
0    Ana     23     SP
1   Beto     34     RJ
3  Diana     29     SP

Cidade diferente de SP:
     nome  idade cidade
1    Beto     34     RJ
2  Carlos     45     BH
4     Edu     40     RS


## 5. Valores ausentes ou nulos <a id="sec5"></a>

Valores ausentes ou nulos em `Dataframes` do **pandas** representam dados faltantes, incompletos ou desconhecidos. Eles são indicados principalmente por `NaN` (*Not a Number*) para dados numéricos e `None` para objetos. A presença de valores nulos é comum em bases de dados reais, seja por erros de coleta, falhas de preenchimento ou ausência natural de informações.

O **pandas** oferece métodos eficientes para identificar, tratar e manipular esses valores (similar ao que já vimos com as `Series`):
- `isna()` ou `isnull()`: identificam valores nulos, retornando um `Dataframe` booleano.
- `notna()` ou `notnull()`: identificam valores não nulos.
- `fillna(valor)`: preenche valores nulos com um valor específico.
- `dropna()`: remove linhas ou colunas que contenham valores nulos.

O tratamento adequado de valores ausentes é fundamental para garantir a qualidade das análises, evitar erros em operações matemáticas e estatísticas.

In [50]:
# DataFrame com valores ausentes (NaN)
df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Carlos", None],
    "idade": [23, np.nan, 45, 29],
    "cidade": ["SP", "RJ", None, "BH"]
})
print(df)

print("Identificar valores nulos (isna):")
print(df.isna())

print("Identificar valores não nulos (notna):")
print(df.notna())

     nome  idade cidade
0     Ana   23.0     SP
1    Beto    NaN     RJ
2  Carlos   45.0   None
3    None   29.0     BH
Identificar valores nulos (isna):
    nome  idade  cidade
0  False  False   False
1  False   True   False
2  False  False    True
3   True  False   False
Identificar valores não nulos (notna):
    nome  idade  cidade
0   True   True    True
1   True  False    True
2   True   True   False
3  False   True    True


In [51]:
# Preenchimento (fillna)
print("Preencher nulos com valor fixo:")
print(df.fillna("Desconhecido"))

print("\nPreencher nulos na coluna idade com média:")
print(df.assign(idade=df["idade"].fillna(df["idade"].mean())))


Preencher nulos com valor fixo:
           nome         idade        cidade
0           Ana          23.0            SP
1          Beto  Desconhecido            RJ
2        Carlos          45.0  Desconhecido
3  Desconhecido          29.0            BH

Preencher nulos na coluna idade com média:
     nome      idade cidade
0     Ana  23.000000     SP
1    Beto  32.333333     RJ
2  Carlos  45.000000   None
3    None  29.000000     BH


In [52]:
# Remoção (dropna)
print("Remover linhas com valores nulos:")
print(df.dropna())

print("\nRemover colunas com valores nulos:")
print(df.dropna(axis=1))

Remover linhas com valores nulos:
  nome  idade cidade
0  Ana   23.0     SP

Remover colunas com valores nulos:
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]


## 6. Tipos, conversões e categóricos (`category`) <a id="sec6"></a>

No **pandas**, cada coluna de um `Dataframe` possui um tipo de dado (`dtype`), como `int64`, `float64`, `object` (para strings), entre outros. É possível converter tipos usando métodos como `.astype()` e `pd.to_numeric()`, facilitando o tratamento e análise dos dados. 

Colunas categóricas (`category`) são um tipo de dado úteis para representar dados com poucos valores distintos (dados que variam pouco), otimizando memória e desempenho em operações estatísticas e agrupamentos.

In [53]:
# Criando um DataFrame de exemplo
df = pd.DataFrame({
    "idade": ["23", "34", "45"],   # armazenado como string
    "altura": [1.65, 1.80, 1.75],  # float
    "cidade": ["SP", "RJ", "SP"]   # texto
})

df

Unnamed: 0,idade,altura,cidade
0,23,1.65,SP
1,34,1.8,RJ
2,45,1.75,SP


In [54]:
# Exemplo de conversão de tipos

print(df.dtypes) # tipos atuais das colunas

# Convertendo a coluna 'idade' de string para inteiro
df["idade"] = df["idade"].astype("int64")

print(df.dtypes) # tipos após conversão

idade      object
altura    float64
cidade     object
dtype: object
idade       int64
altura    float64
cidade     object
dtype: object


In [55]:
# Conversões

print(df.dtypes) # tipos atuais das colunas

# Converter 'idade' para numérico, transformando erros em NaN
df["idade"] = pd.to_numeric(df["idade"], errors="coerce")

# Converter 'cidade' para categoria
df["cidade"] = df["cidade"].astype("category")

print(df.dtypes) # tipos após conversão

df # exibe o Dataframe convertido


idade       int64
altura    float64
cidade     object
dtype: object
idade        int64
altura     float64
cidade    category
dtype: object


Unnamed: 0,idade,altura,cidade
0,23,1.65,SP
1,34,1.8,RJ
2,45,1.75,SP


## 7. Cópias de `Dataframes` <a id="sec7"></a>

É possível fazer cópias de `Dataframes`. No entando, ao manipular `Dataframes` no **pandas**, é importante distinguir entre cópia rasa (*shallow copy*) e cópia profunda (*deep copy*). Alterações feitas em uma cópia rasa afetam o `Dataframe` original, pois ambos compartilham os mesmos dados em memória. Para evitar efeitos colaterais indesejados e garantir que modificações não alterem o objeto original, utilize sempre `df.copy()` ao criar cópias para processamento ou análise independente. Essa prática aumenta a segurança e previsibilidade do seu código.

In [56]:
# Cópia rasa (shallow copy): apenas referência, alterações afetam ambos
df_ref = df

# Cópia profunda (deep copy): cria uma nova cópia independente
df_copia = df.copy()

# Exemplo de alteração para mostrar a diferença
df_ref.loc[0, "idade"] = 99  # altera também em df
print("df após alteração via df_ref:\n", df)

df_copia.loc[0, "idade"] = 23  # não altera df original
print("df_copia após alteração:\n", df_copia)

df após alteração via df_ref:
    idade  altura cidade
0     99    1.65     SP
1     34    1.80     RJ
2     45    1.75     SP
df_copia após alteração:
    idade  altura cidade
0     23    1.65     SP
1     34    1.80     RJ
2     45    1.75     SP


## 8. Operações com `Dataframes`

Operações com dataframes permitem manipular, transformar e analisar dados de forma eficiente, facilitando tarefas como cálculos, filtragens, agrupamentos e combinações de informações em tabelas.

In [57]:
# Dataframe original
df = pd.DataFrame({
    "A": [1, 2, 3, 4],
    "B": [10, 20, 30, 40],
    "C": [5, 6, 7, 8]
})

df

Unnamed: 0,A,B,C
0,1,10,5
1,2,20,6
2,3,30,7
3,4,40,8


In [58]:
# Operações sobre colunas específicas do DataFrame

# Soma 10 a todos os valores da coluna A
df["A_plus_10"] = df["A"] + 10

# Multiplica a coluna B por 2
df["B_times_2"] = df["B"] * 2

# Subtração entre colunas
df["C_minus_A"] = df["C"] - df["A"]

# Operações combinadas
df["Expr"] = (df["A"] * df["B"]) + df["C"]

# Raiz quadrada dos valores da coluna B
df["sqrt_B"] = np.sqrt(df["B"])

# Logaritmo natural da coluna C
df["log_C"] = np.log(df["C"])

print(df)

# Operações sobre todos os elementos do DataFrame

# Soma 100 a todos os elementos
df_plus_100 = df[["A","B","C"]] + 100

# Multiplica todas as colunas numéricas por 2
df_times_2 = df[["A","B","C"]] * 2

print(df_plus_100)
print(df_times_2)

   A   B  C  A_plus_10  B_times_2  C_minus_A  Expr    sqrt_B     log_C
0  1  10  5         11         20          4    15  3.162278  1.609438
1  2  20  6         12         40          4    46  4.472136  1.791759
2  3  30  7         13         60          4    97  5.477226  1.945910
3  4  40  8         14         80          4   168  6.324555  2.079442
     A    B    C
0  101  110  105
1  102  120  106
2  103  130  107
3  104  140  108
   A   B   C
0  2  20  10
1  4  40  12
2  6  60  14
3  8  80  16


## 9. Agrupamentos (`groupby`) <a id="9-groupby"></a>

O método `groupby` do **pandas** permite agrupar dados de um `Dataframe` com base nos valores de uma ou mais colunas, facilitando a realização de operações agregadas, como soma, média, contagem, mínimo, máximo, entre outras. Esse recurso é muito útil para análises estatísticas e sumarização de grandes conjuntos de dados.

**Como funciona:**
- Primeiro, escolhe-se uma ou mais colunas para agrupar os dados.
- Em seguida, aplica-se uma função de agregação (como `sum()`, `mean()`, `count()`, `agg()`, etc.) sobre as demais colunas.
- O resultado é um novo `Dataframe`, onde cada linha representa um grupo distinto.

**Exemplo prático:**
Se você tem um `Dataframe` de vendas com colunas como `categoria`, `preco` e `qtd`, pode agrupar por `categoria` e calcular o total vendido e o preço médio por categoria:

In [59]:
df = pd.DataFrame({
    "produto": ["Caderno", "Caneta", "Mouse", "Teclado", "Café", "Refri"],
    "categoria": ["Papelaria", "Papelaria", "Eletrônicos", "Eletrônicos", "Alimentos", "Alimentos"],
    "preco": [19.9, 3.5, 120.0, 180.0, 7.0, 5.5],
    "qtd": [3, 10, 2, 1, 5, 8],
})
df["total"] = df["preco"] * df["qtd"]
df

Unnamed: 0,produto,categoria,preco,qtd,total
0,Caderno,Papelaria,19.9,3,59.7
1,Caneta,Papelaria,3.5,10,35.0
2,Mouse,Eletrônicos,120.0,2,240.0
3,Teclado,Eletrônicos,180.0,1,180.0
4,Café,Alimentos,7.0,5,35.0
5,Refri,Alimentos,5.5,8,44.0


In [60]:
(df
 .groupby("categoria", as_index=False)
 .agg(qtd_total=("qtd","sum"), receita=("total","sum"), preco_medio=("preco","mean"))
 .sort_values("receita", ascending=False))

Unnamed: 0,categoria,qtd_total,receita,preco_medio
1,Eletrônicos,3,420.0,150.0
2,Papelaria,13,94.7,11.7
0,Alimentos,13,79.0,6.25


Complicou? :)

Vamos por partes... 

In [61]:
df.groupby("categoria") # isso diz ao pandas: "agrupe os dados por categoria"
df

Unnamed: 0,produto,categoria,preco,qtd,total
0,Caderno,Papelaria,19.9,3,59.7
1,Caneta,Papelaria,3.5,10,35.0
2,Mouse,Eletrônicos,120.0,2,240.0
3,Teclado,Eletrônicos,180.0,1,180.0
4,Café,Alimentos,7.0,5,35.0
5,Refri,Alimentos,5.5,8,44.0


In [62]:
(
 df.groupby("categoria", as_index=False) # agrupa por categoria, sem usar a categoria como índice
   .agg( # agregações
       qtd_total=("qtd","sum"),         # soma das quantidades
       receita=("total","sum"),         # soma da receita
       preco_medio=("preco","mean")     # média dos preços
   )
)

Unnamed: 0,categoria,qtd_total,receita,preco_medio
0,Alimentos,13,79.0,6.25
1,Eletrônicos,3,420.0,150.0
2,Papelaria,13,94.7,11.7


In [63]:
(
 df.groupby("categoria", as_index=False)
   .agg(
       qtd_total=("qtd","sum"),
       receita=("total","sum"),
       preco_medio=("preco","mean")
   )
   .sort_values("receita", ascending=False) # ordena pela receita (decrescente)
)

Unnamed: 0,categoria,qtd_total,receita,preco_medio
1,Eletrônicos,3,420.0,150.0
2,Papelaria,13,94.7,11.7
0,Alimentos,13,79.0,6.25


Outros exemplos:

In [64]:
print(df.groupby("categoria")["produto"].count()) # agrupa por categoria e conta os produtos
print(df.groupby("categoria")["preco"].max()) # agrupa por categoria e encontra o preço máximo
print(df.groupby("categoria")["preco"].min()) # agrupa por categoria e encontra o preço mínimo
print(df.groupby("categoria")["preco"].agg(["mean", "std"])) # agrupa por categoria e calcula média e desvio padrão do preço

print(df.groupby("categoria")["total"]
   .sum()
   .sort_values(ascending=True)) # soma o total por categoria e ordena de forma crescente

categoria
Alimentos      2
Eletrônicos    2
Papelaria      2
Name: produto, dtype: int64
categoria
Alimentos        7.0
Eletrônicos    180.0
Papelaria       19.9
Name: preco, dtype: float64
categoria
Alimentos        5.5
Eletrônicos    120.0
Papelaria        3.5
Name: preco, dtype: float64
               mean        std
categoria                     
Alimentos      6.25   1.060660
Eletrônicos  150.00  42.426407
Papelaria     11.70  11.596551
categoria
Alimentos       79.0
Papelaria       94.7
Eletrônicos    420.0
Name: total, dtype: float64


## 10. Combinações de dados (`merge`, `join`, `concat`) <a id="sec10"></a>

No **pandas**, combinar dados de diferentes fontes ou tabelas é uma tarefa comum e essencial para análises mais completas. As principais formas de combinação são:

- **merge**: Permite juntar dois ou mais `Dataframes` com base em colunas comuns (chaves), semelhante ao `JOIN` em bancos de dados relacionais. É possível realizar diferentes tipos de junção, como `inner`, `left`, `right` e `outer`, controlando como os dados são combinados quando há correspondências ou não entre as chaves.

- **join**: Método simplificado para juntar `Dataframes` usando o *índice* como chave de junção. É útil quando os índices dos `Dataframes` já representam a relação entre eles.

- **concat**: Permite empilhar ou concatenar `Dataframes` ao longo de um eixo (linhas ou colunas). Pode ser usado para unir tabelas com as mesmas colunas (empilhar linhas) ou para adicionar novas colunas a partir de tabelas diferentes (empilhar colunas).

Essas operações são fundamentais para integrar, enriquecer e preparar conjuntos de dados para análises mais avançadas, facilitando a manipulação de dados em diferentes formatos e estruturas.

In [65]:
# Dataframes para mostrar exemplos de combinações (merge/join/concat)

clientes = pd.DataFrame({
    "cliente_id": [1,2,3,4],
    "nome": ["Ana","Bruno","Carla","Diego"],
    "segmento": ["PF","PF","PJ","PF"]
})

pedidos = pd.DataFrame({
    "pedido_id": [101,102,103,104,105],
    "cliente_id": [1,2,2,5,3],
    "valor": [150, 30, 60, 200, 500]
})

print(clientes)
print(pedidos)

   cliente_id   nome segmento
0           1    Ana       PF
1           2  Bruno       PF
2           3  Carla       PJ
3           4  Diego       PF
   pedido_id  cliente_id  valor
0        101           1    150
1        102           2     30
2        103           2     60
3        104           5    200
4        105           3    500


In [66]:
# Inner join (somente correspondências)
df_inner = pd.merge(clientes, pedidos, on="cliente_id", how="inner")
print("Inner join:\n", df_inner)
# O inner join mantém apenas os registros que têm correspondência em AMBOS os Dataframes.
# No caso: o 'cliente 4' some (pois não tem pedido) e o pedido 104 (do cliente 5) também some (pois não tem cliente).
# Resultado: só clientes 1, 2 e 3 aparecem, com seus pedidos correspondentes.

# Left join (todos os clientes, pedidos quando existir)
df_left = pd.merge(clientes, pedidos, on="cliente_id", how="left", indicator=True)
print("\nLeft join:\n", df_left)
# O left join mantém TODOS os clientes.
# - Clientes 1, 2 e 3 aparecem com seus pedidos.
# - Cliente 2 aparece duas vezes (porque tem dois pedidos).
# - Cliente 4 aparece com valores NaN em pedido_id/valor, porque não fez pedido.
# A coluna "_merge" mostra a origem: "both" (tem correspondência) ou "left_only" (sem pedido).
# indicator=True adiciona essa coluna extra "_merge" para indicar a origem dos registros.

# Right join (todos os pedidos, clientes quando existir)
df_right = pd.merge(clientes, pedidos, on="cliente_id", how="right")
print("\nRight join:\n", df_right)
# O right join mantém TODOS os pedidos.
# - Pedidos 101, 102, 103, 105 aparecem junto com seus clientes correspondentes.
# - Pedido 104 (cliente_id=5) aparece, mas como não existe cliente 5, as colunas de cliente ficam NaN.
# Ou seja, preserva todos os pedidos, mesmo sem cliente válido.

# Full outer join (todos os clientes e todos os pedidos)
df_outer = pd.merge(clientes, pedidos, on="cliente_id", how="outer", indicator=True)
print("\nFull outer join:\n", df_outer)
# O outer join mantém TODOS os registros, tanto de clientes quanto de pedidos.
# - Clientes 1, 2 e 3 aparecem com seus pedidos correspondentes.
# - Cliente 2 aparece duas vezes (porque tem dois pedidos).
# - Cliente 4 aparece, mas como não tem pedido, as colunas de pedido_id/valor ficam NaN.
# - Pedido 104 (cliente_id=5) aparece, mas como não existe cliente 5, as colunas de cliente ficam NaN.
# Ou seja: é a união completa, preservando todos os registros dos dois DataFrames.

Inner join:
    cliente_id   nome segmento  pedido_id  valor
0           1    Ana       PF        101    150
1           2  Bruno       PF        102     30
2           2  Bruno       PF        103     60
3           3  Carla       PJ        105    500

Left join:
    cliente_id   nome segmento  pedido_id  valor     _merge
0           1    Ana       PF      101.0  150.0       both
1           2  Bruno       PF      102.0   30.0       both
2           2  Bruno       PF      103.0   60.0       both
3           3  Carla       PJ      105.0  500.0       both
4           4  Diego       PF        NaN    NaN  left_only

Right join:
    cliente_id   nome segmento  pedido_id  valor
0           1    Ana       PF        101    150
1           2  Bruno       PF        102     30
2           2  Bruno       PF        103     60
3           5    NaN      NaN        104    200
4           3  Carla       PJ        105    500

Full outer join:
    cliente_id   nome segmento  pedido_id  valor      _merge

O método `pd.merge()` implementa **junções relacionais** entre `DataFrames`, semelhantes às do SQL.  
Ele combina registros a partir de uma chave comum. O parâmetro `how` define o tipo de join:

- **Inner join**  
  Mantém apenas as chaves que aparecem em **ambos** os `DataFrames`.  
  ➝ Equivalente à interseção (`Clientes ∩ Pedidos`).  

- **Left join**  
  Mantém todas as linhas do `DataFrame` da **esquerda** e adiciona dados da direita quando houver correspondência.  
  ➝ Clientes sem pedidos terão colunas de pedidos preenchidas com `NaN`.

- **Right join**  
  Mantém todas as linhas do DataFrame da **direita** e adiciona dados da esquerda quando houver correspondência.  
  ➝ Pedidos sem cliente terão colunas de cliente preenchidas com `NaN`.

- **Outer join (Full join)**  
  Mantém todas as chaves de ambos os `DataFrames`.  
  ➝ Onde não houver correspondência, o lado ausente será preenchido com `NaN`.  
  ➝ Equivalente à união (`Clientes ∪ Pedidos`).

## Material complementar sobre **INNER JOIN, LEFT JOIN, RIGHT JOIN e FULL JOIN**

### INNER JOIN

**INNER JOIN** entre duas tabelas retorna apenas as linhas em que existe correspondência entre elas, ou seja, quando os valores do campo em comum são iguais. O resultado será uma nova tabela contendo somente os registros que atendem a essa condição.

A imagem a seguir ilustra uma tabela resultante da combinação de duas tabelas *LEFT_TABLE* e *RIGHT_TABLE* em que há correspondência entre elas:

![inner-join](https://cmdviegas.github.io/joins/join-inner.png)

### LEFT JOIN

**LEFT JOIN** retorna todas as linhas da tabela do lado esquerdo e apenas as linhas correspondentes da tabela do lado direito. Quando não há correspondência, os campos da tabela do lado direito são preenchidos com **NULL**. Esse comando também é conhecido como **LEFT OUTER JOIN**.

A imagem a seguir ilustra a tabela resultante com todas as linhas da *LEFT_TABLE* da seguinte forma:
- Quando **há correspondência** dos valores de interesse (ou seja, da coluna em comum) com a *RIGHT_TABLE*, os valores são combinados. Neste exemplo, os valores associados aos `id 1` e `id 3` em ambas as tabelas são combinados.
- Quando **não há correspondência** (como no caso de `id 2` e `id 4` que não possuem correspondência em *RIGHT_TABLE*), os campos da direita ficam **NULL**.

![left-join](https://cmdviegas.github.io/joins/join-left.png)

E o que acontece se houver mais de uma linha de dados na tabela do lado direito para o mesmo `id` correspondente na tabela do lado esquerdo? Neste caso, todos os valores correspondentes da tabela do lado direito serão exibidos. A figura abaixo ilustra essa situação.

![left-join2](https://cmdviegas.github.io/joins/join-left2.png)

### RIGHT JOIN

**RIGHT JOIN** retorna todas as linhas da tabela do lado direito e apenas as linhas correspondentes da tabela do lado esquerdo. Quando não há correspondência, os campos da tabela do lado esquerdo são preenchidos com **NULL**. Esse comando também é conhecido como **RIGHT OUTER JOIN**.

A imagem a seguir ilustra a mesma lógica do **LEFT JOIN** mas de maneira invertida: a tabela resultante traz todas as linhas da *RIGHT_TABLE* da seguinte forma:
- Quando **há correspondência** dos valores de interesse (ou seja, da coluna em comum) com a *LEFT_TABLE*, os valores são combinados.
- Quando **não há correspondência** com a *LEFT_TABLE*, os campos da esquerda ficam **NULL**.

![right-join](https://cmdviegas.github.io/joins/join-right.png)

E o que acontece se houver mais de uma linha de dados na tabela do lado esquerdo para o mesmo `id` correspondente na tabela do lado direito? De forma semelhante à explicação anterior para o caso do **LEFT JOIN**, todos os valores correspondentes da tabela do lado esquerdo serão exibidos, conforme ilustrado abaixo:

![right-join2](https://cmdviegas.github.io/joins/join-right2.png)

### FULL JOIN

**FULL JOIN** combina os resultados de um **LEFT JOIN** e um **RIGHT JOIN**. Ele retorna todas as linhas de ambas as tabelas e, quando não há correspondência, os campos sem par são preenchidos com **NULL**. Esse comando também é conhecido como **FULL OUTER JOIN**.

A imagem a seguir ilustra a tabela resultante com todas as linhas de ambas as tabelas, da seguinte forma:
- Quando **há correspondência**, as linhas são combinadas.
- Quando **não há correspondência**, os campos do lado faltante ficam **NULL**.

![full-join](https://cmdviegas.github.io/joins/join-full.png)

Adaptado de: https://spardhax.medium.com/all-the-joins-in-sql-visualised-and-simplified-3df0687a8624

## Resumo visual de combinações

![join-resumo](https://cmdviegas.github.io/joins/join-resumo.png)

Fonte: https://www.w3schools.com/sql/sql_join.asp

In [67]:
# Anti-join: quais clientes não têm pedido correspondente?
anti = df_left[df_left["_merge"] == "left_only"]
anti

Unnamed: 0,cliente_id,nome,segmento,pedido_id,valor,_merge
4,4,Diego,PF,,,left_only


In [80]:
# Existe ainda o .join(), porém é diferente do .merge()

# O .join() é um atalho pensado para juntar DataFrames pelos índices (ou colunas específicas se indicar).
# Por padrão, junta o DataFrame da esquerda com outro DataFrame, alinhando pelo índice.
# Também suporta "inner", "left", "right", "outer".

df1 = pd.DataFrame({"A": [1, 2, 3]}, index=["x", "y", "z"])
df2 = pd.DataFrame({"B": [10, 20, 30]}, index=["x", "y", "w"])

df1.join(df2, how="outer") # concatena df1 com df2 usando outer join, alinhando pelos índices

Unnamed: 0,A,B
w,,30.0
x,1.0,10.0
y,2.0,20.0
z,3.0,


Dica:
- Use `merge()` quando precisa controlar colunas de junção.
- Use `join()` quando já tem os índices alinhados ou quer uma sintaxe mais curta.

In [81]:
# Concatenação de Dataframes

# Concat vertical (axis=0) -> empilha linhas
df_concat_rows = pd.concat([clientes, clientes], axis=0)
print(df_concat_rows)
# Aqui, estamos empilhando os DataFrames linha sobre linha. Como ambos os DataFrames são iguais e possuem as mesmas colunas, o resultado é a duplicação das linhas do DataFrame original. O índice é mantido por padrão, então ele será repetido.
# Para evitar repetição de índice, podemos usar ignore_index=True para resetar os índices.


# Concat horizontal (axis=1) -> adiciona/empilha colunas
df_concat_cols = pd.concat([clientes, pedidos], axis=1)
print(df_concat_cols)
# Aqui, estamos empilhando os DataFrames coluna ao lado de coluna, alinhando-os com base nos índices (0, 1, 2, ...).
# Como 'clientes' tem 4 linhas e 'pedidos' tem 5 linhas, o Pandas expande para 5 linhas (maior número de linhas entre os dois).
# Onde não houver correspondência de índice, será preenchido com NaN.
# Importante: como as colunas têm nomes repetidos ('cliente_id'), elas não são combinadas, apenas adicionadas lado a lado como estão.
#
# Neste exemplo, a concatenação horizontal (axis=1) não faz sentido, pois estamos apenas juntando os DataFrames lado a lado com base nos índices, sem considerar a chave de relacionamento entre eles ('cliente_id'). Isso pode gerar combinações incorretas entre clientes e pedidos, sem uma correspondência lógica. A abordagem correta aqui seria usar merge() com base em 'cliente_id'.


# Concat com chave (key)
# Adiciona rótulos hierárquicos para identificar a origem
df_concat_keys = pd.concat([clientes, clientes], keys=["Loja A", "Loja B"])
print(df_concat_keys)

   cliente_id   nome segmento   ano
0           1    Ana       PF  2023
1           2  Bruno       PF  2023
2           3  Carla       PJ  2023
3           4  Diego       PF  2023
0           1    Ana       PF  2023
1           2  Bruno       PF  2023
2           3  Carla       PJ  2023
3           4  Diego       PF  2023
   cliente_id   nome segmento     ano  pedido_id  cliente_id  valor
0         1.0    Ana       PF  2023.0        101           1    150
1         2.0  Bruno       PF  2023.0        102           2     30
2         3.0  Carla       PJ  2023.0        103           7     60
3         4.0  Diego       PF  2023.0        104           5    200
4         NaN    NaN      NaN     NaN        105           3    500
          cliente_id   nome segmento   ano
Loja A 0           1    Ana       PF  2023
       1           2  Bruno       PF  2023
       2           3  Carla       PJ  2023
       3           4  Diego       PF  2023
Loja B 0           1    Ana       PF  2023
       1  

# Exercícios finais propostos

## Objetivos
- Praticar seleção/indexação, operações vetorizadas e tratamento de nulos.
- Consolidar `groupby` com agregações múltiplas.
- Exercitar `merge/join`, *anti-join* e `concat`.
- Resolver um mini–estudo de caso.

### Dados-base para os exercícios

In [69]:
# Produtos (com categoria) — usado em groupby/agg
df_prod = pd.DataFrame({
    "produto": ["Caderno", "Caneta", "Mouse", "Teclado", "Café", "Refri"],
    "categoria": ["Papelaria", "Papelaria", "Eletrônicos", "Eletrônicos", "Alimentos", "Alimentos"],
    "preco": [19.9, 3.5, 120.0, 180.0, 7.0, 5.5],
    "qtd": [3, 10, 2, 1, 5, 8],
})
df_prod["total"] = df_prod["preco"] * df_prod["qtd"]
df_prod

Unnamed: 0,produto,categoria,preco,qtd,total
0,Caderno,Papelaria,19.9,3,59.7
1,Caneta,Papelaria,3.5,10,35.0
2,Mouse,Eletrônicos,120.0,2,240.0
3,Teclado,Eletrônicos,180.0,1,180.0
4,Café,Alimentos,7.0,5,35.0
5,Refri,Alimentos,5.5,8,44.0


In [70]:
# Clientes e pedidos — para merge/join/anti-join/concat
clientes = pd.DataFrame({
    "cliente_id": [1, 2, 3, 4],
    "nome": ["Ana", "Bruno", "Carla", "Diego"],
    "segmento": ["PF", "PF", "PJ", "PF"]
})

pedidos = pd.DataFrame({
    "pedido_id": [101, 102, 103, 104, 105],
    "cliente_id": [1, 2, 7, 5, 3],
    "valor": [150, 30, 60, 200, 500]
})

clientes, pedidos

(   cliente_id   nome segmento
 0           1    Ana       PF
 1           2  Bruno       PF
 2           3  Carla       PJ
 3           4  Diego       PF,
    pedido_id  cliente_id  valor
 0        101           1    150
 1        102           2     30
 2        103           7     60
 3        104           5    200
 4        105           3    500)

## Exercício 1 — Resumo por categoria
**Tarefas**
1) Calcule, para cada `categoria`, a **quantidade total vendida** (`sum(qtd)`) e a **receita total** (`sum(total)`).  
2) Adicione o **preço médio** dos produtos (`mean(preco)`).  
3) Ordene da **maior para a menor receita**.

**Dica**: use `groupby(..., as_index=False).agg(...)` e `sort_values`.

In [71]:
# Espaço para respostas dos Exercícios propostos:
(df_prod
 .groupby("categoria", as_index=False)
 .agg(qtd_total=("qtd","sum"), receita=("total","sum"), preco_medio=("preco","mean"))
 .sort_values("receita", ascending=False))

Unnamed: 0,categoria,qtd_total,receita,preco_medio
1,Eletrônicos,3,420.0,150.0
2,Papelaria,13,94.7,11.7
0,Alimentos,13,79.0,6.25


## Exercício 2 — Clientes sem pedidos (*anti-join*)
**Tarefa**: encontre **quais clientes não realizaram nenhum pedido**. Mostre `cliente_id`, `nome`, `segmento`.

**Dicas**:  
- `merge(..., how="left", indicator=True)` e filtre `"_merge" == "left_only"`.

In [72]:
# Espaço para respostas dos Exercícios propostos:
df_cliente_pedido = pd.merge(clientes, pedidos, on="cliente_id", how="left", indicator=True)
print("Inner join:\n", df_cliente_pedido)

df_cliente_sem_pedido = df_cliente_pedido[df_cliente_pedido["_merge"] == "left_only"]
print("Anti join:\n", df_cliente_sem_pedido)

Inner join:
    cliente_id   nome segmento  pedido_id  valor     _merge
0           1    Ana       PF      101.0  150.0       both
1           2  Bruno       PF      102.0   30.0       both
2           3  Carla       PJ      105.0  500.0       both
3           4  Diego       PF        NaN    NaN  left_only
Anti join:
    cliente_id   nome segmento  pedido_id  valor     _merge
3           4  Diego       PF        NaN    NaN  left_only


## Exercício 3 — Pedidos sem cliente válido (*anti-join inverso*)
**Tarefa**: liste os **pedidos** cujo `cliente_id` **não existe** em `clientes`. Mostre `pedido_id` e `valor`.

In [73]:
# Espaço para respostas dos Exercícios propostos:
df_cliente_pedido2 = pd.merge(clientes, pedidos, on="cliente_id", how="right", indicator=True)
print("Inner join:\n", df_cliente_pedido2)

df_pedido_sem_cliente = df_cliente_pedido2[df_cliente_pedido2["_merge"] == "right_only"]
print("Anti join:\n", df_pedido_sem_cliente)

Inner join:
    cliente_id   nome segmento  pedido_id  valor      _merge
0           1    Ana       PF        101    150        both
1           2  Bruno       PF        102     30        both
2           7    NaN      NaN        103     60  right_only
3           5    NaN      NaN        104    200  right_only
4           3  Carla       PJ        105    500        both
Anti join:
    cliente_id nome segmento  pedido_id  valor      _merge
2           7  NaN      NaN        103     60  right_only
3           5  NaN      NaN        104    200  right_only


## Exercício 4 — Concatenação de históricos
**Cenário**: chegaram novos clientes (ano 2024). Una tudo e crie análises por ano/segmento.

In [74]:
clientes_novos = pd.DataFrame({
    "cliente_id": [5, 6],
    "nome": ["Erick", "Fabio"],
    "segmento": ["PJ", "PF"]
})
clientes_novos

Unnamed: 0,cliente_id,nome,segmento
0,5,Erick,PJ
1,6,Fabio,PF


**Tarefas**  
1) Faça `concat` de `clientes` (2023) com `clientes_novos` (2024).  
2) Adicione `ano`.  
3) Mostre o **número de clientes por ano e segmento**.

In [75]:
# Espaço para respostas dos Exercícios propostos:

clientes["ano"] = 2023
clientes_novos["ano"] = 2024
clientes_completos = pd.concat([clientes, clientes_novos], ignore_index=True)
print(clientes_completos)
print()

clientes_cat = (clientes_completos.groupby("ano", as_index=False)
 .agg(qtd_total=("nome","count"), seg_qtd=("segmento", "count")))
print(clientes_cat)


   cliente_id   nome segmento   ano
0           1    Ana       PF  2023
1           2  Bruno       PF  2023
2           3  Carla       PJ  2023
3           4  Diego       PF  2023
4           5  Erick       PJ  2024
5           6  Fabio       PF  2024

    ano  qtd_total  seg_qtd
0  2023          4        4
1  2024          2        2


## Exercício 5 — Tratamento de nulos e tipos
**Dados**:

In [76]:
df_nulos = pd.DataFrame({
    "produto": ["Caderno", "Caneta", "Mouse", None],
    "preco": ["19.9", "3.5", None, "10.0"],
    "qtd": [3, None, 2, 5]
})
df_nulos

Unnamed: 0,produto,preco,qtd
0,Caderno,19.9,3.0
1,Caneta,3.5,
2,Mouse,,2.0
3,,10.0,5.0


**Tarefas**  
1) Converta `preco` e `qtd` para **numérico**.  
2) Preencha `qtd` nulos com **0** e `preco` nulos com a **média**.  
3) Crie `total = preco * qtd`.  
4) Calcule o **faturamento total**.

In [77]:
# Espaço para respostas dos Exercícios propostos:
df_nulos["preco"] = df_nulos["preco"].astype("float64")
df_nulos["qtd"] = df_nulos["qtd"].astype("float64")

df_nulos = df_nulos.assign(qtd=df_nulos["qtd"].fillna("0"))
df_nulos = df_nulos.assign(preco=df_nulos["preco"].fillna(df_nulos["preco"].mean()))
print(df_nulos)


   produto      preco  qtd
0  Caderno  19.900000  3.0
1   Caneta   3.500000    0
2    Mouse  11.133333  2.0
3     None  10.000000  5.0


## Exercício 6 — Relatório por segmento
**Tarefas**  
1) Faça `merge` entre `pedidos` e `clientes`.  
2) Agrupe por `segmento` e calcule:
   - `n_clientes` (distintos)
   - `n_pedidos` (contagem)
   - `receita_total` (soma de `valor`)
   - `ticket_medio` = `receita_total / n_pedidos`  
3) Ordene do segmento mais rentável para o menos rentável.

In [78]:
# Espaço para respostas dos Exercícios propostos:
df_cliente_pedido3 = pd.merge(clientes, pedidos, on="cliente_id", how="inner")
print(df_cliente_pedido3)
print()

df_clientes_analises = df_cliente_pedido3.groupby("segmento").agg(
    n_clientes=("cliente_id", "nunique"),
    n_pedidos=("pedido_id", "count"),
    receita_total=("valor","sum")
)
df_clientes_analises["ticket_medio"] = df_clientes_analises["receita_total"]/df_clientes_analises["n_pedidos"]

df_clientes_analises = df_clientes_analises.sort_values(by="receita_total", ascending=False)
print("Análises por segmento:\n")
print(df_clientes_analises)
print()


   cliente_id   nome segmento   ano  pedido_id  valor
0           1    Ana       PF  2023        101    150
1           2  Bruno       PF  2023        102     30
2           3  Carla       PJ  2023        105    500

Análises por segmento:

          n_clientes  n_pedidos  receita_total  ticket_medio
segmento                                                    
PJ                 1          1            500         500.0
PF                 2          2            180          90.0



## Desafio — Ranking de clientes por segmento
**Tarefas**  
1) Crie `full = pedidos.merge(clientes, on="cliente_id", how="left")`.  
2) Para cada cliente, calcule: `qtd_pedidos`, `receita_total`, `ticket_medio`.  
3) Crie um **ranking por segmento** (1 = maior receita).  
4) Mostre o **Top 3 por segmento**.

In [79]:
# Espaço para respostas dos Exercícios propostos:
full = pedidos.merge(clientes, on="cliente_id", how="left")
# print(full)
# print()
df_full_clientes=full.groupby(["cliente_id", "nome", "segmento"]).agg(
    qtd_pedidos=("pedido_id", "count"),
    receita_total=("valor", "sum"),
)
# print(df_full_clientes)
# print()


df_full_clientes["ticket_medio"] = df_full_clientes["receita_total"]/df_full_clientes["qtd_pedidos"]
print("Valores para cada cliente:\n")
print(df_full_clientes)
print()

df_full_clientes["ranking_segmento"] = df_full_clientes.groupby("segmento")["receita_total"].rank(method="dense", ascending=False)
# print(df_full_clientes)

top_clientes_segmento = df_full_clientes.sort_values(by=['segmento', 'ranking_segmento'])

print("Top clientes por segmento:\n")
print(top_clientes_segmento)
print()


Valores para cada cliente:

                           qtd_pedidos  receita_total  ticket_medio
cliente_id nome  segmento                                          
1          Ana   PF                  1            150         150.0
2          Bruno PF                  1             30          30.0
3          Carla PJ                  1            500         500.0

Top clientes por segmento:

                           qtd_pedidos  receita_total  ticket_medio  \
cliente_id nome  segmento                                             
1          Ana   PF                  1            150         150.0   
2          Bruno PF                  1             30          30.0   
3          Carla PJ                  1            500         500.0   

                           ranking_segmento  
cliente_id nome  segmento                    
1          Ana   PF                     1.0  
2          Bruno PF                     2.0  
3          Carla PJ                     1.0  

