**Capítulo 11 – Pandas para Análise de Dados**

_Este notebook contém todos os códigos de exemplo e soluções para os exercícios do Capítulo 11._

<table align="left">
  <td>
    <a href="https://colab.research.google.com/drive/14aAOU32aoOP4U3xtW1h8eEtjfleQgkBh?authuser=1#scrollTo=B-1qXOklcIQN" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Configuração

Este projeto requer Python 3.11 ou superior:

In [None]:
import sys

assert sys.version_info >= (3, 11)

In [None]:
!python --version

Python 3.11.13


Criando Series

In [1]:
import pandas as pd
import numpy as np

# Criando Series a partir de uma lista
idades = pd.Series([22, 25, 30, 28, 35])
print("Series de Idades:\n", idades)
print(f"Tipo: {type(idades)}")
# Saída:
# Series de Idades:

# 0    22
# 1    25
# 2    30
# 3    28
# 4    35
# dtype: int64
# Tipo: <class 'pandas.core.series.Series'>

# Criando Series com índices personalizados
temperaturas = pd.Series([23, 25, 21, 28], index=['Seg', 'Ter', 'Qua', 'Qui'])
print("\nSeries de Temperaturas com índices:\n", temperaturas)
# Saída:
# Series de Temperaturas com índices:
# Seg    23
# Ter    25
# Qua    21
# Qui    28
# dtype: int64

# Criando Series a partir de um dicionário
dados_dicionario = {'Maçã': 100, 'Banana': 150, 'Laranja': 75}
estoque = pd.Series(dados_dicionario)
print("\nSeries de Estoque:\n", estoque)
# Saída:
# Series de Estoque:
# Maçã      100
# Banana    150
# Laranja    75
# dtype: int64

Series de Idades:
 0    22
1    25
2    30
3    28
4    35
dtype: int64
Tipo: <class 'pandas.core.series.Series'>

Series de Temperaturas com índices:
 Seg    23
Ter    25
Qua    21
Qui    28
dtype: int64

Series de Estoque:
 Maçã       100
Banana     150
Laranja     75
dtype: int64


Criando DataFrames

In [2]:
# Criando DataFrame a partir de um dicionário de listas
dados = {
    'Nome': ['Alice', 'Bob', 'Carlos', 'Diana'],
    'Idade': [25, 30, 22, 28],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo']
}
df_pessoas = pd.DataFrame(dados)
print("DataFrame de Pessoas:\n", df_pessoas)
# Saída:
# DataFrame de Pessoas:
#      Nome  Idade          Cidade
# 0   Alice     25       São Paulo
# 1     Bob     30  Rio de Janeiro
# 2  Carlos     22  Belo Horizonte
# 3   Diana     28       São Paulo

# Criando DataFrame com índices personalizados
df_com_indice = pd.DataFrame(dados, index=['P1', 'P2', 'P3', 'P4'])
print("\nDataFrame com Índices Personalizados:\n", df_com_indice)
# Saída:
# DataFrame com Índices Personalizados:
#    Nome  Idade          Cidade
# P1  Alice     25       São Paulo
# P2    Bob     30  Rio de Janeiro
# P3 Carlos     22  Belo Horizonte
# P4  Diana     28       São Paulo

DataFrame de Pessoas:
      Nome  Idade          Cidade
0   Alice     25       São Paulo
1     Bob     30  Rio de Janeiro
2  Carlos     22  Belo Horizonte
3   Diana     28       São Paulo

DataFrame com Índices Personalizados:
       Nome  Idade          Cidade
P1   Alice     25       São Paulo
P2     Bob     30  Rio de Janeiro
P3  Carlos     22  Belo Horizonte
P4   Diana     28       São Paulo


Leitura de Dados de Arquivos (.csv, .xlsx)

In [3]:
# Cria um arquivo CSV de exemplo
import os
with open("clientes.csv", "w") as f:
    f.write("id,nome,idade,renda\n")
    f.write("1,Maria,30,5000\n")
    f.write("2,João,25,3500\n")
    f.write("3,Ana,35,7000\n")
    f.write("4,Pedro,40,6000\n")
print("Arquivo clientes.csv criado para teste.")

Arquivo clientes.csv criado para teste.


In [4]:
# Lendo um arquivo CSV
df_clientes = pd.read_csv("clientes.csv")
print("\nDataFrame lido de 'clientes.csv':\n", df_clientes)
# Saída:
# DataFrame lido de 'clientes.csv':
#    id   nome  idade  renda
# 0   1  Maria     30   5000
# 1   2   João     25   3500
# 2   3    Ana     35   7000
# 3   4  Pedro     40   6000


DataFrame lido de 'clientes.csv':
    id   nome  idade  renda
0   1  Maria     30   5000
1   2   João     25   3500
2   3    Ana     35   7000
3   4  Pedro     40   6000


In [5]:
# Verificando as primeiras linhas (muito útil para datasets grandes)
print("\nPrimeiras 2 linhas (head):\n", df_clientes.head(2))
# Saída:
# Primeiras 2 linhas (head):
#    id   nome  idade  renda
# 0   1  Maria     30   5000
# 1   2   João     25   3500


Primeiras 2 linhas (head):
    id   nome  idade  renda
0   1  Maria     30   5000
1   2   João     25   3500


In [6]:
# Verificando as últimas linhas
print("\nÚltimas 2 linhas (tail):\n", df_clientes.tail(2))
# Saída:
# Últimas 2 linhas (tail):
#    id   nome  idade  renda
# 2   3    Ana     35   7000
# 3   4  Pedro     40   6000


Últimas 2 linhas (tail):
    id   nome  idade  renda
2   3    Ana     35   7000
3   4  Pedro     40   6000


In [7]:
# Informações gerais sobre o DataFrame
print("\nInformações do DataFrame (info()):")
df_clientes.info()
# Saída (exemplo parcial):
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 4 entries, 0 to 3
# Data columns (total 4 columns):
#  #   Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
#  0   id      4 non-null      int64
#  1   nome    4 non-null      object
#  2   idade   4 non-null      int64
#  3   renda   4 non-null      int64
# dtypes: int64(3), object(1)
# memory usage: 200.0+ bytes


Informações do DataFrame (info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      4 non-null      int64 
 1   nome    4 non-null      object
 2   idade   4 non-null      int64 
 3   renda   4 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 260.0+ bytes


In [8]:
# Estatísticas descritivas básicas (apenas para colunas numéricas)
print("\nEstatísticas descritivas (describe()):\n", df_clientes.describe())
# Saída (exemplo parcial):
# Estatísticas descritivas (describe()):
#           id      idade        renda
# count  4.000000   4.000000     4.000000
# mean   2.500000  32.500000  5375.000000
# std    1.290994   6.291529  1599.043468
# min    1.000000  25.000000  3500.000000
# ...


Estatísticas descritivas (describe()):
              id      idade        renda
count  4.000000   4.000000     4.000000
mean   2.500000  32.500000  5375.000000
std    1.290994   6.454972  1493.039406
min    1.000000  25.000000  3500.000000
25%    1.750000  28.750000  4625.000000
50%    2.500000  32.500000  5500.000000
75%    3.250000  36.250000  6250.000000
max    4.000000  40.000000  7000.000000


Selecionando Colunas

In [9]:
# Selecionar uma única coluna (retorna uma Series)
nomes = df_clientes['nome']
print("\nColuna 'nome' (Series):\n", nomes)
# Saída:
# Coluna 'nome' (Series):
# 0    Maria
# 1     João
# 2      Ana
# 3    Pedro
# Name: nome, dtype: object

# Selecionar múltiplas colunas (retorna um DataFrame)
colunas_selecionadas = df_clientes[['nome', 'renda']]
print("\nColunas 'nome' e 'renda' (DataFrame):\n", colunas_selecionadas)
# Saída:
# Colunas 'nome' e 'renda' (DataFrame):
#     nome  renda
# 0  Maria   5000
# 1   João   3500
# 2    Ana   7000
# 3  Pedro   6000


Coluna 'nome' (Series):
 0    Maria
1     João
2      Ana
3    Pedro
Name: nome, dtype: object

Colunas 'nome' e 'renda' (DataFrame):
     nome  renda
0  Maria   5000
1   João   3500
2    Ana   7000
3  Pedro   6000


Selecionando Linhas (.loc e .iloc)

In [10]:
# Usando .loc (baseado em rótulos)
df_custom_index = pd.DataFrame(dados, index=['P1', 'P2', 'P3', 'P4'])
print("\nDataFrame com índice customizado:\n", df_custom_index)


DataFrame com índice customizado:
       Nome  Idade          Cidade
P1   Alice     25       São Paulo
P2     Bob     30  Rio de Janeiro
P3  Carlos     22  Belo Horizonte
P4   Diana     28       São Paulo


In [11]:
# Selecionar linha pelo rótulo do índice
linha_p2 = df_custom_index.loc['P2']
print("\nLinha 'P2' com .loc:\n", linha_p2)
# Saída:
# Linha 'P2' com .loc:
# Nome        Bob
# Idade        30
# Cidade    Rio de Janeiro
# Name: P2, dtype: object


Linha 'P2' com .loc:
 Nome                 Bob
Idade                 30
Cidade    Rio de Janeiro
Name: P2, dtype: object


In [12]:
# Selecionar linha e coluna específicas por rótulo
idade_p3 = df_custom_index.loc['P3', 'Idade']
print(f"Idade de P3 (usando .loc): {idade_p3}") # Saída: Idade de P3 (usando .loc): 22

Idade de P3 (usando .loc): 22


In [13]:
# Fatiamento de linhas e seleção de colunas por rótulo
intervalo_linhas_colunas = df_custom_index.loc['P1':'P3', ['Nome', 'Idade']]
print("\nFatiamento com .loc (linhas P1 a P3, colunas Nome e Idade):\n", intervalo_linhas_colunas)

# Saída:
# Fatiamento com .loc (linhas P1 a P3, colunas Nome e Idade):
#    Nome  Idade
# P1  Alice     25
# P2    Bob     30
# P3 Carlos     22


Fatiamento com .loc (linhas P1 a P3, colunas Nome e Idade):
       Nome  Idade
P1   Alice     25
P2     Bob     30
P3  Carlos     22


In [14]:
# Usando .iloc (baseado em posição inteira)
print("\nDataFrame original (df_pessoas):\n", df_pessoas)

# Selecionar a primeira linha (índice 0)
primeira_linha = df_pessoas.iloc[0]
print("\nPrimeira linha com .iloc:\n", primeira_linha)
# Saída:
# Primeira linha com .iloc:
# Nome       Alice
# Idade         25
# Cidade    São Paulo
# Name: 0, dtype: object


DataFrame original (df_pessoas):
      Nome  Idade          Cidade
0   Alice     25       São Paulo
1     Bob     30  Rio de Janeiro
2  Carlos     22  Belo Horizonte
3   Diana     28       São Paulo

Primeira linha com .iloc:
 Nome          Alice
Idade            25
Cidade    São Paulo
Name: 0, dtype: object


In [15]:
# Selecionar elemento na posição [linha 1, coluna 2]
elemento = df_pessoas.iloc[1, 2]
print(f"Elemento na linha 1, coluna 2 (usando .iloc): {elemento}") # Saída: Elemento na linha 1, coluna 2 (usando .iloc): Rio de Janeiro

Elemento na linha 1, coluna 2 (usando .iloc): Rio de Janeiro


In [16]:
# Fatiamento de linhas e colunas por posição
sub_df = df_pessoas.iloc[0:2, 0:2] # Linhas 0 e 1, Colunas 0 e 1
print("\nSub-DataFrame com .iloc (linhas 0-1, colunas 0-1):\n", sub_df)
# Saída:
# Sub-DataFrame com .iloc (linhas 0-1, colunas 0-1):
#     Nome  Idade
# 0  Alice     25
# 1    Bob     30


Sub-DataFrame com .iloc (linhas 0-1, colunas 0-1):
     Nome  Idade
0  Alice     25
1    Bob     30


Filtragem Condicional

In [17]:
# Filtrar pessoas com idade maior que 25
pessoas_maiores_25 = df_pessoas[df_pessoas['Idade'] > 25]
print("\nPessoas com idade > 25:\n", pessoas_maiores_25)
# Saída:
# Pessoas com idade > 25:
#      Nome  Idade          Cidade
# 1     Bob     30  Rio de Janeiro
# 3   Diana     28       São Paulo


Pessoas com idade > 25:
     Nome  Idade          Cidade
1    Bob     30  Rio de Janeiro
3  Diana     28       São Paulo


In [18]:
# Filtrar pessoas de "São Paulo"
pessoas_sp = df_pessoas[df_pessoas['Cidade'] == 'São Paulo']
print("\nPessoas de São Paulo:\n", pessoas_sp)
# Saída:
# Pessoas de São Paulo:
#      Nome  Idade     Cidade
# 0   Alice     25  São Paulo
# 3   Diana     28  São Paulo


Pessoas de São Paulo:
     Nome  Idade     Cidade
0  Alice     25  São Paulo
3  Diana     28  São Paulo


In [19]:
# Combinar múltiplas condições (use parênteses para cada condição)
# Pessoas de São Paulo E com idade maior que 25
condicao_composta = (df_pessoas['Cidade'] == 'São Paulo') & (df_pessoas['Idade'] > 25)
pessoas_sp_mais_velhas = df_pessoas[condicao_composta]
print("\nPessoas de São Paulo com idade > 25:\n", pessoas_sp_mais_velhas)
# Saída:
# Pessoas de São Paulo com idade > 25:
#     Nome  Idade     Cidade
# 3  Diana     28  São Paulo


Pessoas de São Paulo com idade > 25:
     Nome  Idade     Cidade
3  Diana     28  São Paulo


In [20]:
# Operador OR (|)
condicao_or = (df_pessoas['Cidade'] == 'São Paulo') | (df_pessoas['Idade'] < 25)
pessoas_sp_ou_jovens = df_pessoas[condicao_or]
print("\nPessoas de São Paulo OU com idade < 25:\n", pessoas_sp_ou_jovens)

# Saída:
# Pessoas de São Paulo OU com idade < 25:
#      Nome  Idade          Cidade
# 0   Alice     25       São Paulo
# 2  Carlos     22  Belo Horizonte
# 3   Diana     28       São Paulo


Pessoas de São Paulo OU com idade < 25:
      Nome  Idade          Cidade
0   Alice     25       São Paulo
2  Carlos     22  Belo Horizonte
3   Diana     28       São Paulo


Adicionar/Modificar Colunas

In [21]:
# Adicionar uma nova coluna
df_pessoas['Status'] = 'Ativo'
print("\nDataFrame com coluna 'Status' adicionada:\n", df_pessoas)
# Saída:
# DataFrame com coluna 'Status' adicionada:
#      Nome  Idade          Cidade  Status
# 0   Alice     25       São Paulo  Ativo
# 1     Bob     30  Rio de Janeiro  Ativo
# 2  Carlos     22  Belo Horizonte  Ativo
# 3   Diana     28       São Paulo  Ativo

# Modificar uma coluna existente
df_pessoas['Idade'] = df_pessoas['Idade'] + 1 # Aumentar a idade de todos em 1 ano
print("\nDataFrame com idades incrementadas:\n", df_pessoas)
# Saída:

# DataFrame com idades incrementadas:
#      Nome  Idade          Cidade  Status
# 0   Alice     26       São Paulo  Ativo
# 1     Bob     31  Rio de Janeiro  Ativo
# 2  Carlos     23  Belo Horizonte  Ativo
# 3   Diana     29       São Paulo  Ativo

# Adicionar uma coluna baseada em outras colunas (ex: idade em dias)
df_pessoas['Idade_Dias'] = df_pessoas['Idade'] * 365
print("\nDataFrame com 'Idade_Dias':\n", df_pessoas)
# Saída:
# DataFrame com 'Idade_Dias':
#      Nome  Idade          Cidade  Status  Idade_Dias
# 0   Alice     26       São Paulo  Ativo        9490
# 1     Bob     31  Rio de Janeiro  Ativo       11315
# 2  Carlos     23  Belo Horizonte  Ativo        8395
# 3   Diana     29       São Paulo  Ativo       10585


DataFrame com coluna 'Status' adicionada:
      Nome  Idade          Cidade Status
0   Alice     25       São Paulo  Ativo
1     Bob     30  Rio de Janeiro  Ativo
2  Carlos     22  Belo Horizonte  Ativo
3   Diana     28       São Paulo  Ativo

DataFrame com idades incrementadas:
      Nome  Idade          Cidade Status
0   Alice     26       São Paulo  Ativo
1     Bob     31  Rio de Janeiro  Ativo
2  Carlos     23  Belo Horizonte  Ativo
3   Diana     29       São Paulo  Ativo

DataFrame com 'Idade_Dias':
      Nome  Idade          Cidade Status  Idade_Dias
0   Alice     26       São Paulo  Ativo        9490
1     Bob     31  Rio de Janeiro  Ativo       11315
2  Carlos     23  Belo Horizonte  Ativo        8395
3   Diana     29       São Paulo  Ativo       10585


Remover Colunas/Linhas

In [22]:
# Remover uma coluna (axis=1 indica coluna, inplace=False retorna uma cópia)
df_sem_status = df_pessoas.drop('Status', axis=1)
print("\nDataFrame sem a coluna 'Status':\n", df_sem_status)
# Saída:
# DataFrame sem a coluna 'Status':
#      Nome  Idade          Cidade  Idade_Dias
# 0   Alice     26       São Paulo        9490
# 1     Bob     31  Rio de Janeiro       11315
# 2  Carlos     23  Belo Horizonte        8395
# 3   Diana     29       São Paulo       10585

# Remover linhas por índice (axis=0 indica linha)
df_sem_primeira_linha = df_pessoas.drop(0, axis=0) # Remove a linha com índice 0
print("\nDataFrame sem a primeira linha:\n", df_sem_primeira_linha)
# Saída:
# DataFrame sem a primeira linha:
#      Nome  Idade          Cidade  Status  Idade_Dias
# 1     Bob     31  Rio de Janeiro  Ativo       11315
# 2  Carlos     23  Belo Horizonte  Ativo        8395
# 3   Diana     29       São Paulo  Ativo       10585


DataFrame sem a coluna 'Status':
      Nome  Idade          Cidade  Idade_Dias
0   Alice     26       São Paulo        9490
1     Bob     31  Rio de Janeiro       11315
2  Carlos     23  Belo Horizonte        8395
3   Diana     29       São Paulo       10585

DataFrame sem a primeira linha:
      Nome  Idade          Cidade Status  Idade_Dias
1     Bob     31  Rio de Janeiro  Ativo       11315
2  Carlos     23  Belo Horizonte  Ativo        8395
3   Diana     29       São Paulo  Ativo       10585


Valores Ausentes (NaN)

In [23]:
# Criando um DataFrame com valores ausentes
df_missing = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, 7, 8],
    'C': [9, 10, 11, np.nan]
})
print("\nDataFrame com valores ausentes:\n", df_missing)

# Saída:
# DataFrame com valores ausentes:
#      A    B     C
# 0  1.0  5.0   9.0
# 1  2.0  NaN  10.0
# 2  NaN  7.0  11.0
# 3  4.0  8.0   NaN


DataFrame com valores ausentes:
      A    B     C
0  1.0  5.0   9.0
1  2.0  NaN  10.0
2  NaN  7.0  11.0
3  4.0  8.0   NaN


In [24]:
# Verificar valores ausentes (retorna um DataFrame booleano)
print("\nVerificando valores ausentes (isnull()):\n", df_missing.isnull())
# Saída:
# Verificando valores ausentes (isnull()):
#        A      B      C
# 0  False  False  False
# 1  False   True  False
# 2   True  False  False
# 3  False  False   True


Verificando valores ausentes (isnull()):
        A      B      C
0  False  False  False
1  False   True  False
2   True  False  False
3  False  False   True


In [27]:
# Contar valores ausentes por coluna
print("\nContagem de valores ausentes por coluna:\n", df_missing.isnull().sum())

# Saída:
# Contagem de valores ausentes por coluna:
# A    1
# B    1
# C    1
# dtype: int64


Contagem de valores ausentes por coluna:
 A    1
B    1
C    1
dtype: int64


In [29]:
# Remover linhas com valores ausentes (drop all rows with NaN)
df_sem_nan_linhas = df_missing.dropna()
print("\nDataFrame após remover linhas com NaN (dropna()):\n", df_sem_nan_linhas)

# Saída:
# DataFrame após remover linhas com NaN (dropna()):
#      A    B    C
# 0  1.0  5.0  9.0


DataFrame após remover linhas com NaN (dropna()):
      A    B    C
0  1.0  5.0  9.0


In [30]:
# Preencher valores ausentes (fillna)
df_preenchido = df_missing.fillna(0) # Preenche todos os NaN com 0
print("\nDataFrame após preencher NaN com 0 (fillna(0)):\n", df_preenchido)

# Saída:
# DataFrame após preencher NaN com 0 (fillna(0)):
#      A    B     C
# 0  1.0  5.0   9.0
# 1  2.0  0.0  10.0
# 2  0.0  7.0  11.0
# 3  4.0  8.0   0.0


DataFrame após preencher NaN com 0 (fillna(0)):
      A    B     C
0  1.0  5.0   9.0
1  2.0  0.0  10.0
2  0.0  7.0  11.0
3  4.0  8.0   0.0


In [32]:
# Preencher com a média da coluna (comum em análise de dados)
df_preenchido_media = df_missing.fillna(df_missing.mean())
print("\nDataFrame após preencher NaN com a média da coluna:\n", df_preenchido_media)

# Saída:
# DataFrame após preencher NaN com a média da coluna:
#          A    B          C
# 0  1.000000  5.0   9.000000
# 1  2.000000  NaN  10.000000
# 2  2.333333  7.0  11.000000
# 3  4.000000  8.0          NaN
# (Note que o NaN em B ainda existe porque mean() para B é 6.666..., e o NaN em C também porque mean() para C é 10.0)

# Vamos tentar um exemplo mais claro de preenchimento com média

df_missing_2 = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]})
df_preenchido_media_2 = df_missing_2.fillna(df_missing_2.mean())
print("\nDataFrame com preenchimento da média por coluna (exemplo 2):\n", df_preenchido_media_2)

# Saída:
# DataFrame com preenchimento da média por coluna (exemplo 2):
#          A         B
# 0  1.000000  5.000000
# 1  2.000000  6.666667
# 2  2.333333  7.000000
# 3  4.000000  8.000000


DataFrame após preencher NaN com a média da coluna:
           A         B     C
0  1.000000  5.000000   9.0
1  2.000000  6.666667  10.0
2  2.333333  7.000000  11.0
3  4.000000  8.000000  10.0

DataFrame com preenchimento da média por coluna (exemplo 2):
           A         B
0  1.000000  5.000000
1  2.000000  6.666667
2  2.333333  7.000000
3  4.000000  8.000000


Agrupamento (groupby) e Agregação

In [33]:
dados_vendas = {
    'Produto': ['A', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Vendedor': ['João', 'Maria', 'João', 'Maria', 'Pedro', 'Ana', 'João'],
    'Valor': [100, 150, 200, 50, 120, 300, 80]
}

df_vendas = pd.DataFrame(dados_vendas)
print("\nDataFrame de Vendas:\n", df_vendas)

# Saída:
# DataFrame de Vendas:
#   Produto Vendedor  Valor
# 0       A     João    100
# 1       B    Maria    150
# 2       A     João    200
# 3       C    Maria     50
# 4       B    Pedro    120
# 5       A      Ana    300
# 6       C     João     80


DataFrame de Vendas:
   Produto Vendedor  Valor
0       A     João    100
1       B    Maria    150
2       A     João    200
3       C    Maria     50
4       B    Pedro    120
5       A      Ana    300
6       C     João     80


In [34]:
# Agrupar por 'Produto' e calcular a soma dos 'Valor'
vendas_por_produto = df_vendas.groupby('Produto')['Valor'].sum()
print("\nVendas totais por produto:\n", vendas_por_produto)

# Saída:
# Vendas totais por produto:
# Produto
# A    600
# B    270
# C    130
# Name: Valor, dtype: int64


Vendas totais por produto:
 Produto
A    600
B    270
C    130
Name: Valor, dtype: int64


In [35]:
# Agrupar por 'Vendedor' e calcular a média dos 'Valor'
media_por_vendedor = df_vendas.groupby('Vendedor')['Valor'].mean()
print("\nMédia de vendas por vendedor:\n", media_por_vendedor)

# Saída:
# Média de vendas por vendedor:
# Vendedor
# Ana      300.0
# João     193.333333
# Maria    100.0
# Pedro    120.0
# Name: Valor, dtype: float64


Média de vendas por vendedor:
 Vendedor
Ana      300.000000
João     126.666667
Maria    100.000000
Pedro    120.000000
Name: Valor, dtype: float64


In [36]:
# Agrupar por múltiplas colunas e aplicar várias agregações
# Contagem de vendas e soma dos valores por Produto e Vendedor
resumo_vendas = df_vendas.groupby(['Produto', 'Vendedor']).agg(
    total_vendas=('Valor', 'sum'),
    contagem_vendas=('Valor', 'count')
)

print("\nResumo de vendas por produto e vendedor:\n", resumo_vendas)

# Saída:
# Resumo de vendas por produto e vendedor:
#                    total_vendas  contagem_vendas
# Produto Vendedor
# A       Ana               300                1
#         João              300                2
# B       Maria             150                1
#         Pedro             120                1
# C       João               80                1
#         Maria              50                1


Resumo de vendas por produto e vendedor:
                   total_vendas  contagem_vendas
Produto Vendedor                               
A       Ana                300                1
        João               300                2
B       Maria              150                1
        Pedro              120                1
C       João                80                1
        Maria               50                1


Gravar Dados em Arquivos

In [37]:
# Salvando o DataFrame de clientes modificado para um novo CSV
df_pessoas.to_csv("pessoas_modificadas.csv", index=False) # index=False para não salvar o índice do DataFrame como uma coluna
print("\nDataFrame salvo em 'pessoas_modificadas.csv'")

# Salvando o resumo de vendas para Excel
resumo_vendas.to_excel("resumo_vendas.xlsx", sheet_name='VendasAgrupadas')
print("Resumo de vendas salvo em 'resumo_vendas.xlsx'")


DataFrame salvo em 'pessoas_modificadas.csv'
Resumo de vendas salvo em 'resumo_vendas.xlsx'


**Exercícios do Capítulo 11**

1.	Criação de DataFrame:
o	Crie um DataFrame chamado alunos com as seguintes colunas e dados:
	Nome: ['Alice', 'Bruno', 'Carla', 'David', 'Eva']
	Idade: [20, 22, 21, 23, 20]
	Curso: ['Engenharia', 'Medicina', 'Direito', 'Engenharia', 'Medicina']
	Nota_Final: [8.5, 7.0, 9.2, 6.8, 7.5]
o	Imprima o DataFrame completo.
2.	Seleção e Filtragem:
o	Selecione e imprima apenas a coluna Nome.
o	Selecione e imprima as colunas Nome e Nota_Final.
o	Filtre e imprima os alunos que têm Idade igual a 20.
o	Filtre e imprima os alunos que estão no curso de 'Engenharia' e têm Nota_Final maior que 8.0.
3.	Manipulação de Dados:
o	Adicione uma nova coluna ao DataFrame alunos chamada Status. Defina Status como 'Aprovado' se Nota_Final for maior ou igual a 7.0, e 'Reprovado' caso contrário. (Dica: você pode usar um loop com loc ou, de forma mais eficiente, np.where).
o	Calcule e imprima a média da Nota_Final de todos os alunos.
4.	Agrupamento e Agregação:
o	Agrupe o DataFrame alunos pelo Curso e calcule a média da Nota_Final para cada curso. Imprima o resultado.
o	Agrupe por Curso e Status, e conte quantos alunos estão em cada combinação. Imprima o resultado.
5.	Valores Ausentes (Opcional - Avançado):
o	Crie uma cópia do seu DataFrame alunos. Aleatoriamente, substitua 2-3 valores de Nota_Final por np.nan (use np.random.choice para selecionar índices aleatórios, ou faça manualmente).
o	Imprima o DataFrame com NaNs.
o	Use fillna() para preencher os valores NaN na coluna Nota_Final com a média da Nota_Final dos alunos (apenas os não-NaN). Imprima o DataFrame resultante.

Parabéns! Você concluiu o terceiro módulo e deu um salto gigantesco na sua jornada em Data Science! Dominar o NumPy e, especialmente, o Pandas, é o que o capacita a manipular, explorar e preparar dados para qualquer análise ou modelo.
No próximo módulo, vamos focar na visualização de dados com Matplotlib e Seaborn, transformando seus dados em insights visuais poderosos!

Respostas dos Exercícios do Capítulo 11:

In [38]:
# Exercício 1:

# Importações necessárias
import pandas as pd
import numpy as np

# Criando os dados
dados = {
    'Nome': ['Alice', 'Bruno', 'Carla', 'David', 'Eva'],
    'Idade': [20, 22, 21, 23, 20],
    'Curso': ['Engenharia', 'Medicina', 'Direito', 'Engenharia', 'Medicina'],
    'Nota_Final': [8.5, 7.0, 9.2, 6.8, 7.5]
}

# Criando o DataFrame
alunos = pd.DataFrame(dados)

# Imprimindo o DataFrame completo
print("Exercício 1 — DataFrame completo:")
print(alunos)

Exercício 1 — DataFrame completo:
    Nome  Idade       Curso  Nota_Final
0  Alice     20  Engenharia         8.5
1  Bruno     22    Medicina         7.0
2  Carla     21     Direito         9.2
3  David     23  Engenharia         6.8
4    Eva     20    Medicina         7.5


In [39]:
# Exercício 2:

# a) Selecionar e imprimir apenas a coluna Nome
print("\nExercício 2a — Coluna 'Nome':")
print(alunos['Nome'])

# b) Selecionar e imprimir as colunas Nome e Nota_Final
print("\nExercício 2b — Colunas 'Nome' e 'Nota_Final':")
print(alunos[['Nome', 'Nota_Final']])

# c) Filtrar e imprimir os alunos com idade igual a 20
print("\nExercício 2c — Alunos com idade == 20:")
print(alunos[alunos['Idade'] == 20])

# d) Filtrar alunos do curso de Engenharia com nota final > 8.0
filtro = (alunos['Curso'] == 'Engenharia') & (alunos['Nota_Final'] > 8.0)
print("\nExercício 2d — Engenharia com Nota > 8.0:")
print(alunos[filtro])


Exercício 2a — Coluna 'Nome':
0    Alice
1    Bruno
2    Carla
3    David
4      Eva
Name: Nome, dtype: object

Exercício 2b — Colunas 'Nome' e 'Nota_Final':
    Nome  Nota_Final
0  Alice         8.5
1  Bruno         7.0
2  Carla         9.2
3  David         6.8
4    Eva         7.5

Exercício 2c — Alunos com idade == 20:
    Nome  Idade       Curso  Nota_Final
0  Alice     20  Engenharia         8.5
4    Eva     20    Medicina         7.5

Exercício 2d — Engenharia com Nota > 8.0:
    Nome  Idade       Curso  Nota_Final
0  Alice     20  Engenharia         8.5


In [40]:
# Exercício 3:

# a) Adicionar coluna 'Status' com base na Nota_Final
alunos['Status'] = np.where(alunos['Nota_Final'] >= 7.0, 'Aprovado', 'Reprovado')

print("\nExercício 3a — DataFrame com nova coluna 'Status':")
print(alunos)

# b) Calcular e imprimir a média da Nota_Final
media_notas = alunos['Nota_Final'].mean()
print("\nExercício 3b — Média da Nota_Final dos alunos:")
print(media_notas)


Exercício 3a — DataFrame com nova coluna 'Status':
    Nome  Idade       Curso  Nota_Final     Status
0  Alice     20  Engenharia         8.5   Aprovado
1  Bruno     22    Medicina         7.0   Aprovado
2  Carla     21     Direito         9.2   Aprovado
3  David     23  Engenharia         6.8  Reprovado
4    Eva     20    Medicina         7.5   Aprovado

Exercício 3b — Média da Nota_Final dos alunos:
7.8


In [41]:
# Exercício 4:

# a) Agrupar por Curso e calcular média da Nota_Final
media_por_curso = alunos.groupby('Curso')['Nota_Final'].mean()

print("\nExercício 4a — Média da Nota_Final por Curso:")
print(media_por_curso)

# b) Agrupar por Curso e Status, contando alunos em cada grupo
contagem = alunos.groupby(['Curso', 'Status'])['Nome'].count()

print("\nExercício 4b — Contagem por Curso e Status:")
print(contagem)


Exercício 4a — Média da Nota_Final por Curso:
Curso
Direito       9.20
Engenharia    7.65
Medicina      7.25
Name: Nota_Final, dtype: float64

Exercício 4b — Contagem por Curso e Status:
Curso       Status   
Direito     Aprovado     1
Engenharia  Aprovado     1
            Reprovado    1
Medicina    Aprovado     2
Name: Nome, dtype: int64


In [42]:
# Exercício 5:

# a) Criar cópia e inserir NaNs manualmente em Nota_Final
alunos_nan = alunos.copy()
alunos_nan.loc[1, 'Nota_Final'] = np.nan
alunos_nan.loc[3, 'Nota_Final'] = np.nan

print("\nExercício 5a — DataFrame com valores ausentes:")
print(alunos_nan)

# b) Preencher NaNs com a média dos valores válidos
media_sem_nan = alunos_nan['Nota_Final'].mean(skipna=True)
alunos_nan['Nota_Final'] = alunos_nan['Nota_Final'].fillna(media_sem_nan)

print("\nExercício 5b — DataFrame após preencher NaNs com a média:")
print(alunos_nan)


Exercício 5a — DataFrame com valores ausentes:
    Nome  Idade       Curso  Nota_Final     Status
0  Alice     20  Engenharia         8.5   Aprovado
1  Bruno     22    Medicina         NaN   Aprovado
2  Carla     21     Direito         9.2   Aprovado
3  David     23  Engenharia         NaN  Reprovado
4    Eva     20    Medicina         7.5   Aprovado

Exercício 5b — DataFrame após preencher NaNs com a média:
    Nome  Idade       Curso  Nota_Final     Status
0  Alice     20  Engenharia         8.5   Aprovado
1  Bruno     22    Medicina         8.4   Aprovado
2  Carla     21     Direito         9.2   Aprovado
3  David     23  Engenharia         8.4  Reprovado
4    Eva     20    Medicina         7.5   Aprovado
