# Exploração de Dados com Pandas

**Objetivo:** Apresentar os conceitos e ferramentas fundamentais da biblioteca Pandas para manipulação e análise de dados tabulares, capacitando a realização de tarefas básicas de preparação e exploração de dados.

## 1. Introdução ao Pandas e Estruturas de Dados

### O que é Pandas?
Pandas é uma biblioteca Python de código aberto, de alto desempenho e fácil de usar, construída sobre o NumPy. Ela fornece estruturas de dados e ferramentas de análise de dados especialmente projetadas para trabalhar com dados **tabulares** (como planilhas ou tabelas SQL) e dados de **séries temporais**.

**Por que usar Pandas?**

*   **Estruturas de Dados Flexíveis:** `Series` (1D) e `DataFrame` (2D) que podem lidar com diferentes tipos de dados.
*   **Manipulação Poderosa:** Ferramentas para carregar, limpar, transformar, remodelar, fatiar, agregar e juntar dados.
*   **Tratamento de Dados Ausentes:** Funcionalidades para encontrar e tratar valores ausentes (NaN).
*   **Performance:** Muitas operações são otimizadas e implementadas em Cython ou C.
*   **Integração:** Boa integração com outras bibliotecas científicas como NumPy, Matplotlib e Scikit-learn.

### Importação da Biblioteca
Por convenção, importamos o Pandas com o alias `pd` e o NumPy (que o Pandas usa internamente) com o alias `np`.

In [1]:
import pandas as pd
import numpy as np

### Estruturas Fundamentais

#### `Series`
Uma `Series` é um array unidimensional rotulado, capaz de armazenar dados de qualquer tipo (inteiros, strings, floats, objetos Python, etc.). É como uma única coluna em uma tabela, com um índice associado a cada valor.

In [2]:
# Criando uma Series a partir de diferentes fontes
dados_lista = [10, 20, 30, 40, 50]
s_lista = pd.Series(data=dados_lista)
print("Series a partir de lista (índice padrão):\n", s_lista)

# Com índice personalizado
indices_personalizados = ['a', 'b', 'c', 'd', 'e']
s_indice_pers = pd.Series(data=dados_lista, index=indices_personalizados)
print("\nSeries com índice personalizado:\n", s_indice_pers)

# A partir de um dicionário (chaves tornam-se índices automaticamente)
dados_dict_serie = {'x': 100, 'y': 200, 'z': 300}
s_dict = pd.Series(data=dados_dict_serie)
print("\nSeries a partir de dicionário:\n", s_dict)

# Acessando componentes e elementos
print("\nElemento no índice 'b':", s_indice_pers['b'])
print("Valores da Series:", s_indice_pers.values)
print("Índice da Series:", s_indice_pers.index)
print("Tipo de dados (dtype):", s_indice_pers.dtype)

Series a partir de lista (índice padrão):
 0    10
1    20
2    30
3    40
4    50
dtype: int64

Series com índice personalizado:
 a    10
b    20
c    30
d    40
e    50
dtype: int64

Series a partir de dicionário:
 x    100
y    200
z    300
dtype: int64

Elemento no índice 'b': 20
Valores da Series: [10 20 30 40 50]
Índice da Series: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Tipo de dados (dtype): int64


#### `DataFrame`
Um `DataFrame` é uma estrutura de dados bidimensional, semelhante a uma tabela, com linhas e colunas rotuladas. Cada coluna pode ter um tipo de dado diferente. É a principal estrutura de dados do Pandas e a mais utilizada para análise.

In [3]:
# Método 1: A partir de um dicionário de listas
dados_dict = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [28, 35, 22, 41],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Recife']
}
df1 = pd.DataFrame(dados_dict)
print("DataFrame a partir de dicionário de listas:")
print(df1)

# Método 2: A partir de uma lista de listas (com colunas especificadas)
dados_lista = [
    ['João', 28, 'São Paulo'],
    ['Maria', 35, 'Rio de Janeiro'],
    ['Pedro', 22, 'Belo Horizonte'],
    ['Ana', 41, 'Recife']
]
df2 = pd.DataFrame(dados_lista, columns=['Nome', 'Idade', 'Cidade'])
print("\nDataFrame a partir de lista de listas:")
print(df2)

# Método 3: A partir de uma lista de dicionários (cada dicionário é uma linha)
dados_lista_dict = [
    {'Nome': 'João', 'Idade': 28, 'Cidade': 'São Paulo'},
    {'Nome': 'Maria', 'Idade': 35, 'Cidade': 'Rio de Janeiro'},
    {'Nome': 'Pedro', 'Idade': 22, 'Cidade': 'Belo Horizonte'},
    {'Nome': 'Ana', 'Idade': 41, 'Cidade': 'Recife'}
]
df3 = pd.DataFrame(dados_lista_dict)
print("\nDataFrame a partir de lista de dicionários:")
print(df3)

# Método 4: A partir de arrays NumPy
array_dados = np.array([
    ['João', 28, 'São Paulo'],
    ['Maria', 35, 'Rio de Janeiro'],
    ['Pedro', 22, 'Belo Horizonte'],
    ['Ana', 41, 'Recife']
])
df4 = pd.DataFrame(array_dados, columns=['Nome', 'Idade', 'Cidade'])
print("\nDataFrame a partir de array NumPy:")
print(df4)

# Método 5: DataFrame vazio com estrutura definida
df5 = pd.DataFrame(columns=['Nome', 'Idade', 'Cidade'])
print("\nDataFrame vazio com colunas definidas:")
print(df5)

# Definindo tipos de dados explicitamente
df6 = pd.DataFrame({
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': pd.Series([28, 35, 22, 41], dtype='int32'),
    'Salário': pd.Series([3500.50, 4200.75, 2800.25, 5100.00], dtype='float64'),
    'Contratado': pd.Series([True, True, False, True], dtype='bool')
})
print("\nDataFrame com tipos específicos:")
print(df6.dtypes)

DataFrame a partir de dicionário de listas:
    Nome  Idade          Cidade
0   João     28       São Paulo
1  Maria     35  Rio de Janeiro
2  Pedro     22  Belo Horizonte
3    Ana     41          Recife

DataFrame a partir de lista de listas:
    Nome  Idade          Cidade
0   João     28       São Paulo
1  Maria     35  Rio de Janeiro
2  Pedro     22  Belo Horizonte
3    Ana     41          Recife

DataFrame a partir de lista de dicionários:
    Nome  Idade          Cidade
0   João     28       São Paulo
1  Maria     35  Rio de Janeiro
2  Pedro     22  Belo Horizonte
3    Ana     41          Recife

DataFrame a partir de array NumPy:
    Nome Idade          Cidade
0   João    28       São Paulo
1  Maria    35  Rio de Janeiro
2  Pedro    22  Belo Horizonte
3    Ana    41          Recife

DataFrame vazio com colunas definidas:
Empty DataFrame
Columns: [Nome, Idade, Cidade]
Index: []

DataFrame com tipos específicos:
Nome           object
Idade           int32
Salário       float64
Con

## 2. Criação e Importação Básica de DataFrames

### Criação a partir de Dicionário de Listas/Arrays
Uma forma comum de criar um DataFrame é a partir de um dicionário onde as chaves são os nomes das colunas e os valores são listas (ou arrays NumPy, ou Series Pandas) contendo os dados para cada coluna. Todas as listas/arrays devem ter o mesmo comprimento.

In [4]:
dados_dict = {
    'Nome': ['Ana', 'Bruno', 'Carla', 'Daniel'],
    'Idade': [28, 35, 22, 41],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Belo Horizonte']
}

df_de_dict = pd.DataFrame(dados_dict)

print("DataFrame criado a partir de dicionário:")
display(df_de_dict) # 'display()' é melhor para DataFrames no Jupyter

DataFrame criado a partir de dicionário:


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,35,Rio de Janeiro
2,Carla,22,Curitiba
3,Daniel,41,Belo Horizonte


### Importação de Dados
Pandas pode ler dados de diversas fontes. Para arquivos de texto como CSV (Comma-Separated Values) ou TSV (Tab-Separated Values), usamos `pd.read_csv()` ou `pd.read_table()`.

**Parâmetros essenciais para `pd.read_csv()` (e `pd.read_table()`):**
*   `filepath_or_buffer`: O caminho para o arquivo local ou uma URL.
*   `sep` (ou `delimiter`): O caractere usado para separar os valores em cada linha. Para CSV, o padrão é `','`. Para TSV (tab-separated), use `sep='\t'`.
*   `comment`: Caractere que indica que o restante da linha é um comentário e deve ser ignorado (ex: `comment='#'`).
*   `na_values`: Uma string ou lista de strings que devem ser interpretadas como valores ausentes (NaN). Ex: `na_values=['NA', 'Ausente', '--']`.

In [5]:
# Exemplo prático: Carregar o dataset euro_football_players.txt
url_futebol = "http://leg.ufpr.br/~walmes/data/euro_football_players.txt"
df_futebol = pd.DataFrame() # Inicializar para o caso de falha na importação

print(f"Tentando importar dados de: {url_futebol}")
try:
    df_futebol = pd.read_table(
        url_futebol,
        sep="\t",         # Separador é tabulação
        comment="#",        # Linhas começando com '#' são comentários
        na_values=['NA', '.', '', 'N/A'] # Valores a serem tratados como NaN
    )
    print("\nDados importados com sucesso!")

except Exception as e:
    print(f"\nERRO durante a importação: {e}")
    print("Verifique sua conexão com a internet ou a validade da URL.")

Tentando importar dados de: http://leg.ufpr.br/~walmes/data/euro_football_players.txt

Dados importados com sucesso!


## 3. Inspeção de Dados

Após carregar os dados, o primeiro passo é inspecioná-los para entender a sua estrutura, conteúdo e possíveis problemas.

### Visualização Rápida

In [6]:
# .head(): Mostra as primeiras N linhas (padrão N=5)
print("Primeiras 3 linhas (df_futebol.head(3)):")
display(df_futebol.head(3))

# .tail(): Mostra as últimas N linhas (padrão N=5)
print("\nÚltimas 2 linhas (df_futebol.tail(2)):")
display(df_futebol.tail(2))

Primeiras 3 linhas (df_futebol.head(3)):


Unnamed: 0,country,team,name,pos,age,cm,kg,apps,goal,ass,yel,red,spg,ps,aw,mom,rt
0,Austria,Salzburg,Sadio Mané,M(L),21.0,175.0,69.0,9,4.0,3.0,1.0,1.0,2.0,77.0,1.2,3.0,7.98
1,Austria,Salzburg,Kevin Kampl,M(R),23.0,180.0,63.0,9,2.0,4.0,2.0,,2.0,83.9,0.3,1.0,7.93
2,Austria,Salzburg,Alan,FW,24.0,182.0,73.0,8(1),4.0,2.0,,1.0,4.2,60.8,3.8,2.0,7.91



Últimas 2 linhas (df_futebol.tail(2)):


Unnamed: 0,country,team,name,pos,age,cm,kg,apps,goal,ass,yel,red,spg,ps,aw,mom,rt
1526,Norway,Tromsø,Fredrik Bakkelund,GK,17.0,,,,,,,,,,,,
1527,Norway,Tromsø,Mathias Johnsen,D,18.0,,,,,,,,,,,,


### Estrutura e Metadados

In [7]:
# .shape: Retorna uma tupla com (número_de_linhas, número_de_colunas)
print("Dimensões (linhas, colunas) - df_futebol.shape:", df_futebol.shape)

# .info(): Fornece um resumo conciso do DataFrame.
# Inclui o tipo de índice, informações das colunas (nome, contagem de não-nulos, tipo de dado) e uso de memória.
# EXTREMAMENTE IMPORTANTE para entender os tipos de dados e a presença de valores ausentes.
print("\nResumo do DataFrame (df_futebol.info()):")
df_futebol.info()

# .columns: Retorna os nomes das colunas
print("\nNomes das colunas (df_futebol.columns):")
print(list(df_futebol.columns))

# .index: Retorna o índice (rótulos das linhas)
print("\nÍndice (df_futebol.index) - primeiras 5 entradas:")
print(df_futebol.index[:5])

# .dtypes: Retorna o tipo de dado (dtype) de cada coluna
print("\nTipos de dados por coluna (df_futebol.dtypes):")
print(df_futebol.dtypes)

Dimensões (linhas, colunas) - df_futebol.shape: (1528, 17)

Resumo do DataFrame (df_futebol.info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1528 entries, 0 to 1527
Data columns (total 17 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   country  1528 non-null   object 
 1   team     1528 non-null   object 
 2   name     1528 non-null   object 
 3   pos      1528 non-null   object 
 4   age      1524 non-null   float64
 5   cm       1444 non-null   float64
 6   kg       1417 non-null   float64
 7   apps     1326 non-null   object 
 8   goal     412 non-null    float64
 9   ass      362 non-null    float64
 10  yel      729 non-null    float64
 11  red      95 non-null     float64
 12  spg      1025 non-null   float64
 13  ps       1318 non-null   float64
 14  aw       1120 non-null   float64
 15  mom      277 non-null    float64
 16  rt       1326 non-null   float64
dtypes: float64(12), object(5)
memory usage: 203.1+ KB

Nomes das colu

### Resumo Estatístico

In [8]:
# .describe(): Gera estatísticas descritivas.
# Para colunas numéricas: contagem, média, desvio padrão, mínimo, percentis (25%, 50%, 75%), máximo.
# Para colunas object (string) ou categóricas: contagem, valores únicos, valor mais frequente (top), frequência do mais frequente (freq).
print("Resumo estatístico para colunas numéricas (df_futebol.describe()):")
display(df_futebol.describe())

print("\nResumo estatístico para colunas do tipo 'object' (df_futebol.describe(include='object')):")
display(df_futebol.describe(include='object'))

print("\nResumo estatístico para todos os tipos de colunas (df_futebol.describe(include='all')):")
display(df_futebol.describe(include='all'))

Resumo estatístico para colunas numéricas (df_futebol.describe()):


Unnamed: 0,age,cm,kg,goal,ass,yel,red,spg,ps,aw,mom,rt
count,1524.0,1444.0,1417.0,412.0,362.0,729.0,95.0,1025.0,1318.0,1120.0,277.0,1326.0
mean,25.437008,181.805402,75.358504,2.597087,2.016575,2.14952,1.052632,1.06478,76.761912,1.196607,1.534296,6.687474
std,4.320921,6.603319,6.768774,2.643965,1.571827,1.66439,0.26771,0.793146,11.561037,0.995031,0.914703,0.422251
min,16.0,161.0,54.0,1.0,1.0,1.0,1.0,0.1,20.0,0.1,1.0,5.36
25%,22.0,177.0,71.0,1.0,1.0,1.0,1.0,0.5,72.1,0.5,1.0,6.37
50%,25.0,182.0,75.0,2.0,1.0,2.0,1.0,0.9,79.05,1.0,1.0,6.7
75%,28.0,186.0,80.0,3.0,2.0,3.0,1.0,1.5,84.075,1.6,2.0,6.97
max,42.0,208.0,111.0,18.0,10.0,12.0,3.0,5.1,100.0,6.3,6.0,9.29



Resumo estatístico para colunas do tipo 'object' (df_futebol.describe(include='object')):


Unnamed: 0,country,team,name,pos,apps
count,1528,1528,1528,1528,1326
unique,27,56,1515,56,226
top,Italy,Anzhi Makhachkala,Fernando,M,6
freq,138,47,3,240,105



Resumo estatístico para todos os tipos de colunas (df_futebol.describe(include='all')):


Unnamed: 0,country,team,name,pos,age,cm,kg,apps,goal,ass,yel,red,spg,ps,aw,mom,rt
count,1528,1528,1528,1528,1524.0,1444.0,1417.0,1326.0,412.0,362.0,729.0,95.0,1025.0,1318.0,1120.0,277.0,1326.0
unique,27,56,1515,56,,,,226.0,,,,,,,,,
top,Italy,Anzhi Makhachkala,Fernando,M,,,,6.0,,,,,,,,,
freq,138,47,3,240,,,,105.0,,,,,,,,,
mean,,,,,25.437008,181.805402,75.358504,,2.597087,2.016575,2.14952,1.052632,1.06478,76.761912,1.196607,1.534296,6.687474
std,,,,,4.320921,6.603319,6.768774,,2.643965,1.571827,1.66439,0.26771,0.793146,11.561037,0.995031,0.914703,0.422251
min,,,,,16.0,161.0,54.0,,1.0,1.0,1.0,1.0,0.1,20.0,0.1,1.0,5.36
25%,,,,,22.0,177.0,71.0,,1.0,1.0,1.0,1.0,0.5,72.1,0.5,1.0,6.37
50%,,,,,25.0,182.0,75.0,,2.0,1.0,2.0,1.0,0.9,79.05,1.0,1.0,6.7
75%,,,,,28.0,186.0,80.0,,3.0,2.0,3.0,1.0,1.5,84.075,1.6,2.0,6.97


## 4. Seleção e Fatiamento (Indexing & Slicing) (Aprox. 25 minutos)

Formas de acessar e extrair partes específicas de um DataFrame.

In [9]:
# Usar um DataFrame menor e mais simples para os exemplos de seleção
dados_selecao = {
    'A': [10, 20, 30, 40, 50],
    'B': [0.1, 0.2, 0.3, 0.4, 0.5],
    'C': ['p', 'q', 'r', 's', 't'],
    'D': [True, False, True, False, True]
}
idx_selecao = pd.Index(['idx0', 'idx1', 'idx2', 'idx3', 'idx4'], name='MeuIndice')
df_sel = pd.DataFrame(dados_selecao, index=idx_selecao)

print("DataFrame de exemplo 'df_sel':")
display(df_sel)

DataFrame de exemplo 'df_sel':


Unnamed: 0_level_0,A,B,C,D
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
idx0,10,0.1,p,True
idx1,20,0.2,q,False
idx2,30,0.3,r,True
idx3,40,0.4,s,False
idx4,50,0.5,t,True


### Seleção de Colunas

#### Usando `[]` (colchetes)

In [10]:
# Selecionar uma única coluna: df['nome_coluna'] (retorna uma Series)
coluna_B_serie = df_sel['B']
print("Coluna 'B' (retorna Series):")
display(coluna_B_serie)
print(f"Tipo: {type(coluna_B_serie)}\n")

# Selecionar múltiplas colunas: df[['col1', 'col2']] (retorna um DataFrame)
colunas_A_C_df = df_sel[['A', 'C']]
print("Colunas 'A' e 'C' (retorna DataFrame):")
display(colunas_A_C_df)
print(f"Tipo: {type(colunas_A_C_df)}")

Coluna 'B' (retorna Series):


MeuIndice
idx0    0.1
idx1    0.2
idx2    0.3
idx3    0.4
idx4    0.5
Name: B, dtype: float64

Tipo: <class 'pandas.core.series.Series'>

Colunas 'A' e 'C' (retorna DataFrame):


Unnamed: 0_level_0,A,C
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1
idx0,10,p
idx1,20,q
idx2,30,r
idx3,40,s
idx4,50,t


Tipo: <class 'pandas.core.frame.DataFrame'>


### Seleção de Linhas e Colunas com `.loc[]` (baseado em RÓTULOS)
`.loc[]` é usado para selecionar dados pelos rótulos do índice e das colunas.
*   `df.loc[rotulo_linha]`
*   `df.loc[[rot_lin1, rot_lin2]]`
*   `df.loc[rot_lin_inicio:rot_lin_fim]` (slicing por rótulo, *ambos os extremos são incluídos*)
*   `df.loc[rotulo_linha, rotulo_coluna]`
*   `df.loc[:, ['col_A', 'col_B']]` (todas as linhas, colunas específicas)
*   `df.loc[[rot_lin1, rot_lin2], ['col_A', 'col_B']]`

In [11]:
# Selecionar uma linha pelo rótulo do índice
linha_idx1 = df_sel.loc['idx1']
print("Linha com rótulo 'idx1':")
display(linha_idx1)
print(f"Tipo: {type(linha_idx1)}\n") # Retorna uma Series

# Selecionar todas as linhas, colunas 'A' e 'D'
loc_cols_A_D = df_sel.loc[:, ['A', 'D']]
print("Todas as linhas, colunas 'A' e 'D':")
display(loc_cols_A_D)

# Slicing por rótulos de linha (ambos inclusos), colunas 'B' e 'C'
loc_slice_linhas_cols = df_sel.loc['idx1':'idx3', ['B', 'C']]
print("\nLinhas 'idx1' a 'idx3', colunas 'B' e 'C':")
display(loc_slice_linhas_cols)

# Selecionar um valor escalar
valor_escalar_loc = df_sel.loc['idx2', 'C']
print(f"\nValor em df_sel.loc['idx2', 'C']: {valor_escalar_loc}")

Linha com rótulo 'idx1':


A       20
B      0.2
C        q
D    False
Name: idx1, dtype: object

Tipo: <class 'pandas.core.series.Series'>

Todas as linhas, colunas 'A' e 'D':


Unnamed: 0_level_0,A,D
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1
idx0,10,True
idx1,20,False
idx2,30,True
idx3,40,False
idx4,50,True



Linhas 'idx1' a 'idx3', colunas 'B' e 'C':


Unnamed: 0_level_0,B,C
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1
idx1,0.2,q
idx2,0.3,r
idx3,0.4,s



Valor em df_sel.loc['idx2', 'C']: r


### Seleção de Linhas e Colunas com `.iloc[]` (baseado em POSIÇÃO inteira)
`.iloc[]` é usado para selecionar dados pelas posições inteiras (de 0 a N-1).
*   `df.iloc[pos_linha]`
*   `df.iloc[[pos1, pos2]]`
*   `df.iloc[pos_inicio:pos_fim]` (slicing por posição, *o extremo final é exclusivo*)
*   `df.iloc[pos_linha, pos_coluna]`
*   `df.iloc[:, [0, 2]]` (todas as linhas, colunas nas posições 0 e 2)
*   `df.iloc[[0, 2], [1, 3]]`

In [12]:
# Selecionar a segunda linha (posição 1)
linha_pos1 = df_sel.iloc[1]
print("Linha na posição 1:")
display(linha_pos1)
print(f"Tipo: {type(linha_pos1)}\n")

# Selecionar todas as linhas, colunas nas posições 0 e 2
iloc_cols_0_2 = df_sel.iloc[:, [0, 2]]
print("Todas as linhas, colunas nas posições 0 e 2:")
display(iloc_cols_0_2)

# Slicing por posição de linha (1 a 3, exclusivo) e coluna (0 a 1, exclusivo)
iloc_slice_linhas_cols = df_sel.iloc[1:3, 0:2] # Linhas 1,2; Colunas 0,1
print("\nLinhas pos 1-2, colunas pos 0-1:")
display(iloc_slice_linhas_cols)

# Selecionar um valor escalar
valor_escalar_iloc = df_sel.iloc[2, 2] # Terceira linha, terceira coluna
print(f"\nValor em df_sel.iloc[2, 2]: {valor_escalar_iloc} (Coluna: {df_sel.columns[2]})")

Linha na posição 1:


A       20
B      0.2
C        q
D    False
Name: idx1, dtype: object

Tipo: <class 'pandas.core.series.Series'>

Todas as linhas, colunas nas posições 0 e 2:


Unnamed: 0_level_0,A,C
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1
idx0,10,p
idx1,20,q
idx2,30,r
idx3,40,s
idx4,50,t



Linhas pos 1-2, colunas pos 0-1:


Unnamed: 0_level_0,A,B
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1
idx1,20,0.2
idx2,30,0.3



Valor em df_sel.iloc[2, 2]: r (Coluna: C)


### Indexação Booleana (Filtragem por Condição)
Permite selecionar linhas com base em uma condição booleana (True/False). *CRUCIAL para os exercícios e análises.*
Sintaxe geral: `df[condicao]`

In [13]:
# Condição: Linhas onde a coluna 'A' é maior que 25
condicao_A_maior_25 = df_sel['A'] > 25
print("Máscara booleana (df_sel['A'] > 25):")
print(condicao_A_maior_25)
print("\nLinhas onde 'A' > 25:")
display(df_sel[condicao_A_maior_25])

# Combinando condições: & (E lógico), | (OU lógico), ~ (NÃO lógico)
# Parênteses são importantes para garantir a ordem correta das operações!

# Condição: 'A' > 20 E 'D' == True
cond_combinada_E = (df_sel['A'] > 20) & (df_sel['D'] == True)
print("\nLinhas onde 'A' > 20 E 'D' == True:")
display(df_sel[cond_combinada_E])

# Condição: 'B' < 0.3 OU 'C' == 's'
cond_combinada_OU = (df_sel['B'] < 0.3) | (df_sel['C'] == 's')
print("\nLinhas onde 'B' < 0.3 OU 'C' == 's':")
display(df_sel[cond_combinada_OU])

# Uso de `.isin()`: Selecionar linhas onde 'C' está em uma lista de valores
valores_C_desejados = ['p', 't']
cond_isin_C = df_sel['C'].isin(valores_C_desejados)
print(f"\nLinhas onde 'C' é '{valores_C_desejados[0]}' ou '{valores_C_desejados[1]}':")
display(df_sel[cond_isin_C])

Máscara booleana (df_sel['A'] > 25):
MeuIndice
idx0    False
idx1    False
idx2     True
idx3     True
idx4     True
Name: A, dtype: bool

Linhas onde 'A' > 25:


Unnamed: 0_level_0,A,B,C,D
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
idx2,30,0.3,r,True
idx3,40,0.4,s,False
idx4,50,0.5,t,True



Linhas onde 'A' > 20 E 'D' == True:


Unnamed: 0_level_0,A,B,C,D
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
idx2,30,0.3,r,True
idx4,50,0.5,t,True



Linhas onde 'B' < 0.3 OU 'C' == 's':


Unnamed: 0_level_0,A,B,C,D
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
idx0,10,0.1,p,True
idx1,20,0.2,q,False
idx3,40,0.4,s,False



Linhas onde 'C' é 'p' ou 't':


Unnamed: 0_level_0,A,B,C,D
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
idx0,10,0.1,p,True
idx4,50,0.5,t,True


## 5. Transformação de Dados Básica (Aprox. 15 minutos)

### Criação de Novas Colunas

In [14]:
df_trans = df_sel.copy() # Trabalhar com uma cópia

# 1. Atribuição direta: Criar 'A_vezes_2'
df_trans['A_vezes_2'] = df_trans['A'] * 2
print("DataFrame com nova coluna 'A_vezes_2':")
display(df_trans)

# 2. Usando np.where() para lógica condicional simples: Criar 'Categoria_B'
# Se df_trans['B'] > 0.3, 'Alto', senão 'Baixo'
df_trans['Categoria_B'] = np.where(df_trans['B'] > 0.3, 'Alto', 'Baixo')
print("\nDataFrame com nova coluna 'Categoria_B':")
display(df_trans)

# 3. Criar uma coluna com valores de uma Series (o alinhamento pelo índice é importante)
nova_serie = pd.Series([100, 200, 300], index=['idx0', 'idx2', 'idx4']) # Índice parcial
df_trans['Nova_Serie_Col'] = nova_serie
print("\nDataFrame com 'Nova_Serie_Col' (NaNs onde o índice não alinha):")
display(df_trans)

DataFrame com nova coluna 'A_vezes_2':


Unnamed: 0_level_0,A,B,C,D,A_vezes_2
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
idx0,10,0.1,p,True,20
idx1,20,0.2,q,False,40
idx2,30,0.3,r,True,60
idx3,40,0.4,s,False,80
idx4,50,0.5,t,True,100



DataFrame com nova coluna 'Categoria_B':


Unnamed: 0_level_0,A,B,C,D,A_vezes_2,Categoria_B
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
idx0,10,0.1,p,True,20,Baixo
idx1,20,0.2,q,False,40,Baixo
idx2,30,0.3,r,True,60,Baixo
idx3,40,0.4,s,False,80,Alto
idx4,50,0.5,t,True,100,Alto



DataFrame com 'Nova_Serie_Col' (NaNs onde o índice não alinha):


Unnamed: 0_level_0,A,B,C,D,A_vezes_2,Categoria_B,Nova_Serie_Col
MeuIndice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
idx0,10,0.1,p,True,20,Baixo,100.0
idx1,20,0.2,q,False,40,Baixo,
idx2,30,0.3,r,True,60,Baixo,200.0
idx3,40,0.4,s,False,80,Alto,
idx4,50,0.5,t,True,100,Alto,300.0


### Conversão de Tipos (`.astype()`, `pd.to_numeric()`)
É crucial garantir que as colunas tenham os tipos de dados corretos para análise e operações.
*   `pd.to_numeric(series, errors='coerce')`: Converte uma série para tipo numérico. Se um valor não puder ser convertido, ele se torna `NaN` (com `errors='coerce'`).
*   `series.astype(novo_tipo)`: Converte uma série para um `novo_tipo` (e.g., `float`, `int`, `str`, `bool`, `'category'`). Pode levantar erro se a conversão for impossível.

In [15]:
df_tipos = pd.DataFrame({
    'idade_str': ['25', '30', 'Não informado', '40'],
    'valor_str': ['100.50', '200', '75.2B', '50.0'] # '75.2B' não é numérico
})
print("DataFrame df_tipos original (dtypes object):")
display(df_tipos)
df_tipos.info()

# Converter 'idade_str' para numérico (inteiro)
df_tipos['idade_num'] = pd.to_numeric(df_tipos['idade_str'], errors='coerce')
# Como queremos inteiro, podemos tentar converter para Int64 (inteiro que suporta NaN)
df_tipos['idade_num'] = df_tipos['idade_num'].astype('Int64') 

# Converter 'valor_str' para numérico (float)
df_tipos['valor_float'] = pd.to_numeric(df_tipos['valor_str'], errors='coerce')

print("\nDataFrame df_tipos após conversões:")
display(df_tipos)
df_tipos.info()

DataFrame df_tipos original (dtypes object):


Unnamed: 0,idade_str,valor_str
0,25,100.50
1,30,200
2,Não informado,75.2B
3,40,50.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   idade_str  4 non-null      object
 1   valor_str  4 non-null      object
dtypes: object(2)
memory usage: 196.0+ bytes

DataFrame df_tipos após conversões:


Unnamed: 0,idade_str,valor_str,idade_num,valor_float
0,25,100.50,25.0,100.5
1,30,200,30.0,200.0
2,Não informado,75.2B,,
3,40,50.0,40.0,50.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   idade_str    4 non-null      object 
 1   valor_str    4 non-null      object 
 2   idade_num    3 non-null      Int64  
 3   valor_float  3 non-null      float64
dtypes: Int64(1), float64(1), object(2)
memory usage: 264.0+ bytes


### Tratamento Básico de Valores Ausentes (`.fillna()`)
Valores ausentes (`NaN`) podem atrapalhar cálculos. `.fillna()` permite substituí-los.
Para os exercícios, a imputação com 0 é solicitada.

In [16]:
df_ausentes = pd.DataFrame({
    'A': [1, 2, np.nan, 4, np.nan],
    'B': [np.nan, 10, 20, 30, 40],
    'C': ['x', 'y', 'z', np.nan, 'w']
})
print("DataFrame df_ausentes original:")
display(df_ausentes)
print("\nContagem de NaNs por coluna:")
print(df_ausentes.isnull().sum())

# Preencher todos os NaNs com um valor específico (ex: 0)
# df_sem_nan_global = df_ausentes.fillna(0)
# display(df_sem_nan_global)

# Preencher NaNs em uma coluna específica com 0
df_ausentes_copia = df_ausentes.copy()
# Modificação para evitar o FutureWarning
df_ausentes_copia['A'] = df_ausentes_copia['A'].fillna(0)
print("\nColuna 'A' com NaNs preenchidos por 0:")
display(df_ausentes_copia)

# Preencher NaNs com a média da coluna (apenas para colunas numéricas)
if pd.api.types.is_numeric_dtype(df_ausentes_copia['B']):
    # Modificação para evitar o FutureWarning
    df_ausentes_copia['B'] = df_ausentes_copia['B'].fillna(df_ausentes_copia['B'].mean())
    print("\nColuna 'B' com NaNs preenchidos pela média:")
    display(df_ausentes_copia)

print("\n(Breve menção: .dropna() remove linhas/colunas com NaNs)")
# display(df_ausentes.dropna()) # Remove linhas com qualquer NaN
# display(df_ausentes.dropna(axis='columns', how='all')) # Remove colunas onde todos os valores são NaN

DataFrame df_ausentes original:


Unnamed: 0,A,B,C
0,1.0,,x
1,2.0,10.0,y
2,,20.0,z
3,4.0,30.0,
4,,40.0,w



Contagem de NaNs por coluna:
A    2
B    1
C    1
dtype: int64

Coluna 'A' com NaNs preenchidos por 0:


Unnamed: 0,A,B,C
0,1.0,,x
1,2.0,10.0,y
2,0.0,20.0,z
3,4.0,30.0,
4,0.0,40.0,w



Coluna 'B' com NaNs preenchidos pela média:


Unnamed: 0,A,B,C
0,1.0,25.0,x
1,2.0,10.0,y
2,0.0,20.0,z
3,4.0,30.0,
4,0.0,40.0,w



(Breve menção: .dropna() remove linhas/colunas com NaNs)


### Compartimentação (`pd.cut()`)

Útil para transformar uma variável numérica contínua numa variável categórica, dividindo-a em intervalos (bins).

**Parâmetros principais:**
*   `x`: A Series a ser dividida.
*   `bins`: Pode ser um inteiro (número de bins de igual largura) ou uma sequência de escalares definindo as bordas dos bins.
*   `labels`: Rótulos para os bins resultantes. Se `False`, retorna apenas os inteiros indicando o bin.
*   `right`: Booleano, indica se o bin inclui o lado direito (`True`) ou esquerdo (`False`). Padrão `True` (intervalo `(a, b]`).
*   `include_lowest`: Booleano, se o primeiro intervalo deve ser inclusivo à esquerda.

In [17]:
idades_jogadores = pd.Series([22, 25, 28, 31, 34, 19, 38, 26, 29])

# Definir os limites dos bins (intervalos de idade)
bins_idade = [18, 25, 30, 35, np.inf] # np.inf para representar "ou mais"
labels_faixa_idade = ['18-25', '26-30', '31-35', '36+']

faixas_idade_series = pd.cut(
    x=idades_jogadores, 
    bins=bins_idade, 
    labels=labels_faixa_idade, 
    right=True,             # Intervalos são (lim_inf, lim_sup]
    include_lowest=True     # O primeiro bin [18, 25] incluirá 18
)

print("Idades originais:")
print(idades_jogadores)
print("\nFaixas de idade categorizadas:")
print(faixas_idade_series)
print("\nContagem por faixa de idade:")
print(faixas_idade_series.value_counts().sort_index())

Idades originais:
0    22
1    25
2    28
3    31
4    34
5    19
6    38
7    26
8    29
dtype: int64

Faixas de idade categorizadas:
0    18-25
1    18-25
2    26-30
3    31-35
4    31-35
5    18-25
6      36+
7    26-30
8    26-30
dtype: category
Categories (4, object): ['18-25' < '26-30' < '31-35' < '36+']

Contagem por faixa de idade:
18-25    3
26-30    3
31-35    2
36+      1
Name: count, dtype: int64


## 6. Agregação Simples com `.groupby()`

O processo de `groupby` envolve:
1.  **Dividir (Split):** Os dados são divididos em grupos com base em algum critério (valores de uma ou mais colunas).
2.  **Aplicar (Apply):** Uma função é aplicada a cada grupo independentemente (e.g., soma, média, contagem).
3.  **Combinar (Combine):** Os resultados da aplicação são combinados em uma nova estrutura de dados.

Sintaxe comum: `df.groupby('coluna_agrupadora')['coluna_alvo'].funcao_agregacao()`

In [18]:
dados_vendas = {
    'Nome': ['Ana Silva', 'Carlos Oliveira', 'Beatriz Santos', 'Diego Pereira',
            'Elena Martins', 'Fabio Costa', 'Gabriela Lima', 'Henrique Alves',
            'Isabela Ferreira', 'João Cardoso', 'Karina Nunes', 'Lucas Mendes'],
    'Idade': [35, 42, 28, 31,
             39, 45, 27, 33,
             38, 29, 41, 36],
    'Cidade': ['Porto Alegre', 'São Paulo', 'Porto Alegre', 'Recife',
              'Belo Horizonte', 'Rio de Janeiro', 'Florianópolis', 'Belém',
              'Brasília', 'São Paulo', 'Porto Alegre', 'Salvador'],
    'Produto': ['Notebook', 'Smartphone', 'Monitor', 'Tablet',
               'Impressora', 'Fone de ouvido', 'Smartwatch', 'Teclado',
               'Mouse', 'Console', 'HD Externo', 'Webcam'],
    'Categoria': ['Eletrônicos', 'Eletrônicos', 'Periféricos', 'Eletrônicos',
                 'Periféricos', 'Acessórios', 'Eletrônicos', 'Periféricos',
                 'Periféricos', 'Eletrônicos', 'Armazenamento', 'Periféricos'],
    'Regiao': ['Sul', 'Sudeste', 'Sul', 'Nordeste',
              'Sudeste', 'Sudeste', 'Sul', 'Norte',
              'Centro-Oeste', 'Sudeste', 'Sul', 'Nordeste'],
    'Vendas': [100, 150, 120, 200,
              85, 110, 95, 75,
              125, 170, 65, 140],
    'Valor': [3500, 2000, 1200, 1800,
             950, 350, 1500, 300,
             120, 2500, 400, 280],
    'Quantidade': [2, 5, 3, 4,
                  1, 3, 2, 2,
                  4, 1, 3, 2],
    'Desconto': [0.05, 0.1, 0.05, 0.15,
                0.0, 0.1, 0.2, 0.0,
                0.05, 0.15, 0.0, 0.1],
    'Avaliacao': [4.5, 4.8, 3.9, 4.2,
                 3.7, 4.0, 4.7, 3.5,
                 4.1, 4.6, 3.8, 4.4],
    'Data': pd.date_range(start='2023-01-01', periods=12, freq='D')
}

# Criando o DataFrame
df_vendas = pd.DataFrame(dados_vendas)
df_vendas

Unnamed: 0,Nome,Idade,Cidade,Produto,Categoria,Regiao,Vendas,Valor,Quantidade,Desconto,Avaliacao,Data
0,Ana Silva,35,Porto Alegre,Notebook,Eletrônicos,Sul,100,3500,2,0.05,4.5,2023-01-01
1,Carlos Oliveira,42,São Paulo,Smartphone,Eletrônicos,Sudeste,150,2000,5,0.1,4.8,2023-01-02
2,Beatriz Santos,28,Porto Alegre,Monitor,Periféricos,Sul,120,1200,3,0.05,3.9,2023-01-03
3,Diego Pereira,31,Recife,Tablet,Eletrônicos,Nordeste,200,1800,4,0.15,4.2,2023-01-04
4,Elena Martins,39,Belo Horizonte,Impressora,Periféricos,Sudeste,85,950,1,0.0,3.7,2023-01-05
5,Fabio Costa,45,Rio de Janeiro,Fone de ouvido,Acessórios,Sudeste,110,350,3,0.1,4.0,2023-01-06
6,Gabriela Lima,27,Florianópolis,Smartwatch,Eletrônicos,Sul,95,1500,2,0.2,4.7,2023-01-07
7,Henrique Alves,33,Belém,Teclado,Periféricos,Norte,75,300,2,0.0,3.5,2023-01-08
8,Isabela Ferreira,38,Brasília,Mouse,Periféricos,Centro-Oeste,125,120,4,0.05,4.1,2023-01-09
9,João Cardoso,29,São Paulo,Console,Eletrônicos,Sudeste,170,2500,1,0.15,4.6,2023-01-10


In [19]:
# Adicionando colunas calculadas
df_vendas['Valor_Total'] = df_vendas['Valor'] * df_vendas['Quantidade']
df_vendas['Valor_Com_Desconto'] = df_vendas['Valor_Total'] * (1 - df_vendas['Desconto'])
df_vendas['Mes'] = df_vendas['Data'].dt.month_name()
df_vendas['Dia_Semana'] = df_vendas['Data'].dt.day_name()
df_vendas['Trimestre'] = df_vendas['Data'].dt.quarter

print("DataFrame de Vendas Expandido:")
df_vendas

DataFrame de Vendas Expandido:


Unnamed: 0,Nome,Idade,Cidade,Produto,Categoria,Regiao,Vendas,Valor,Quantidade,Desconto,Avaliacao,Data,Valor_Total,Valor_Com_Desconto,Mes,Dia_Semana,Trimestre
0,Ana Silva,35,Porto Alegre,Notebook,Eletrônicos,Sul,100,3500,2,0.05,4.5,2023-01-01,7000,6650.0,January,Sunday,1
1,Carlos Oliveira,42,São Paulo,Smartphone,Eletrônicos,Sudeste,150,2000,5,0.1,4.8,2023-01-02,10000,9000.0,January,Monday,1
2,Beatriz Santos,28,Porto Alegre,Monitor,Periféricos,Sul,120,1200,3,0.05,3.9,2023-01-03,3600,3420.0,January,Tuesday,1
3,Diego Pereira,31,Recife,Tablet,Eletrônicos,Nordeste,200,1800,4,0.15,4.2,2023-01-04,7200,6120.0,January,Wednesday,1
4,Elena Martins,39,Belo Horizonte,Impressora,Periféricos,Sudeste,85,950,1,0.0,3.7,2023-01-05,950,950.0,January,Thursday,1
5,Fabio Costa,45,Rio de Janeiro,Fone de ouvido,Acessórios,Sudeste,110,350,3,0.1,4.0,2023-01-06,1050,945.0,January,Friday,1
6,Gabriela Lima,27,Florianópolis,Smartwatch,Eletrônicos,Sul,95,1500,2,0.2,4.7,2023-01-07,3000,2400.0,January,Saturday,1
7,Henrique Alves,33,Belém,Teclado,Periféricos,Norte,75,300,2,0.0,3.5,2023-01-08,600,600.0,January,Sunday,1
8,Isabela Ferreira,38,Brasília,Mouse,Periféricos,Centro-Oeste,125,120,4,0.05,4.1,2023-01-09,480,456.0,January,Monday,1
9,João Cardoso,29,São Paulo,Console,Eletrônicos,Sudeste,170,2500,1,0.15,4.6,2023-01-10,2500,2125.0,January,Tuesday,1


In [20]:
# Calcular a média de 'Idade' por 'Regiao'
media_idade_regiao = df_vendas.groupby('Regiao')['Idade'].mean().sort_values(ascending=False)
print("\nMédia de Idade por Região (ordenada):")
media_idade_regiao


Média de Idade por Região (ordenada):


Regiao
Sudeste         38.75
Centro-Oeste    38.00
Nordeste        33.50
Norte           33.00
Sul             32.75
Name: Idade, dtype: float64

In [21]:
# Contar o número de ocorrências por 'Cidade'
contagem_cidade = df_vendas.groupby('Cidade')['Nome'].count().sort_values(ascending=False)
print("\nContagem de Pessoas por Cidade (ordenada):")
contagem_cidade


Contagem de Pessoas por Cidade (ordenada):


Cidade
Porto Alegre      3
São Paulo         2
Belo Horizonte    1
Belém             1
Brasília          1
Florianópolis     1
Recife            1
Rio de Janeiro    1
Salvador          1
Name: Nome, dtype: int64

In [22]:
# Aplicar múltiplas funções de agregação a uma coluna numérica por grupo
agg_vendas_regiao = df_vendas.groupby('Regiao')['Vendas'].agg(['sum', 'mean', 'std', 'count'])
agg_vendas_regiao = agg_vendas_regiao.sort_values(by='sum', ascending=False)
print("\nSoma, Média, Desvio Padrão e Contagem de Vendas por Região (ordenada por soma):")
agg_vendas_regiao


Soma, Média, Desvio Padrão e Contagem de Vendas por Região (ordenada por soma):


Unnamed: 0_level_0,sum,mean,std,count
Regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Sudeste,515,128.75,38.378596,4
Sul,380,95.0,22.730303,4
Nordeste,340,170.0,42.426407,2
Centro-Oeste,125,125.0,,1
Norte,75,75.0,,1


In [23]:
# Encontrar o índice (e depois o valor) da maior 'Idade' em cada 'Regiao'
idx_max_idade_regiao = df_vendas.groupby('Regiao')['Idade'].idxmax()
pessoas_mais_velhas_regiao = df_vendas.loc[idx_max_idade_regiao]
print("\nPessoas mais velhas por região:")
pessoas_mais_velhas_regiao[['Regiao', 'Nome', 'Idade', 'Cidade']]


Pessoas mais velhas por região:


Unnamed: 0,Regiao,Nome,Idade,Cidade
8,Centro-Oeste,Isabela Ferreira,38,Brasília
11,Nordeste,Lucas Mendes,36,Salvador
7,Norte,Henrique Alves,33,Belém
5,Sudeste,Fabio Costa,45,Rio de Janeiro
10,Sul,Karina Nunes,41,Porto Alegre


In [24]:
# Análise por categoria de produto
vendas_por_categoria = df_vendas.groupby('Categoria')['Valor_Total'].sum().sort_values(ascending=False)
print("\nTotal de Vendas por Categoria de Produto:")
vendas_por_categoria


Total de Vendas por Categoria de Produto:


Categoria
Eletrônicos      29700
Periféricos       6190
Armazenamento     1200
Acessórios        1050
Name: Valor_Total, dtype: int64

In [25]:
# Obter os N maiores valores de 'Vendas' por 'Regiao' usando idxmax
n_maiores = 1  # Pegar o maior
idx_max_vendas = df_vendas.groupby('Regiao')['Vendas'].idxmax()
top_vendas_regiao = df_vendas.loc[idx_max_vendas]
print(f"\nTop {n_maiores} Vendas por Região (método com idxmax):")
top_vendas_regiao[['Regiao', 'Nome', 'Vendas', 'Produto']]


Top 1 Vendas por Região (método com idxmax):


Unnamed: 0,Regiao,Nome,Vendas,Produto
8,Centro-Oeste,Isabela Ferreira,125,Mouse
3,Nordeste,Diego Pereira,200,Tablet
7,Norte,Henrique Alves,75,Teclado
9,Sudeste,João Cardoso,170,Console
2,Sul,Beatriz Santos,120,Monitor


In [26]:
# O parâmetro group_keys no método groupby() do Pandas controla se os rótulos (chaves) do agrupamento são adicionados ao índice do resultado ao usar métodos como apply() ou transform().

n_maiores = 2

top_vendas_regiao_nlargest = (
    df_vendas.sort_values('Vendas', ascending=False)
             .groupby('Regiao', group_keys=False)
             .head(n_maiores)
)

print(f"\nTop {n_maiores} Vendas por Região:")
top_vendas_regiao_nlargest[['Regiao', 'Nome', 'Vendas', 'Produto']]


Top 2 Vendas por Região:


Unnamed: 0,Regiao,Nome,Vendas,Produto
3,Nordeste,Diego Pereira,200,Tablet
9,Sudeste,João Cardoso,170,Console
1,Sudeste,Carlos Oliveira,150,Smartphone
11,Nordeste,Lucas Mendes,140,Webcam
8,Centro-Oeste,Isabela Ferreira,125,Mouse
2,Sul,Beatriz Santos,120,Monitor
0,Sul,Ana Silva,100,Notebook
7,Norte,Henrique Alves,75,Teclado


In [27]:
# Exemplo adicional: Agregações personalizadas em várias colunas
agg_mult_cols = df_vendas.groupby('Regiao').agg({
    'Vendas': ['sum', 'mean'],
    'Valor_Total': ['sum', 'max'],
    'Idade': ['mean', 'min', 'max'],
    'Avaliacao': ['mean', 'min', 'max']
})
print("\nAgregações múltiplas em diferentes colunas:")
agg_mult_cols


Agregações múltiplas em diferentes colunas:


Unnamed: 0_level_0,Vendas,Vendas,Valor_Total,Valor_Total,Idade,Idade,Idade,Avaliacao,Avaliacao,Avaliacao
Unnamed: 0_level_1,sum,mean,sum,max,mean,min,max,mean,min,max
Regiao,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Centro-Oeste,125,125.0,480,480,38.0,38,38,4.1,4.1,4.1
Nordeste,340,170.0,7760,7200,33.5,31,36,4.3,4.2,4.4
Norte,75,75.0,600,600,33.0,33,33,3.5,3.5,3.5
Sudeste,515,128.75,14500,10000,38.75,29,45,4.275,3.7,4.8
Sul,380,95.0,14800,7000,32.75,27,41,4.225,3.8,4.7


In [28]:
# Filtrando grupos com base em uma condição
# Apenas regiões com vendas totais acima de 200
regiao_vendas_altas = df_vendas.groupby('Regiao').filter(lambda x: x['Vendas'].sum() > 200)
print("\nRegiões com vendas totais acima de 200:")
regiao_vendas_altas[['Regiao', 'Nome', 'Vendas', 'Valor_Total']]


Regiões com vendas totais acima de 200:


Unnamed: 0,Regiao,Nome,Vendas,Valor_Total
0,Sul,Ana Silva,100,7000
1,Sudeste,Carlos Oliveira,150,10000
2,Sul,Beatriz Santos,120,3600
3,Nordeste,Diego Pereira,200,7200
4,Sudeste,Elena Martins,85,950
5,Sudeste,Fabio Costa,110,1050
6,Sul,Gabriela Lima,95,3000
9,Sudeste,João Cardoso,170,2500
10,Sul,Karina Nunes,65,1200
11,Nordeste,Lucas Mendes,140,560


In [29]:
# Transformando dados com transform
# Calculando o percentual de cada venda em relação ao total da região
df_vendas['Pct_Vendas_Regiao'] = df_vendas.groupby('Regiao')['Vendas'].transform(
    lambda x: x / x.sum() * 100
)
print("\nPercentual de vendas por região:")
df_vendas[['Nome', 'Regiao', 'Vendas', 'Pct_Vendas_Regiao']]


Percentual de vendas por região:


Unnamed: 0,Nome,Regiao,Vendas,Pct_Vendas_Regiao
0,Ana Silva,Sul,100,26.315789
1,Carlos Oliveira,Sudeste,150,29.126214
2,Beatriz Santos,Sul,120,31.578947
3,Diego Pereira,Nordeste,200,58.823529
4,Elena Martins,Sudeste,85,16.504854
5,Fabio Costa,Sudeste,110,21.359223
6,Gabriela Lima,Sul,95,25.0
7,Henrique Alves,Norte,75,100.0
8,Isabela Ferreira,Centro-Oeste,125,100.0
9,João Cardoso,Sudeste,170,33.009709


In [30]:
# Análise de vendas por mês
vendas_por_mes = df_vendas.groupby('Mes')['Valor_Total'].sum()
print("\nTotal de Vendas por Mês:")
vendas_por_mes


Total de Vendas por Mês:


Mes
January    38140
Name: Valor_Total, dtype: int64

In [31]:
# Análise de vendas por trimestre
vendas_por_trimestre = df_vendas.groupby('Trimestre')['Valor_Total'].sum()
print("\nTotal de Vendas por Trimestre:")
vendas_por_trimestre


Total de Vendas por Trimestre:


Trimestre
1    38140
Name: Valor_Total, dtype: int64

In [32]:
# Estatísticas descritivas por região
descritivas_por_regiao = df_vendas.groupby('Regiao')[['Vendas', 'Valor_Total', 'Avaliacao']].describe()
print("\nEstatísticas Descritivas por Região:")
print(descritivas_por_regiao)


Estatísticas Descritivas por Região:
             Vendas                                                         \
              count    mean        std    min     25%    50%    75%    max   
Regiao                                                                       
Centro-Oeste    1.0  125.00        NaN  125.0  125.00  125.0  125.0  125.0   
Nordeste        2.0  170.00  42.426407  140.0  155.00  170.0  185.0  200.0   
Norte           1.0   75.00        NaN   75.0   75.00   75.0   75.0   75.0   
Sudeste         4.0  128.75  38.378596   85.0  103.75  130.0  155.0  170.0   
Sul             4.0   95.00  22.730303   65.0   87.50   97.5  105.0  120.0   

             Valor_Total          ...                  Avaliacao         \
                   count    mean  ...     75%      max     count   mean   
Regiao                            ...                                     
Centro-Oeste         1.0   480.0  ...   480.0    480.0       1.0  4.100   
Nordeste             2.0  3880.0  ...

In [33]:
# Comparando avaliações por categoria de produto
avaliacao_por_categoria = df_vendas.groupby('Categoria')['Avaliacao'].agg(['mean', 'std', 'count'])
avaliacao_por_categoria = avaliacao_por_categoria.sort_values(by='mean', ascending=False)
print("\nAvaliações por Categoria de Produto:")
print(avaliacao_por_categoria)


Avaliações por Categoria de Produto:
               mean       std  count
Categoria                           
Eletrônicos    4.56  0.230217      5
Acessórios     4.00       NaN      1
Periféricos    3.92  0.349285      5
Armazenamento  3.80       NaN      1


In [34]:
# Análise de vendedores mais eficientes (maior valor por venda)
df_vendas['Valor_Medio_Por_Venda'] = df_vendas['Valor_Total'] / df_vendas['Quantidade']
top_vendedores = df_vendas.groupby('Nome')[['Vendas', 'Valor_Total', 'Quantidade', 'Valor_Medio_Por_Venda']].mean()
top_vendedores = top_vendedores.sort_values(by='Valor_Medio_Por_Venda', ascending=False).head(5)
print("\nTop 5 Vendedores por Valor Médio por Venda:")
top_vendedores



Top 5 Vendedores por Valor Médio por Venda:


Unnamed: 0_level_0,Vendas,Valor_Total,Quantidade,Valor_Medio_Por_Venda
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana Silva,100.0,7000.0,2.0,3500.0
João Cardoso,170.0,2500.0,1.0,2500.0
Carlos Oliveira,150.0,10000.0,5.0,2000.0
Diego Pereira,200.0,7200.0,4.0,1800.0
Gabriela Lima,95.0,3000.0,2.0,1500.0


### Correlação entre variáveis

A correlação é uma medida estatística que quantifica a força e a direção da relação linear entre duas variáveis numéricas. Seus principais aspectos são:
- **Valor**: Varia entre -1 e 1
    - **1**: Correlação positiva perfeita (quando uma variável aumenta, a outra aumenta proporcionalmente)
    - **0**: Nenhuma correlação linear (as variáveis não se relacionam linearmente)
    - **-1**: Correlação negativa perfeita (quando uma variável aumenta, a outra diminui proporcionalmente)

- **Interpretação**:
    - **Forte**: Valores próximos de -1 ou 1
    - **Moderada**: Valores em torno de -0.5 ou 0.5
    - **Fraca**: Valores próximos de 0

- **Método de cálculo**: No Pandas, o método `.corr()` calcula por padrão o coeficiente de correlação de Pearson, que mede relações lineares.


In [35]:
# Análise de correlação entre variáveis numéricas
correlacao = df_vendas[['Idade', 'Vendas', 'Valor', 'Quantidade', 'Desconto', 'Avaliacao', 'Valor_Total']].corr()
print("\nCorrelação entre variáveis numéricas:")
correlacao


Correlação entre variáveis numéricas:


Unnamed: 0,Idade,Vendas,Valor,Quantidade,Desconto,Avaliacao,Valor_Total
Idade,1.0,-0.252911,-0.349169,0.344064,-0.429294,-0.189559,-0.065081
Vendas,-0.252911,1.0,0.347264,0.338281,0.628559,0.519192,0.48274
Valor,-0.349169,0.347264,1.0,-0.111297,0.353291,0.618297,0.735504
Quantidade,0.344064,0.338281,-0.111297,1.0,0.075092,0.16428,0.516507
Desconto,-0.429294,0.628559,0.353291,0.075092,1.0,0.762744,0.325877
Avaliacao,-0.189559,0.519192,0.618297,0.16428,0.762744,1.0,0.585822
Valor_Total,-0.065081,0.48274,0.735504,0.516507,0.325877,0.585822,1.0


### Renomeação (`.rename()`)

In [36]:
# Renomeando algumas colunas usando o método rename()
df_renomeado1 = df_vendas.rename(columns={
    'Nome': 'Cliente',
    'Vendas': 'Total_Vendas',
    'Valor': 'Valor_Unitario',
    'Avaliacao': 'Satisfacao_Cliente'
})

print("DataFrame após renomear colunas específicas:")
display(df_renomeado1.head())

DataFrame após renomear colunas específicas:


Unnamed: 0,Cliente,Idade,Cidade,Produto,Categoria,Regiao,Total_Vendas,Valor_Unitario,Quantidade,Desconto,Satisfacao_Cliente,Data,Valor_Total,Valor_Com_Desconto,Mes,Dia_Semana,Trimestre,Pct_Vendas_Regiao,Valor_Medio_Por_Venda
0,Ana Silva,35,Porto Alegre,Notebook,Eletrônicos,Sul,100,3500,2,0.05,4.5,2023-01-01,7000,6650.0,January,Sunday,1,26.315789,3500.0
1,Carlos Oliveira,42,São Paulo,Smartphone,Eletrônicos,Sudeste,150,2000,5,0.1,4.8,2023-01-02,10000,9000.0,January,Monday,1,29.126214,2000.0
2,Beatriz Santos,28,Porto Alegre,Monitor,Periféricos,Sul,120,1200,3,0.05,3.9,2023-01-03,3600,3420.0,January,Tuesday,1,31.578947,1200.0
3,Diego Pereira,31,Recife,Tablet,Eletrônicos,Nordeste,200,1800,4,0.15,4.2,2023-01-04,7200,6120.0,January,Wednesday,1,58.823529,1800.0
4,Elena Martins,39,Belo Horizonte,Impressora,Periféricos,Sudeste,85,950,1,0.0,3.7,2023-01-05,950,950.0,January,Thursday,1,16.504854,950.0


In [37]:
# Renomeando todas as colunas do DataFrame
novas_colunas = ['Cliente', 'Idade_Cliente', 'Localidade', 'Item', 'Tipo_Produto', 'Regiao', 'Total_Vendas',
       'Valor', 'Quantidade', 'Desconto', 'Avaliacao', 'Data', 'Valor_Total',
       'Valor_Com_Desconto', 'Mes', 'Dia_Semana', 'Trimestre',
       'Pct_Vendas_Regiao', 'Valor_Medio_Por_Venda']

df_renomeado2 = df_vendas.copy()
df_renomeado2.columns = novas_colunas

print("DataFrame com todas as colunas renomeadas:")
display(df_renomeado2.head())

DataFrame com todas as colunas renomeadas:


Unnamed: 0,Cliente,Idade_Cliente,Localidade,Item,Tipo_Produto,Regiao,Total_Vendas,Valor,Quantidade,Desconto,Avaliacao,Data,Valor_Total,Valor_Com_Desconto,Mes,Dia_Semana,Trimestre,Pct_Vendas_Regiao,Valor_Medio_Por_Venda
0,Ana Silva,35,Porto Alegre,Notebook,Eletrônicos,Sul,100,3500,2,0.05,4.5,2023-01-01,7000,6650.0,January,Sunday,1,26.315789,3500.0
1,Carlos Oliveira,42,São Paulo,Smartphone,Eletrônicos,Sudeste,150,2000,5,0.1,4.8,2023-01-02,10000,9000.0,January,Monday,1,29.126214,2000.0
2,Beatriz Santos,28,Porto Alegre,Monitor,Periféricos,Sul,120,1200,3,0.05,3.9,2023-01-03,3600,3420.0,January,Tuesday,1,31.578947,1200.0
3,Diego Pereira,31,Recife,Tablet,Eletrônicos,Nordeste,200,1800,4,0.15,4.2,2023-01-04,7200,6120.0,January,Wednesday,1,58.823529,1800.0
4,Elena Martins,39,Belo Horizonte,Impressora,Periféricos,Sudeste,85,950,1,0.0,3.7,2023-01-05,950,950.0,January,Thursday,1,16.504854,950.0


In [38]:
# Convertendo todos os nomes para letras maiúsculas
df_renomeado3 = df_vendas.copy()
df_renomeado3.columns = df_renomeado3.columns.str.upper()

print("DataFrame com nomes de colunas em maiúsculas:")
display(df_renomeado3.head())

DataFrame com nomes de colunas em maiúsculas:


Unnamed: 0,NOME,IDADE,CIDADE,PRODUTO,CATEGORIA,REGIAO,VENDAS,VALOR,QUANTIDADE,DESCONTO,AVALIACAO,DATA,VALOR_TOTAL,VALOR_COM_DESCONTO,MES,DIA_SEMANA,TRIMESTRE,PCT_VENDAS_REGIAO,VALOR_MEDIO_POR_VENDA
0,Ana Silva,35,Porto Alegre,Notebook,Eletrônicos,Sul,100,3500,2,0.05,4.5,2023-01-01,7000,6650.0,January,Sunday,1,26.315789,3500.0
1,Carlos Oliveira,42,São Paulo,Smartphone,Eletrônicos,Sudeste,150,2000,5,0.1,4.8,2023-01-02,10000,9000.0,January,Monday,1,29.126214,2000.0
2,Beatriz Santos,28,Porto Alegre,Monitor,Periféricos,Sul,120,1200,3,0.05,3.9,2023-01-03,3600,3420.0,January,Tuesday,1,31.578947,1200.0
3,Diego Pereira,31,Recife,Tablet,Eletrônicos,Nordeste,200,1800,4,0.15,4.2,2023-01-04,7200,6120.0,January,Wednesday,1,58.823529,1800.0
4,Elena Martins,39,Belo Horizonte,Impressora,Periféricos,Sudeste,85,950,1,0.0,3.7,2023-01-05,950,950.0,January,Thursday,1,16.504854,950.0
