# Exploração de Dados com Pandas

**Objetivo:** Apresentar os conceitos e ferramentas fundamentais da biblioteca Pandas para manipulação e análise de dados tabulares, capacitando a realização de tarefas básicas de preparação e exploração de dados.

## 1. Introdução ao Pandas e Estruturas de Dados

### O que é Pandas?
Pandas é uma biblioteca Python de código aberto, de alto desempenho e fácil de usar, construída sobre o NumPy. Ela fornece estruturas de dados e ferramentas de análise de dados especialmente projetadas para trabalhar com dados **tabulares** (como planilhas ou tabelas SQL) e dados de **séries temporais**.

**Por que usar Pandas?**

*   **Estruturas de Dados Flexíveis:** `Series` (1D) e `DataFrame` (2D) que podem lidar com diferentes tipos de dados.
*   **Manipulação Poderosa:** Ferramentas para carregar, limpar, transformar, remodelar, fatiar, agregar e juntar dados.
*   **Tratamento de Dados Ausentes:** Funcionalidades para encontrar e tratar valores ausentes (NaN).
*   **Performance:** Muitas operações são otimizadas e implementadas em Cython ou C.
*   **Integração:** Boa integração com outras bibliotecas científicas como NumPy, Matplotlib e Scikit-learn.

### Importação da Biblioteca
Por convenção, importamos o Pandas com o alias `pd` e o NumPy (que o Pandas usa internamente) com o alias `np`.

In [None]:
import pandas as pd
import numpy as np

### Estruturas Fundamentais

#### `Series`
Uma `Series` é um array unidimensional rotulado, capaz de armazenar dados de qualquer tipo (inteiros, strings, floats, objetos Python, etc.). É como uma única coluna em uma tabela, com um índice associado a cada valor.

In [None]:
# Criando uma Series a partir de diferentes fontes
dados_lista = [10, 20, 30, 40, 50]
s_lista = pd.Series(data=dados_lista)
print("Series a partir de lista (índice padrão):\n", s_lista)

# Com índice personalizado
indices_personalizados = ['a', 'b', 'c', 'd', 'e']
s_indice_pers = pd.Series(data=dados_lista, index=indices_personalizados)
print("\nSeries com índice personalizado:\n", s_indice_pers)

# A partir de um dicionário (chaves tornam-se índices automaticamente)
dados_dict_serie = {'x': 100, 'y': 200, 'z': 300}
s_dict = pd.Series(data=dados_dict_serie)
print("\nSeries a partir de dicionário:\n", s_dict)

# Acessando componentes e elementos
print("\nElemento no índice 'b':", s_indice_pers['b'])
print("Valores da Series:", s_indice_pers.values)
print("Índice da Series:", s_indice_pers.index)
print("Tipo de dados (dtype):", s_indice_pers.dtype)

#### `DataFrame`
Um `DataFrame` é uma estrutura de dados bidimensional, semelhante a uma tabela, com linhas e colunas rotuladas. Cada coluna pode ter um tipo de dado diferente. É a principal estrutura de dados do Pandas e a mais utilizada para análise.

In [None]:
# Método 1: A partir de um dicionário de listas
dados_dict = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [28, 35, 22, 41],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Recife']
}
df1 = pd.DataFrame(dados_dict)
print("DataFrame a partir de dicionário de listas:")
print(df1)

# Método 2: A partir de uma lista de listas (com colunas especificadas)
dados_lista = [
    ['João', 28, 'São Paulo'],
    ['Maria', 35, 'Rio de Janeiro'],
    ['Pedro', 22, 'Belo Horizonte'],
    ['Ana', 41, 'Recife']
]
df2 = pd.DataFrame(dados_lista, columns=['Nome', 'Idade', 'Cidade'])
print("\nDataFrame a partir de lista de listas:")
print(df2)

# Método 3: A partir de uma lista de dicionários (cada dicionário é uma linha)
dados_lista_dict = [
    {'Nome': 'João', 'Idade': 28, 'Cidade': 'São Paulo'},
    {'Nome': 'Maria', 'Idade': 35, 'Cidade': 'Rio de Janeiro'},
    {'Nome': 'Pedro', 'Idade': 22, 'Cidade': 'Belo Horizonte'},
    {'Nome': 'Ana', 'Idade': 41, 'Cidade': 'Recife'}
]
df3 = pd.DataFrame(dados_lista_dict)
print("\nDataFrame a partir de lista de dicionários:")
print(df3)

# Método 4: A partir de arrays NumPy
array_dados = np.array([
    ['João', 28, 'São Paulo'],
    ['Maria', 35, 'Rio de Janeiro'],
    ['Pedro', 22, 'Belo Horizonte'],
    ['Ana', 41, 'Recife']
])
df4 = pd.DataFrame(array_dados, columns=['Nome', 'Idade', 'Cidade'])
print("\nDataFrame a partir de array NumPy:")
print(df4)

# Método 5: DataFrame vazio com estrutura definida
df5 = pd.DataFrame(columns=['Nome', 'Idade', 'Cidade'])
print("\nDataFrame vazio com colunas definidas:")
print(df5)

# Definindo tipos de dados explicitamente
df6 = pd.DataFrame({
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': pd.Series([28, 35, 22, 41], dtype='int32'),
    'Salário': pd.Series([3500.50, 4200.75, 2800.25, 5100.00], dtype='float64'),
    'Contratado': pd.Series([True, True, False, True], dtype='bool')
})
print("\nDataFrame com tipos específicos:")
print(df6.dtypes)

## 2. Criação e Importação Básica de DataFrames

### Criação a partir de Dicionário de Listas/Arrays
Uma forma comum de criar um DataFrame é a partir de um dicionário onde as chaves são os nomes das colunas e os valores são listas (ou arrays NumPy, ou Series Pandas) contendo os dados para cada coluna. Todas as listas/arrays devem ter o mesmo comprimento.

In [None]:
dados_dict = {
    'Nome': ['Ana', 'Bruno', 'Carla', 'Daniel'],
    'Idade': [28, 35, 22, 41],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Belo Horizonte']
}

df_de_dict = pd.DataFrame(dados_dict)

print("DataFrame criado a partir de dicionário:")
display(df_de_dict) # 'display()' é melhor para DataFrames no Jupyter

### Importação de Dados
Pandas pode ler dados de diversas fontes. Para arquivos de texto como CSV (Comma-Separated Values) ou TSV (Tab-Separated Values), usamos `pd.read_csv()` ou `pd.read_table()`.

**Parâmetros essenciais para `pd.read_csv()` (e `pd.read_table()`):**
*   `filepath_or_buffer`: O caminho para o arquivo local ou uma URL.
*   `sep` (ou `delimiter`): O caractere usado para separar os valores em cada linha. Para CSV, o padrão é `','`. Para TSV (tab-separated), use `sep='\t'`.
*   `comment`: Caractere que indica que o restante da linha é um comentário e deve ser ignorado (ex: `comment='#'`).
*   `na_values`: Uma string ou lista de strings que devem ser interpretadas como valores ausentes (NaN). Ex: `na_values=['NA', 'Ausente', '--']`.

In [None]:
# Exemplo prático: Carregar o dataset euro_football_players.txt
url_futebol = "http://leg.ufpr.br/~walmes/data/euro_football_players.txt"
df_futebol = pd.DataFrame() # Inicializar para o caso de falha na importação

print(f"Tentando importar dados de: {url_futebol}")
try:
    df_futebol = pd.read_table(
        url_futebol,
        sep="\t",         # Separador é tabulação
        comment="#",        # Linhas começando com '#' são comentários
        na_values=['NA', '.', '', 'N/A'] # Valores a serem tratados como NaN
    )
    print("\nDados importados com sucesso!")

except Exception as e:
    print(f"\nERRO durante a importação: {e}")
    print("Verifique sua conexão com a internet ou a validade da URL.")

## 3. Inspeção de Dados

Após carregar os dados, o primeiro passo é inspecioná-los para entender a sua estrutura, conteúdo e possíveis problemas.

### Visualização Rápida

In [None]:
# .head(): Mostra as primeiras N linhas (padrão N=5)
print("Primeiras 3 linhas (df_futebol.head(3)):")
display(df_futebol.head(3))

# .tail(): Mostra as últimas N linhas (padrão N=5)
print("\nÚltimas 2 linhas (df_futebol.tail(2)):")
display(df_futebol.tail(2))

### Estrutura e Metadados

In [None]:
# .shape: Retorna uma tupla com (número_de_linhas, número_de_colunas)
print("Dimensões (linhas, colunas) - df_futebol.shape:", df_futebol.shape)

# .info(): Fornece um resumo conciso do DataFrame.
# Inclui o tipo de índice, informações das colunas (nome, contagem de não-nulos, tipo de dado) e uso de memória.
# EXTREMAMENTE IMPORTANTE para entender os tipos de dados e a presença de valores ausentes.
print("\nResumo do DataFrame (df_futebol.info()):")
df_futebol.info()

# .columns: Retorna os nomes das colunas
print("\nNomes das colunas (df_futebol.columns):")
print(list(df_futebol.columns))

# .index: Retorna o índice (rótulos das linhas)
print("\nÍndice (df_futebol.index) - primeiras 5 entradas:")
print(df_futebol.index[:5])

# .dtypes: Retorna o tipo de dado (dtype) de cada coluna
print("\nTipos de dados por coluna (df_futebol.dtypes):")
print(df_futebol.dtypes)

### Resumo Estatístico

In [None]:
# .describe(): Gera estatísticas descritivas.
# Para colunas numéricas: contagem, média, desvio padrão, mínimo, percentis (25%, 50%, 75%), máximo.
# Para colunas object (string) ou categóricas: contagem, valores únicos, valor mais frequente (top), frequência do mais frequente (freq).
print("Resumo estatístico para colunas numéricas (df_futebol.describe()):")
display(df_futebol.describe())

print("\nResumo estatístico para colunas do tipo 'object' (df_futebol.describe(include='object')):")
display(df_futebol.describe(include='object'))

print("\nResumo estatístico para todos os tipos de colunas (df_futebol.describe(include='all')):")
display(df_futebol.describe(include='all'))

## 4. Seleção e Fatiamento (Indexing & Slicing)

Formas de acessar e extrair partes específicas de um DataFrame.

In [None]:
# Usar um DataFrame menor e mais simples para os exemplos de seleção
dados_selecao = {
    'A': [10, 20, 30, 40, 50],
    'B': [0.1, 0.2, 0.3, 0.4, 0.5],
    'C': ['p', 'q', 'r', 's', 't'],
    'D': [True, False, True, False, True]
}
idx_selecao = pd.Index(['idx0', 'idx1', 'idx2', 'idx3', 'idx4'], name='MeuIndice')
df_sel = pd.DataFrame(dados_selecao, index=idx_selecao)

print("DataFrame de exemplo 'df_sel':")
display(df_sel)

### Seleção de Colunas

#### Usando `[]` (colchetes)

In [None]:
# Selecionar uma única coluna: df['nome_coluna'] (retorna uma Series)
coluna_B_serie = df_sel['B']
print("Coluna 'B' (retorna Series):")
display(coluna_B_serie)
print(f"Tipo: {type(coluna_B_serie)}\n")

# Selecionar múltiplas colunas: df[['col1', 'col2']] (retorna um DataFrame)
colunas_A_C_df = df_sel[['A', 'C']]
print("Colunas 'A' e 'C' (retorna DataFrame):")
display(colunas_A_C_df)
print(f"Tipo: {type(colunas_A_C_df)}")

### Seleção de Linhas e Colunas com `.loc[]` (baseado em RÓTULOS)
`.loc[]` é usado para selecionar dados pelos rótulos do índice e das colunas.
*   `df.loc[rotulo_linha]`
*   `df.loc[[rot_lin1, rot_lin2]]`
*   `df.loc[rot_lin_inicio:rot_lin_fim]` (slicing por rótulo, *ambos os extremos são incluídos*)
*   `df.loc[rotulo_linha, rotulo_coluna]`
*   `df.loc[:, ['col_A', 'col_B']]` (todas as linhas, colunas específicas)
*   `df.loc[[rot_lin1, rot_lin2], ['col_A', 'col_B']]`

In [None]:
# Selecionar uma linha pelo rótulo do índice
linha_idx1 = df_sel.loc['idx1']
print("Linha com rótulo 'idx1':")
display(linha_idx1)
print(f"Tipo: {type(linha_idx1)}\n") # Retorna uma Series

# Selecionar todas as linhas, colunas 'A' e 'D'
loc_cols_A_D = df_sel.loc[:, ['A', 'D']]
print("Todas as linhas, colunas 'A' e 'D':")
display(loc_cols_A_D)

# Slicing por rótulos de linha (ambos inclusos), colunas 'B' e 'C'
loc_slice_linhas_cols = df_sel.loc['idx1':'idx3', ['B', 'C']]
print("\nLinhas 'idx1' a 'idx3', colunas 'B' e 'C':")
display(loc_slice_linhas_cols)

# Selecionar um valor escalar
valor_escalar_loc = df_sel.loc['idx2', 'C']
print(f"\nValor em df_sel.loc['idx2', 'C']: {valor_escalar_loc}")

### Seleção de Linhas e Colunas com `.iloc[]` (baseado em POSIÇÃO inteira)
`.iloc[]` é usado para selecionar dados pelas posições inteiras (de 0 a N-1).
*   `df.iloc[pos_linha]`
*   `df.iloc[[pos1, pos2]]`
*   `df.iloc[pos_inicio:pos_fim]` (slicing por posição, *o extremo final é exclusivo*)
*   `df.iloc[pos_linha, pos_coluna]`
*   `df.iloc[:, [0, 2]]` (todas as linhas, colunas nas posições 0 e 2)
*   `df.iloc[[0, 2], [1, 3]]`

In [None]:
# Selecionar a segunda linha (posição 1)
linha_pos1 = df_sel.iloc[1]
print("Linha na posição 1:")
display(linha_pos1)
print(f"Tipo: {type(linha_pos1)}\n")

# Selecionar todas as linhas, colunas nas posições 0 e 2
iloc_cols_0_2 = df_sel.iloc[:, [0, 2]]
print("Todas as linhas, colunas nas posições 0 e 2:")
display(iloc_cols_0_2)

# Slicing por posição de linha (1 a 3, exclusivo) e coluna (0 a 1, exclusivo)
iloc_slice_linhas_cols = df_sel.iloc[1:3, 0:2] # Linhas 1,2; Colunas 0,1
print("\nLinhas pos 1-2, colunas pos 0-1:")
display(iloc_slice_linhas_cols)

# Selecionar um valor escalar
valor_escalar_iloc = df_sel.iloc[2, 2] # Terceira linha, terceira coluna
print(f"\nValor em df_sel.iloc[2, 2]: {valor_escalar_iloc} (Coluna: {df_sel.columns[2]})")

### Indexação Booleana (Filtragem por Condição)
Permite selecionar linhas com base em uma condição booleana (True/False). *CRUCIAL para os exercícios e análises.*
Sintaxe geral: `df[condicao]`

In [None]:
# Condição: Linhas onde a coluna 'A' é maior que 25
condicao_A_maior_25 = df_sel['A'] > 25
print("Máscara booleana (df_sel['A'] > 25):")
print(condicao_A_maior_25)
print("\nLinhas onde 'A' > 25:")
display(df_sel[condicao_A_maior_25])

# Combinando condições: & (E lógico), | (OU lógico), ~ (NÃO lógico)
# Parênteses são importantes para garantir a ordem correta das operações!

# Condição: 'A' > 20 E 'D' == True
cond_combinada_E = (df_sel['A'] > 20) & (df_sel['D'] == True)
print("\nLinhas onde 'A' > 20 E 'D' == True:")
display(df_sel[cond_combinada_E])

# Condição: 'B' < 0.3 OU 'C' == 's'
cond_combinada_OU = (df_sel['B'] < 0.3) | (df_sel['C'] == 's')
print("\nLinhas onde 'B' < 0.3 OU 'C' == 's':")
display(df_sel[cond_combinada_OU])

# Uso de `.isin()`: Selecionar linhas onde 'C' está em uma lista de valores
valores_C_desejados = ['p', 't']
cond_isin_C = df_sel['C'].isin(valores_C_desejados)
print(f"\nLinhas onde 'C' é '{valores_C_desejados[0]}' ou '{valores_C_desejados[1]}':")
display(df_sel[cond_isin_C])

## 5. Transformação de Dados Básica

### Criação de Novas Colunas

In [None]:
df_trans = df_sel.copy() # Trabalhar com uma cópia

# 1. Atribuição direta: Criar 'A_vezes_2'
df_trans['A_vezes_2'] = df_trans['A'] * 2
print("DataFrame com nova coluna 'A_vezes_2':")
display(df_trans)

# 2. Usando np.where() para lógica condicional simples: Criar 'Categoria_B'
# Se df_trans['B'] > 0.3, 'Alto', senão 'Baixo'
df_trans['Categoria_B'] = np.where(df_trans['B'] > 0.3, 'Alto', 'Baixo')
print("\nDataFrame com nova coluna 'Categoria_B':")
display(df_trans)

# 3. Criar uma coluna com valores de uma Series (o alinhamento pelo índice é importante)
nova_serie = pd.Series([100, 200, 300], index=['idx0', 'idx2', 'idx4']) # Índice parcial
df_trans['Nova_Serie_Col'] = nova_serie
print("\nDataFrame com 'Nova_Serie_Col' (NaNs onde o índice não alinha):")
display(df_trans)

### Conversão de Tipos (`.astype()`, `pd.to_numeric()`)
É crucial garantir que as colunas tenham os tipos de dados corretos para análise e operações.
*   `pd.to_numeric(series, errors='coerce')`: Converte uma série para tipo numérico. Se um valor não puder ser convertido, ele se torna `NaN` (com `errors='coerce'`).
*   `series.astype(novo_tipo)`: Converte uma série para um `novo_tipo` (e.g., `float`, `int`, `str`, `bool`, `'category'`). Pode levantar erro se a conversão for impossível.

In [None]:
df_tipos = pd.DataFrame({
    'idade_str': ['25', '30', 'Não informado', '40'],
    'valor_str': ['100.50', '200', '75.2B', '50.0'] # '75.2B' não é numérico
})
print("DataFrame df_tipos original (dtypes object):")
display(df_tipos)
df_tipos.info()

# Converter 'idade_str' para numérico (inteiro)
df_tipos['idade_num'] = pd.to_numeric(df_tipos['idade_str'], errors='coerce')
# Como queremos inteiro, podemos tentar converter para Int64 (inteiro que suporta NaN)
df_tipos['idade_num'] = df_tipos['idade_num'].astype('Int64') 

# Converter 'valor_str' para numérico (float)
df_tipos['valor_float'] = pd.to_numeric(df_tipos['valor_str'], errors='coerce')

print("\nDataFrame df_tipos após conversões:")
display(df_tipos)
df_tipos.info()

### Tratamento Básico de Valores Ausentes (`.fillna()`)
Valores ausentes (`NaN`) podem atrapalhar cálculos. `.fillna()` permite substituí-los.
Para os exercícios, a imputação com 0 é solicitada.

In [None]:
df_ausentes = pd.DataFrame({
    'A': [1, 2, np.nan, 4, np.nan],
    'B': [np.nan, 10, 20, 30, 40],
    'C': ['x', 'y', 'z', np.nan, 'w']
})
print("DataFrame df_ausentes original:")
display(df_ausentes)
print("\nContagem de NaNs por coluna:")
print(df_ausentes.isnull().sum())

# Preencher todos os NaNs com um valor específico (ex: 0)
# df_sem_nan_global = df_ausentes.fillna(0)
# display(df_sem_nan_global)

# Preencher NaNs em uma coluna específica com 0
df_ausentes_copia = df_ausentes.copy()
# Modificação para evitar o FutureWarning
df_ausentes_copia['A'] = df_ausentes_copia['A'].fillna(0)
print("\nColuna 'A' com NaNs preenchidos por 0:")
display(df_ausentes_copia)

# Preencher NaNs com a média da coluna (apenas para colunas numéricas)
if pd.api.types.is_numeric_dtype(df_ausentes_copia['B']):
    # Modificação para evitar o FutureWarning
    df_ausentes_copia['B'] = df_ausentes_copia['B'].fillna(df_ausentes_copia['B'].mean())
    print("\nColuna 'B' com NaNs preenchidos pela média:")
    display(df_ausentes_copia)

print("\n(Breve menção: .dropna() remove linhas/colunas com NaNs)")
# display(df_ausentes.dropna()) # Remove linhas com qualquer NaN
# display(df_ausentes.dropna(axis='columns', how='all')) # Remove colunas onde todos os valores são NaN

### Compartimentação (`pd.cut()`)

Útil para transformar uma variável numérica contínua numa variável categórica, dividindo-a em intervalos (bins).

**Parâmetros principais:**
*   `x`: A Series a ser dividida.
*   `bins`: Pode ser um inteiro (número de bins de igual largura) ou uma sequência de escalares definindo as bordas dos bins.
*   `labels`: Rótulos para os bins resultantes. Se `False`, retorna apenas os inteiros indicando o bin.
*   `right`: Booleano, indica se o bin inclui o lado direito (`True`) ou esquerdo (`False`). Padrão `True` (intervalo `(a, b]`).
*   `include_lowest`: Booleano, se o primeiro intervalo deve ser inclusivo à esquerda.

In [None]:
idades_jogadores = pd.Series([22, 25, 28, 31, 34, 19, 38, 26, 29])

# Definir os limites dos bins (intervalos de idade)
bins_idade = [18, 25, 30, 35, np.inf] # np.inf para representar "ou mais"
labels_faixa_idade = ['18-25', '26-30', '31-35', '36+']

faixas_idade_series = pd.cut(
    x=idades_jogadores, 
    bins=bins_idade, 
    labels=labels_faixa_idade, 
    right=True,             # Intervalos são (lim_inf, lim_sup]
    include_lowest=True     # O primeiro bin [18, 25] incluirá 18
)

print("Idades originais:")
print(idades_jogadores)
print("\nFaixas de idade categorizadas:")
print(faixas_idade_series)
print("\nContagem por faixa de idade:")
print(faixas_idade_series.value_counts().sort_index())

## 6. Agregação Simples com `.groupby()`

O processo de `groupby` envolve:
1.  **Dividir (Split):** Os dados são divididos em grupos com base em algum critério (valores de uma ou mais colunas).
2.  **Aplicar (Apply):** Uma função é aplicada a cada grupo independentemente (e.g., soma, média, contagem).
3.  **Combinar (Combine):** Os resultados da aplicação são combinados em uma nova estrutura de dados.

Sintaxe comum: `df.groupby('coluna_agrupadora')['coluna_alvo'].funcao_agregacao()`

In [None]:
dados_vendas = {
    'Nome': ['Ana Silva', 'Carlos Oliveira', 'Beatriz Santos', 'Diego Pereira',
            'Elena Martins', 'Fabio Costa', 'Gabriela Lima', 'Henrique Alves',
            'Isabela Ferreira', 'João Cardoso', 'Karina Nunes', 'Lucas Mendes'],
    'Idade': [35, 42, 28, 31,
             39, 45, 27, 33,
             38, 29, 41, 36],
    'Cidade': ['Porto Alegre', 'São Paulo', 'Porto Alegre', 'Recife',
              'Belo Horizonte', 'Rio de Janeiro', 'Florianópolis', 'Belém',
              'Brasília', 'São Paulo', 'Porto Alegre', 'Salvador'],
    'Produto': ['Notebook', 'Smartphone', 'Monitor', 'Tablet',
               'Impressora', 'Fone de ouvido', 'Smartwatch', 'Teclado',
               'Mouse', 'Console', 'HD Externo', 'Webcam'],
    'Categoria': ['Eletrônicos', 'Eletrônicos', 'Periféricos', 'Eletrônicos',
                 'Periféricos', 'Acessórios', 'Eletrônicos', 'Periféricos',
                 'Periféricos', 'Eletrônicos', 'Armazenamento', 'Periféricos'],
    'Regiao': ['Sul', 'Sudeste', 'Sul', 'Nordeste',
              'Sudeste', 'Sudeste', 'Sul', 'Norte',
              'Centro-Oeste', 'Sudeste', 'Sul', 'Nordeste'],
    'Vendas': [100, 150, 120, 200,
              85, 110, 95, 75,
              125, 170, 65, 140],
    'Valor': [3500, 2000, 1200, 1800,
             950, 350, 1500, 300,
             120, 2500, 400, 280],
    'Quantidade': [2, 5, 3, 4,
                  1, 3, 2, 2,
                  4, 1, 3, 2],
    'Desconto': [0.05, 0.1, 0.05, 0.15,
                0.0, 0.1, 0.2, 0.0,
                0.05, 0.15, 0.0, 0.1],
    'Avaliacao': [4.5, 4.8, 3.9, 4.2,
                 3.7, 4.0, 4.7, 3.5,
                 4.1, 4.6, 3.8, 4.4],
    'Data': pd.date_range(start='2023-01-01', periods=12, freq='D')
}

# Criando o DataFrame
df_vendas = pd.DataFrame(dados_vendas)
df_vendas

In [None]:
# Adicionando colunas calculadas
df_vendas['Valor_Total'] = df_vendas['Valor'] * df_vendas['Quantidade']
df_vendas['Valor_Com_Desconto'] = df_vendas['Valor_Total'] * (1 - df_vendas['Desconto'])
df_vendas['Mes'] = df_vendas['Data'].dt.month_name()
df_vendas['Dia_Semana'] = df_vendas['Data'].dt.day_name()
df_vendas['Trimestre'] = df_vendas['Data'].dt.quarter

print("DataFrame de Vendas Expandido:")
df_vendas

In [None]:
# Calcular a média de 'Idade' por 'Regiao'
media_idade_regiao = df_vendas.groupby('Regiao')['Idade'].mean().sort_values(ascending=False)
print("\nMédia de Idade por Região (ordenada):")
media_idade_regiao

In [None]:
# Contar o número de ocorrências por 'Cidade'
contagem_cidade = df_vendas.groupby('Cidade')['Nome'].count().sort_values(ascending=False)
print("\nContagem de Pessoas por Cidade (ordenada):")
contagem_cidade

In [None]:
# Aplicar múltiplas funções de agregação a uma coluna numérica por grupo
agg_vendas_regiao = df_vendas.groupby('Regiao')['Vendas'].agg(['sum', 'mean', 'std', 'count'])
agg_vendas_regiao = agg_vendas_regiao.sort_values(by='sum', ascending=False)
print("\nSoma, Média, Desvio Padrão e Contagem de Vendas por Região (ordenada por soma):")
agg_vendas_regiao

In [None]:
# Encontrar o índice (e depois o valor) da maior 'Idade' em cada 'Regiao'
idx_max_idade_regiao = df_vendas.groupby('Regiao')['Idade'].idxmax()
pessoas_mais_velhas_regiao = df_vendas.loc[idx_max_idade_regiao]
print("\nPessoas mais velhas por região:")
pessoas_mais_velhas_regiao[['Regiao', 'Nome', 'Idade', 'Cidade']]

In [None]:
# Análise por categoria de produto
vendas_por_categoria = df_vendas.groupby('Categoria')['Valor_Total'].sum().sort_values(ascending=False)
print("\nTotal de Vendas por Categoria de Produto:")
vendas_por_categoria

In [None]:
# Obter os N maiores valores de 'Vendas' por 'Regiao' usando idxmax
n_maiores = 1  # Pegar o maior
idx_max_vendas = df_vendas.groupby('Regiao')['Vendas'].idxmax()
top_vendas_regiao = df_vendas.loc[idx_max_vendas]
print(f"\nTop {n_maiores} Vendas por Região (método com idxmax):")
top_vendas_regiao[['Regiao', 'Nome', 'Vendas', 'Produto']]

In [None]:
# O parâmetro group_keys no método groupby() do Pandas controla se os rótulos (chaves) do agrupamento são adicionados ao índice do resultado ao usar métodos como apply() ou transform().

n_maiores = 2

top_vendas_regiao_nlargest = (
    df_vendas.sort_values('Vendas', ascending=False)
             .groupby('Regiao', group_keys=False)
             .head(n_maiores)
)

print(f"\nTop {n_maiores} Vendas por Região:")
top_vendas_regiao_nlargest[['Regiao', 'Nome', 'Vendas', 'Produto']]

In [None]:
# Exemplo adicional: Agregações personalizadas em várias colunas
agg_mult_cols = df_vendas.groupby('Regiao').agg({
    'Vendas': ['sum', 'mean'],
    'Valor_Total': ['sum', 'max'],
    'Idade': ['mean', 'min', 'max'],
    'Avaliacao': ['mean', 'min', 'max']
})
print("\nAgregações múltiplas em diferentes colunas:")
agg_mult_cols

In [None]:
# Filtrando grupos com base em uma condição
# Apenas regiões com vendas totais acima de 200
regiao_vendas_altas = df_vendas.groupby('Regiao').filter(lambda x: x['Vendas'].sum() > 200)
print("\nRegiões com vendas totais acima de 200:")
regiao_vendas_altas[['Regiao', 'Nome', 'Vendas', 'Valor_Total']]

In [None]:
# Transformando dados com transform
# Calculando o percentual de cada venda em relação ao total da região
df_vendas['Pct_Vendas_Regiao'] = df_vendas.groupby('Regiao')['Vendas'].transform(
    lambda x: x / x.sum() * 100
)
print("\nPercentual de vendas por região:")
df_vendas[['Nome', 'Regiao', 'Vendas', 'Pct_Vendas_Regiao']]

In [None]:
# Análise de vendas por mês
vendas_por_mes = df_vendas.groupby('Mes')['Valor_Total'].sum()
print("\nTotal de Vendas por Mês:")
vendas_por_mes

In [None]:
# Análise de vendas por trimestre
vendas_por_trimestre = df_vendas.groupby('Trimestre')['Valor_Total'].sum()
print("\nTotal de Vendas por Trimestre:")
vendas_por_trimestre

In [None]:
# Estatísticas descritivas por região
descritivas_por_regiao = df_vendas.groupby('Regiao')[['Vendas', 'Valor_Total', 'Avaliacao']].describe()
print("\nEstatísticas Descritivas por Região:")
print(descritivas_por_regiao)

In [None]:
# Comparando avaliações por categoria de produto
avaliacao_por_categoria = df_vendas.groupby('Categoria')['Avaliacao'].agg(['mean', 'std', 'count'])
avaliacao_por_categoria = avaliacao_por_categoria.sort_values(by='mean', ascending=False)
print("\nAvaliações por Categoria de Produto:")
print(avaliacao_por_categoria)

In [None]:
# Análise de vendedores mais eficientes (maior valor por venda)
df_vendas['Valor_Medio_Por_Venda'] = df_vendas['Valor_Total'] / df_vendas['Quantidade']
top_vendedores = df_vendas.groupby('Nome')[['Vendas', 'Valor_Total', 'Quantidade', 'Valor_Medio_Por_Venda']].mean()
top_vendedores = top_vendedores.sort_values(by='Valor_Medio_Por_Venda', ascending=False).head(5)
print("\nTop 5 Vendedores por Valor Médio por Venda:")
top_vendedores


### Correlação entre variáveis

A correlação é uma medida estatística que quantifica a força e a direção da relação linear entre duas variáveis numéricas. Seus principais aspectos são:
- **Valor**: Varia entre -1 e 1
    - **1**: Correlação positiva perfeita (quando uma variável aumenta, a outra aumenta proporcionalmente)
    - **0**: Nenhuma correlação linear (as variáveis não se relacionam linearmente)
    - **-1**: Correlação negativa perfeita (quando uma variável aumenta, a outra diminui proporcionalmente)

- **Interpretação**:
    - **Forte**: Valores próximos de -1 ou 1
    - **Moderada**: Valores em torno de -0.5 ou 0.5
    - **Fraca**: Valores próximos de 0

- **Método de cálculo**: No Pandas, o método `.corr()` calcula por padrão o coeficiente de correlação de Pearson, que mede relações lineares.


In [None]:
# Análise de correlação entre variáveis numéricas
correlacao = df_vendas[['Idade', 'Vendas', 'Valor', 'Quantidade', 'Desconto', 'Avaliacao', 'Valor_Total']].corr()
print("\nCorrelação entre variáveis numéricas:")
correlacao

### Renomeação (`.rename()`)

In [None]:
# Renomeando algumas colunas usando o método rename()
df_renomeado1 = df_vendas.rename(columns={
    'Nome': 'Cliente',
    'Vendas': 'Total_Vendas',
    'Valor': 'Valor_Unitario',
    'Avaliacao': 'Satisfacao_Cliente'
})

print("DataFrame após renomear colunas específicas:")
display(df_renomeado1.head())

In [None]:
# Renomeando todas as colunas do DataFrame
novas_colunas = ['Cliente', 'Idade_Cliente', 'Localidade', 'Item', 'Tipo_Produto', 'Regiao', 'Total_Vendas',
       'Valor', 'Quantidade', 'Desconto', 'Avaliacao', 'Data', 'Valor_Total',
       'Valor_Com_Desconto', 'Mes', 'Dia_Semana', 'Trimestre',
       'Pct_Vendas_Regiao', 'Valor_Medio_Por_Venda']

df_renomeado2 = df_vendas.copy()
df_renomeado2.columns = novas_colunas

print("DataFrame com todas as colunas renomeadas:")
display(df_renomeado2.head())

In [None]:
# Convertendo todos os nomes para letras maiúsculas
df_renomeado3 = df_vendas.copy()
df_renomeado3.columns = df_renomeado3.columns.str.upper()

print("DataFrame com nomes de colunas em maiúsculas:")
display(df_renomeado3.head())