# ‚úÖ Gabarito - Pack de Exerc√≠cios Python Pandas

Este notebook cont√©m as solu√ß√µes comentadas de todos os exerc√≠cios.

**Importante**: Tente resolver os exerc√≠cios antes de consultar o gabarito. O aprendizado acontece atrav√©s da pr√°tica!

---

## üìå T√≥pico 1: Series

---

### Solu√ß√£o 1.1 - Criando e Acessando Series

**Explica√ß√£o**:
Este exerc√≠cio introduz os conceitos b√°sicos de Series no Pandas. Uma Series √© uma estrutura unidimensional que pode ser criada a partir de listas ou dicion√°rios. Os √≠ndices podem ser num√©ricos (padr√£o) ou personalizados.

**Conceitos aplicados**:
- Cria√ß√£o de Series a partir de listas
- Acesso a elementos por √≠ndice num√©rico
- Cria√ß√£o de Series com √≠ndices personalizados
- Acesso a elementos por √≠ndice personalizado

In [None]:
import pandas as pd

# 1. Criando Series a partir de lista
temperaturas = pd.Series([22, 25, 18, 30, 27])
print("Series completa:")
print(temperaturas)

# 2. Acessando o primeiro elemento (√≠ndice 0)
print(f"\nPrimeiro elemento: {temperaturas[0]}")

# 3. Acessando o √∫ltimo elemento (√≠ndice 4)
print(f"√öltimo elemento: {temperaturas[4]}")

# 4. Exibindo o tipo
print(f"\nTipo da Series: {type(temperaturas)}")

# 5. Criando Series com √≠ndices personalizados
temperaturas_nomes = pd.Series([22, 25, 18, 30, 27], 
                                index=['Seg', 'Ter', 'Qua', 'Qui', 'Sex'])
print("\nSeries com √≠ndices personalizados:")
print(temperaturas_nomes)

# 6. Acessando temperatura de quarta-feira
print(f"\nTemperatura de quarta-feira: {temperaturas_nomes['Qua']}")

**üí° Observa√ß√µes importantes**:

- Series s√£o estruturas unidimensional com √≠ndices associados
- Por padr√£o, √≠ndices s√£o num√©ricos come√ßando em 0
- √çndices personalizados permitem acesso mais sem√¢ntico aos dados
- Acesso por √≠ndice √© feito com `serie[indice]`

**üéØ Varia√ß√µes poss√≠veis**:

- Podemos criar Series vazias: `pd.Series([], dtype=int)`
- Podemos nomear a Series: `pd.Series([1,2,3], name='valores')`
- Podemos acessar m√∫ltiplos elementos: `serie[['Seg', 'Qui']]`

---

### Solu√ß√£o 1.2 - Series a partir de Dicion√°rio e Opera√ß√µes

**Explica√ß√£o**:
Quando criamos uma Series a partir de um dicion√°rio, as chaves se tornam os √≠ndices automaticamente. Series suportam opera√ß√µes matem√°ticas e m√©todos estat√≠sticos que facilitam an√°lises.

**Conceitos aplicados**:
- Cria√ß√£o de Series a partir de dicion√°rios
- Opera√ß√µes matem√°ticas em Series
- M√©todos estat√≠sticos: mean(), sum(), idxmax(), idxmin()

In [None]:
import pandas as pd

# Criando Series a partir de dicion√°rio
vendas = pd.Series({'Janeiro': 1500, 'Fevereiro': 1800, 'Mar√ßo': 1200, 
                    'Abril': 2000, 'Maio': 1700})
print("Series completa:")
print(vendas)

# 2. Acessando vendas de mar√ßo
print(f"\nVendas de mar√ßo: {vendas['Mar√ßo']}")

# 3. Criando Series com valores dobrados
vendas_dobradas = vendas * 2
print("\nVendas dobradas:")
print(vendas_dobradas)

# 4. Calculando m√©dia
media = vendas.mean()
print(f"\nM√©dia das vendas: {media}")

# 5. Calculando soma total
soma = vendas.sum()
print(f"Soma total: {soma}")

# 6. M√™s com maior venda
mes_maior = vendas.idxmax()
print(f"\nM√™s com maior venda: {mes_maior}")

# 7. M√™s com menor venda
mes_menor = vendas.idxmin()
print(f"M√™s com menor venda: {mes_menor}")

**üí° Observa√ß√µes importantes**:

- Dicion√°rios s√£o convertidos automaticamente: chaves ‚Üí √≠ndices, valores ‚Üí dados
- Opera√ß√µes matem√°ticas s√£o aplicadas elemento a elemento
- M√©todos como `.mean()` e `.sum()` retornam valores escalares
- `.idxmax()` e `.idxmin()` retornam o √≠ndice do valor m√°ximo/m√≠nimo

**üéØ Varia√ß√µes poss√≠veis**:

- Podemos fazer opera√ß√µes entre Series: `serie1 + serie2`
- Podemos aplicar fun√ß√µes: `vendas.apply(lambda x: x * 1.1)` para aumentar 10%
- Podemos filtrar: `vendas[vendas > 1500]`

---

### Solu√ß√£o 1.3 - Opera√ß√µes entre M√∫ltiplas Series

**Explica√ß√£o**:
Quando m√∫ltiplas Series t√™m os mesmos √≠ndices, podemos realizar opera√ß√µes entre elas diretamente. Isso √© muito √∫til para c√°lculos comparativos e an√°lises de dados relacionados.

**Conceitos aplicados**:
- Opera√ß√µes aritm√©ticas entre Series
- Cria√ß√£o de Series booleanas com compara√ß√µes
- C√°lculo de crescimento percentual

In [None]:
import pandas as pd

# Criando as tr√™s Series
produto_a = pd.Series([100, 120, 110, 130], index=['Q1', 'Q2', 'Q3', 'Q4'])
produto_b = pd.Series([80, 90, 95, 100], index=['Q1', 'Q2', 'Q3', 'Q4'])
produto_c = pd.Series([150, 140, 160, 170], index=['Q1', 'Q2', 'Q3', 'Q4'])

print("Series criadas:")
print("Produto A:", produto_a)
print("Produto B:", produto_b)
print("Produto C:", produto_c)

# 1. Soma das tr√™s Series
total_vendas = produto_a + produto_b + produto_c
print("\n--- Total de vendas por trimestre ---")
print(total_vendas)

# 2. M√©dia trimestral
media_trimestral = (produto_a + produto_b + produto_c) / 3
print("\n--- M√©dia trimestral ---")
print(media_trimestral)

# 3. Trimestre com maior venda total
trimestre_maior = total_vendas.idxmax()
print(f"\nTrimestre com maior venda total: {trimestre_maior}")

# 4. Diferen√ßa entre produto_a e produto_c
diferenca_ac = produto_a - produto_c
print("\n--- Diferen√ßa entre A e C ---")
print(diferenca_ac)

# 5. Trimestres onde produto_a superou produto_b
superou = produto_a > produto_b
print("\n--- Produto A superou B? ---")
print(superou)

# 6. Crescimento percentual do produto_a (Q1 para Q4)
crescimento = ((produto_a['Q4'] - produto_a['Q1']) / produto_a['Q1']) * 100
print(f"\nCrescimento percentual do produto A: {crescimento:.1f}%")

**üí° Observa√ß√µes importantes**:

- Series com mesmos √≠ndices podem ser somadas/subtra√≠das diretamente
- Opera√ß√µes s√£o aplicadas elemento a elemento automaticamente
- Compara√ß√µes retornam Series booleanas (True/False)
- Para crescimento: `((final - inicial) / inicial) * 100`

**üéØ Varia√ß√µes poss√≠veis**:

- Podemos fazer opera√ß√µes mais complexas: `(serie1 + serie2) / serie3`
- Podemos filtrar com Series booleanas: `produto_a[produto_a > produto_b]`
- Podemos calcular estat√≠sticas em opera√ß√µes: `(serie1 + serie2).mean()`

---

## üìå T√≥pico 2: DataFrames

---

### Solu√ß√£o 2.1 - Criando e Acessando DataFrames

**Explica√ß√£o**:
DataFrames s√£o estruturas bidimensionais tabulares, similares a planilhas. Cada coluna √© uma Series. Podemos acessar colunas usando nota√ß√£o de ponto ou colchetes.

**Conceitos aplicados**:
- Cria√ß√£o de DataFrame a partir de dicion√°rio
- Acesso a colunas usando nota√ß√£o de ponto
- Acesso a colunas usando nota√ß√£o de colchetes
- Sele√ß√£o de m√∫ltiplas colunas

In [None]:
import pandas as pd

# Criando DataFrame
funcionarios = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carla', 'Diego'],
    'Idade': [28, 32, 25, 30],
    'Cargo': ['Analista', 'Gerente', 'Desenvolvedor', 'Analista']
})

# 1. Exibindo DataFrame completo
print("DataFrame completo:")
print(funcionarios)

# 2. Tipo do DataFrame
print(f"\nTipo: {type(funcionarios)}")

# 3. Acessando coluna 'Nome' com nota√ß√£o de ponto
print("\n--- Coluna Nome (nota√ß√£o de ponto) ---")
print(funcionarios.Nome)

# 4. Acessando coluna 'Idade' com nota√ß√£o de colchetes
print("\n--- Coluna Idade (nota√ß√£o de colchetes) ---")
print(funcionarios['Idade'])

# 5. Acessando coluna 'Cargo' com ambas as nota√ß√µes
print("\n--- Coluna Cargo (nota√ß√£o de ponto) ---")
print(funcionarios.Cargo)
print("\n--- Coluna Cargo (nota√ß√£o de colchetes) ---")
print(funcionarios['Cargo'])

# 6. Selecionando m√∫ltiplas colunas
print("\n--- Colunas Nome e Cargo ---")
print(funcionarios[['Nome', 'Cargo']])

**üí° Observa√ß√µes importantes**:

- DataFrames s√£o criados com `pd.DataFrame(dicionario)`
- Nota√ß√£o de ponto (`df.coluna`) funciona apenas se o nome n√£o tiver espa√ßos
- Nota√ß√£o de colchetes (`df['coluna']`) √© mais segura e flex√≠vel
- Para m√∫ltiplas colunas, use lista: `df[['col1', 'col2']]`

**üéØ Varia√ß√µes poss√≠veis**:

- Podemos criar DataFrame vazio: `pd.DataFrame()`
- Podemos especificar √≠ndices: `pd.DataFrame(dados, index=['A', 'B', 'C'])`
- Cada coluna √© uma Series independente

---

### Solu√ß√£o 2.2 - DataFrame a partir de Lista de Dicion√°rios

**Explica√ß√£o**:
DataFrames podem ser criados a partir de listas de dicion√°rios, onde cada dicion√°rio representa uma linha. Isso √© √∫til quando os dados v√™m de APIs ou bancos de dados.

**Conceitos aplicados**:
- Cria√ß√£o de DataFrame a partir de lista de dicion√°rios
- Cria√ß√£o de novas colunas com c√°lculos
- Cria√ß√£o de colunas com valores fixos
- Verifica√ß√£o de dimens√µes com shape

In [None]:
import pandas as pd

# Criando DataFrame a partir de lista de dicion√°rios
produtos = pd.DataFrame([
    {'Produto': 'Notebook', 'Preco': 3500, 'Estoque': 15},
    {'Produto': 'Mouse', 'Preco': 50, 'Estoque': 100},
    {'Produto': 'Teclado', 'Preco': 200, 'Estoque': 45},
    {'Produto': 'Monitor', 'Preco': 1200, 'Estoque': 20}
])

print("DataFrame original:")
print(produtos)

# 2. Criando coluna Valor_Total
produtos['Valor_Total'] = produtos['Preco'] * produtos['Estoque']
print("\n--- Ap√≥s criar Valor_Total ---")
print(produtos)

# 3. Selecionando apenas Produto e Valor_Total
print("\n--- Colunas Produto e Valor_Total ---")
print(produtos[['Produto', 'Valor_Total']])

# 4. Criando coluna Categoria com valor fixo
produtos['Categoria'] = 'Eletr√¥nicos'
print("\n--- Ap√≥s criar Categoria ---")
print(produtos)

# 5. Exibindo DataFrame final
print("\n--- DataFrame final ---")
print(produtos)

# 6. Verificando dimens√µes
print(f"\nShape: {produtos.shape}")

**üí° Observa√ß√µes importantes**:

- Lista de dicion√°rios cria DataFrame automaticamente
- Cada dicion√°rio vira uma linha, chaves viram colunas
- Criar colunas: `df['nova_col'] = valor` ou `df['nova_col'] = calculo`
- `.shape` retorna tupla (linhas, colunas)

**üéØ Varia√ß√µes poss√≠veis**:

- Podemos criar colunas com listas: `df['col'] = [1, 2, 3]`
- Podemos criar colunas condicionais: `df['status'] = df['valor'] > 100`
- Opera√ß√µes entre colunas s√£o aplicadas elemento a elemento

---

### Solu√ß√£o 2.3 - DataFrame Complexo com M√∫ltiplas Opera√ß√µes

**Explica√ß√£o**:
Este exerc√≠cio combina cria√ß√£o de colunas calculadas, condi√ß√µes e agrupamentos. Mostra como realizar an√°lises mais complexas combinando m√∫ltiplas opera√ß√µes do Pandas.

**Conceitos aplicados**:
- Cria√ß√£o de colunas calculadas
- Cria√ß√£o de colunas condicionais
- Agrupamento de dados com groupby
- M√∫ltiplas agrega√ß√µes

In [None]:
import pandas as pd

# Criando DataFrame
vendas = pd.DataFrame({
    'Vendedor': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Alice'],
    'Produto': ['A', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Quantidade': [10, 5, 8, 12, 15, 7, 9],
    'Preco_Unitario': [100, 200, 100, 150, 200, 100, 150]
})

print("DataFrame original:")
print(vendas)

# 1. Criando coluna Receita
vendas['Receita'] = vendas['Quantidade'] * vendas['Preco_Unitario']
print("\n--- Ap√≥s criar Receita ---")
print(vendas)

# 2. Criando coluna Comissao (5% da Receita)
vendas['Comissao'] = vendas['Receita'] * 0.05
print("\n--- Ap√≥s criar Comissao ---")
print(vendas)

# 3. Criando coluna Status baseada em condi√ß√£o
vendas['Status'] = vendas['Receita'].apply(lambda x: 'Alta' if x > 1000 else 'Normal')
print("\n--- Ap√≥s criar Status ---")
print(vendas)

# 4. Receita total por vendedor
receita_por_vendedor = vendas.groupby('Vendedor')['Receita'].sum()
print("\n--- Receita total por vendedor ---")
print(receita_por_vendedor)

# 5. Produto mais vendido (maior soma de Quantidade)
produto_mais_vendido = vendas.groupby('Produto')['Quantidade'].sum().idxmax()
print(f"\nProduto mais vendido: {produto_mais_vendido}")

# 6. M√©dia de receita por produto
media_receita_produto = vendas.groupby('Produto')['Receita'].mean()
print("\n--- M√©dia de receita por produto ---")
print(media_receita_produto)

**üí° Observa√ß√µes importantes**:

- Opera√ß√µes entre colunas s√£o aplicadas elemento a elemento
- Use `.apply()` com lambda para condi√ß√µes complexas
- `.groupby()` agrupa dados por valores √∫nicos de uma coluna
- Ap√≥s agrupar, podemos aplicar fun√ß√µes de agrega√ß√£o

**üéØ Varia√ß√µes poss√≠veis**:

- Podemos usar m√∫ltiplas condi√ß√µes: `np.where(condicao, valor_se_true, valor_se_false)`
- Podemos agrupar por m√∫ltiplas colunas: `.groupby(['col1', 'col2'])`
- Podemos aplicar m√∫ltiplas fun√ß√µes: `.groupby().agg(['sum', 'mean'])`

---

## üìå T√≥pico 3: Leitura e Salvamento de Arquivos

---

### Solu√ß√£o 3.1 - Lendo um Arquivo CSV

**Explica√ß√£o**:
O Pandas facilita a leitura de arquivos em diversos formatos. CSV √© um dos mais comuns. Podemos ler de URLs p√∫blicas diretamente.

**Conceitos aplicados**:
- Leitura de CSV com pd.read_csv()
- M√©todos de explora√ß√£o: head(), tail(), shape, columns

In [None]:
import pandas as pd

# 1. Lendo arquivo CSV de URL
df_mundo = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

# 2. DataFrame j√° est√° armazenado em df_mundo
print("DataFrame carregado!")

# 3. Primeiras 5 linhas
print("\n--- Primeiras 5 linhas ---")
print(df_mundo.head())

# 4. √öltimas 3 linhas
print("\n--- √öltimas 3 linhas ---")
print(df_mundo.tail(3))

# 5. Dimens√µes
print(f"\nShape: {df_mundo.shape}")

# 6. Nomes das colunas
print(f"\nColunas: {df_mundo.columns}")

**üí° Observa√ß√µes importantes**:

- `pd.read_csv()` pode ler de URLs e arquivos locais
- `.head(n)` mostra primeiras n linhas (padr√£o: 5)
- `.shape` retorna tupla (linhas, colunas)
- `.columns` retorna Index com nomes das colunas

---

### Solu√ß√£o 3.2 - Lendo e Salvando em Diferentes Formatos

**Explica√ß√£o**:
Pandas suporta m√∫ltiplos formatos. CSV √© universal, Excel √© comum em ambientes corporativos. O par√¢metro `index=False` evita salvar o √≠ndice.

**Conceitos aplicados**:
- Salvamento em CSV com to_csv()
- Salvamento em Excel com to_excel()
- Leitura de arquivos salvos
- Compara√ß√£o de DataFrames

In [None]:
import pandas as pd

# 1. Criando DataFrame
dados = pd.DataFrame({
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba'],
    'Populacao': [12300000, 6700000, 2500000, 1900000],
    'Area_km2': [1521, 1200, 331, 435]
})

# 2. Salvando em CSV
dados.to_csv('cidades_brasil.csv', index=False)
print("Arquivo CSV salvo!")

# 3. Salvando em Excel
dados.to_excel('cidades_brasil.xlsx', index=False)
print("Arquivo Excel salvo!")

# 4. Lendo CSV
df_csv_lido = pd.read_csv('cidades_brasil.csv')
print("\n--- CSV lido ---")
print(df_csv_lido)

# 5. Lendo Excel
df_excel_lido = pd.read_excel('cidades_brasil.xlsx')
print("\n--- Excel lido ---")
print(df_excel_lido)

# 6. Verificando se s√£o iguais
sao_iguais = dados.equals(df_csv_lido) and dados.equals(df_excel_lido)
print(f"\nDataFrames s√£o iguais: {sao_iguais}")

**üí° Observa√ß√µes importantes**:

- `index=False` evita salvar o √≠ndice (recomendado na maioria dos casos)
- Para Excel, pode ser necess√°rio instalar: `pip install openpyxl`
- `.equals()` compara DataFrames completamente
- Arquivos s√£o salvos no diret√≥rio atual

---

### Solu√ß√£o 3.3 - Processando M√∫ltiplos Arquivos

**Explica√ß√£o**:
Em cen√°rios reais, frequentemente trabalhamos com m√∫ltiplos arquivos que precisam ser consolidados. Este exerc√≠cio mostra como processar e combinar dados de v√°rias fontes.

**Conceitos aplicados**:
- Cria√ß√£o e salvamento de m√∫ltiplos DataFrames
- Leitura de m√∫ltiplos arquivos
- Adi√ß√£o de colunas identificadoras
- Concatena√ß√£o de DataFrames
- Agrupamento e agrega√ß√£o

In [None]:
import pandas as pd

# 1. Criando tr√™s DataFrames
vendas_jan = pd.DataFrame({'Produto': ['A', 'B', 'C'], 'Vendas': [100, 150, 80]})
vendas_fev = pd.DataFrame({'Produto': ['A', 'B', 'C'], 'Vendas': [120, 140, 90]})
vendas_mar = pd.DataFrame({'Produto': ['A', 'B', 'C'], 'Vendas': [110, 160, 85]})

# 2. Salvando em arquivos CSV
vendas_jan.to_csv('vendas_jan.csv', index=False)
vendas_fev.to_csv('vendas_fev.csv', index=False)
vendas_mar.to_csv('vendas_mar.csv', index=False)
print("Arquivos salvos!")

# 3. Lendo os arquivos
df_jan = pd.read_csv('vendas_jan.csv')
df_fev = pd.read_csv('vendas_fev.csv')
df_mar = pd.read_csv('vendas_mar.csv')

# 4. Adicionando coluna Mes
df_jan['Mes'] = 'Janeiro'
df_fev['Mes'] = 'Fevereiro'
df_mar['Mes'] = 'Mar√ßo'

# 5. Combinando os DataFrames
vendas_consolidadas = pd.concat([df_jan, df_fev, df_mar], ignore_index=True)
print("\n--- Vendas consolidadas ---")
print(vendas_consolidadas)

# 6. M√©dia de vendas por produto
media_por_produto = vendas_consolidadas.groupby('Produto')['Vendas'].mean()
print("\n--- M√©dia de vendas por produto ---")
print(media_por_produto)

# 7. Salvando consolidado
vendas_consolidadas.to_csv('vendas_trimestre.csv', index=False)
print("\nArquivo consolidado salvo!")

**üí° Observa√ß√µes importantes**:

- `pd.concat()` combina DataFrames verticalmente (por padr√£o)
- `ignore_index=True` recria √≠ndices sequenciais
- Adicionar colunas antes de concatenar ajuda a identificar origem
- `.groupby()` permite an√°lises por categoria

---

## üìå T√≥pico 4: Explora√ß√£o de Dados

---

### Solu√ß√£o 4.1 - Usando Head, Tail, Shape, Info e Describe

**Explica√ß√£o**:
M√©todos de explora√ß√£o s√£o essenciais para entender a estrutura e caracter√≠sticas dos dados antes de an√°lises mais profundas.

**Conceitos aplicados**:
- head(), tail() para visualiza√ß√£o
- shape para dimens√µes
- info() para resumo de tipos e mem√≥ria
- describe() para estat√≠sticas descritivas

In [None]:
import pandas as pd

# Criando DataFrame
alunos = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carla', 'Diego', 'Eduarda', 'Fernando', 'Gabriela'],
    'Idade': [20, 22, 21, 23, 20, 24, 22],
    'Nota': [8.5, 7.0, 9.0, 6.5, 8.0, 7.5, 9.5],
    'Aprovado': [True, True, True, False, True, True, True]
})

# 1. Primeiras 3 linhas
print("--- Primeiras 3 linhas ---")
print(alunos.head(3))

# 2. √öltimas 2 linhas
print("\n--- √öltimas 2 linhas ---")
print(alunos.tail(2))

# 3. Dimens√µes
linhas, colunas = alunos.shape
print(f"\nDataFrame tem {linhas} linhas e {colunas} colunas")

# 4. Informa√ß√µes gerais
print("\n--- Info ---")
alunos.info()

# 5. Estat√≠sticas descritivas
print("\n--- Estat√≠sticas descritivas ---")
print(alunos.describe())

---

### Solu√ß√£o 4.2 - An√°lise Explorat√≥ria de Dados

**Explica√ß√£o**:
An√°lise explorat√≥ria √© fundamental para entender dados reais. Este exerc√≠cio mostra como usar m√∫ltiplos m√©todos para obter insights sobre um dataset.

**Conceitos aplicados**:
- Leitura de dados externos
- Identifica√ß√£o de valores √∫nicos com nunique()
- Detec√ß√£o de valores ausentes
- An√°lise de extremos com idxmax() e idxmin()

In [None]:
import pandas as pd

# Lendo o arquivo
df_exploracao = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

# 1. Primeiras 10 linhas
print("--- Primeiras 10 linhas ---")
print(df_exploracao.head(10))

# 2. Dimens√µes e tipos
print(f"\nShape: {df_exploracao.shape}")
print(f"\nTipos de dados:")
print(df_exploracao.dtypes)

# 3. Pa√≠ses √∫nicos
paises_unicos = df_exploracao['country'].nunique()
print(f"\nPa√≠ses √∫nicos: {paises_unicos}")

# 4. Anos √∫nicos
anos_unicos = df_exploracao['year'].nunique()
print(f"Anos √∫nicos: {anos_unicos}")

# 5. Valores ausentes
print("\n--- Valores ausentes por coluna ---")
print(df_exploracao.isna().sum())

# 6. Estat√≠sticas descritivas
print("\n--- Estat√≠sticas descritivas ---")
print(df_exploracao.describe())

# 7. Pa√≠s com maior popula√ß√£o
idx_max_pop = df_exploracao['pop'].idxmax()
pais_maior_pop = df_exploracao.loc[idx_max_pop, 'country']
print(f"\nPa√≠s com maior popula√ß√£o: {pais_maior_pop}")

# 8. Pa√≠s com menor expectativa de vida
idx_min_life = df_exploracao['lifeExp'].idxmin()
pais_menor_life = df_exploracao.loc[idx_min_life, 'country']
print(f"Pa√≠s com menor expectativa de vida: {pais_menor_life}")

---

### Solu√ß√£o 4.3 - An√°lise Explorat√≥ria Completa

**Explica√ß√£o**:
An√°lise explorat√≥ria completa combina m√∫ltiplas t√©cnicas para obter insights profundos sobre os dados, incluindo c√°lculos derivados e agrupamentos.

**Conceitos aplicados**:
- Cria√ß√£o de sequ√™ncias de datas
- C√°lculo de colunas derivadas
- Agrupamento e agrega√ß√£o
- An√°lise de padr√µes

In [None]:
import pandas as pd

# Criando DataFrame
vendas_loja = pd.DataFrame({
    'Data': pd.date_range('2023-01-01', periods=30, freq='D'),
    'Produto': ['A']*10 + ['B']*10 + ['C']*10,
    'Vendedor': ['V1', 'V2']*15,
    'Quantidade': [10, 15, 8, 12, 20, 5, 18, 9, 14, 11, 25, 7, 13, 16, 6, 19, 10, 8, 15, 12, 30, 9, 11, 14, 7, 22, 13, 10, 17, 9],
    'Preco_Unitario': [100]*10 + [150]*10 + [200]*10
})

# 1. Informa√ß√µes gerais
print("--- Info ---")
vendas_loja.info()

# 2. Estat√≠sticas descritivas
print("\n--- Estat√≠sticas descritivas ---")
print(vendas_loja.describe())

# 3. Produtos diferentes
produtos_unicos = vendas_loja['Produto'].nunique()
print(f"\nProdutos diferentes: {produtos_unicos}")

# 4. Vendedores diferentes
vendedores_unicos = vendas_loja['Vendedor'].nunique()
print(f"Vendedores diferentes: {vendedores_unicos}")

# 5. Calculando receita
vendas_loja['Receita'] = vendas_loja['Quantidade'] * vendas_loja['Preco_Unitario']

# 6. Dia com maior receita
idx_max_receita = vendas_loja['Receita'].idxmax()
dia_max = vendas_loja.loc[idx_max_receita, 'Data']
print(f"\nDia com maior receita: {dia_max}")

# 7. M√©dia de receita por produto
media_receita_produto = vendas_loja.groupby('Produto')['Receita'].mean()
print("\n--- M√©dia de receita por produto ---")
print(media_receita_produto)

# 8. M√©dia de receita por vendedor
media_receita_vendedor = vendas_loja.groupby('Vendedor')['Receita'].mean()
print("\n--- M√©dia de receita por vendedor ---")
print(media_receita_vendedor)

# 9. Produto com maior quantidade m√©dia
produto_maior_qtd = vendas_loja.groupby('Produto')['Quantidade'].mean().idxmax()
print(f"\nProduto com maior quantidade m√©dia: {produto_maior_qtd}")

# 10. Resumo
total_vendas = len(vendas_loja)
receita_total = vendas_loja['Receita'].sum()
receita_media_dia = vendas_loja['Receita'].mean()

print(f"\n--- Resumo ---")
print(f"Total de vendas: {total_vendas}")
print(f"Receita total: {receita_total}")
print(f"Receita m√©dia por dia: {receita_media_dia:.2f}")

---

## üìå T√≥pico 5: Sele√ß√£o de Dados - Loc e Iloc

---

### Solu√ß√£o 5.1 - Sele√ß√£o B√°sica com Loc e Iloc

**Explica√ß√£o**:
`.loc[]` e `.iloc[]` s√£o m√©todos poderosos para sele√ß√£o de dados. `.loc[]` usa r√≥tulos, `.iloc[]` usa posi√ß√µes num√©ricas.

**Conceitos aplicados**:
- Sele√ß√£o de colunas com []
- Sele√ß√£o por r√≥tulo com .loc[]
- Sele√ß√£o por posi√ß√£o com .iloc[]

In [None]:
import pandas as pd

# Criando DataFrame
df = pd.DataFrame({
    'Produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam'],
    'Preco': [3500, 50, 200, 1200, 300],
    'Estoque': [15, 100, 45, 20, 60]
}, index=['P001', 'P002', 'P003', 'P004', 'P005'])

# 1. Sele√ß√£o de coluna com []
print("--- Coluna Produto ---")
print(df['Produto'])

# 2. Sele√ß√£o de m√∫ltiplas colunas
print("\n--- Colunas Produto e Preco ---")
print(df[['Produto', 'Preco']])

# 3. Sele√ß√£o de linha com .loc[] por r√≥tulo
print("\n--- Linha P003 com .loc[] ---")
print(df.loc['P003'])

# 4. Sele√ß√£o de m√∫ltiplas linhas com .loc[]
print("\n--- Linhas P001 e P005 ---")
print(df.loc[['P001', 'P005']])

# 5. Sele√ß√£o de linha por posi√ß√£o com .iloc[]
print("\n--- Terceira linha (√≠ndice 2) com .iloc[] ---")
print(df.iloc[2])

# 6. Sele√ß√£o de m√∫ltiplas linhas com .iloc[]
print("\n--- Duas primeiras linhas ---")
print(df.iloc[0:2])

---

### Solu√ß√£o 5.2 - Sele√ß√µes Complexas com Loc e Iloc

**Explica√ß√£o**:
Podemos combinar sele√ß√µes de linhas e colunas usando .loc[] e .iloc[], incluindo fatiamento.

**Conceitos aplicados**:
- Sele√ß√£o combinada de linhas e colunas
- Fatiamento com .loc[] e .iloc[]
- Sele√ß√£o de todas as linhas/colunas

In [None]:
import pandas as pd

# Criando DataFrame
df = pd.DataFrame({
    'Vendedor': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
    'Produto': ['A', 'B', 'A', 'C', 'B', 'A'],
    'Quantidade': [10, 5, 8, 12, 15, 7],
    'Preco': [100, 200, 100, 150, 200, 100]
}, index=['V1', 'V2', 'V3', 'V4', 'V5', 'V6'])

# 1. Sele√ß√£o de linhas e colunas espec√≠ficas com .loc[]
print("--- Linhas V2 e V5, colunas Vendedor e Quantidade ---")
print(df.loc[['V2', 'V5'], ['Vendedor', 'Quantidade']])

# 2. Sele√ß√£o por posi√ß√£o com .iloc[]
print("\n--- Linhas 1 a 3, colunas 0 e 2 ---")
print(df.iloc[1:4, [0, 2]])

# 3. Fatiamento com .loc[] (inclusivo)
print("\n--- Linhas V2 a V5, colunas Produto a Preco ---")
print(df.loc['V2':'V5', 'Produto':'Preco'])

# 4. Fatiamento com .iloc[] (exclusivo)
print("\n--- 3 primeiras linhas, 2 √∫ltimas colunas ---")
print(df.iloc[0:3, -2:])

# 5. Todas as linhas, coluna espec√≠fica com .loc[]
print("\n--- Todas as linhas, coluna Vendedor ---")
print(df.loc[:, 'Vendedor'])

# 6. Todas as linhas, √∫ltima coluna com .iloc[]
print("\n--- Todas as linhas, √∫ltima coluna ---")
print(df.iloc[:, -1])

---

### Solu√ß√£o 5.3 - Sele√ß√µes Avan√ßadas com Condi√ß√µes

**Explica√ß√£o**:
Podemos combinar .loc[] e .iloc[] com condi√ß√µes booleanas para fazer sele√ß√µes muito espec√≠ficas e poderosas.

**Conceitos aplicados**:
- Sele√ß√£o com condi√ß√µes booleanas
- M√°scaras booleanas
- Combina√ß√£o de condi√ß√µes

In [None]:
import pandas as pd

# Criando DataFrame
df = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carla', 'Diego', 'Eduarda', 'Fernando'],
    'Idade': [28, 32, 25, 30, 27, 35],
    'Salario': [5000, 8000, 4500, 7000, 5500, 9000],
    'Departamento': ['TI', 'RH', 'TI', 'Vendas', 'TI', 'Vendas']
}, index=['F001', 'F002', 'F003', 'F004', 'F005', 'F006'])

# 1. Sele√ß√£o com condi√ß√£o usando .loc[]
print("--- Funcion√°rios com sal√°rio > 6000 ---")
print(df.loc[df['Salario'] > 6000, ['Nome', 'Salario']])

# 2. M√°scara booleana para .iloc[]
mascara_idade = df['Idade'] > 28
print("\n--- Funcion√°rios com idade > 28 (usando iloc) ---")
print(df.iloc[mascara_idade.values, [0, 1, 2]])

# 3. M√∫ltiplas condi√ß√µes com .loc[]
print("\n--- TI com idade < 30 ---")
print(df.loc[(df['Departamento'] == 'TI') & (df['Idade'] < 30)])

# 4. Condi√ß√£o com .iloc[]
mascara_salario = (df['Salario'] >= 5000) & (df['Salario'] <= 7000)
print("\n--- Sal√°rio entre 5000 e 7000 (primeiras 3 colunas) ---")
print(df.iloc[mascara_salario.values, 0:3])

# 5. Sele√ß√£o de √≠ndices espec√≠ficos com .loc[]
print("\n--- √çndices F002, F004, F006 ---")
print(df.loc[['F002', 'F004', 'F006'], ['Nome', 'Idade', 'Salario']])

# 6. Janela espec√≠fica com .iloc[]
print("\n--- Linhas 1 a 3, colunas 0, 2 e 3 ---")
print(df.iloc[1:4, [0, 2, 3]])

---

## üìå T√≥pico 6: Filtragem de Dados

---

### Solu√ß√£o 6.1 - Filtros Simples

**Explica√ß√£o**:
Filtros s√£o condi√ß√µes booleanas aplicadas ao DataFrame. O resultado √© um novo DataFrame com apenas as linhas que atendem √† condi√ß√£o.

**Conceitos aplicados**:
- Filtros com operadores de compara√ß√£o
- Contagem de linhas filtradas

In [None]:
import pandas as pd

# Criando DataFrame
alunos = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carla', 'Diego', 'Eduarda'],
    'Idade': [20, 22, 21, 23, 20],
    'Nota': [8.5, 7.0, 9.0, 6.5, 8.0]
})

# 1. Filtro: nota >= 8.0
aprovados_alta = alunos[alunos['Nota'] >= 8.0]
print("Alunos com nota >= 8.0:")
print(aprovados_alta)

# 2. Filtro: idade < 22
jovens = alunos[alunos['Idade'] < 22]
print("\nAlunos com idade < 22:")
print(jovens)

# 3. Filtro: nota == 8.5
nota_exata = alunos[alunos['Nota'] == 8.5]
print("\nAlunos com nota 8.5:")
print(nota_exata)

# 4. Filtro: idade >= 21
adultos = alunos[alunos['Idade'] >= 21]
print("\nAlunos com idade >= 21:")
print(adultos)

# 5. N√∫mero de aprovados (nota >= 7.0)
aprovados = alunos[alunos['Nota'] >= 7.0]
print(f"\nN√∫mero de aprovados: {len(aprovados)}")

---

### Solu√ß√£o 6.2 - Filtros M√∫ltiplos com Operadores L√≥gicos

**Explica√ß√£o**:
Podemos combinar m√∫ltiplas condi√ß√µes usando operadores l√≥gicos. √â importante usar par√™nteses para agrupar condi√ß√µes.

**Conceitos aplicados**:
- Operador & (E/AND)
- Operador | (OU/OR)
- Operador ~ (N√ÉO/NOT)
- M√©todo .isin()

In [None]:
import pandas as pd

# Criando DataFrame
produtos = pd.DataFrame({
    'Produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'Headset'],
    'Preco': [3500, 50, 200, 1200, 300, 250],
    'Categoria': ['Eletr√¥nicos', 'Acess√≥rios', 'Acess√≥rios', 'Eletr√¥nicos', 'Acess√≥rios', 'Acess√≥rios'],
    'Estoque': [15, 100, 45, 20, 60, 30]
})

# 1. Pre√ßo entre 200 e 1000
preco_medio = produtos[(produtos['Preco'] >= 200) & (produtos['Preco'] <= 1000)]
print("Produtos entre 200 e 1000:")
print(preco_medio)

# 2. Eletr√¥nicos E estoque > 10
eletronicos_estoque = produtos[(produtos['Categoria'] == 'Eletr√¥nicos') & (produtos['Estoque'] > 10)]
print("\nEletr√¥nicos com estoque > 10:")
print(eletronicos_estoque)

# 3. Acess√≥rios OU pre√ßo < 100
acessorios_ou_barato = produtos[(produtos['Categoria'] == 'Acess√≥rios') | (produtos['Preco'] < 100)]
print("\nAcess√≥rios OU pre√ßo < 100:")
print(acessorios_ou_barato)

# 4. N√ÉO Acess√≥rios
nao_acessorios = produtos[~(produtos['Categoria'] == 'Acess√≥rios')]
print("\nN√ÉO Acess√≥rios:")
print(nao_acessorios)

# 5. Pre√ßo > 1000 OU estoque < 25
preco_alto_ou_estoque_baixo = produtos[(produtos['Preco'] > 1000) | (produtos['Estoque'] < 25)]
print("\nPre√ßo > 1000 OU estoque < 25:")
print(preco_alto_ou_estoque_baixo)

# 6. Pre√ßo em [50, 200, 300] usando isin
precos_especificos = produtos[produtos['Preco'].isin([50, 200, 300])]
print("\nPre√ßo em [50, 200, 300]:")
print(precos_especificos)

---

### Solu√ß√£o 6.3 - Filtros Complexos e An√°lises

**Explica√ß√£o**:
Filtros complexos podem ser combinados com c√°lculos e agrupamentos para an√°lises avan√ßadas.

**Conceitos aplicados**:
- Filtros com colunas calculadas
- Combina√ß√£o de filtros e agrupamentos
- An√°lise de extremos

In [None]:
import pandas as pd

# Criando DataFrame
vendas = pd.DataFrame({
    'Vendedor': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Alice', 'Bob'],
    'Produto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B'],
    'Quantidade': [10, 5, 8, 12, 15, 7, 9, 6],
    'Preco_Unitario': [100, 200, 100, 150, 200, 100, 150, 200],
    'Regiao': ['Norte', 'Sul', 'Norte', 'Sul', 'Norte', 'Sul', 'Norte', 'Sul']
})

# 1. Calculando receita
vendas['Receita'] = vendas['Quantidade'] * vendas['Preco_Unitario']
print("DataFrame com Receita:")
print(vendas)

# 2. Filtro: receita > 1000 E regi√£o Norte
filtro_norte_alto = vendas[(vendas['Receita'] > 1000) & (vendas['Regiao'] == 'Norte')]
print("\nReceita > 1000 E regi√£o Norte:")
print(filtro_norte_alto)

# 3. Vendedores espec√≠ficos
vendedores_especificos = vendas[vendas['Vendedor'].isin(['Alice', 'Charlie', 'Eva'])]
print("\nVendedores Alice, Charlie ou Eva:")
print(vendedores_especificos)

# 4. Produto A ou B com quantidade >= 8
produtos_ab_qtd = vendas[((vendas['Produto'] == 'A') | (vendas['Produto'] == 'B')) & (vendas['Quantidade'] >= 8)]
print("\nProduto A ou B com quantidade >= 8:")
print(produtos_ab_qtd)

# 5. N√ÉO Sul E receita > 800
nao_sul_alto = vendas[(vendas['Regiao'] != 'Sul') & (vendas['Receita'] > 800)]
print("\nN√ÉO Sul E receita > 800:")
print(nao_sul_alto)

# 6. Maior receita produto A
max_receita_a = vendas[vendas['Produto'] == 'A']['Receita'].max()
print(f"\nMaior receita produto A: {max_receita_a}")

# 7. M√©dia de receita por regi√£o
media_por_regiao = vendas.groupby('Regiao')['Receita'].mean()
print("\nM√©dia de receita por regi√£o:")
print(media_por_regiao)

# 8. Vendedores com pelo menos uma venda > 1500
vendedores_alto = vendas[vendas['Receita'] > 1500]['Vendedor'].unique()
print(f"\nVendedores com venda > 1500: {list(vendedores_alto)}")

---

## üìå T√≥pico 7: Ordena√ß√£o e Tratamento de Dados

---

### Solu√ß√£o 7.1 - Ordena√ß√£o e Convers√£o de Tipos B√°sicos

**Explica√ß√£o**:
Ordena√ß√£o e convers√£o de tipos s√£o opera√ß√µes fundamentais na limpeza de dados.

**Conceitos aplicados**:
- sort_values() para ordena√ß√£o
- astype() para convers√£o de tipos

In [None]:
import pandas as pd

# Criando DataFrame
produtos = pd.DataFrame({
    'Produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor'],
    'Preco': ['3500', '50', '200', '1200'],  # Strings
    'Quantidade': [15, 100, 45, 20]
})

print("DataFrame original:")
print(produtos)
print(f"\nTipos: {produtos.dtypes}")

# 1. Ordenando por Quantidade (crescente)
ordenado_qtd = produtos.sort_values(by='Quantidade')
print("\n--- Ordenado por Quantidade ---")
print(ordenado_qtd)

# 2. Convertendo Preco para int
produtos['Preco'] = produtos['Preco'].astype(int)
print("\n--- Ap√≥s converter Preco para int ---")
print(produtos.dtypes)

# 3. Ordenando por Preco (decrescente)
ordenado_preco = produtos.sort_values(by='Preco', ascending=False)
print("\n--- Ordenado por Preco (decrescente) ---")
print(ordenado_preco)

# 4. Verificando tipos finais
print(f"\nTipos ap√≥s convers√£o:")
print(produtos.dtypes)

---

### Solu√ß√£o 7.2 - Ordena√ß√£o M√∫ltipla e Tratamento de Valores Ausentes

**Explica√ß√£o**:
Valores ausentes s√£o comuns em dados reais. Precisamos identific√°-los e trat√°-los adequadamente antes de an√°lises.

**Conceitos aplicados**:
- isna() para identificar valores ausentes
- fillna() para preencher valores
- dropna() para remover valores ausentes
- Ordena√ß√£o por m√∫ltiplas colunas

In [None]:
import pandas as pd
import numpy as np

# Criando DataFrame com valores ausentes
vendas = pd.DataFrame({
    'Vendedor': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Produto': ['A', 'B', 'A', 'C', 'B'],
    'Quantidade': [10, np.nan, 8, 12, 15],
    'Preco': [100, 200, np.nan, 150, 200]
})

print("DataFrame original:")
print(vendas)

# 1. Identificando valores ausentes
print("\n--- Valores ausentes ---")
print(vendas.isna().sum())

# 2. Preenchendo Quantidade com m√©dia
media_qtd = vendas['Quantidade'].mean()
vendas['Quantidade'] = vendas['Quantidade'].fillna(media_qtd)
print("\n--- Ap√≥s preencher Quantidade com m√©dia ---")
print(vendas)

# 3. Preenchendo Preco com 0
vendas['Preco'] = vendas['Preco'].fillna(0)
print("\n--- Ap√≥s preencher Preco com 0 ---")
print(vendas)

# 4. Ordenando por Vendedor (crescente) e Quantidade (decrescente)
vendas_ordenado = vendas.sort_values(by=['Vendedor', 'Quantidade'], ascending=[True, False])
print("\n--- Ordenado por Vendedor e Quantidade ---")
print(vendas_ordenado)

# 5. Removendo linhas com valores ausentes (se houver)
vendas_limpo = vendas.dropna()
print("\n--- Ap√≥s dropna() ---")
print(vendas_limpo)

# 6. Verificando valores ausentes finais
print(f"\nValores ausentes restantes: {vendas_limpo.isna().sum().sum()}")

---

### Solu√ß√£o 7.3 - Tratamento Completo de Dados

**Explica√ß√£o**:
Tratamento completo envolve m√∫ltiplas etapas: convers√£o de tipos, preenchimento de valores ausentes, remo√ß√£o de dados inv√°lidos e cria√ß√£o de colunas derivadas.

**Conceitos aplicados**:
- to_numeric() para convers√£o segura
- M√∫ltiplas estrat√©gias de preenchimento
- Cria√ß√£o de colunas condicionais
- Limpeza completa de dados

In [None]:
import pandas as pd
import numpy as np

# Criando DataFrame com dados "sujos"
dados_clientes = pd.DataFrame({
    'ID': [1, 2, 3, 4, 5, 6],
    'Nome': ['Ana', 'Bruno', None, 'Diego', 'Eduarda', None],
    'Idade': ['28', '32', '25', '30', None, '35'],  # Strings e None
    'Salario': [5000, np.nan, 4500, 7000, 5500, np.nan],
    'Categoria': ['A', 'B', 'A', None, 'B', 'A']
})

print("DataFrame original:")
print(dados_clientes)

# 1. Valores ausentes por coluna
print("\n--- Valores ausentes ---")
print(dados_clientes.isna().sum())

# 2. Convertendo Idade para num√©rico
dados_clientes['Idade'] = pd.to_numeric(dados_clientes['Idade'], errors='coerce')
print("\n--- Ap√≥s converter Idade ---")
print(dados_clientes.dtypes)

# 3. Preenchendo Nome ausentes
dados_clientes['Nome'] = dados_clientes['Nome'].fillna('Desconhecido')
print("\n--- Ap√≥s preencher Nome ---")
print(dados_clientes['Nome'])

# 4. Preenchendo Salario com mediana
mediana_salario = dados_clientes['Salario'].median()
dados_clientes['Salario'] = dados_clientes['Salario'].fillna(mediana_salario)
print(f"\nMediana de Salario: {mediana_salario}")

# 5. Preenchendo Categoria
dados_clientes['Categoria'] = dados_clientes['Categoria'].fillna('C')
print("\n--- Ap√≥s preencher Categoria ---")
print(dados_clientes)

# 6. Removendo linhas onde Idade ainda est√° ausente
dados_clientes = dados_clientes.dropna(subset=['Idade'])
print("\n--- Ap√≥s remover linhas com Idade ausente ---")
print(dados_clientes)

# 7. Ordenando
dados_clientes = dados_clientes.sort_values(by=['Salario', 'Idade'], ascending=[False, True])
print("\n--- Ordenado ---")
print(dados_clientes)

# 8. Convertendo Salario para int
dados_clientes['Salario'] = dados_clientes['Salario'].astype(int)
print("\n--- Ap√≥s converter Salario para int ---")
print(dados_clientes.dtypes)

# 9. Criando coluna Status
def classificar_salario(salario):
    if salario > 6000:
        return 'Alto'
    elif salario >= 4000:
        return 'M√©dio'
    else:
        return 'Baixo'

dados_clientes['Status'] = dados_clientes['Salario'].apply(classificar_salario)
print("\n--- Ap√≥s criar Status ---")
print(dados_clientes)

# 10. Resumo final
print(f"\n--- Resumo Final ---")
print(f"Linhas finais: {len(dados_clientes)}")
print(f"Valores ausentes restantes: {dados_clientes.isna().sum().sum()}")
print(f"\nTipos finais:")
print(dados_clientes.dtypes)

---

## üìå T√≥pico 8: Apply e Map

---

### Solu√ß√£o 8.1 - Usando Map para Transformar Valores

**Explica√ß√£o**:
`.map()` √© eficiente para transforma√ß√µes um-para-um usando dicion√°rios. √â aplicado apenas a Series.

**Conceitos aplicados**:
- map() com dicion√°rios
- Transforma√ß√£o de valores

In [None]:
import pandas as pd

# Criando DataFrame
produtos = pd.DataFrame({
    'Produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor'],
    'Categoria': ['Eletr√¥nicos', 'Acess√≥rios', 'Acess√≥rios', 'Eletr√¥nicos'],
    'Status': ['ativo', 'inativo', 'ativo', 'ativo']
})

print("DataFrame original:")
print(produtos)

# 1. Dicion√°rio de mapeamento
mapeamento_status = {'ativo': 'Dispon√≠vel', 'inativo': 'Indispon√≠vel'}

# 2. Criando coluna Status_Formatado
produtos['Status_Formatado'] = produtos['Status'].map(mapeamento_status)
print("\n--- Ap√≥s criar Status_Formatado ---")
print(produtos)

# 3. Mapeamento de categorias
mapeamento_categoria = {'Eletr√¥nicos': 'Eletr√¥nico', 'Acess√≥rios': 'Acess√≥rio'}

# 4. Criando Categoria_Singular
produtos['Categoria_Singular'] = produtos['Categoria'].map(mapeamento_categoria)
print("\n--- DataFrame final ---")
print(produtos)

---

### Solu√ß√£o 8.2 - Usando Apply com Fun√ß√µes Personalizadas

**Explica√ß√£o**:
`.apply()` √© mais flex√≠vel que `.map()` e pode usar fun√ß√µes complexas, incluindo fun√ß√µes definidas pelo usu√°rio e lambdas.

**Conceitos aplicados**:
- apply() com fun√ß√µes definidas
- apply() com fun√ß√µes lambda
- Transforma√ß√µes complexas

In [None]:
import pandas as pd

# Criando DataFrame
funcionarios = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carla', 'Diego'],
    'Idade': [28, 32, 25, 30],
    'Salario': [5000, 8000, 4500, 7000]
})

print("DataFrame original:")
print(funcionarios)

# 1. Fun√ß√£o para categoria de idade
def categoria_idade(idade):
    if idade < 30:
        return 'Jovem'
    else:
        return 'Adulto'

# 2. Aplicando fun√ß√£o
funcionarios['Categoria_Idade'] = funcionarios['Idade'].apply(categoria_idade)
print("\n--- Ap√≥s criar Categoria_Idade ---")
print(funcionarios)

# 3. Fun√ß√£o para calcular bonus
def calcular_bonus(salario):
    if salario > 6000:
        return salario * 0.10
    else:
        return salario * 0.05

# 4. Aplicando fun√ß√£o
funcionarios['Bonus'] = funcionarios['Salario'].apply(calcular_bonus)
print("\n--- Ap√≥s criar Bonus ---")
print(funcionarios)

# 5. Lambda para sal√°rio anual
funcionarios['Salario_Anual'] = funcionarios['Salario'].apply(lambda x: x * 12)
print("\n--- Ap√≥s criar Salario_Anual ---")
print(funcionarios)

# 6. Nome em mai√∫sculas
funcionarios['Nome_Maiusculo'] = funcionarios['Nome'].apply(str.upper)
print("\n--- DataFrame final ---")
print(funcionarios)

---

### Solu√ß√£o 8.3 - Apply Avan√ßado em M√∫ltiplas Colunas

**Explica√ß√£o**:
Com `axis=1`, `.apply()` processa linhas completas, permitindo c√°lculos que envolvem m√∫ltiplas colunas simultaneamente.

**Conceitos aplicados**:
- apply() com axis=1
- Processamento de linhas completas
- C√°lculos envolvendo m√∫ltiplas colunas

In [None]:
import pandas as pd

# Criando DataFrame
vendas = pd.DataFrame({
    'Vendedor': ['Alice', 'Bob', 'Charlie', 'David'],
    'Quantidade': [10, 5, 8, 12],
    'Preco_Unitario': [100, 200, 150, 120],
    'Desconto_Percentual': [5, 10, 0, 15]
})

print("DataFrame original:")
print(vendas)

# 1. Receita bruta com lambda
vendas['Receita_Bruta'] = vendas.apply(lambda row: row['Quantidade'] * row['Preco_Unitario'], axis=1)
print("\n--- Ap√≥s criar Receita_Bruta ---")
print(vendas)

# 2. Fun√ß√£o para receita l√≠quida
def calcular_receita_liquida(row):
    receita_bruta = row['Quantidade'] * row['Preco_Unitario']
    desconto = row['Desconto_Percentual'] / 100
    return receita_bruta * (1 - desconto)

# 3. Aplicando fun√ß√£o com axis=1
vendas['Receita_Liquida'] = vendas.apply(calcular_receita_liquida, axis=1)
print("\n--- Ap√≥s criar Receita_Liquida ---")
print(vendas)

# 4. Fun√ß√£o para classificar venda
def classificar_venda(row):
    if row['Receita_Liquida'] > 1000:
        return 'Alta'
    elif row['Receita_Liquida'] >= 500:
        return 'M√©dia'
    else:
        return 'Baixa'

# 5. Aplicando classifica√ß√£o
vendas['Classificacao'] = vendas.apply(classificar_venda, axis=1)
print("\n--- Ap√≥s criar Classificacao ---")
print(vendas)

# 6. Primeira letra do vendedor
vendas['Vendedor_Inicial'] = vendas['Vendedor'].apply(lambda x: x[0])
print("\n--- Ap√≥s criar Vendedor_Inicial ---")
print(vendas)

# 7. Receita total
receita_total = vendas['Receita_Liquida'].sum()
print(f"\nReceita L√≠quida Total: {receita_total}")

---

## üìå T√≥pico 9: Agrega√ß√£o e GroupBy

---

### Solu√ß√£o 9.1 - Agrupamento e Estat√≠sticas Simples

**Explica√ß√£o**:
`.groupby()` agrupa dados por valores √∫nicos de uma coluna, permitindo aplicar fun√ß√µes de agrega√ß√£o a cada grupo.

**Conceitos aplicados**:
- groupby() para agrupamento
- Fun√ß√µes de agrega√ß√£o: sum(), mean(), count()

In [None]:
import pandas as pd

# Criando DataFrame
vendas = pd.DataFrame({
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'S√£o Paulo', 'Belo Horizonte', 'Rio de Janeiro', 'S√£o Paulo'],
    'Produto': ['A', 'B', 'A', 'C', 'B', 'A'],
    'Vendas': [100, 150, 120, 80, 200, 90]
})

print("DataFrame original:")
print(vendas)

# 1. Soma de vendas por cidade
vendas_por_cidade = vendas.groupby('Cidade')['Vendas'].sum()
print("\n--- Vendas por Cidade (soma) ---")
print(vendas_por_cidade)

# 2. M√©dia de vendas por cidade
media_por_cidade = vendas.groupby('Cidade')['Vendas'].mean()
print("\n--- M√©dia de vendas por cidade ---")
print(media_por_cidade)

# 3. Soma de vendas por produto
vendas_por_produto = vendas.groupby('Produto')['Vendas'].sum()
print("\n--- Vendas por Produto (soma) ---")
print(vendas_por_produto)

# 4. M√©dia de vendas por produto
media_por_produto = vendas.groupby('Produto')['Vendas'].mean()
print("\n--- M√©dia de vendas por produto ---")
print(media_por_produto)

# 5. Contagem de vendas por cidade
contagem_por_cidade = vendas.groupby('Cidade')['Vendas'].count()
print("\n--- Contagem de vendas por cidade ---")
print(contagem_por_cidade)

# 6. Cidade com maior soma
cidade_maior = vendas_por_cidade.idxmax()
print(f"\nCidade com maior venda: {cidade_maior}")

---

### Solu√ß√£o 9.2 - Agrupamento M√∫ltiplo e M√∫ltiplas Agrega√ß√µes

**Explica√ß√£o**:
Podemos agrupar por m√∫ltiplas colunas e aplicar m√∫ltiplas fun√ß√µes de agrega√ß√£o usando `.agg()`.

**Conceitos aplicados**:
- Agrupamento por m√∫ltiplas colunas
- agg() com m√∫ltiplas fun√ß√µes
- agg() com dicion√°rio

In [None]:
import pandas as pd

# Criando DataFrame
funcionarios = pd.DataFrame({
    'Departamento': ['TI', 'RH', 'TI', 'Vendas', 'RH', 'Vendas', 'TI'],
    'Cargo': ['Analista', 'Gerente', 'Desenvolvedor', 'Vendedor', 'Analista', 'Vendedor', 'Analista'],
    'Salario': [5000, 8000, 7000, 6000, 5500, 6500, 5200],
    'Anos_Experiencia': [2, 5, 3, 4, 2, 3, 2]
})

print("DataFrame original:")
print(funcionarios)

# 1. M√©dia de sal√°rio por departamento
media_salario = funcionarios.groupby('Departamento')['Salario'].mean()
print("\n--- M√©dia de sal√°rio por departamento ---")
print(media_salario)

# 2. M√©dia de sal√°rio por departamento e cargo
media_dep_cargo = funcionarios.groupby(['Departamento', 'Cargo'])['Salario'].mean()
print("\n--- M√©dia por departamento e cargo ---")
print(media_dep_cargo)

# 3. M√∫ltiplas estat√≠sticas por departamento
multi_stats = funcionarios.groupby('Departamento').agg({
    'Anos_Experiencia': 'sum',
    'Salario': 'mean'
})
print("\n--- M√∫ltiplas estat√≠sticas ---")
print(multi_stats)

# 4. M√∫ltiplas fun√ß√µes em uma coluna
agg_salario = funcionarios.groupby('Departamento')['Salario'].agg(['mean', 'min', 'max'])
print("\n--- M√∫ltiplas fun√ß√µes em Salario ---")
print(agg_salario)

# 5. Dicion√°rio com fun√ß√µes diferentes
agg_dict = funcionarios.groupby('Departamento').agg({
    'Salario': 'mean',
    'Anos_Experiencia': 'sum'
})
print("\n--- Agrega√ß√£o com dicion√°rio ---")
print(agg_dict)

# 6. Sal√°rio m√°ximo e m√≠nimo por cargo
salario_cargo = funcionarios.groupby('Cargo')['Salario'].agg(['max', 'min'])
print("\n--- Sal√°rio m√°ximo e m√≠nimo por cargo ---")
print(salario_cargo)

---

### Solu√ß√£o 9.3 - An√°lise Agregada Complexa

**Explica√ß√£o**:
An√°lises agregadas complexas combinam agrupamentos, m√∫ltiplas agrega√ß√µes, extra√ß√£o de componentes de data e an√°lises multidimensionais.

**Conceitos aplicados**:
- Agrupamento por data (extraindo componentes)
- M√∫ltiplas agrega√ß√µes com dicion√°rios complexos
- Combina√ß√£o de agrupamentos e filtros

In [None]:
import pandas as pd

# Criando DataFrame
vendas_complexas = pd.DataFrame({
    'Data': pd.date_range('2023-01-01', periods=20, freq='D'),
    'Vendedor': ['Alice', 'Bob'] * 10,
    'Produto': ['A', 'B', 'A', 'C'] * 5,
    'Regiao': ['Norte', 'Sul'] * 10,
    'Quantidade': [10, 5, 8, 12, 15, 7, 9, 6, 11, 8, 13, 4, 10, 9, 7, 12, 14, 6, 8, 10],
    'Preco_Unitario': [100, 200, 100, 150, 100, 200, 150, 100, 100, 200, 150, 100, 100, 200, 150, 100, 100, 200, 150, 100]
})

# 1. Calculando receita
vendas_complexas['Receita'] = vendas_complexas['Quantidade'] * vendas_complexas['Preco_Unitario']
print("DataFrame com Receita:")
print(vendas_complexas.head())

# 2. Agrupamento por vendedor
stats_vendedor = vendas_complexas.groupby('Vendedor').agg({
    'Quantidade': ['count', 'sum'],
    'Receita': ['sum', 'mean', 'max']
})
print("\n--- Estat√≠sticas por vendedor ---")
print(stats_vendedor)

# 3. Agrupamento por produto
stats_produto = vendas_complexas.groupby('Produto').agg({
    'Quantidade': 'sum',
    'Receita': 'sum',
    'Preco_Unitario': 'mean'
})
print("\n--- Estat√≠sticas por produto ---")
print(stats_produto)

# 4. Agrupamento por regi√£o e vendedor
stats_regiao_vendedor = vendas_complexas.groupby(['Regiao', 'Vendedor']).agg({
    'Receita': 'sum',
    'Quantidade': 'sum'
})
print("\n--- Estat√≠sticas por regi√£o e vendedor ---")
print(stats_regiao_vendedor)

# 5. Agrupamento por m√™s
vendas_complexas['Mes'] = vendas_complexas['Data'].dt.month
receita_por_mes = vendas_complexas.groupby('Mes')['Receita'].sum()
print("\n--- Receita por m√™s ---")
print(receita_por_mes)

# 6. Agrega√ß√£o complexa com dicion√°rio
agg_complexa = vendas_complexas.groupby('Vendedor').agg({
    'Receita': ['sum', 'mean', 'max'],
    'Quantidade': ['sum', 'mean']
})
print("\n--- Agrega√ß√£o complexa por vendedor ---")
print(agg_complexa)

# 7. Vendedor com maior receita
vendedor_maior = vendas_complexas.groupby('Vendedor')['Receita'].sum().idxmax()
print(f"\nVendedor com maior receita: {vendedor_maior}")

# 8. Produto mais vendido
produto_mais_vendido = vendas_complexas.groupby('Produto')['Quantidade'].sum().idxmax()
print(f"Produto mais vendido: {produto_mais_vendido}")

# 9. Receita m√©dia por regi√£o
receita_media_regiao = vendas_complexas.groupby('Regiao')['Receita'].mean()
print("\n--- Receita m√©dia por regi√£o ---")
print(receita_media_regiao)

# 10. Resumo final
receita_total = vendas_complexas['Receita'].sum()
receita_media_vendedor = vendas_complexas.groupby('Vendedor')['Receita'].sum().mean()

print(f"\n--- Resumo Final ---")
print(f"Receita total geral: {receita_total}")
print(f"Receita m√©dia por vendedor: {receita_media_vendedor:.2f}")
print(f"Produto mais vendido: {produto_mais_vendido}")

---

## üìå T√≥pico 10: Combina√ß√£o de DataFrames

---

### Solu√ß√£o 10.1 - Concatenando DataFrames Simples

**Explica√ß√£o**:
`pd.concat()` combina DataFrames verticalmente (por linhas) ou horizontalmente (por colunas).

**Conceitos aplicados**:
- concat() para combina√ß√£o vertical
- concat() com axis=1 para combina√ß√£o horizontal
- ignore_index para reindexa√ß√£o

In [None]:
import pandas as pd

# Criando DataFrames
df1 = pd.DataFrame({
    'Produto': ['A', 'B', 'C'],
    'Preco': [100, 200, 150]
})

df2 = pd.DataFrame({
    'Produto': ['D', 'E', 'F'],
    'Preco': [120, 180, 160]
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# 1. Concatena√ß√£o vertical
concat_vertical = pd.concat([df1, df2])
print("\n--- Concatena√ß√£o vertical ---")
print(concat_vertical)

# 2. Concatena√ß√£o com ignore_index
concat_ignore = pd.concat([df1, df2], ignore_index=True)
print("\n--- Concatena√ß√£o com ignore_index ---")
print(concat_ignore)

# 3. Criando df3
df3 = pd.DataFrame({
    'Produto': ['A', 'B'],
    'Estoque': [50, 30]
})

# 4. Concatena√ß√£o horizontal
concat_horizontal = pd.concat([df1, df3], axis=1)
print("\n--- Concatena√ß√£o horizontal ---")
print(concat_horizontal)

---

### Solu√ß√£o 10.2 - Merge com Diferentes Tipos

**Explica√ß√£o**:
`pd.merge()` combina DataFrames baseado em colunas comuns, similar a JOINs em SQL. Diferentes tipos de merge retornam diferentes conjuntos de linhas.

**Conceitos aplicados**:
- merge() com diferentes tipos: inner, left, right, outer
- Identifica√ß√£o de linhas sem correspond√™ncia

In [None]:
import pandas as pd

# Criando DataFrames
df_clientes = pd.DataFrame({
    'ID_Cliente': [1, 2, 3, 4],
    'Nome': ['Alice', 'Bob', 'Charlie', 'David']
})

df_pedidos = pd.DataFrame({
    'ID_Pedido': [101, 102, 103, 104, 105],
    'ID_Cliente': [2, 1, 3, 2, 5],  # Cliente 5 n√£o existe
    'Produto': ['Livro', 'Caneta', 'Caderno', 'Mochila', 'L√°pis'],
    'Valor': [50, 10, 20, 80, 5]
})

print("DataFrame Clientes:")
print(df_clientes)
print("\nDataFrame Pedidos:")
print(df_pedidos)

# 1. Inner merge
merged_inner = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='inner')
print("\n--- Inner Merge ---")
print(merged_inner)
print(f"Linhas: {len(merged_inner)}")

# 2. Left merge
merged_left = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='left')
print("\n--- Left Merge ---")
print(merged_left)
print(f"Linhas: {len(merged_left)}")
print("Clientes sem pedidos:")
print(merged_left[merged_left['ID_Pedido'].isna()][['ID_Cliente', 'Nome']])

# 3. Right merge
merged_right = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='right')
print("\n--- Right Merge ---")
print(merged_right)
print(f"Linhas: {len(merged_right)}")

# 4. Outer merge
merged_outer = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='outer')
print("\n--- Outer Merge ---")
print(merged_outer)
print(f"Linhas: {len(merged_outer)}")

---

### Solu√ß√£o 10.3 - Combina√ß√£o Complexa de M√∫ltiplos DataFrames

**Explica√ß√£o**:
Em cen√°rios reais, frequentemente combinamos m√∫ltiplos DataFrames em sequ√™ncia, aplicando merges e concats, e depois realizamos an√°lises agregadas.

**Conceitos aplicados**:
- M√∫ltiplos merges em sequ√™ncia
- Combina√ß√£o de merge e concat
- An√°lises agregadas em dados combinados

In [None]:
import pandas as pd

# Criando DataFrames
df_produtos = pd.DataFrame({
    'ID_Produto': [1, 2, 3, 4],
    'Nome': ['Notebook', 'Mouse', 'Teclado', 'Monitor'],
    'Categoria': ['Eletr√¥nicos', 'Acess√≥rios', 'Acess√≥rios', 'Eletr√¥nicos']
})

df_vendas = pd.DataFrame({
    'ID_Venda': [101, 102, 103, 104, 105],
    'ID_Produto': [1, 2, 1, 3, 4],
    'Quantidade': [5, 10, 3, 8, 2],
    'Data': ['2023-01-15', '2023-01-16', '2023-01-17', '2023-01-18', '2023-01-19']
})

df_precos = pd.DataFrame({
    'ID_Produto': [1, 2, 3, 4, 5],
    'Preco_Unitario': [3500, 50, 200, 1200, 300],
    'Desconto': [0.1, 0.05, 0.0, 0.15, 0.1]
})

print("DataFrames originais criados")

# 1. Merge vendas com produtos
df_merged1 = pd.merge(df_vendas, df_produtos, on='ID_Produto', how='inner')
print("\n--- Ap√≥s merge vendas + produtos ---")
print(df_merged1)

# 2. Merge com pre√ßos
df_final = pd.merge(df_merged1, df_precos, on='ID_Produto', how='left')
print("\n--- Ap√≥s merge com pre√ßos ---")
print(df_final)

# 3. Calculando receita bruta
df_final['Receita_Bruta'] = df_final['Quantidade'] * df_final['Preco_Unitario']
print("\n--- Ap√≥s calcular Receita_Bruta ---")
print(df_final)

# 4. Calculando receita l√≠quida
df_final['Receita_Liquida'] = df_final['Receita_Bruta'] * (1 - df_final['Desconto'])
print("\n--- Ap√≥s calcular Receita_Liquida ---")
print(df_final)

# 5. Separando por data (simula√ß√£o)
df_vendas_jan = df_final[df_final['Data'] < '2023-01-18'].copy()
df_vendas_fev = df_final[df_final['Data'] >= '2023-01-18'].copy()

# 6. Concatenando
df_consolidado = pd.concat([df_vendas_jan, df_vendas_fev], ignore_index=True)
print(f"\nDataFrame consolidado: {len(df_consolidado)} linhas")

# 7. Agrupamento por categoria
stats_categoria = df_final.groupby('Categoria').agg({
    'Receita_Liquida': 'sum',
    'Quantidade': 'sum',
    'ID_Venda': 'count'
}).rename(columns={'ID_Venda': 'Num_Vendas'})
print("\n--- Estat√≠sticas por categoria ---")
print(stats_categoria)

# 8. Produto com maior receita l√≠quida
produto_maior_receita = df_final.groupby('Nome')['Receita_Liquida'].sum().idxmax()
print(f"\nProduto com maior receita l√≠quida: {produto_maior_receita}")

# 9. Receita m√©dia por categoria
receita_media_categoria = df_final.groupby('Categoria')['Receita_Liquida'].mean()
print("\n--- Receita m√©dia por categoria ---")
print(receita_media_categoria)

# 10. Resumo final
receita_total = df_final['Receita_Liquida'].sum()
categoria_maior = df_final.groupby('Categoria')['Receita_Liquida'].sum().idxmax()
produto_mais_vendido = df_final.groupby('Nome')['Quantidade'].sum().idxmax()

print(f"\n--- Resumo Final ---")
print(f"Receita l√≠quida total: {receita_total}")
print(f"Categoria com maior receita: {categoria_maior}")
print(f"Produto mais vendido: {produto_mais_vendido}")

---