# NumPy e Pandas
## Fundamentos de Analise de Dados com Python

---

**Objetivos de Aprendizagem:**
- Compreender a estrutura e vantagens do NumPy
- Criar e manipular arrays multidimensionais
- Compreender as estruturas Series e DataFrame do Pandas
- Carregar, filtrar, transformar e analisar dados tabulares
- Aplicar operacoes de agrupamento e agregacao

---

# PARTE 1 — NumPy
## Numerical Python

O **NumPy** e a base da computacao cientifica em Python.  
Ele fornece um objeto de array multidimensional altamente eficiente e funcoes matematicas otimizadas.

**Por que usar NumPy?**
- Arrays sao muito mais rapidos que listas Python
- Operacoes vetorizadas (sem loops)
- Suporte a algebra linear, estatistica, numeros aleatorios
- Base do Pandas, Matplotlib, Scikit-learn etc.

---
## 1.1 Importando o NumPy

In [2]:
import numpy as np

print('NumPy importado com sucesso!')
print(f'Versao: {np.__version__}')

NumPy importado com sucesso!
Versao: 2.2.6


---
## 1.2 Array vs Lista Python

A diferenca fundamental: **arrays NumPy sao tipados e contiguos na memoria**.

In [3]:
# Lista Python
lista = [1, 2, 3, 4, 5]

# Array NumPy
array = np.array([1, 2, 3, 4, 5])

print('Lista Python:', lista)
print('Array NumPy: ', array)
print()
print('Tipo da lista:', type(lista))
print('Tipo do array:', type(array))
print()

# Diferenca em operacoes matematicas
print('lista * 2:', lista * 2)       # repete a lista!
print('array * 2:', array * 2)      # multiplica cada elemento

Lista Python: [1, 2, 3, 4, 5]
Array NumPy:  [1 2 3 4 5]

Tipo da lista: <class 'list'>
Tipo do array: <class 'numpy.ndarray'>

lista * 2: [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
array * 2: [ 2  4  6  8 10]


In [4]:
import time

tamanho = 1_000_000

# Com lista Python
lista = list(range(tamanho))
inicio = time.time()
resultado_lista = [x * 2 for x in lista]
tempo_lista = time.time() - inicio

# Com array NumPy
array = np.arange(tamanho)
inicio = time.time()
resultado_array = array * 2
tempo_numpy = time.time() - inicio

print(f'Lista Python: {tempo_lista:.4f} segundos')
print(f'Array NumPy:  {tempo_numpy:.4f} segundos')
print(f'NumPy foi {tempo_lista/tempo_numpy:.1f}x mais rapido!')

Lista Python: 0.0358 segundos
Array NumPy:  0.0015 segundos
NumPy foi 23.7x mais rapido!


---
## 1.3 Criando Arrays

In [None]:
# A partir de uma lista
a1 = np.array([10, 20, 30, 40, 50])
print('A partir de lista:', a1)

# Array de zeros
zeros = np.zeros(5)
print('Zeros:', zeros)

# Array de uns
uns = np.ones(5)
print('Uns:  ', uns)

# Valor constante
constante = np.full(5, 7)
print('Constante:', constante)

# Sequencia (similar ao range)
sequencia = np.arange(0, 20, 2)     # de 0 ate 20, passo 2
print('Arange:   ', sequencia)

# Valores igualmente espacados
espacado = np.linspace(0, 1, 6)     # 6 valores entre 0 e 1
print('Linspace: ', espacado)

# Array identidade
identidade = np.eye(3)
print('Identidade 3x3:')
print(identidade)

In [None]:
# Numeros aleatorios
np.random.seed(42)   # para reproducibilidade

# Floats uniformes entre 0 e 1
aleatorio = np.random.rand(5)
print('Uniforme [0,1):   ', np.round(aleatorio, 2))

# Distribuicao normal (media=0, desvio=1)
normal = np.random.randn(5)
print('Normal (0,1):     ', np.round(normal, 2))

# Inteiros aleatorios
inteiros = np.random.randint(1, 101, size=8)   # entre 1 e 100
print('Inteiros [1,100]: ', inteiros)

---
## 1.4 Atributos dos Arrays

In [None]:
# Array 2D (matriz)
matriz = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
])

print('Array:')
print(matriz)
print()
print(f'Numero de dimensoes (ndim):  {matriz.ndim}')   # 2
print(f'Formato (shape):             {matriz.shape}')   # (linhas, colunas)
print(f'Total de elementos (size):   {matriz.size}')   # 12
print(f'Tipo de dado (dtype):        {matriz.dtype}')  # int32/int64
print(f'Tamanho em bytes (itemsize): {matriz.itemsize} bytes')

In [None]:
# Tipos de dados (dtype)
a_int   = np.array([1, 2, 3])              # int64
a_float = np.array([1.0, 2.0, 3.0])       # float64
a_bool  = np.array([True, False, True])    # bool
a_str   = np.array(['Ana', 'Bruno', 'Carol'])  # <U5 (string)

# Forca um tipo especifico
a_float32 = np.array([1, 2, 3], dtype=np.float32)

print(f'Inteiro:   {a_int.dtype}')
print(f'Float:     {a_float.dtype}')
print(f'Bool:      {a_bool.dtype}')
print(f'String:    {a_str.dtype}')
print(f'Float32:   {a_float32.dtype}')

# Converter tipo
convertido = a_int.astype(float)
print(f'Convertido para float: {convertido}')

---
## 1.5 Indexacao e Fatiamento (Slicing)

In [None]:
# Array 1D
notas = np.array([7.5, 8.0, 6.5, 9.0, 7.0, 8.5, 5.5, 9.5])
print('Notas completas:', notas)
print()

# Indexacao simples
print('Primeira nota:    ', notas[0])
print('Ultima nota:      ', notas[-1])
print('Terceira nota:    ', notas[2])
print()

# Fatiamento [inicio:fim:passo]
print('Primeiras 3:      ', notas[:3])           # indices 0,1,2
print('Ultimas 3:        ', notas[-3:])          # ultimos 3
print('Indices 2 a 5:    ', notas[2:5])          # 2,3,4
print('Passo de 2:       ', notas[::2])          # 0,2,4,6
print('Invertido:        ', notas[::-1])

In [None]:
# Array 2D — [linha, coluna]
turma = np.array([
    [8.0, 7.5, 9.0],   # Aluno 0: prova1, prova2, prova3
    [6.0, 8.5, 7.0],   # Aluno 1
    [9.5, 9.0, 8.5],   # Aluno 2
    [5.0, 6.0, 7.5],   # Aluno 3
])

print('Matriz de notas:')
print(turma)
print()
print('Aluno 0, Prova 1:  ', turma[0, 0])     # 8.0
print('Aluno 2, todas:    ', turma[2])         # linha inteira
print('Prova 1 de todos:  ', turma[:, 0])     # coluna 0
print('Alunos 1 e 2:      ')
print(turma[1:3])                               # linhas 1 e 2

In [None]:
# Indexacao booleana (filtragem)
notas = np.array([7.5, 8.0, 6.5, 9.0, 7.0, 8.5, 5.5, 9.5])

# Mascara booleana
aprovados = notas >= 7.0
print('Mascara (aprovados >= 7):  ', aprovados)
print('Notas dos aprovados:       ', notas[aprovados])
print()

# Pode-se usar diretamente
print('Notas abaixo de 7: ', notas[notas < 7.0])
print('Notas entre 7 e 8: ', notas[(notas >= 7.0) & (notas <= 8.0)])

---
## 1.6 Operacoes Matematicas e Broadcasting

In [None]:
a = np.array([10, 20, 30, 40])
b = np.array([1, 2, 3, 4])

print('a:     ', a)
print('b:     ', b)
print()

# Operacoes elemento a elemento
print('a + b: ', a + b)
print('a - b: ', a - b)
print('a * b: ', a * b)
print('a / b: ', a / b)
print('a ** 2:', a ** 2)
print('a % 3: ', a % 3)

In [None]:
# Broadcasting — operacao com escalar (ou arrays de shapes compativeis)
notas = np.array([6.5, 7.0, 8.0, 5.5])

# Adicionar 1 ponto de bonus a todos
bonus = notas + 1.0
print('Notas originais:', notas)
print('Com bonus +1:   ', bonus)
print()

# Broadcasting com 2D
matriz = np.array([[1, 2, 3],
                   [4, 5, 6]])

# Multiplica cada linha por um vetor
pesos = np.array([2, 1, 3])     # shape (3,) e compativel com (2,3)

print('Matriz:')
print(matriz)
print('Pesos:', pesos)
print('Resultado (linha * pesos):')
print(matriz * pesos)

In [None]:
# Funcoes matematicas universais (ufuncs)
angulos = np.array([0, 30, 45, 60, 90])
rad = np.radians(angulos)

print('Angulos (graus):  ', angulos)
print('Seno:             ', np.round(np.sin(rad), 3))
print('Cosseno:          ', np.round(np.cos(rad), 3))
print()

valores = np.array([1, 4, 9, 16, 25])
print('Raiz quadrada:    ', np.sqrt(valores))

x = np.array([1, 2, 3, 4])
print('Exponencial:      ', np.round(np.exp(x), 2))
print('Log natural:      ', np.round(np.log(x), 3))
print('Log base 10:      ', np.round(np.log10(x), 3))

---
## 1.7 Funcoes de Agregacao

In [None]:
notas = np.array([7.5, 8.0, 6.5, 9.0, 7.0, 8.5, 5.5, 9.5])

print('Notas:', notas)
print()
print(f'Soma:          {np.sum(notas)}')
print(f'Media:         {np.mean(notas):.2f}')
print(f'Mediana:       {np.median(notas):.2f}')
print(f'Desvio padrao: {np.std(notas):.2f}')
print(f'Variancia:     {np.var(notas):.2f}')
print(f'Minimo:        {np.min(notas)}')
print(f'Maximo:        {np.max(notas)}')
print(f'Indice do min: {np.argmin(notas)}')
print(f'Indice do max: {np.argmax(notas)}')

In [None]:
# Agregacao em arrays 2D — por eixo
# Cada linha = um aluno; cada coluna = uma prova
turma = np.array([
    [8.0, 7.5, 9.0],
    [6.0, 8.5, 7.0],
    [9.5, 9.0, 8.5],
    [5.0, 6.0, 7.5],
])

print('Turma (linhas=alunos, colunas=provas):')
print(turma)
print()

# axis=0 => agrega ao longo das linhas (por coluna)
media_por_prova = np.mean(turma, axis=0)
print('Media por prova (axis=0):  ', media_por_prova)

# axis=1 => agrega ao longo das colunas (por linha)
media_por_aluno = np.mean(turma, axis=1)
print('Media por aluno (axis=1):  ', media_por_aluno)

---
## 1.8 Reshape, Transpose e Concatenacao

In [None]:
# Reshape — muda o formato sem alterar os dados
a = np.arange(1, 13)      # [1, 2, 3, ..., 12]
print('Original (1D):', a)

b = a.reshape(3, 4)        # 3 linhas, 4 colunas
print('\nReshape (3x4):')
print(b)

c = a.reshape(2, 3, 2)     # 3 dimensoes
print('\nReshape (2x3x2):')
print(c)

# -1 deixa o NumPy calcular automaticamente
d = a.reshape(4, -1)       # 4 linhas, colunas=automatico
print('\nReshape (4x-1):')
print(d)

In [None]:
# Transpose — inverte linhas e colunas
m = np.array([[1, 2, 3],
              [4, 5, 6]])

print('Original (2x3):')
print(m)
print(f'Shape: {m.shape}')
print()
print('Transposto (3x2):')
print(m.T)
print(f'Shape: {m.T.shape}')

In [None]:
# Concatenar arrays
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Horizontalmente (1D)
h = np.concatenate([a, b])
print('Concatenado:', h)

# Stack vertical (empilha linhas)
m1 = np.array([[1, 2], [3, 4]])
m2 = np.array([[5, 6], [7, 8]])

print('\nvstack (vertical):')
print(np.vstack([m1, m2]))

print('\nhstack (horizontal):')
print(np.hstack([m1, m2]))

---
## Exercicio 1 — NumPy

Dado o array de temperaturas (em Celsius) de uma semana:

In [None]:
temperaturas = np.array([22.5, 19.8, 25.3, 27.1, 21.0, 18.5, 23.7])
dias = np.array(['Seg', 'Ter', 'Qua', 'Qui', 'Sex', 'Sab', 'Dom'])

# 1. Calcule a temperatura media, minima e maxima
# 2. Converta todas as temperaturas para Fahrenheit: F = C * 9/5 + 32
# 3. Encontre os dias com temperatura acima da media
# 4. Calcule a diferenca de temperatura entre dias consecutivos

# --- Resolucao ---

# 1. Estatisticas
print(f'Media:   {np.mean(temperaturas):.2f} C')
print(f'Minima:  {np.min(temperaturas):.2f} C — {dias[np.argmin(temperaturas)]}')
print(f'Maxima:  {np.max(temperaturas):.2f} C — {dias[np.argmax(temperaturas)]}')
print()

# 2. Conversao para Fahrenheit
fahrenheit = temperaturas * 9/5 + 32
print('Fahrenheit:', np.round(fahrenheit, 1))
print()

# 3. Dias acima da media
media = np.mean(temperaturas)
dias_quentes = dias[temperaturas > media]
print(f'Dias acima da media ({media:.2f} C): {dias_quentes}')
print()

# 4. Variacao entre dias consecutivos
variacao = np.diff(temperaturas)
print('Variacao diaria:', np.round(variacao, 1))

---
---

# PARTE 2 — Pandas
## Panel Data

O **Pandas** e a biblioteca mais usada para analise de dados tabulares em Python.  
Construido sobre o NumPy, oferece duas estruturas principais:

| Estrutura | Analogia |
|-----------|----------|
| **Series** | Uma coluna de uma planilha |
| **DataFrame** | Uma planilha completa |

---
## 2.1 Importando o Pandas

In [None]:
import pandas as pd
import numpy as np

print('Pandas importado com sucesso!')
print(f'Versao: {pd.__version__}')

---
## 2.2 Series

Uma **Series** e um array unidimensional com um indice (rotulos para cada valor).

In [None]:
# Criando Series

# A partir de uma lista (indice automatico: 0, 1, 2...)
notas = pd.Series([7.5, 8.0, 6.5, 9.0, 5.5])
print('Series simples:')
print(notas)
print()

# Com indice personalizado
notas_turma = pd.Series(
    [7.5, 8.0, 6.5, 9.0, 5.5],
    index=['Ana', 'Bruno', 'Carol', 'Diego', 'Eva']
)
print('Series com indice:')
print(notas_turma)
print()

# A partir de um dicionario
populacao = pd.Series({'SP': 12_396_372, 'RJ': 6_775_561, 'BH': 2_722_459})
print('Series de dicionario:')
print(populacao)

In [None]:
# Acessando valores
print('Nota da Ana:    ', notas_turma['Ana'])
print('Nota do Diego:  ', notas_turma['Diego'])
print()

# Atributos
print('Valores:', notas_turma.values)
print('Indice: ', notas_turma.index.tolist())
print('Tipo:   ', notas_turma.dtype)
print()

# Operacoes e filtros
print('Aprovados (>= 7):')  
print(notas_turma[notas_turma >= 7.0])
print()

# Estatisticas
print('Estatisticas:')
print(notas_turma.describe())

---
## 2.3 DataFrame

Um **DataFrame** e uma tabela bidimensional — colunas com nomes e linhas com indices.  
Cada coluna e uma Series.

In [None]:
# Criando DataFrame a partir de dicionario
dados = {
    'nome':       ['Ana', 'Bruno', 'Carol', 'Diego', 'Eva', 'Fabio'],
    'idade':      [23, 31, 28, 22, 35, 29],
    'cidade':     ['Rio de Janeiro', 'Sao Paulo', 'Belo Horizonte', 'Rio de Janeiro', 'Curitiba', 'Sao Paulo'],
    'salario':    [3500.00, 5200.00, 4800.00, 3200.00, 7100.00, 4500.00],
    'aprovado':   [True, True, True, False, True, True]
}

df = pd.DataFrame(dados)
df

In [None]:
# Inspecionando o DataFrame
print('--- Primeiras linhas ---')
print(df.head(3))
print()
print('--- Ultimas linhas ---')
print(df.tail(3))
print()
print('--- Formato ---')
print(f'Shape: {df.shape}  ({df.shape[0]} linhas x {df.shape[1]} colunas)')
print()
print('--- Tipos de dados ---')
print(df.dtypes)

In [None]:
# Informacoes gerais
df.info()

In [None]:
# Estatisticas descritivas
df.describe()

---
## 2.4 Selecao de Dados

| Metodo | Uso |
|--------|-----|
| `df['coluna']` | Seleciona uma coluna (Series) |
| `df[['col1', 'col2']]` | Seleciona multiplas colunas |
| `df.loc[rotulo]` | Seleciona por **rotulo** (nome) |
| `df.iloc[posicao]` | Seleciona por **posicao** numerica |

In [None]:
# Selecao de colunas

# Uma coluna -> Series
print('Coluna nome:')
print(df['nome'])
print()

# Varias colunas -> DataFrame
print('Nome e salario:')
print(df[['nome', 'salario']])

In [None]:
# .loc — por rotulo (indice e nome de coluna)

print('Linha 0 completa:')
print(df.loc[0])
print()

print('Linhas 0 a 2, colunas nome e salario:')
print(df.loc[0:2, ['nome', 'salario']])
print()

print('Todas as linhas, coluna cidade:')
print(df.loc[:, 'cidade'])

In [None]:
# .iloc — por posicao numerica (como NumPy)

print('Primeira linha:')
print(df.iloc[0])
print()

print('Linhas 1 a 3, colunas 0 e 3:')
print(df.iloc[1:4, [0, 3]])
print()

print('Ultima linha, ultimas 2 colunas:')
print(df.iloc[-1, -2:])

---
## 2.5 Filtragem (Condicoes)

In [None]:
# Filtragem por condicao

# Pessoas de SP
sp = df[df['cidade'] == 'Sao Paulo']
print('Pessoas de Sao Paulo:')
print(sp[['nome', 'cidade', 'salario']])
print()

# Salario acima de 4000
bem_pagos = df[df['salario'] > 4000]
print('Salario > R$ 4.000:')
print(bem_pagos[['nome', 'salario']])
print()

# Multiplas condicoes: & (AND) e | (OR)
jovens_bem_pagos = df[(df['idade'] <= 30) & (df['salario'] > 4000)]
print('Ate 30 anos E salario > 4000:')
print(jovens_bem_pagos[['nome', 'idade', 'salario']])

In [None]:
# isin — filtra por lista de valores
cidades_interesse = ['Rio de Janeiro', 'Curitiba']
rj_cwb = df[df['cidade'].isin(cidades_interesse)]
print('Pessoas no RJ ou Curitiba:')
print(rj_cwb[['nome', 'cidade']])
print()

# str.contains — busca parcial em strings
paulo = df[df['cidade'].str.contains('Paulo')]
print('Cidades com "Paulo":')
print(paulo[['nome', 'cidade']])

---
## 2.6 Criando e Modificando Colunas

In [None]:
# Fazer uma copia para nao alterar o original
df2 = df.copy()

# Nova coluna calculada
df2['salario_anual'] = df2['salario'] * 12

# Nova coluna com condicao
df2['faixa_salarial'] = pd.cut(
    df2['salario'],
    bins=[0, 4000, 6000, float('inf')],
    labels=['Junior', 'Pleno', 'Senior']
)

# Modificar coluna existente
df2['nome'] = df2['nome'].str.upper()

df2

In [None]:
# apply — aplica uma funcao a cada elemento ou linha
df3 = df.copy()

# Funcao simples
df3['situacao'] = df3['aprovado'].apply(lambda x: 'Aprovado' if x else 'Reprovado')

# Funcao mais complexa aplicada por linha (axis=1)
def classificar_idade(row):
    if row['idade'] < 25:
        return 'Jovem'
    elif row['idade'] < 30:
        return 'Adulto'
    else:
        return 'Senior'

df3['classificacao'] = df3.apply(classificar_idade, axis=1)

df3[['nome', 'idade', 'aprovado', 'situacao', 'classificacao']]

---
## 2.7 Valores Nulos (NaN)

In [None]:
# DataFrame com valores faltantes
dados_incompletos = pd.DataFrame({
    'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam'],
    'preco':   [2500.00, None, 150.00, None, 200.00],
    'estoque': [10, 50, None, 8, None],
    'marca':   ['Dell', 'Logitech', None, 'Samsung', 'Logitech']
})

print('DataFrame com nulos:')
print(dados_incompletos)
print()

# Verificar nulos
print('Nulos por coluna:')
print(dados_incompletos.isnull().sum())

In [None]:
# Tratando valores nulos
di = dados_incompletos.copy()

# Preencher com valor fixo
di['estoque'] = di['estoque'].fillna(0)

# Preencher com a media
di['preco'] = di['preco'].fillna(di['preco'].mean())

# Preencher texto com 'Desconhecida'
di['marca'] = di['marca'].fillna('Desconhecida')

print('Apos tratamento:')
print(di)
print()
print('Nulos restantes:', di.isnull().sum().sum())

In [None]:
# Remover linhas com nulos
sem_nulos = dados_incompletos.dropna()
print('Dropna (remove linhas com qualquer nulo):')
print(sem_nulos)
print()

# Remover linhas onde colunas especificas tem nulo
sem_nulo_preco = dados_incompletos.dropna(subset=['preco'])
print('Sem nulo em preco:')
print(sem_nulo_preco)

---
## 2.8 Ordenacao e Renomeacao

In [None]:
# Ordenar por coluna
print('Ordenado por salario (decrescente):')
print(df.sort_values('salario', ascending=False)[['nome', 'salario']])
print()

# Ordenar por multiplas colunas
print('Ordenado por cidade e depois salario:')
print(df.sort_values(['cidade', 'salario'], ascending=[True, False])[['nome', 'cidade', 'salario']])

In [None]:
# Renomear colunas
df_renomeado = df.rename(columns={
    'nome':     'Nome',
    'idade':    'Idade',
    'cidade':   'Cidade',
    'salario':  'Salario (R$)',
    'aprovado': 'Aprovado'
})
print(df_renomeado.head(3))

---
## 2.9 Agrupamento (groupby)

O **groupby** divide o DataFrame em grupos, aplica uma funcao e combina os resultados.

```
Split (divide) → Apply (agrega) → Combine (combina)
```

In [None]:
# Criar dataset maior para demonstracao
np.random.seed(42)

vendas = pd.DataFrame({
    'vendedor':  ['Alice', 'Bruno', 'Carol', 'Alice', 'Bruno', 'Carol', 'Alice', 'Bruno', 'Carol'],
    'regiao':    ['Norte', 'Sul', 'Norte', 'Sul', 'Norte', 'Sul', 'Norte', 'Sul', 'Norte'],
    'produto':   ['A', 'B', 'A', 'B', 'A', 'B', 'C', 'C', 'C'],
    'quantidade':[10, 15, 8, 20, 12, 5, 18, 7, 11],
    'valor':     [1200, 2250, 960, 3000, 1440, 750, 3600, 1400, 2200]
})

print('Dataset de vendas:')
vendas

In [None]:
# Agrupamento simples — total de vendas por vendedor
por_vendedor = vendas.groupby('vendedor')['valor'].sum()
print('Total de vendas por vendedor:')
print(por_vendedor)
print()

# Media por regiao
por_regiao = vendas.groupby('regiao')['valor'].mean()
print('Media de vendas por regiao:')
print(por_regiao)

In [None]:
# Multiplas funcoes de agregacao com .agg()
resumo = vendas.groupby('vendedor').agg(
    total_vendas  = ('valor', 'sum'),
    media_venda   = ('valor', 'mean'),
    qtd_transacoes= ('valor', 'count'),
    max_venda     = ('valor', 'max')
).round(2)

print('Resumo por vendedor:')
resumo

In [None]:
# Agrupamento por multiplas colunas
por_vendedor_produto = vendas.groupby(['vendedor', 'produto'])['valor'].sum()
print('Vendas por vendedor e produto:')
print(por_vendedor_produto)

---
## 2.10 Pivot Table e Crosstab

In [None]:
# Pivot Table — visao cruzada dos dados
tabela_pivot = pd.pivot_table(
    vendas,
    values='valor',
    index='vendedor',
    columns='produto',
    aggfunc='sum',
    fill_value=0
)

print('Pivot: valor de vendas por vendedor x produto')
tabela_pivot

In [None]:
# Crosstab — frequencia cruzada entre categorias
contagem = pd.crosstab(vendas['vendedor'], vendas['regiao'])
print('Quantidade de transacoes por vendedor e regiao:')
contagem

---
## 2.11 Merge e Concat

**Merge** une DataFrames por colunas em comum (como JOIN do SQL).  
**Concat** empilha DataFrames verticalmente ou horizontalmente.

In [None]:
# Tabela de clientes
clientes = pd.DataFrame({
    'id_cliente': [1, 2, 3, 4],
    'nome':       ['Ana Silva', 'Bruno Lima', 'Carol Souza', 'Diego Costa'],
    'cidade':     ['Rio de Janeiro', 'Sao Paulo', 'Curitiba', 'Fortaleza']
})

# Tabela de pedidos
pedidos = pd.DataFrame({
    'id_pedido':  [101, 102, 103, 104, 105],
    'id_cliente': [1, 2, 1, 3, 5],   # cliente 5 nao existe!
    'produto':    ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Headset'],
    'valor':      [2500, 80, 150, 900, 200]
})

print('Clientes:')
print(clientes)
print()
print('Pedidos:')
print(pedidos)

In [None]:
# INNER JOIN — apenas registros que existem nos dois
inner = pd.merge(pedidos, clientes, on='id_cliente', how='inner')
print('INNER JOIN (match nos dois lados):')
print(inner)
print()

In [None]:
# LEFT JOIN — todos os pedidos, mesmo sem cliente cadastrado
left = pd.merge(pedidos, clientes, on='id_cliente', how='left')
print('LEFT JOIN (todos os pedidos):')
print(left)
print()

# RIGHT JOIN — todos os clientes, mesmo sem pedidos
right = pd.merge(pedidos, clientes, on='id_cliente', how='right')
print('RIGHT JOIN (todos os clientes):')
print(right)

In [None]:
# Concat — empilhar DataFrames
pedidos_jan = pd.DataFrame({'mes': ['Jan', 'Jan'], 'produto': ['A', 'B'], 'valor': [100, 200]})
pedidos_fev = pd.DataFrame({'mes': ['Fev', 'Fev'], 'produto': ['A', 'C'], 'valor': [150, 300]})

todos_pedidos = pd.concat([pedidos_jan, pedidos_fev], ignore_index=True)
print('Concat (empilhar verticalmente):')
print(todos_pedidos)

---
## 2.12 Leitura e Escrita de Arquivos

In [None]:
# Salvar em CSV
df.to_csv('pessoas_exemplo.csv', index=False, encoding='utf-8')
print('Arquivo CSV salvo!')

# Ler CSV
df_lido = pd.read_csv('pessoas_exemplo.csv')
print('\nLido do CSV:')
print(df_lido.head(3))

In [None]:
# Ler arquivo existente no projeto
try:
    df_carros = pd.read_csv('aluguel_carros.csv')
    print(f'Dataset carregado: {df_carros.shape[0]} linhas x {df_carros.shape[1]} colunas')
    print()
    print('Primeiras 3 linhas:')
    print(df_carros.head(3))
    print()
    print('Colunas disponiveis:')
    print(list(df_carros.columns))
except FileNotFoundError:
    print('Arquivo aluguel_carros.csv nao encontrado.')

---
## 2.13 Operacoes com Strings e Datas

In [None]:
# Operacoes com strings — acessadas via .str
nomes = pd.Series(['ana silva', 'BRUNO LIMA', 'Carol Souza', '  Diego Costa  '])

print('Original:          ', nomes.tolist())
print('Maiusculo:         ', nomes.str.upper().tolist())
print('Minusculo:         ', nomes.str.lower().tolist())
print('Capitalizado:      ', nomes.str.title().tolist())
print('Sem espacos:       ', nomes.str.strip().tolist())
print('Contem Silva:      ', nomes.str.contains('Silva', case=False).tolist())
print('Comprimento:       ', nomes.str.len().tolist())
print('Primeiros 3 chars: ', nomes.str[:3].tolist())
print('Substituir Lima:   ', nomes.str.replace('LIMA', 'Santos', case=False).tolist())

In [None]:
# Operacoes com datas — acessadas via .dt
datas = pd.Series(pd.date_range('2024-01-15', periods=6, freq='ME'))

print('Datas:', datas.tolist())
print()
print('Ano:    ', datas.dt.year.tolist())
print('Mes:    ', datas.dt.month.tolist())
print('Dia:    ', datas.dt.day.tolist())
print('DiaSem: ', datas.dt.day_name().tolist())
print('Trimestre:', datas.dt.quarter.tolist())

In [None]:
# Converter string para data
df_datas = pd.DataFrame({
    'data_texto': ['01/03/2024', '15/06/2024', '31/12/2024'],
    'valor':      [1200, 3400, 5600]
})

df_datas['data'] = pd.to_datetime(df_datas['data_texto'], format='%d/%m/%Y')
df_datas['mes']  = df_datas['data'].dt.month_name()
df_datas['ano']  = df_datas['data'].dt.year

print(df_datas)

---
## 2.14 Visualizacao Basica com Pandas

In [None]:
import matplotlib.pyplot as plt

fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# 1. Grafico de barras — salarios
df.set_index('nome')['salario'].plot(kind='bar', ax=axes[0,0], color='steelblue', rot=30)
axes[0,0].set_title('Salario por Pessoa')
axes[0,0].set_ylabel('Salario (R$)')

# 2. Histograma — distribuicao de salarios
df['salario'].plot(kind='hist', ax=axes[0,1], bins=5, color='salmon', edgecolor='white')
axes[0,1].set_title('Distribuicao de Salarios')
axes[0,1].set_xlabel('Salario (R$)')

# 3. Pizza — distribuicao por cidade
df['cidade'].value_counts().plot(kind='pie', ax=axes[1,0], autopct='%1.0f%%')
axes[1,0].set_title('Distribuicao por Cidade')
axes[1,0].set_ylabel('')

# 4. Barras agrupadas — total de vendas por produto
tabela_pivot.plot(kind='bar', ax=axes[1,1], rot=0)
axes[1,1].set_title('Vendas por Vendedor e Produto')
axes[1,1].set_ylabel('Valor (R$)')

plt.suptitle('Visualizacao Basica com Pandas', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

---
## Exercicio 2 — Pandas

Analise o dataset de vendas criado abaixo:

In [None]:
np.random.seed(0)

produtos = ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Headset']
categorias = {'Notebook': 'Computadores', 'Mouse': 'Perifericos',
              'Teclado': 'Perifericos', 'Monitor': 'Computadores', 'Headset': 'Audio'}

n = 50
prods = np.random.choice(produtos, size=n)

exercicio = pd.DataFrame({
    'data':       pd.date_range('2024-01-01', periods=n, freq='W'),
    'produto':    prods,
    'categoria':  [categorias[p] for p in prods],
    'quantidade': np.random.randint(1, 20, size=n),
    'preco_unit': np.random.choice([80, 150, 200, 900, 2500], size=n)
})
exercicio['receita'] = exercicio['quantidade'] * exercicio['preco_unit']
exercicio['mes'] = exercicio['data'].dt.month

print(f'Dataset: {exercicio.shape[0]} registros')
exercicio.head()

In [None]:
# Tarefa 1: Receita total e media por produto
print('=== 1. Receita por Produto ===')
por_produto = exercicio.groupby('produto')['receita'].agg(['sum', 'mean']).round(2)
por_produto.columns = ['Receita Total', 'Receita Media']
por_produto = por_produto.sort_values('Receita Total', ascending=False)
print(por_produto)
print()

In [None]:
# Tarefa 2: Receita por categoria
print('=== 2. Receita por Categoria ===')
por_cat = exercicio.groupby('categoria')['receita'].sum().sort_values(ascending=False)
print(por_cat)
print()

In [None]:
# Tarefa 3: Evolucao mensal
print('=== 3. Receita Mensal ===')
mensal = exercicio.groupby('mes')['receita'].sum()
print(mensal)
print(f'\nMelhor mes: {mensal.idxmax()} — R$ {mensal.max():,.2f}')
print(f'Pior mes:   {mensal.idxmin()} — R$ {mensal.min():,.2f}')

In [None]:
# Tarefa 4: Vendas de alto valor (receita acima de 5000)
print('=== 4. Vendas de Alto Valor (> R$ 5.000) ===')
alto_valor = exercicio[exercicio['receita'] > 5000].copy()
alto_valor['data_fmt'] = alto_valor['data'].dt.strftime('%d/%m/%Y')
print(alto_valor[['data_fmt', 'produto', 'quantidade', 'preco_unit', 'receita']].to_string(index=False))
print(f'\nTotal de {len(alto_valor)} vendas de alto valor')

---
---

# PARTE 3 — NumPy + Pandas Juntos

Na pratica, **NumPy e Pandas trabalham juntos**.  
Pandas usa NumPy internamente, e voce pode alternar entre eles facilmente.

In [None]:
# Extrair array NumPy de uma coluna Pandas
salarios = df['salario']
arr_salarios = salarios.to_numpy()

print('Series Pandas:', salarios.values)
print('Array NumPy:  ', arr_salarios)
print('Tipo:         ', type(arr_salarios))
print()

# Usar funcoes NumPy em colunas Pandas
print(f'Media:         R$ {np.mean(arr_salarios):,.2f}')
print(f'Desvio padrao: R$ {np.std(arr_salarios):,.2f}')
print(f'Percentil 25:  R$ {np.percentile(arr_salarios, 25):,.2f}')
print(f'Percentil 75:  R$ {np.percentile(arr_salarios, 75):,.2f}')

In [None]:
# Criar DataFrame a partir de array NumPy
np.random.seed(42)

dados_np = np.random.randint(1, 100, size=(5, 4))
print('Array NumPy:')
print(dados_np)
print()

df_from_np = pd.DataFrame(
    dados_np,
    columns=['Prova1', 'Prova2', 'Prova3', 'Prova4'],
    index=['Aluno_1', 'Aluno_2', 'Aluno_3', 'Aluno_4', 'Aluno_5']
)

print('DataFrame criado do array NumPy:')
print(df_from_np)
print()

# Calcular media de cada aluno
df_from_np['Media'] = df_from_np.mean(axis=1).round(1)
df_from_np['Situacao'] = np.where(df_from_np['Media'] >= 60, 'Aprovado', 'Reprovado')

print('Com media e situacao:')
df_from_np

---

## Resumo — Principais Funcoes

### NumPy

| Funcao | Descricao |
|--------|-----------|
| `np.array()` | Cria um array |
| `np.zeros()`, `np.ones()`, `np.full()` | Arrays com valores fixos |
| `np.arange()`, `np.linspace()` | Sequencias |
| `np.random.rand()`, `np.random.randn()`, `np.random.randint()` | Numeros aleatorios |
| `arr.shape`, `arr.ndim`, `arr.dtype` | Atributos do array |
| `arr.reshape()`, `arr.T` | Reformatar e transpor |
| `np.sum()`, `np.mean()`, `np.std()`, `np.min()`, `np.max()` | Agregacoes |
| `np.sqrt()`, `np.abs()`, `np.exp()`, `np.log()` | Matematica |
| `np.concatenate()`, `np.vstack()`, `np.hstack()` | Combinar arrays |

### Pandas

| Funcao / Metodo | Descricao |
|----------------|-----------|
| `pd.Series()`, `pd.DataFrame()` | Criar estruturas |
| `pd.read_csv()`, `df.to_csv()` | I/O de arquivos |
| `df.head()`, `df.tail()`, `df.info()`, `df.describe()` | Inspecionar |
| `df['col']`, `df[['c1','c2']]` | Selecionar colunas |
| `df.loc[]`, `df.iloc[]` | Selecionar por rotulo/posicao |
| `df[condicao]` | Filtrar linhas |
| `df.sort_values()` | Ordenar |
| `df.groupby().agg()` | Agrupar e agregar |
| `pd.merge()`, `pd.concat()` | Combinar DataFrames |
| `df.isnull()`, `df.fillna()`, `df.dropna()` | Tratar nulos |
| `df['col'].str.xxx` | Operacoes com strings |
| `df['col'].dt.xxx` | Operacoes com datas |
| `pd.pivot_table()`, `pd.crosstab()` | Tabelas cruzadas |

---

**Proximos passos:** Matplotlib, Seaborn (visualizacao) e Scikit-learn (machine learning).