# Exercícios Básicos e pandas
Este notebook contém uma série de exercícios separados por blocos. Cada seção traz enunciados em células Markdown e, em seguida, uma célula de código em branco para sua solução.

> Dica: Crie um `DataFrame` de exemplo e teste os métodos. Evite pular de seção sem tentar executar algo prático.

## 1) séries e objetos básicos



1. crie uma `pd.Series` a partir de uma lista `[10, 20, 30]` e verifique `dtype`.

In [13]:
import pandas as pd

numeros = pd.Series([10,20,30])
print(numeros)


0    10
1    20
2    30
dtype: int64


2. defina índices personalizados `['a','b','c']` para a série do exercício anterior.

In [19]:
numeros = pd.Series([10,20,30], index= ['a', 'b', 'c'])
print(numeros)

a    10
b    20
c    30
dtype: int64


3. obtenha o valor associado ao índice `'b'`.

In [20]:
valor = numeros.loc['b']
print(valor)

20


4. verifique se 20 está presente na série (retorne booleano).


In [24]:
print(20 in numeros)

False


5. some todos os valores da série.


In [29]:
soma = numeros.sum()
print(soma)

20.0


6. calcule média, mínimo e máximo da série.


In [32]:
media = numeros.mean()
print(media)

minimo = numeros.min()
print(minimo)

maximo = numeros.max()
print(maximo)

20.0
10
30


7. converta a série para `float`.


In [39]:
numeros[['a', 'b', 'c']] = numeros[['a', 'b', 'c']].astype(float)
print(numeros)

a    10
b    20
c    30
dtype: int64


8. substitua o valor do índice `'c'` por 35.


In [41]:
numeros.replace(30, 35)

a    10
b    20
c    35
dtype: int64

9. Importe a biblioteca numpy (`import numpy as np`) e crie uma series ao aplicar `np.log` à série (tratando possíveis avisos do pandas).


In [42]:
import numpy as np
np.log(numeros)

a    2.302585
b    2.995732
c    3.401197
dtype: float64


10. transforme a série em DataFrame com uma coluna chamada `valor`.

In [46]:
df = pd.DataFrame(numeros)
df.columns = ['valor']
df.head()

Unnamed: 0,valor
a,10
b,20
c,30


## 2) criação de dataframes & I/O

11. crie um `DataFrame` com colunas `['nome','idade']` a partir de um dicionário.


In [56]:
dicionario = {'Wytalo': [22], 'Kesney': [23]}
df = pd.DataFrame(dicionario)
df.columns = ['nome', 'idade']
df.head()

Unnamed: 0,nome,idade
0,22,23


12. leia um CSV simples (`data1.csv` ou crie um usando `StringIO`) e mostre as 3 primeiras linhas.

In [61]:
nome_do_arquivo = 'data1.csv' 
caminho_do_arquivo = f'../data/raw/{nome_do_arquivo}'

df = pd.read_csv(caminho_do_arquivo, sep=';', encoding='latin-1', low_memory=False)
df.head()

Unnamed: 0,"id,nome,idade,cidade,email,status,salario,departamento,categoria,produto,valor,preco,nota,data,regiao,vendas,tempo_resposta"
0,"1,Ana,17,SP,ana@example.com,ativo,4500,TI,A,P1..."
1,"2,Bruno,22,RJ,bruno@example.com,pendente,5200,..."


13. salve um DataFrame em CSV sem índice (pode ser o criado no exercício 11).

14. leia um arquivo CSV (`data1.csv`) e especifique a coluna `id` como índice.


15. crie um DataFrame com datas usando `pd.date_range` (7 dias) e uma coluna numérica aleatória. Dica: use a função random.randint do numpy.


16. É possível criar um DataFrame a partir de uma lista dicionários em Python. Crie a menos dois dicionários diferentes, com nomes de colunas em maiúsculo e crie um DataFrame onde cada coluna é um desses dicionários.

17. Renomeie as colunas para minúsculas do exercício 16 para minúsculas


18. altere a ordem das colunas do dataframe.


19. crie uma coluna derivada: `idade_em_meses = idade * 12` a partir dos dados do exercício 14.


20. verifique a forma (`shape`) e o tamanho (`size`) do DataFrame.

## 3) indexação e seleção (Utilize os dados da coluna 14)

21. selecione apenas a coluna `idade` (como `Series` e como `DataFrame`).

23. selecione a linda onde o índice é 4 (usando `loc`).

22. selecione linhas pelas posições 0 a 2 (usando `iloc`).

24. selecione um bloco retangular (linhas 1–3, colunas 0–1) com `iloc`.

25. mude o índice do conjunto de dados para a coluna `nome`.


26. resete o índice para o padrão sequencial.

27. selecione linhas por rótulo com **slice** em `loc` (ex.: `'2025-01-01':'2025-01-05'`).


28. pegue os 5 maiores valores de uma coluna com `nlargest`.


29. Crie um DataFrame contendo apenas as colunas numéricas usando data.select_dtypes(include="number").


30. selecione as linhas em que nota está entre 7 e 9 (inclusive) usando between, retornando apenas as colunas ['nome','nota'].

## 4) filtragem e condicionais


31. filtre linhas onde `idade >= 18`.

32. crie um filtro composto: `idade > 18` **e** `cidade == 'SP'`.


33. use `isin` para manter apenas linhas com `status` em `['ativo','pendente']`.


34. filtre linhas com valores nulos em `email`.


35. filtre linhas que **não** contêm `'@'` em `email` usando `str.contains` com `na=False`.


36. crie uma coluna `faixa` com `'adulto'` se `idade>=18`, senão `'menor'` (Dica: tente usar `np.where`).


37. aplique `query` para `salario > 5000 and departamento == "TI"`.


38. recorte valores de `nota` para o intervalo 0–10 com `clip`.


39. remova outliers de `preco` usando limite IQR simples.


40. substitua valores negativos por `NaN` em `saldo`.

## 5) dados faltantes (use data2.csv)

41. conte `NaN` por coluna com `isna().sum()`.

42. remova linhas com qualquer `NaN` (`dropna`).

43. preencha `NaN` de uma coluna numérica com a média.

44. preencha `NaN` de uma coluna categórica com `'desconhecido'`.

45. preencha os valores ausentes de preco com a mediana por categoria (use `groupby('categoria')['preco'].transform('median')`).

46. preencha valores ausentes de `preco` usando `interpolate()`.

47. substitua strings vazias `''` por `NaN`.

48. avalie o impacto de `dropna` no tamanho do DataFrame.

49. calcule a porcentagem de `NaN` de todo o DataFrame.


50. preencha `NaN` condicionais: se `cidade` é `NaN`, copie de `cidade_cobranca`.

## 6) agregações & groupby (use data3.csv)

51. calcule a média de `valor` por `categoria` (`groupby` + `mean`).

52. conte linhas por `categoria` (use `size` ou `count`).


53. obtenha o `sum`, `min`, `max` de `valor` por `categoria` numa única chamada (`agg`).


54. Calcule a média ponderada usando a coluna `peso`.

55. Destaque o `max` de pedido_total por cliente

56. crie percentuais: `valor` / soma do grupo.

57. conte `nunique` de `produto` por `cliente`.

58. calcule desvio-padrão de `nota` por turma.

59. calcule a média de valor por categoria usando `groupby('categoria')['valor'].mean()`.

60. conte quantas linhas há em cada categoria com groupby('categoria').size() e ordene do maior para o menor com `.sort_values(ascending=False)`.