# Exercícios Básicos e pandas
Este notebook contém uma série de exercícios separados por blocos. Cada seção traz enunciados em células Markdown e, em seguida, uma célula de código em branco para sua solução.

> Dica: Crie um `DataFrame` de exemplo e teste os métodos. Evite pular de seção sem tentar executar algo prático.

In [3]:
import pandas as pd
import numpy as np
from io import StringIO
print(pd.__version__)

2.3.2


## 1) séries e objetos básicos



1. crie uma `pd.Series` a partir de uma lista `[10, 20, 30]` e verifique `dtype`.

In [None]:
s_ex = pd.Series([10, 20, 30])
print(s_ex)

0    10
1    20
2    30
dtype: int64
Dtype: int64


2. defina índices personalizados `['a','b','c']` para a série do exercício anterior.

In [5]:
s_ex.index = ['a', 'b', 'c']
print(s_ex)

a    10
b    20
c    30
dtype: int64


3. obtenha o valor associado ao índice `'b'`.

In [6]:
print(s_ex['b'])

20


4. verifique se 20 está presente na série (retorne booleano).


In [7]:
print(20 in s_ex.values)

True


5. some todos os valores da série.


In [8]:
print(s_ex.sum())

60


6. calcule média, mínimo e máximo da série.


In [9]:
print("Média:", s_ex.mean())
print("Mínimo:", s_ex.min())
print("Máximo:", s_ex.max())

Média: 20.0
Mínimo: 10
Máximo: 30


7. converta a série para `float`.


In [11]:
s_float = s_ex.astype(float)
print(s_float)

a    10.0
b    20.0
c    30.0
dtype: float64


8. substitua o valor do índice `'c'` por 35.


In [13]:
s_float['c'] = 35
print(s_float)

a    10.0
b    20.0
c    35.0
dtype: float64


9. Importe a biblioteca numpy (`import numpy as np`) e crie uma series ao aplicar `np.log` à série (tratando possíveis avisos do pandas).


In [14]:
s_log = np.log(s_ex)
print(s_log)

a    2.302585
b    2.995732
c    3.401197
dtype: float64



10. transforme a série em DataFrame com uma coluna chamada `valor`.

In [15]:
df_ex_series = s_ex.to_frame(name='valor')
print(df_ex_series)

   valor
a     10
b     20
c     30


## 2) criação de dataframes & I/O

11. crie um `DataFrame` com colunas `['nome','idade']` a partir de um dicionário.


In [16]:
data_ex11 = {
    'nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'idade': [25, 30, 22, 40, 29]
}
df_ex11 = pd.DataFrame(data_ex11)
print(df_ex11)

      nome  idade
0    Alice     25
1      Bob     30
2  Charlie     22
3    David     40
4      Eva     29


12. leia um CSV simples (`data1.csv` ou crie um usando `StringIO`) e mostre as 3 primeiras linhas.

In [18]:
df_data1 = pd.read_csv("../data/data1.csv")
#print("DataFrame completo (data1):\n", df_data1)
print("\n3 primeiras linhas:\n", df_data1.head(3))


3 primeiras linhas:
    id   nome  idade cidade              email    status  salario departamento  \
0   1    Ana     17     SP    ana@example.com     ativo     4500           TI   
1   2  Bruno     22     RJ  bruno@example.com  pendente     5200    Marketing   
2   3  Carla     35     BH  carla@example.com     ativo     7000           TI   

  categoria produto  valor  preco  nota        data    regiao  vendas  \
0         A      P1    120   49.9   8.5  2025-01-01       Sul      10   
1         B      P2     80   29.5   7.2  2025-01-02   Sudeste       7   
2         A      P3    200   99.0   9.0  2025-01-03  Nordeste      15   

   tempo_resposta  
0              34  
1              58  
2              22  


13. salve um DataFrame em CSV sem índice (pode ser o criado no exercício 11).

In [None]:
csv_output = StringIO()
df_ex11.to_csv(csv_output, index=False)

print("Conteúdo CSV (sem índice):\n", csv_output.getvalue())

Conteúdo CSV (sem índice):
 nome,idade
Alice,25
Bob,30
Charlie,22
David,40
Eva,29



14. leia um arquivo CSV (`data1.csv`) e especifique a coluna `id` como índice.


In [22]:
df_data1_indexed = pd.read_csv("../data/data1.csv", index_col='id')
print(df_data1_indexed.head(1))

   nome  idade cidade            email status  salario departamento categoria  \
id                                                                              
1   Ana     17     SP  ana@example.com  ativo     4500           TI         A   

   produto  valor  preco  nota        data regiao  vendas  tempo_resposta  
id                                                                         
1       P1    120   49.9   8.5  2025-01-01    Sul      10              34  


15. crie um DataFrame com datas usando `pd.date_range` (7 dias) e uma coluna numérica aleatória. Dica: use a função random.randint do numpy.


In [23]:
dates = pd.date_range(start='2025-01-01', periods=7)
random_values = np.random.randint(10, 100, size=7)

df_dates = pd.DataFrame({
    'data': dates,
    'valor_aleatorio': random_values
})
df_dates = df_dates.set_index('data')
print(df_dates)


            valor_aleatorio
data                       
2025-01-01               90
2025-01-02               55
2025-01-03               54
2025-01-04               65
2025-01-05               32
2025-01-06               71
2025-01-07               67


16. É possível criar um DataFrame a partir de uma lista dicionários em Python. Crie a menos dois dicionários diferentes, com nomes de colunas em maiúsculo e crie um DataFrame onde cada coluna é um desses dicionários.

In [24]:
data_list = [
    {'ID': 1, 'NOME': 'Pedro', 'NOTA': 9.5},
    {'ID': 2, 'NOME': 'Mariana', 'NOTA': 8.0},
    {'ID': 3, 'NOME': 'Lucas', 'NOTA': 7.2},
    {'ID': 4, 'NOME': 'Julia', 'NOTA': 10.0}
]

df_caps = pd.DataFrame(data_list)
print(df_caps)

   ID     NOME  NOTA
0   1    Pedro   9.5
1   2  Mariana   8.0
2   3    Lucas   7.2
3   4    Julia  10.0


17. Renomeie as colunas para minúsculas do exercício 16 para minúsculas


In [25]:
df_lower = df_caps.rename(columns=str.lower)
print(df_lower)

   id     nome  nota
0   1    Pedro   9.5
1   2  Mariana   8.0
2   3    Lucas   7.2
3   4    Julia  10.0


18. altere a ordem das colunas do dataframe.


In [26]:
new_order = ['nome', 'id', 'nota']
df_reordered = df_lower[new_order]
print(df_reordered)

      nome  id  nota
0    Pedro   1   9.5
1  Mariana   2   8.0
2    Lucas   3   7.2
3    Julia   4  10.0


19. crie uma coluna derivada: `idade_em_meses = idade * 12` a partir dos dados do exercício 14.


In [27]:
df_data1_indexed['idade_em_meses'] = df_data1_indexed['idade'] * 12
print(df_data1_indexed.head())

      nome  idade cidade               email    status  salario departamento  \
id                                                                             
1      Ana     17     SP     ana@example.com     ativo     4500           TI   
2    Bruno     22     RJ   bruno@example.com  pendente     5200    Marketing   
3    Carla     35     BH   carla@example.com     ativo     7000           TI   
4    Diego     28     SP                 NaN   inativo     3000       Vendas   
5   Elaine     41    POA  elaine@example.com     ativo     9800    Diretoria   

   categoria produto  valor  preco  nota        data        regiao  vendas  \
id                                                                           
1          A      P1    120   49.9   8.5  2025-01-01           Sul      10   
2          B      P2     80   29.5   7.2  2025-01-02       Sudeste       7   
3          A      P3    200   99.0   9.0  2025-01-03      Nordeste      15   
4          C      P4     50   15.0   6.1  2025-01

20. verifique a forma (`shape`) e o tamanho (`size`) do DataFrame.

In [28]:
print("Shape (linhas, colunas):", df_data1_indexed.shape)
print("Size (total de elementos):", df_data1_indexed.size)

Shape (linhas, colunas): (12, 17)
Size (total de elementos): 204


## 3) indexação e seleção (Utilize os dados da coluna 14)

21. selecione apenas a coluna `idade` (como `Series` e como `DataFrame`).

In [29]:
# Como Series
idade_series = df_data1_indexed['idade']
print("Idade (Series):\n", idade_series.head())

# Como DataFrame
idade_df = df_data1_indexed[['idade']]
print("\nIdade (DataFrame):\n", idade_df.head())

Idade (Series):
 id
1    17
2    22
3    35
4    28
5    41
Name: idade, dtype: int64

Idade (DataFrame):
     idade
id       
1      17
2      22
3      35
4      28
5      41


22. selecione linhas pelas posições 0 a 2 (usando `iloc`).

In [30]:
# As linhas de posição 0, 1 e 2 (exclusivo no final)
linhas_0_a_2_iloc = df_data1_indexed.iloc[0:3]
print(linhas_0_a_2_iloc)

     nome  idade cidade              email    status  salario departamento  \
id                                                                           
1     Ana     17     SP    ana@example.com     ativo     4500           TI   
2   Bruno     22     RJ  bruno@example.com  pendente     5200    Marketing   
3   Carla     35     BH  carla@example.com     ativo     7000           TI   

   categoria produto  valor  preco  nota        data    regiao  vendas  \
id                                                                       
1          A      P1    120   49.9   8.5  2025-01-01       Sul      10   
2          B      P2     80   29.5   7.2  2025-01-02   Sudeste       7   
3          A      P3    200   99.0   9.0  2025-01-03  Nordeste      15   

    tempo_resposta  idade_em_meses  
id                                  
1               34             204  
2               58             264  
3               22             420  


23. selecione a linda onde o índice é 4 (usando `loc`).

In [31]:
linha_4_loc = df_data1_indexed.loc[4]
print(linha_4_loc)

nome                     Diego
idade                       28
cidade                      SP
email                      NaN
status                 inativo
salario                   3000
departamento            Vendas
categoria                    C
produto                     P4
valor                       50
preco                     15.0
nota                       6.1
data                2025-01-04
regiao            Centro-Oeste
vendas                       4
tempo_resposta             120
idade_em_meses             336
Name: 4, dtype: object


24. selecione um bloco retangular (linhas 1–3, colunas 0–1) com `iloc`.

In [32]:
bloco_iloc = df_data1_indexed.iloc[1:4, 0:2]
print(bloco_iloc)

     nome  idade
id              
2   Bruno     22
3   Carla     35
4   Diego     28


25. mude o índice do conjunto de dados para a coluna `nome`.


In [33]:
df_data1_nome_indexed = df_data1_indexed.set_index('nome')
print(df_data1_nome_indexed.head())

        idade cidade               email    status  salario departamento  \
nome                                                                       
Ana        17     SP     ana@example.com     ativo     4500           TI   
Bruno      22     RJ   bruno@example.com  pendente     5200    Marketing   
Carla      35     BH   carla@example.com     ativo     7000           TI   
Diego      28     SP                 NaN   inativo     3000       Vendas   
Elaine     41    POA  elaine@example.com     ativo     9800    Diretoria   

       categoria produto  valor  preco  nota        data        regiao  \
nome                                                                     
Ana            A      P1    120   49.9   8.5  2025-01-01           Sul   
Bruno          B      P2     80   29.5   7.2  2025-01-02       Sudeste   
Carla          A      P3    200   99.0   9.0  2025-01-03      Nordeste   
Diego          C      P4     50   15.0   6.1  2025-01-04  Centro-Oeste   
Elaine         B      P

26. resete o índice para o padrão sequencial.

In [34]:
df_data1_reset = df_data1_nome_indexed.reset_index()
print(df_data1_reset.head())

     nome  idade cidade               email    status  salario departamento  \
0     Ana     17     SP     ana@example.com     ativo     4500           TI   
1   Bruno     22     RJ   bruno@example.com  pendente     5200    Marketing   
2   Carla     35     BH   carla@example.com     ativo     7000           TI   
3   Diego     28     SP                 NaN   inativo     3000       Vendas   
4  Elaine     41    POA  elaine@example.com     ativo     9800    Diretoria   

  categoria produto  valor  preco  nota        data        regiao  vendas  \
0         A      P1    120   49.9   8.5  2025-01-01           Sul      10   
1         B      P2     80   29.5   7.2  2025-01-02       Sudeste       7   
2         A      P3    200   99.0   9.0  2025-01-03      Nordeste      15   
3         C      P4     50   15.0   6.1  2025-01-04  Centro-Oeste       4   
4         B      P2    350  150.0   9.3  2025-01-05           Sul      20   

   tempo_resposta  idade_em_meses  
0              34         

27. selecione linhas por rótulo com **slice** em `loc` (ex.: `'2025-01-01':'2025-01-05'`).


In [35]:
slice_loc = df_dates.loc['2025-01-01':'2025-01-05']
print(slice_loc)

            valor_aleatorio
data                       
2025-01-01               90
2025-01-02               55
2025-01-03               54
2025-01-04               65
2025-01-05               32


28. pegue os 5 maiores valores de uma coluna com `nlargest`.


In [36]:
top_5_idade = df_data1_indexed.nlargest(5, 'idade')
print(top_5_idade[['nome', 'idade']])

      nome  idade
id               
12     Leo     45
5   Elaine     41
3    Carla     35
8     Hugo     33
11   Karen     29


29. Crie um DataFrame contendo apenas as colunas numéricas usando data.select_dtypes(include="number").


In [37]:
df_numerico = df_data1_indexed.select_dtypes(include="number")
print(df_numerico)

    idade  salario  valor  preco  nota  vendas  tempo_resposta  idade_em_meses
id                                                                            
1      17     4500    120   49.9   8.5      10              34             204
2      22     5200     80   29.5   7.2       7              58             264
3      35     7000    200   99.0   9.0      15              22             420
4      28     3000     50   15.0   6.1       4             120             336
5      41     9800    350  150.0   9.3      20              15             492
6      19     2800     60   12.0   5.4       3             180             228
7      24     5100     90   25.0   7.9       6              45             288
8      33        0      0    0.0   4.8       0             300             396
9      26     6100    175   75.5   8.1       9              60             312
10     16     2100     40    9.5   5.9       2             240             192
11     29     5400    130   55.0   8.7      11      

30. selecione as linhas em que nota está entre 7 e 9 (inclusive) usando between, retornando apenas as colunas ['nome','nota'].

In [38]:
filtro_nota = df_data1_indexed['nota'].between(7, 9, inclusive='both')
df_filtrado_nota = df_data1_indexed[filtro_nota][['nome', 'nota']]
print(df_filtrado_nota)

     nome  nota
id             
1     Ana   8.5
2   Bruno   7.2
3   Carla   9.0
7    Gabi   7.9
9    Iris   8.1
11  Karen   8.7


## 4) filtragem e condicionais


31. filtre linhas onde `idade >= 18`.

In [39]:
df_maior_idade = df_data1_indexed[df_data1_indexed['idade'] >= 18]
print(df_maior_idade[['nome', 'idade']])

      nome  idade
id               
2    Bruno     22
3    Carla     35
4    Diego     28
5   Elaine     41
6   Felipe     19
7     Gabi     24
8     Hugo     33
9     Iris     26
11   Karen     29
12     Leo     45


32. crie um filtro composto: `idade > 18` **e** `cidade == 'SP'`.


In [40]:
filtro_composto = (df_data1_indexed['idade'] > 18) & (df_data1_indexed['cidade'] == 'SP')
df_filtrado_composto = df_data1_indexed[filtro_composto]
print(df_filtrado_composto[['nome', 'idade', 'cidade']])

      nome  idade cidade
id                      
4    Diego     28     SP
6   Felipe     19     SP
9     Iris     26     SP


33. use `isin` para manter apenas linhas com `status` em `['ativo','pendente']`.


In [41]:
status_desejados = ['ativo', 'pendente']
df_isin = df_data1_indexed[df_data1_indexed['status'].isin(status_desejados)]
print(df_isin[['nome', 'status']])

      nome    status
id                  
1      Ana     ativo
2    Bruno  pendente
3    Carla     ativo
5   Elaine     ativo
6   Felipe  pendente
7     Gabi     ativo
9     Iris     ativo
10    João  pendente
11   Karen     ativo
12     Leo     ativo


34. filtre linhas com valores nulos em `email`.


In [42]:
df_email_nulo = df_data1_indexed[df_data1_indexed['email'].isna()]
print(df_email_nulo[['nome', 'email']])

     nome email
id             
4   Diego   NaN


35. filtre linhas que **não** contêm `'@'` em `email` usando `str.contains` com `na=False`.


In [43]:
# O filtro '~' inverte o resultado de str.contains
filtro_sem_arroba = ~df_data1_indexed['email'].astype(str).str.contains('@', na=False)
df_sem_arroba = df_data1_indexed[filtro_sem_arroba]
print(df_sem_arroba[['nome', 'email']])

     nome                email
id                            
4   Diego                  NaN
9    Iris  iris[at]example.com


36. crie uma coluna `faixa` com `'adulto'` se `idade>=18`, senão `'menor'` (Dica: tente usar `np.where`).


In [44]:
df_data1_indexed['faixa'] = np.where(df_data1_indexed['idade'] >= 18, 'adulto', 'menor')
print(df_data1_indexed[['nome', 'idade', 'faixa']])

      nome  idade   faixa
id                       
1      Ana     17   menor
2    Bruno     22  adulto
3    Carla     35  adulto
4    Diego     28  adulto
5   Elaine     41  adulto
6   Felipe     19  adulto
7     Gabi     24  adulto
8     Hugo     33  adulto
9     Iris     26  adulto
10    João     16   menor
11   Karen     29  adulto
12     Leo     45  adulto


37. aplique `query` para `salario > 5000 and departamento == "TI"`.


In [45]:
df_query = df_data1_indexed.query('salario > 5000 and departamento == "TI"')
print(df_query[['nome', 'salario', 'departamento']])

     nome  salario departamento
id                             
3   Carla     7000           TI
11  Karen     5400           TI


38. recorte valores de `nota` para o intervalo 0–10 com `clip`.


In [46]:
df_data1_indexed['nota_clipped'] = df_data1_indexed['nota'].clip(lower=0, upper=10)
print(df_data1_indexed[['nome', 'nota', 'nota_clipped']])

      nome  nota  nota_clipped
id                            
1      Ana   8.5           8.5
2    Bruno   7.2           7.2
3    Carla   9.0           9.0
4    Diego   6.1           6.1
5   Elaine   9.3           9.3
6   Felipe   5.4           5.4
7     Gabi   7.9           7.9
8     Hugo   4.8           4.8
9     Iris   8.1           8.1
10    João   5.9           5.9
11   Karen   8.7           8.7
12     Leo   9.8           9.8


39. remova outliers de `preco` usando limite IQR simples.


In [47]:
Q1 = df_data1_indexed['preco'].quantile(0.25)
Q3 = df_data1_indexed['preco'].quantile(0.75)
IQR = Q3 - Q1

limite_superior = Q3 + 1.5 * IQR
limite_inferior = Q1 - 1.5 * IQR

df_sem_outliers_preco = df_data1_indexed[ (df_data1_indexed['preco'] >= limite_inferior) & (df_data1_indexed['preco'] <= limite_superior) ]

print(f"Limite Superior (Outlier): {limite_superior}")
print("DataFrame com e sem outliers de preco:\n", df_data1_indexed[['nome', 'preco']])
print("\nDataFrame SEM outliers de preco:\n", df_sem_outliers_preco[['nome', 'preco']])

Limite Superior (Outlier): 182.0625
DataFrame com e sem outliers de preco:
       nome  preco
id               
1      Ana   49.9
2    Bruno   29.5
3    Carla   99.0
4    Diego   15.0
5   Elaine  150.0
6   Felipe   12.0
7     Gabi   25.0
8     Hugo    0.0
9     Iris   75.5
10    João    9.5
11   Karen   55.0
12     Leo  200.0

DataFrame SEM outliers de preco:
       nome  preco
id               
1      Ana   49.9
2    Bruno   29.5
3    Carla   99.0
4    Diego   15.0
5   Elaine  150.0
6   Felipe   12.0
7     Gabi   25.0
8     Hugo    0.0
9     Iris   75.5
10    João    9.5
11   Karen   55.0


40. substitua valores negativos por `NaN` em `saldo`.

In [None]:
df_2 = pd.read_csv("../data/data2.csv")

df_2['saldo_tratado'] = df_2['saldo'].mask(df_2['saldo'] < 0, np.nan)
print(df_2[['nome', 'saldo', 'saldo_tratado']])

     nome   saldo  saldo_tratado
0     Ana     NaN            NaN
1     Ana  1000.0         1000.0
2     Ana   -50.0            NaN
3     Ana     NaN            NaN
4     Ana     NaN            NaN
5     Ana   500.0          500.0
6   Bruno     0.0            0.0
7   Bruno   200.0          200.0
8   Bruno     NaN            NaN
9   Bruno   300.0          300.0
10  Bruno     NaN            NaN
11  Bruno   400.0          400.0


## 5) dados faltantes (use data2.csv)

41. conte `NaN` por coluna com `isna().sum()`.

In [52]:
nan_counts = df_2.isna().sum()
print(nan_counts)

cliente_id         0
data               1
nome               0
cidade             2
cidade_cobranca    3
email              6
status             0
salario            4
valor              3
preco              4
nota               4
saldo              5
saldo_tratado      6
dtype: int64


42. remova linhas com qualquer `NaN` (`dropna`).

In [53]:
df_dropna = df_2.dropna()
print(df_dropna)

   cliente_id        data   nome cidade cidade_cobranca              email  \
6         202  2025-01-01  Bruno     RJ              RJ  bruno@example.com   

  status  salario  valor  preco  nota  saldo  saldo_tratado  
6  ativo   5200.0   80.0   29.5   7.2    0.0            0.0  


43. preencha `NaN` de uma coluna numérica com a média.

In [54]:
media_valor = df_2['valor'].mean()
df_2['valor_fill_mean'] = df_2['valor'].fillna(media_valor)
print("Média de Valor:", media_valor)
print(df_2[['valor', 'valor_fill_mean']])

Média de Valor: 120.0
    valor  valor_fill_mean
0   120.0            120.0
1   130.0            130.0
2     NaN            120.0
3   140.0            140.0
4   150.0            150.0
5   160.0            160.0
6    80.0             80.0
7    90.0             90.0
8   100.0            100.0
9     NaN            120.0
10  110.0            110.0
11    NaN            120.0


44. preencha `NaN` de uma coluna categórica com `'desconhecido'`.

In [55]:
df_2['email_fill'] = df_2['email'].fillna('desconhecido')
print(df_2[['email', 'email_fill']])

                email         email_fill
0     ana@example.com    ana@example.com
1                 NaN       desconhecido
2                 NaN       desconhecido
3                 NaN       desconhecido
4    ana @example.com   ana @example.com
5     ana@example.com    ana@example.com
6   bruno@example.com  bruno@example.com
7   bruno@example.com  bruno@example.com
8                 NaN       desconhecido
9                 NaN       desconhecido
10  bruno@example.com  bruno@example.com
11                NaN       desconhecido


45. preencha os valores ausentes de preco com a mediana por categoria (use `groupby('categoria')['preco'].transform('median')`).

In [56]:
# Calculando a mediana por nome e preenchendo os NaNs na coluna 'preco'
df_2['preco_fill_group'] = df_2['preco'].fillna(
    df_2.groupby('nome')['preco'].transform('median')
)
print(df_2[['nome', 'preco', 'preco_fill_group']])

     nome  preco  preco_fill_group
0     Ana   49.9             49.90
1     Ana    NaN             50.75
2     Ana   51.2             51.20
3     Ana   50.3             50.30
4     Ana    NaN             50.75
5     Ana   52.0             52.00
6   Bruno   29.5             29.50
7   Bruno   30.1             30.10
8   Bruno    NaN             30.55
9   Bruno   31.0             31.00
10  Bruno   32.5             32.50
11  Bruno    NaN             30.55


46. preencha valores ausentes de `preco` usando `interpolate()`.

In [57]:
# Usando a coluna 'preco' original
df_2['preco_interpolado'] = df_2['preco'].interpolate()
print(df_2[['preco', 'preco_interpolado']])

    preco  preco_interpolado
0    49.9              49.90
1     NaN              50.55
2    51.2              51.20
3    50.3              50.30
4     NaN              51.15
5    52.0              52.00
6    29.5              29.50
7    30.1              30.10
8     NaN              30.55
9    31.0              31.00
10   32.5              32.50
11    NaN              32.50


47. substitua strings vazias `''` por `NaN`.

In [59]:
df_data2_tratado = df_2.replace({"": np.nan})
print(df_data2_tratado)

    cliente_id        data   nome cidade cidade_cobranca              email  \
0          101  2025-01-01    Ana     SP              SP    ana@example.com   
1          101  2025-01-02    Ana    NaN              SP                NaN   
2          101  2025-01-03    Ana     SP             NaN                NaN   
3          101  2025-01-04    Ana     SP              SP                NaN   
4          101  2025-01-05    Ana    NaN              SP   ana @example.com   
5          101         NaN    Ana     SP              SP    ana@example.com   
6          202  2025-01-01  Bruno     RJ              RJ  bruno@example.com   
7          202  2025-01-02  Bruno     RJ             NaN  bruno@example.com   
8          202  2025-01-03  Bruno     RJ              RJ                NaN   
9          202  2025-01-04  Bruno     RJ              RJ                NaN   
10         202  2025-01-05  Bruno     RJ              RJ  bruno@example.com   
11         202  2025-01-06  Bruno     RJ            

48. avalie o impacto de `dropna` no tamanho do DataFrame.

In [60]:
tamanho_original = len(df_2)
tamanho_dropna = len(df_2.dropna())

print(f"Tamanho original: {tamanho_original} linhas")
print(f"Tamanho após dropna: {tamanho_dropna} linhas")
print(f"Linhas removidas: {tamanho_original - tamanho_dropna}")

Tamanho original: 12 linhas
Tamanho após dropna: 1 linhas
Linhas removidas: 11


49. calcule a porcentagem de `NaN` de todo o DataFrame.


In [61]:
total_celulas = df_2.size
total_nan = df_2.isna().sum().sum()
percentual_nan = (total_nan / total_celulas) * 100

print(f"Percentual de NaN: {percentual_nan:.2f}%")

Percentual de NaN: 18.63%


50. preencha `NaN` condicionais: se `cidade` é `NaN`, copie de `cidade_cobranca`.

In [62]:
df_2['cidade_fill_cond'] = df_2['cidade'].combine_first(df_2['cidade_cobranca'])

print(df_2[['cidade', 'cidade_cobranca', 'cidade_fill_cond']].head(6))

  cidade cidade_cobranca cidade_fill_cond
0     SP              SP               SP
1    NaN              SP               SP
2     SP             NaN               SP
3     SP              SP               SP
4    NaN              SP               SP
5     SP              SP               SP


## 6) agregações & groupby (use data3.csv)

51. calcule a média de `valor` por `categoria` (`groupby` + `mean`).

In [63]:
df_3 = pd.read_csv("../data/data3.csv")

media_por_categoria = df_3.groupby('categoria')['valor'].mean()
print(media_por_categoria)

categoria
A    368.582000
B    142.948333
C    175.377500
Name: valor, dtype: float64


52. conte linhas por `categoria` (use `size` ou `count`).


In [64]:
contagem_por_categoria = df_3.groupby('categoria').size()
print(contagem_por_categoria)

categoria
A    5
B    6
C    4
dtype: int64


53. obtenha o `sum`, `min`, `max` de `valor` por `categoria` numa única chamada (`agg`).


In [65]:
agregacao_multipla = df_3.groupby('categoria')['valor'].agg(['sum', 'min', 'max'])
print(agregacao_multipla)

               sum     min     max
categoria                         
A          1842.91  110.95  481.71
B           857.69   23.53  323.20
C           701.51   41.03  354.74


54. Calcule a média ponderada usando a coluna `peso`.

In [66]:
media_ponderada = (df_3['valor'] * df_3['peso']).sum() / df_3['peso'].sum()
print(f"Média Ponderada de Valor: {media_ponderada:.2f}")

Média Ponderada de Valor: 214.02


55. Destaque o `max` de pedido_total por cliente

In [67]:
max_pedido_por_cliente = df_3.groupby('cliente')['pedido_total'].max()
print(max_pedido_por_cliente)

cliente
Ana        278.37
Bruno     1352.28
Diego     1113.47
Elaine     201.87
Felipe     201.35
Hugo       461.99
Iris       818.65
Name: pedido_total, dtype: float64


56. crie percentuais: `valor` / soma do grupo.

In [68]:
df_3['valor_total_categoria'] = df_3.groupby('categoria')['valor'].transform('sum')
df_3['percentual_categoria'] = df_3['valor'] / df_3['valor_total_categoria']

print(df_3[['produto', 'categoria', 'valor', 'valor_total_categoria', 'percentual_categoria']])

   produto categoria   valor  valor_total_categoria  percentual_categoria
0       P4         C  354.74                 701.51              0.505681
1       P5         A  464.85                1842.91              0.252237
2       P7         B  323.20                 857.69              0.376826
3       P3         C   41.03                 701.51              0.058488
4       P1         A  110.95                1842.91              0.060204
5       P6         B  169.94                 857.69              0.198137
6       P7         B   23.53                 857.69              0.027434
7       P1         B   74.97                 857.69              0.087409
8       P1         B  165.90                 857.69              0.193427
9       P7         C  155.06                 701.51              0.221037
10      P4         B  100.15                 857.69              0.116767
11      P8         A  354.23                1842.91              0.192212
12      P3         A  481.71          

57. conte `nunique` de `produto` por `cliente`.

In [69]:
nunique_produto_por_cliente = df_3.groupby('cliente')['produto'].nunique()
print(nunique_produto_por_cliente)

cliente
Ana       1
Bruno     5
Diego     1
Elaine    3
Felipe    1
Hugo      1
Iris      2
Name: produto, dtype: int64


58. calcule desvio-padrão de `nota` por turma.

In [70]:
std_nota_por_turma = df_3.groupby('turma')['nota'].std()
print(std_nota_por_turma)

turma
T1    1.646208
T2    0.521536
T3    1.051982
Name: nota, dtype: float64


59. calcule a média de valor por categoria usando `groupby('categoria')['valor'].mean()`.

In [71]:
media_por_categoria_59 = df_3.groupby('categoria')['valor'].mean()
print(media_por_categoria_59)

categoria
A    368.582000
B    142.948333
C    175.377500
Name: valor, dtype: float64


60. conte quantas linhas há em cada categoria com groupby('categoria').size() e ordene do maior para o menor com `.sort_values(ascending=False)`.

In [72]:
contagem_ordenada = df_3.groupby('categoria').size().sort_values(ascending=False)
print(contagem_ordenada)

categoria
B    6
A    5
C    4
dtype: int64
