# O que é pandas?

Documentação:
https://pandas.pydata.org/docs/

O pandas é um pacote de manipulação de dados em Python para dados tabulares. Ou seja, dados na forma de linhas e colunas, também conhecidos como DataFrames. Intuitivamente, você pode pensar em um DataFrame como uma planilha do Excel.

A funcionalidade do pandas inclui transformações de dados, como classificar linhas e obter subconjuntos, calcular estatísticas resumidas, como a média, remodelar DataFrames e unir DataFrames. O pandas funciona bem com outros pacotes populares de ciência de dados do Python, geralmente chamados de ecossistema PyData, incluindo

*   **NumPy** para computação numérica
*   **Matplotlib, Seaborn, Plotlye** outros pacotes de visualização de dados
*   **scikit-learn** para aprendizado de máquina

### Para que o pandas é usado?
O pandas é usado em todo o fluxo de trabalho de análise de dados. Com os pandas, você pode:

*  Importe conjuntos de dados de bancos de dados, planilhas, arquivos de valores separados por vírgula (CSV) e muito mais.
*  Limpar conjuntos de dados, por exemplo, lidando com valores ausentes.
*  Organize conjuntos de dados remodelando sua estrutura em um formato adequado para análise.
*  Agregue dados calculando estatísticas resumidas, como a média das colunas, a correlação entre elas e muito mais.
Visualize conjuntos de dados e descubra insights.

O pandas também contém funcionalidades para análise de séries temporais e análise de dados de texto.

## Principais benefícios do pacote pandas
Sem dúvida, o pandas é uma poderosa ferramenta de manipulação de dados com vários benefícios, incluindo:

*  Feito para Python: Python é a linguagem mais popular do mundo para aprendizado de máquina e ciência de dados.
*  Menos verboso por operações unitárias: O código escrito em pandas é menos detalhado, exigindo menos linhas de código para obter o resultado desejado.
*  Visão intuitiva dos dados: O pandas oferece uma representação de dados excepcionalmente intuitiva que facilita a compreensão e a análise dos dados.
*  Amplo conjunto de recursos: Ele oferece suporte a um amplo conjunto de operações de análise exploratória de dados, lidando com valores ausentes, calculando estatísticas, visualizando dados univariados e bivariados e muito mais.
*  Trabalha com dados grandes: pandas lida com grandes conjuntos de dados com facilidade. Ele oferece velocidade e eficiência ao trabalhar com conjuntos de dados da ordem de milhões de registros e centenas de colunas, dependendo da máquina.

## Instalar o pandas

A instalação do pandas é simples; basta usar o comando pip install em seu terminal.




```
pip install pandas
```

## Para importar



```
import pandas as pd
```





### Podemos construir pequenos DataFrames

Um DataFrame é a estrutura de dados principal da biblioteca Pandas. Ele funciona como uma tabela, parecida com uma planilha do Excel ou uma tabela de banco de dados.

Em outras palavras, é uma tabela bidimensional (linhas e colunas), onde cada coluna é uma Series (um vetor com rótulos) e cada linha tem um índice, que pode ser numérico ou personalizado.



In [None]:
import pandas as pd

# Criando uma tabela com dados fictícios
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [25, 30, 22],
    'Nota': [8.5, 7.0, 9.2]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,Nome,Idade,Nota
0,Ana,25,8.5
1,Bruno,30,7.0
2,Carlos,22,9.2


## Princpais métodos de um DataFrame

## 1. Criação e leitura

| Método                          | Descrição                                                    |
| ------------------------------- | ------------------------------------------------------------ |
| `pd.DataFrame(dados)`           | Cria um DataFrame a partir de dicionário, lista, array, etc. |
| `pd.read_csv('arquivo.csv')`    | Lê um arquivo CSV                                            |
| `pd.read_excel('arquivo.xlsx')` | Lê uma planilha do Excel                                     |
| `df.to_csv('saida.csv')`        | Salva o DataFrame em CSV                                     |
| `df.to_excel('saida.xlsx')`     | Salva o DataFrame em Excel                                   |

---

## 2. Visualização rápida

| Método       | Descrição                                       |
| ------------ | ----------------------------------------------- |
| `df.head(n)` | Mostra as primeiras `n` linhas (padrão = 5)     |
| `df.tail(n)` | Mostra as últimas `n` linhas                    |
| `df.info()`  | Exibe resumo das colunas, tipos e valores nulos |
| `df.shape`   | Mostra o número de linhas e colunas             |
| `df.columns` | Lista o nome das colunas                        |
| `df.index`   | Mostra o índice (linhas) do DataFrame           |
| `df.dtypes`  | Mostra o tipo de dado de cada coluna            |

---

## 3. Seleção e filtro

| Método                       | Descrição                             |
| ---------------------------- | ------------------------------------- |
| `df['coluna']`               | Seleciona uma coluna                  |
| `df[['coluna1', 'coluna2']]` | Seleciona várias colunas              |
| `df.loc[linha]`              | Seleciona por rótulo (nome do índice) |
| `df.iloc[linha]`             | Seleciona por posição (ex: linha 0)   |
| `df[df['idade'] > 20]`       | Filtra linhas com condição lógica     |

---

## 4. Manipulação de dados

| Método                                  | Descrição                       |
| --------------------------------------- | ------------------------------- |
| `df.drop(columns=['coluna'])`           | Remove coluna(s)                |
| `df.drop(index=0)`                      | Remove linha(s)                 |
| `df.rename(columns={'antigo': 'novo'})` | Renomeia coluna(s)              |
| `df.sort_values(by='coluna')`           | Ordena o DataFrame pela coluna  |
| `df.fillna(valor)`                      | Substitui valores nulos         |
| `df.dropna()`                           | Remove linhas com valores nulos |
| `df.astype(tipo)`                       | Converte tipo da coluna         |

---

## 5. Estatísticas e agregações

| Método                 | Descrição                                      |
| ---------------------- | ---------------------------------------------- |
| `df.describe()`        | Estatísticas descritivas das colunas numéricas |
| `df.mean()`            | Média                                          |
| `df.median()`          | Mediana                                        |
| `df.min()`             | Valor mínimo                                   |
| `df.max()`             | Valor máximo                                   |
| `df.sum()`             | Soma                                           |
| `df.count()`           | Número de valores não nulos                    |
| `df.value_counts()`    | Frequência dos valores de uma coluna           |
| `df.groupby('coluna')` | Agrupa por valores de uma coluna               |

---

## 6. Aplicação de funções

| Método                     | Descrição                                                |
| -------------------------- | -------------------------------------------------------- |
| `df.apply(funcao)`         | Aplica função a cada coluna ou linha                     |
| `df['coluna'].map(funcao)` | Aplica função elemento a elemento                        |
| `df.applymap(funcao)`      | Aplica função a todo o DataFrame (elemento por elemento) |

---

## 7. Outras utilidades

| Método                   | Descrição                                    |
| ------------------------ | -------------------------------------------- |
| `df.copy()`              | Cria uma cópia do DataFrame                  |
| `df.reset_index()`       | Reseta o índice                              |
| `df.set_index('coluna')` | Define uma coluna como índice                |
| `df.isnull()`            | Retorna `True` onde há valores nulos         |
| `df.notnull()`           | Retorna `True` onde **não** há valores nulos |



In [None]:
# Selecionando uma coluna
print("Notas:")
df['Nota']

Notas:


Unnamed: 0,Nota
0,8.5
1,7.0
2,9.2


In [None]:
# Filtrando alunos com nota acima de 8
print(df[df['Nota'] > 8])

     Nome  Idade  Nota
0     Ana     25   8.5
2  Carlos     22   9.2


In [None]:
# Adicionando uma nova coluna chamada "Status"
df['Status'] = ['Aprovado' if nota >= 7 else 'Reprovado' for nota in df['Nota']]
print(df)

     Nome  Idade  Nota    Status
0     Ana     25   8.5  Aprovado
1   Bruno     30   7.0  Aprovado
2  Carlos     22   9.2  Aprovado


In [None]:
# Cálculo de estatísticas
print("Média das notas:", df['Nota'].mean())

Média das notas: 8.233333333333333


# Exemplo Prático - Dataset Diabetes

Link dataset: https://www.kaggle.com/datasets/mathchi/diabetes-data-set

**Vamos primeiro carregar o dataset**

In [15]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("mathchi/diabetes-data-set")

print("Path to dataset files:", path)


Path to dataset files: /kaggle/input/diabetes-data-set


In [17]:
import pandas as pd

df = pd.read_csv('/kaggle/input/diabetes-data-set/diabetes.csv')

In [18]:
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


### 1. Visualização das colunas

In [19]:
df.head()         # Mostra as 5 primeiras linhas

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [20]:
df.tail()         # Mostra as 5 últimas

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
767,1,93,70,31,0,30.4,0.315,23,0


In [21]:
df.shape          # (442, 11)
df.info()         # Estrutura do DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [22]:
df.columns        # Nome das colunas

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

### 2. Seleção e filtros

In [23]:
df['BMI']                  # Seleciona a coluna 'bmi'

Unnamed: 0,BMI
0,33.6
1,26.6
2,23.3
3,28.1
4,43.1
...,...
763,32.9
764,36.8
765,26.2
766,30.1


In [24]:
df[['Age', 'BloodPressure']]          # Seleciona múltiplas colunas

Unnamed: 0,Age,BloodPressure
0,50,72
1,31,66
2,32,64
3,21,66
4,33,40
...,...,...
763,63,76
764,27,70
765,30,72
766,47,60


In [25]:
df.iloc[0:5]               # Primeiras 5 linhas (posicional)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [26]:
df.loc[0]                  # Linha com índice 0

Unnamed: 0,0
Pregnancies,6.0
Glucose,148.0
BloodPressure,72.0
SkinThickness,35.0
Insulin,0.0
BMI,33.6
DiabetesPedigreeFunction,0.627
Age,50.0
Outcome,1.0


In [27]:
df[df['BMI'] > 0.05]       # Filtra pacientes com IMC alto

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


### 3. Manipulação

In [28]:
df.rename(columns={'BloodPressure': 'Pressão do Sangue'})            # Renomeia a coluna

Unnamed: 0,Pregnancies,Glucose,Pressão do Sangue,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [29]:
df.sort_values(by='BMI', ascending=False)       # Ordena por IMC decrescente

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
177,0,129,110,46,130,67.1,0.319,26,1
445,0,180,78,63,14,59.4,2.420,25,1
673,3,123,100,35,240,57.3,0.880,22,0
125,1,88,30,42,99,55.0,0.496,26,1
120,0,162,76,56,100,53.2,0.759,25,1
...,...,...,...,...,...,...,...,...,...
371,0,118,64,23,89,0.0,1.731,21,0
145,0,102,75,23,0,0.0,0.572,21,0
81,2,74,0,0,0,0.0,0.102,22,0
49,7,105,0,0,0,0.0,0.305,24,0


In [30]:
df.fillna(0)                                    # Substitui nulos por 0 (se existirem)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [32]:
df.astype({'Age': float})                       # Converte tipo de 'age' para float

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50.0,1
1,1,85,66,29,0,26.6,0.351,31.0,0
2,8,183,64,0,0,23.3,0.672,32.0,1
3,1,89,66,23,94,28.1,0.167,21.0,0
4,0,137,40,35,168,43.1,2.288,33.0,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63.0,0
764,2,122,70,27,0,36.8,0.340,27.0,0
765,5,121,72,23,112,26.2,0.245,30.0,0
766,1,126,60,0,0,30.1,0.349,47.0,1


###  4. Estatísticas

In [33]:
df.describe()         # Estatísticas gerais

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [34]:
df.mean()             # Média de cada coluna

Unnamed: 0,0
Pregnancies,3.845052
Glucose,120.894531
BloodPressure,69.105469
SkinThickness,20.536458
Insulin,79.799479
BMI,31.992578
DiabetesPedigreeFunction,0.471876
Age,33.240885
Outcome,0.348958


In [38]:
print(f"Maior valor de IMC: {df['BMI'].max()} \t Menor idade: {df['Age'].min() } \t Mediana Insulina: {df['Outcome'].median()}")       # Maior IMC

Maior valor de IMC: 67.1 	 Menor idade: 21 	 Mediana Insulina: 0.0


 ### 5. Agrupamento

 Digamos que criamos uma nova coluna categórica para agrupar pacientes:

In [41]:
df['faixa_bmi'] = pd.cut(df['BMI'], bins=[0, 30, 70, 100], labels=['baixo', 'médio', 'alto'])

df.groupby('faixa_bmi')['Outcome'].mean()  # Média do target por faixa de IMC


  df.groupby('faixa_bmi')['Outcome'].mean()  # Média do target por faixa de IMC


Unnamed: 0_level_0,Outcome
faixa_bmi,Unnamed: 1_level_1
baixo,0.174658
médio,0.462366
alto,


6. Tratamento de dados

In [42]:
df.isnull().sum()          # Verifica valores nulos

Unnamed: 0,0
Pregnancies,0
Glucose,0
BloodPressure,0
SkinThickness,0
Insulin,0
BMI,0
DiabetesPedigreeFunction,0
Age,0
Outcome,0
faixa_bmi,11


In [43]:
df.dropna()                # Remove linhas com nulos

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,faixa_bmi
0,6,148,72,35,0,33.6,0.627,50,1,médio
1,1,85,66,29,0,26.6,0.351,31,0,baixo
2,8,183,64,0,0,23.3,0.672,32,1,baixo
3,1,89,66,23,94,28.1,0.167,21,0,baixo
4,0,137,40,35,168,43.1,2.288,33,1,médio
...,...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0,médio
764,2,122,70,27,0,36.8,0.340,27,0,médio
765,5,121,72,23,112,26.2,0.245,30,0,baixo
766,1,126,60,0,0,30.1,0.349,47,1,médio


# Outro exemplo Prático – Tratamento de Dados com Pandas usando o dataset Titanic
usaremos o famoso dataset **Titanic** para praticar limpeza e tratamento de dados com a biblioteca `pandas`.

**Objetivo:** preparar os dados para análise e modelos de IA.

In [None]:
# Importando bibliotecas
import pandas as pd

In [None]:
# Carregando o dataset Titanic (disponível online ou em bibliotecas como seaborn)
import seaborn as sns
df = sns.load_dataset('titanic')
df.head()

## 1. Explorando os dados

In [None]:
# Verificando as primeiras linhas
df.head()

In [None]:
# Verificando tipos de dados e valores nulos
df.info()

In [None]:
# Estatísticas básicas
df.describe(include='all')

## 2. Limpando os dados

In [None]:
# Removendo colunas que não serão utilizadas (ex: deck, embark_town, alive)
df = df.drop(columns=['deck', 'embark_town', 'alive'])

In [None]:
# Preenchendo valores nulos na idade com a média
df['age'] = df['age'].fillna(df['age'].mean())

In [None]:
# Preenchendo valores nulos de 'embarked' com o valor mais frequente
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

In [None]:
# Verificando se ainda existem valores nulos
df.isnull().sum()

## 3. Transformando variáveis categóricas

In [None]:
# Convertendo variáveis categóricas em dummies (one-hot encoding)
df_encoded = pd.get_dummies(df, columns=['sex', 'class', 'embarked'], drop_first=True)
df_encoded.head()

In [None]:
# Visualizando o DataFrame pronto para IA
df_encoded.info()

# **Vamos praticar**

### 1. **Cadastro de Alunos**

Crie um `DataFrame` com os seguintes dados de 3 alunos: Nome, Idade, Curso. Depois, exiba:

* A lista de colunas
* O número total de linhas

---

### 2. **Notas da Turma**

Monte um `DataFrame` com 5 alunos e suas notas em Matemática. Em seguida:

* Calcule a média geral
* Liste os alunos que tiraram acima de 7.0

---

### 3. **Filtrando uma Planilha**

Dado um `DataFrame` com filmes (nome, ano, gênero, nota), mostre:

* Apenas os filmes lançados depois de 2010
* Apenas os filmes de gênero "Ação"

---

### 4. **Organizando uma Tabela**

Crie um `DataFrame` com dados embaralhados e:

* Ordene pela coluna "idade", do mais novo para o mais velho
* Ordene pela coluna "nota", do maior para o menor

---

### 5. **Cálculo por Grupo**

Crie uma coluna “curso” e use `groupby()` para:

* Calcular a média de notas por curso

---

### 6. **Contando Categorias**

Dado um `DataFrame` com uma coluna de gêneros musicais (ex: 'Rock', 'Pop', 'Sertanejo', 'Rock', 'Pop'), conte:

* Quantas vezes aparece cada gênero com `value_counts()`


# **Mão na massa**

### **Aquisição do dataset**
Faça o download do dataset em [Titanic Dataset Kaggle](https://www.kaggle.com/datasets/yasserh/titanic-dataset)

### **Exploração de Dados (1–6)**

1. Carregue o dataset Titanic usando `pandas.read_csv('Titanic-Dataset.csv')` e mostre as 10 primeiras linhas.
2. Exiba a estrutura do DataFrame com `info()`.
3. Quantas colunas e quantas linhas o dataset possui?
4. Liste os nomes das colunas do DataFrame.
5. Quais colunas possuem valores nulos? E quantos valores nulos em cada?
6. Calcule a média de idade dos passageiros.


### **Estatísticas e Filtros (7–12)**

7. Quantos passageiros do sexo feminino embarcaram?
8. Quantos passageiros estavam na 1ª classe?
9. Liste apenas os passageiros com idade maior que 60 anos.
10. Qual a idade média dos passageiros sobreviventes?
11. Calcule a taxa de sobrevivência (número de sobreviventes dividido pelo total de passageiros).
12. Mostre os passageiros do sexo masculino que não sobreviveram e tinham menos de 18 anos.


### **Limpeza e Preenchimento de Dados (13–15)**

13. Remova a coluna `deck` do DataFrame.
14. Preencha os valores nulos da coluna `age` com a **mediana** da idade.
15. Substitua os valores nulos da coluna `embarked` pela letra `'S'`.


### **Transformações e Codificação (16–17)**

16. Crie uma nova coluna chamada `idade_categoria` com base na idade:

    * `'criança'` se idade < 12
    * `'adolescente'` se 12 <= idade < 18
    * `'adulto'` se 18 <= idade < 60
    * `'idoso'` se idade >= 60

17. Crie uma nova coluna `faixa_preco` com base na tarifa (`fare`): `'baixa'`, `'média'`, `'alta'`, usando `pd.cut()`.
