# üßπ Limpeza e Transforma√ß√£o de Dados com Pandas

## 1. Introdu√ß√£o

A limpeza e transforma√ß√£o de dados s√£o etapas cruciais em qualquer projeto de an√°lise. Dados brutos raramente v√™m prontos para uso, e o Pandas oferece ferramentas poderosas para lidar com valores ausentes, duplicados e formatos inconsistentes.

Neste notebook, vamos:
1.  Identificar e tratar valores ausentes.
2.  Remover dados duplicados.
3.  Converter e padronizar tipos de dados.
4.  Realizar transforma√ß√µes para criar novas informa√ß√µes.

Usaremos o famoso dataset do Titanic, que cont√©m problemas comuns de dados.

---

## 2. Configura√ß√£o e Carregamento dos Dados

Vamos importar o Pandas e carregar o dataset do Titanic.



In [3]:
import pandas as pd

# Carregando o dataset do Titanic de uma URL p√∫blica
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

print("Visualiza√ß√£o inicial dos dados:")
print(df.head())
print("\nInforma√ß√µes sobre os dados:")
print(df.info())

Visualiza√ß√£o inicial dos dados:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            3

---
## 3. Lidando com Valores Ausentes (NaN)
A primeira etapa da limpeza √© identificar e tratar os valores ausentes (representados como `NaN`).  
### 01_Identificando valores ausentes  
O m√©todo `.isnull()` retorna um DataFrame de booleanos, e o `.sum()` nos d√° a contagem de valores nulos por coluna.

In [4]:
# Contando valores nulos em cada coluna
print("Contagem de valores nulos:")
print(df.isnull().sum())

Contagem de valores nulos:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


### 02_Estrat√©gias de tratamento  
Temos dados ausentes nas colunas `'Age' (idade)` e `'Cabin' (cabine)`.  
- Para 'Cabin', a grande quantidade de valores nulos torna a coluna menos √∫til. Podemos considerar remov√™-la.  
- Para 'Age', a quantidade de nulos √© menor, e a idade √© uma vari√°vel importante. Podemos preencher esses valores.
 
### 03_Removendo colunas com muitos valores ausentes

In [5]:
# Removendo a coluna 'Cabin'
df_sem_cabin = df.drop('Cabin', axis=1)

print("\nDataFrame ap√≥s remover a coluna 'Cabin':")
print(df_sem_cabin.isnull().sum())


DataFrame ap√≥s remover a coluna 'Cabin':
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         2
dtype: int64


### 04_Preenchendo valores ausentes  
Uma forma comum √© preencher os valores ausentes com a m√©dia (`.mean()`) da coluna.

In [6]:
# Preenchendo os valores nulos da coluna 'Age' com a m√©dia
media_idade = df_sem_cabin['Age'].mean()
df_sem_cabin['Age'].fillna(media_idade, inplace=True)

print("\nValores nulos ap√≥s preencher a idade com a m√©dia:")
print(df_sem_cabin.isnull().sum())


Valores nulos ap√≥s preencher a idade com a m√©dia:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       2
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_sem_cabin['Age'].fillna(media_idade, inplace=True)


---
## 4. Lidando com Dados Duplicados
Dados duplicados podem distorcer a an√°lise. √â fundamental identific√°-los e remov√™-los.  
### 01_Verificando e removendo duplicatas

In [7]:
# Verificando a quantidade de linhas duplicadas
print(f"Linhas duplicadas antes da remo√ß√£o: {df_sem_cabin.duplicated().sum()}")

# Removendo linhas duplicadas (manter a primeira ocorr√™ncia)
df_limpo = df_sem_cabin.drop_duplicates()

print(f"Linhas duplicadas ap√≥s a remo√ß√£o: {df_limpo.duplicated().sum()}")

Linhas duplicadas antes da remo√ß√£o: 0
Linhas duplicadas ap√≥s a remo√ß√£o: 0


---
## 5. Transforma√ß√£o de Dados
A transforma√ß√£o de dados envolve a cria√ß√£o de novas colunas ou a convers√£o de tipos para enriquecer a an√°lise.  
### 01_Convertendo tipos de dados
A coluna 'Survived' est√° como int64. Podemos convert√™-la para um tipo categ√≥rico.

In [8]:
# Convertendo a coluna 'Survived' para um tipo categ√≥rico
df_limpo['Survived'] = df_limpo['Survived'].astype('category')

print("\nNovos tipos de dados:")
print(df_limpo.info())


Novos tipos de dados:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int64   
 1   Survived     891 non-null    category
 2   Pclass       891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    object  
 5   Age          891 non-null    float64 
 6   SibSp        891 non-null    int64   
 7   Parch        891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Embarked     889 non-null    object  
dtypes: category(1), float64(2), int64(4), object(4)
memory usage: 70.7+ KB
None


### 02_Criando novas colunas  
Vamos criar uma coluna `Is_Alone` (est√° sozinho) baseada nas colunas `SibSp` (irm√£os/c√¥njuges) e `Parch` (pais/crian√ßas).

In [9]:
# Criando a coluna 'FamilySize' (tamanho da fam√≠lia)
df_limpo['FamilySize'] = df_limpo['SibSp'] + df_limpo['Parch'] + 1

# Criando a coluna 'Is_Alone' (est√° sozinho)
df_limpo['Is_Alone'] = (df_limpo['FamilySize'] == 1).astype(int)

print("\nPrimeiras linhas com as novas colunas:")
print(df_limpo.head())


Primeiras linhas com as novas colunas:
   PassengerId Survived  Pclass  \
0            1        0       3   
1            2        1       1   
2            3        1       3   
3            4        1       1   
4            5        0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Embarked  FamilySize  Is_Alone  
0      0         A/5 21171   7.2500        S           2         0  
1      0          PC 17599  71.2833        C           2         0  
2      0  STON/O2. 3101282   7.9250        S           1         1  
3      0  

---
## üèÅ Conclus√£o
Neste notebook, vimos as principais etapas de **limpeza** e **transforma√ß√£o de dados** com o **Pandas**.  
- A primeira etapa √© a identifica√ß√£o e o tratamento de dados ausentes e duplicados, garantindo a qualidade da sua base.  
- A convers√£o de tipos de dados e a cria√ß√£o de novas features s√£o cruciais para preparar os dados para an√°lises mais profundas e para a modelagem.  
