<a href="https://colab.research.google.com/github/TainaDr/pipeline_titanic/blob/main/transferencia_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Realize a extração dos dados do Titanic



In [None]:
import pandas as pd
import numpy as np

url = "https://raw.githubusercontent.com/TainaDr/pipeline_titanic/main/titanic.csv"
dataFrame = pd.read_csv(url)

## 2. Exibição das informações do conjunto de dados

In [None]:
print(dataFrame.info())

## 3. Exibição das estatísticas descritivas

In [None]:
print(dataFrame.describe())

## 4. Demonstração dos valores ausentes por coluna

In [None]:
dataFrame.columns = dataFrame.columns.str.strip()
print(dataFrame.isnull().sum())

## 5. Age: Preenchimento das idades faltantes utilizando a mediana por classe e sexo

In [None]:
def preencher_idade(row):
    if pd.isna(row['Age']):
        mediana = dataFrame.groupby(['Pclass', 'Sex'])['Age'].median()
        return mediana.loc[row['Pclass'], row['Sex']]
    else:
        return row['Age']

dataFrame['Age'] = dataFrame.apply(preencher_idade, axis=1)

## 6. Age: Preenchimento dos valores ausentes restantes com a mediana geral

In [None]:
medianaGeral = dataFrame['Age'].median()
dataFrame['Age'].fillna(mediana)

## 7. Embarked: Preenchimento dos valores ausentes com o valor mais frequente

In [None]:
mais_frequente = dataFrame['Embarked'].mode()[0]
dataFrame['Embarked'] = dataFrame['Embarked'].fillna(mais_frequente)

## 8. Cabin: Criação de feature indicadora se existe cabine ou não

In [None]:
dataFrame[''] = dataFrame['Cabin'].notna().astype(int)
print(dataFrame[['Cabin', 'HasCabin']])

## 9. Fare: Preenchimento dos valores ausentes com a média, agrupando por classe

In [None]:
dataFrame['Age'] = dataFrame['Age'].fillna(
    dataFrame.groupby('Pclass')['Age'].transform('mean')
)

print("Valores ausentes em Age:", dataFrame['Age'].isna().sum())

print(dataFrame[['Pclass', 'Age']])

## 10. Age: Criação de feature indicativa para grupos de idade

In [None]:
dataFrame['ageGroup'] = pd.cut(
    dataFrame["Age"],
    bins = [0, 12, 18, 35, 60, 100],
    labels = ["Child", "Teenager", "Young Adult", "Adult", "Elderly"],
)

## 11. Fare: Criação de feature indicativa para grupos de tarifa

In [None]:
dataFrame['fareGroup'] = pd.cut(
    dataFrame["Fare"],
    bins = [0, 7.9, 14.45, 31, 600],
    labels = ["Low", "Medium", "Medium-High", "High"]
)

In [None]:
dataFrame.to_csv('corrigido.csv')