# Pipeline para Machine Learning

## 1. Importando os pacotes

In [None]:
import joblib
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

## 2. Carregando e preparando os dados

In [None]:
# Carregando os dados - dataset
df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

# Selecionando os atributos mais relevantes
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
df = df[features + ['Survived']].dropna()  # Removendo as colunas com valores ausentes

# Mostrando os primeiros 5 registros
print(df.head())

### Explicando os atributos utilizados

1. Pclass (Passenger Class)
<br>Tipo: Categ√≥rica (mas geralmente tratada como num√©rica: 1, 2, 3)
<br>Descri√ß√£o: Classe do bilhete do passageiro.
<br>1 = Primeira classe (mais rica)
<br>2 = Segunda classe
<br>3 = Terceira classe (mais pobre)
<br>Relev√¢ncia: Passageiros da 1¬™ classe tiveram mais chance de sobreviver.
<br>
<br>
3. Sex
<br>Tipo: Categ√≥rica (male, female)
<br>Descri√ß√£o: Sexo do passageiro.
<br>Relev√¢ncia: Mulheres tiveram prioridade nos botes salva-vidas, ent√£o o sexo influenciou muito na sobreviv√™ncia.
<br><br>
4. Age
<br>Tipo: Num√©rica (cont√≠nua)
<br>Descri√ß√£o: Idade do passageiro.
<br>Relev√¢ncia: Crian√ßas pequenas tamb√©m tiveram prioridade; al√©m disso, idade pode influenciar na capacidade de reagir em uma emerg√™ncia.
<br><br>
5. SibSp (Siblings/Spouses Aboard)
<br>Tipo: Num√©rica (inteira)
<br>Descri√ß√£o: Quantidade de irm√£os ou c√¥njuges a bordo com o passageiro.
<br>SibSp = 0 ‚Üí Estava sozinho.
<br>SibSp = 1 ‚Üí Com um irm√£o(a) ou esposo(a), etc.
<br>Relev√¢ncia: Estar com familiares pode ter influenciado nas decis√µes durante o desastre.
<br><br>
7. Parch (Parents/Children Aboard)
<br>Tipo: Num√©rica (inteira)
<br>Descri√ß√£o: N√∫mero de pais ou filhos a bordo.
<br>Parch = 0 ‚Üí Sem pais/filhos com ele(a).
<br>Relev√¢ncia: Assim como SibSp, pode indicar se a pessoa estava em fam√≠lia ‚Äî o que afeta seu comportamento.
<br><br>
9. Fare
<br>Tipo: Num√©rica (cont√≠nua)
<br>Descri√ß√£o: Valor da passagem paga pelo passageiro.
<br>Relev√¢ncia: Em geral, quem pagou mais pode ter tido acesso a melhores cabines (relacionado √† Pclass), o que pode impactar na chance de sobreviver.
<br><br>
11. Embarked (Port of Embarkation)
<br>Tipo: Categ√≥rica (C, Q, S)
<br>Descri√ß√£o: Porto de embarque do passageiro:
<br>C = Cherbourg (Fran√ßa)
<br>Q = Queenstown (Irlanda)
<br>S = Southampton (Inglaterra)
<br>Relev√¢ncia: O porto de embarque pode estar relacionado √† classe social ou localiza√ß√£o da cabine.

## 3. Definindo as etapas do pr√©-processamento

In [None]:
# Definindo os atributos num√©ricos e categ√≥ricos
num_features = ['Age', 'SibSp', 'Parch', 'Fare']
cat_features = ['Pclass', 'Sex', 'Embarked']

# Definindo as normaliza√ß√µes do pr√©-processamento
num_transformer = StandardScaler()  # Todos os valores num√©ricos na mesma escala
cat_transformer = OneHotEncoder(handle_unknown='ignore')  # Todos as valores categ√≥ricos codificados com o One-hot encoding

# Combinando as normaliza√ß√µes em um objeto de pr√©-processamento (preprocessor)
preprocessor = ColumnTransformer([
    ('num', num_transformer, num_features),
    ('cat', cat_transformer, cat_features)
])

### 3.1 Exemplos de normaliza√ß√£o

üßæ Dados Originais (Antes do Pr√©-processamento)

| Age | SibSp | Parch | Fare  | Pclass | Sex   | Embarked |
|-----|--------|-------|--------|--------|--------|-----------|
| 22  | 1      | 0     | 7.25   | 3      | male  | S         |
| 38  | 1      | 0     | 71.28  | 1      | female| C         |
| 26  | 0      | 0     | 7.92   | 3      | female| Q         |
| 35  | 1      | 0     | 53.10  | 1      | male  | S         |
| 28  | 0      | 0     | 8.05   | 3      | male  | S         |


‚öôÔ∏è Dados Ap√≥s o Pr√©-processamento

 Num√©ricos transformados com `StandardScaler`

| Age     | SibSp   | Parch  | Fare     |
|---------|---------|--------|----------|
| -1.20   | 0.87    | 0.00   | -0.82    |
| 1.56    | 0.87    | 0.00   | 1.87     |
| -0.52   | -1.16   | 0.00   | -0.76    |
| 0.96    | 0.87    | 0.00   | 1.17     |
| -0.80   | -1.16   | 0.00   | -0.73    |

 üîπ Categ√≥ricos transformados com `OneHotEncoder`

| Pclass_1 | Pclass_3 | Sex_female | Sex_male | Embarked_C | Embarked_Q | Embarked_S |
|----------|----------|------------|----------|------------|------------|-------------|
| 0        | 1        | 0          | 1        | 0          | 0          | 1           |
| 1        | 0        | 1          | 0        | 1          | 0          | 0           |
| 0        | 1        | 1          | 0        | 0          | 1          | 0           |
| 1        | 0        | 0          | 1        | 0          | 0          | 1           |
| 0        | 1        | 0          | 1        | 0          | 0          | 1           |

 ‚úÖ Dados Finais Concatenados

| Age   | SibSp | Parch | Fare  | Pclass_1 | Pclass_3 | Sex_female | Sex_male | Embarked_C | Embarked_Q | Embarked_S |
|-------|--------|--------|--------|------------|------------|-------------|------------|---------------|---------------|---------------|
| -1.20 | 0.87   | 0.00   | -0.82 | 0          | 1          | 0           | 1          | 0             | 0             | 1             |
| 1.56  | 0.87   | 0.00   | 1.87  | 1          | 0          | 1           | 0          | 1             | 0             | 0             |
| -0.52 | -1.16  | 0.00   | -0.76 | 0          | 1          | 1           | 0          | 0             | 1             | 0             |
| 0.96  | 0.87   | 0.00   | 1.17  | 1          | 0          | 0           | 1          | 0             | 0             | 1             |
| -0.80 | -1.16  | 0.00   | -0.73 | 0          | 1          | 0           | 1          | 0             | 0             | 1             |


## 4. Dividindo os dados para treinamento e teste

In [None]:
# Definindo a var√°vel algo e os atributos
X = df[features]
y = df['Survived']

# Dividindo entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrando dimens√µes de linhas e colunas dos dados
print(f"Dimens√µes do conjunto de treino - linhas: {X_train.shape[0]} e colunas: {X_train.shape[1]}")
print(f"Dimens√µes do conjunto de teste - linhas: {X_test.shape[0]} e colunas: {X_test.shape[1]}")

## 5. Criando e treinando o modelo

In [None]:
# Definindo o pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),  # Transforma√ß√£o dos dados
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))  # Modelo de Machine Learning
])

# Treinando o modelo
pipeline.fit(X_train, y_train)
print("Treinamento do modelo completo!")

## 6. Avaliando o modelo

In [None]:
# Fazendo as predi√ß√µes
y_pred = pipeline.predict(X_test)

# Verificando a acur√°cia
accuracy = accuracy_score(y_test, y_pred)
# Propor√ß√£o de previs√µes corretas em rela√ß√£o ao total de previs√µes feitas.
print(f"Acur√°cia do modelo: {accuracy:.2f} ou  {accuracy* 100:.2f} %") 

## 7. Persistindo e carregando o modelo

In [None]:
# Persistindo a pipeline com o pr√©-processamento e o modelo inclusos
joblib.dump(pipeline, 'modelo/modelo_titanic.pkl')

# Carregando a pipeline com o pr√©-processamento e o modelo inclusos
loaded_pipeline = joblib.load('modelo/modelo_titanic.pkl')

## 8. Fazendo a predi√ß√£o com o modelo carregado

In [None]:
# Fazendo a predi√ß√£o com a pipeline carregada
sample_data = pd.DataFrame([{'Pclass': 3, 'Sex': 'male', 'Age': 25, 'SibSp': 0, 'Parch': 0, 'Fare': 7.5, 'Embarked': 'S'}])
prediction = loaded_pipeline.predict(sample_data)
print(f"Predi√ß√£o: {'Sobreviveu' if prediction[0] == 1 else 'N√£o sobreviveu'}")