# Criação do modelo de ML

Este código faz parte de um workshop prático de Machine Learning, no qual será desenvolvido um modelo de classificação para prever a sobrevivência de passageiros no desastre do Titanic, utilizando dados reais. O código realiza as seguintes etapas:

1.   Carregamento e pré-processamento dos dados: Os dados do Titanic são carregados, e as etapas de limpeza e tratamento das informações são aplicadas (remoção de valores ausentes, conversão de variáveis categóricas, etc.).
2.   Criação do Modelo de Machine Learning: Um modelo de classificação é treinado utilizando um algoritmo de machine learning, o Random Forest classifier, para prever a probabilidade de sobrevivência dos passageiros com base em características como idade, gênero, classe de viagem, entre outras.
3. Avaliação do Modelo: O desempenho do modelo é avaliado, proporcionando uma visão da eficácia das previsões.
4. Exportação do Modelo Treinado: Após o treinamento, o modelo é exportado para um arquivo, que poderá ser utilizado em aplicações futuras para fazer previsões sobre novos dados.


Importação das libs necessárias nesse código

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import pickle

leitura da base de dados que será utilizada no treinamento

[link da base aqui](https://www.kaggle.com/competitions/titanic/data?select=train.csv)

In [None]:
# Carregar os dados
data = pd.read_csv('/content/train.csv')
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


pré-processamento básico da base de dados para treinar o modelo

In [None]:
# Pré-processamento dos dados
data = data.dropna(subset=['Age', 'Embarked', 'Fare'])  # Remover valores nulos

# Transformar sexo em valores numéricos
data.loc[data['Sex'] == "male", 'Sex'] = 0
data.loc[data['Sex'] == "female", 'Sex'] = 1

# Codificar a coluna 'Embarked'
data.loc[data['Embarked'] == "C", 'Embarked'] = 0
data.loc[data['Embarked'] == "Q", 'Embarked'] = 0
data.loc[data['Embarked'] == "S", 'Embarked'] = 0

data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,0
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,0
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,0


In [None]:
# Definir as variáveis preditoras e alvo
X = data[['Pclass', 'Sex', 'Age', 'Fare', 'Embarked']]
y = data['Survived']

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Treinamento do modelo

In [None]:
# Treinar o modelo de Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

In [None]:
model.score(X_test, y_test)

0.7663551401869159

Exportação do modelo

In [None]:
# Exportar o modelo treinado para um arquivo .pkl
with open('modelo_titanic.pkl', 'wb') as file:
    pickle.dump(model, file)

print("Modelo treinado e exportado como 'modelo_titanic.pkl'")

Modelo treinado e exportado como 'modelo_titanic.pkl'
