# Análise Titanic

![Imagem](Files/img.png)

### Primeiros tratamentos nas bases de Treino e Teste

In [120]:
# Importando pandas
import pandas as pd

In [121]:
# Lendo e visualizando a base de dados de treino
train = pd.read_csv("Files/train.csv")
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [122]:
# Lendo e visualizando a base de dados de treino
test = pd.read_csv("Files/test.csv")
test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


### Nessa primeira análise vamos apenas trainar nossos modelos com as colunas **Sex** e **Age**

In [123]:
# Dados de interesse
train = train[["PassengerId", "Survived", "Sex", "Age"]]
test = test[["PassengerId", "Sex", "Age"]]

In [124]:
# Valores na coluna Sex
train["Sex"].value_counts()

male      577
female    314
Name: Sex, dtype: int64

- Para coluna **Sex** podemos transformar os dados em binário. 1 = famele | 0 = male

In [125]:
# Convertendo a coluna Sex para binário
train['Sex_binary'] = train["Sex"].apply(lambda x: 1 if  x == "female" else 0)

In [126]:
# Fazendo a mesma conversão para base de teste
test['Sex_binary'] = test["Sex"].apply(lambda x: 1 if  x == "female" else 0)

In [127]:
# Eliminando coluna Sex das bases de dados
train = train.drop("Sex", axis=1)
test = test.drop("Sex", axis=1)

- Para coluna Age podemos substituir o valores nulos pela média

In [128]:
# Alterando os valores nulos na coluna Age, pela média base de treino
train.loc[train.Age.isnull(), "Age"] = train["Age"].mean()

In [129]:
# Alterando os valores nulos na coluna Age, pela média base de teste
test.loc[test.Age.isnull(), "Age"] = test["Age"].mean()

-------

# Criando Modelos

- Separando dados entre Treino e Validação

In [130]:
# Importando o train_test_split do Sklearn
from sklearn.model_selection import train_test_split

In [131]:
# Separando a base de dados de entre X e y
X = train_num.drop(["PassengerId", "Survived"], axis=1)
y = train_num["Survived"]

In [132]:
# Separando dados de treino entre Treino e Validação
train_X, valid_X, train_y, valid_y = train_test_split(X, y, random_state=1)

### Modelo Random Forest

In [133]:
# importando modelo e acurácia
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [134]:
# Treinando o Modelo
modelo_rf = RandomForestClassifier(random_state=1)
modelo_rf.fit(train_X, train_y)

RandomForestClassifier(random_state=1)

In [135]:
# Predizendo os dados de Validação
predicao_rf = modelo_rf.predict(valid_X)

In [136]:
# Acurácia entre a predição e dados reais
acuracia_rf = accuracy_score(valid_y, predicao_rf)

### Modelo KNeighborsClassifer

In [137]:
# Importando
from sklearn.neighbors import KNeighborsClassifier

In [138]:
# Treinando o Modelo
modelo_kn = KNeighborsClassifier(n_neighbors=3)
modelo_kn.fit(train_X, train_y)

KNeighborsClassifier(n_neighbors=3)

In [139]:
# Predizendo os dados de Validação
predicao_kn = modelo_kn.predict(valid_X)

In [140]:
# Acurácia entre a predição e dados reais
acuracia_kn = accuracy_score(valid_y, predicao_kn)

### Modelo Regressão Logística

In [141]:
# Importando
from sklearn.linear_model import LogisticRegression

In [142]:
# Treinando o Modelo
modelo_lr = LogisticRegression(random_state=1, max_iter=1000)
modelo_lr.fit(train_X, train_y)

LogisticRegression(max_iter=1000, random_state=1)

In [143]:
# Predizendo os dados de Validação
predicao_lr = modelo_lr.predict(valid_X)

In [144]:
# Acurácia entre a predição e dados reais
acuracia_lr = accuracy_score(valid_y, predicao_lr)

### Resultados de Modelagem

In [145]:
print(f"Acurácia Modelo RandomForest: {acuracia_rf}\n")
print(f"Acurácia Modelo KNeighborsClassifer: {acuracia_kn}\n")
print(f"Acurácia Modelo LogisticRegression: {acuracia_lr}")

Acurácia Modelo RandomForest: 0.6502242152466368

Acurácia Modelo KNeighborsClassifer: 0.6860986547085202

Acurácia Modelo LogisticRegression: 0.6591928251121076


#  Predizendo os dados de Teste com o modelo KNeighborsClassifer

In [146]:
X_train = train.drop(["PassengerId", "Survived"], axis=1)
y_train = train["Survived"]

In [147]:
X_test = test.drop("PassengerId", axis=1)

In [150]:
# Treinando o Modelo
modelo_final = KNeighborsClassifier(n_neighbors=3)
modelo_final.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

In [151]:
# Predizendo os dados de Validação
predicao_final = modelo_final.predict(X_test)

In [153]:
sub = pd.Series(predicao_final, index=test["PassengerId"], name="Survived")
sub.to_csv("Files/Primeira_predicao.csv", header=True)