In [32]:
# importando as bibliotecas
import pandas as pd
import numpy as np

In [33]:
# importando os dados de treino e de teste
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [34]:
# visualizando os dados
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [35]:
# importando o pacote de visualização e modelagem
from sklearn.ensemble import RandomForestClassifier

In [38]:
# criando a instancia do modelo, bem como definindo os hiperparametros  do modelo
modelo = RandomForestClassifier(n_estimators=100, n_jobs=-1, random_state=0)


In [39]:
# obserrvando os dados sobre a variavel Sex (confirmando que só existem dois valores possiveis)
train['Sex'].value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

In [40]:
# como o modelo não aceita variáveis categóricas, vamos transformar a variável sexo em binário, ou seja numérica 

# criando uma função para transformar os valores de sexo em binário
def transformar_sexo(valor):
    if valor == 'female':
        return 1
    else:
        return 0
    
train['Sex_binario'] = train['Sex'].map(transformar_sexo)
        

In [41]:
# Observando as variáveis
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Sex_binario
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


In [42]:
# definindo as variáveis
variaveis = ['Sex_binario', 'Age']

In [43]:
# Atribuindo as variáveis
X = train[variaveis]
y = train['Survived']

In [44]:
# verificando os valores de X
X.head()

Unnamed: 0,Sex_binario,Age
0,0,22.0
1,1,38.0
2,1,26.0
3,1,35.0
4,0,35.0


In [45]:
# Verificando os valores de y
y.head()

0    0
1    1
2    1
3    1
4    0
Name: Survived, dtype: int64

In [46]:
# preenchendo os valores faltantes com -1, pois o modelo não aceita valores faltantes e não existem valores negativos
X = X.fillna(-1)

In [47]:
# definindo o modelo
modelo.fit(X, y)

In [48]:
# Transformando a variável 'Sex_binario' para a variável de teste
test['Sex_binario'] = test['Sex'].map(transformar_sexo)

In [49]:
X_prev = test[variaveis] # atribuindo as variáveis de teste
X_prev = X_prev.fillna(-1) # preenchendo os valores faltantes com -1
X_prev.head() # verificando os valores de X_prev

Unnamed: 0,Sex_binario,Age
0,0,34.5
1,1,47.0
2,0,62.0
3,0,27.0
4,1,22.0


In [50]:
# utilizando o modelo para fazer previsões, ou seja, quem sobreviveu e quem não sobreviveu
# o modelo retorna 0 para quem não sobreviveu e 1 para quem sobreviveu
# usamos o método predict para fazer as previsões
p = modelo.predict(X_prev)
p # visualizando as previsões

array([0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1,
       1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1,
       1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1,
       0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,

In [51]:
test.head() #olhando os dados de teste

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Sex_binario
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,0
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S,1
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,0
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,0
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,1


In [55]:
# Criando uma estrutura de dados para submissão
# index=test['PassengerId'] é para pegar a coluna PassengerId do conjunto de teste
# name='Survived' é para nomear a coluna de previsões de sobrevivência
sub = pd.Series(p, index=test['PassengerId'], name='Survived')
sub.shape

(418,)

In [57]:
sub.to_csv("primeiro_modelo.csv", header=True) # salvando o arquivo

In [58]:
!head -n10 primeiro_modelo.csv # visualizando as 10 primeiras linhas do arquivo

'head' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


In [59]:
# Lendo as primeiras 10 linhas do arquivo CSV
df = pd.read_csv('primeiro_modelo.csv', nrows=10)
print(df)

   PassengerId  Survived
0          892         0
1          893         1
2          894         0
3          895         1
4          896         1
5          897         0
6          898         1
7          899         0
8          900         1
9          901         0
