Importando bibliotecas

In [2]:
import pandas as pd
import pandas_profiling as pp
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import mode

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import preprocessing
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import Normalizer
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_predict
from sklearn.externals import joblib


Carregando dataset


In [3]:
train_df = pd.read_csv('datasets/train.csv')
test_df = pd.read_csv('datasets/test.csv')
titanic = pd.read_csv('datasets/gender_submission.csv')
df_resposta = pd.DataFrame()
data_df = pd.concat([train_df.drop(['Survived'], axis=1), test_df])


In [4]:
data_df.tail()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S
417,1309,3,"Peter, Master. Michael J",male,,1,1,2668,22.3583,,C


### Verificar se os dados de teste estão nos dados de treinamento


In [None]:
print(set(test_df.columns).issubset(set(train_df.columns)))

Conhecendo algums informações sobre o dataset

In [None]:
train_df.info()

Com este comando conseguimos visualizar quais são as colunas disponiveis, [PassegerID (Identificação do passageiro), Survived (sobreviveu), Pclass (classe do passageiro), Name (Nome), Sex (Sexo), Age (Idade), SibSp (conjuge no navio), Parch (filhos no navio), Ticket (passagem), Fare (tarifa), Cabin (Cabine), Embarked (embarque)] e a memória utilizada na leitura/processamento do arquivo: (+ ou - 83.6KB)


##### A função "head" exibe as primeiras 5 linhas do quadro de dados.

#### Vamos explorar as colunas:

##### PassengerId - este é apenas um ID gerado 
##### class - qual classe fez o passeio de passageiro - primeiro, segundo ou terceiro
##### Nome - auto explicativo
##### Sexo - masculino ou feminino
##### SibSp - eram o cônjuge ou irmãos do passageiro com eles no navio
##### Partch - eram os pais ou os filhos do passageiro com eles no navio
##### Bilhete - número do bilhete
##### Tarifa - valor da passagem
##### Cabine
##### Embarcado - porto de embarque
##### Sobreviveu - o passageiro sobreviveu ao naufrágio do Titanic?

In [None]:
train_df.head()

In [None]:
train_df.tail()

### Analisando os dados acima, acredito que podemos explorar na analise o seguintes campos:
#### Survived (Sobreviveu? 0 - Não / 1 - Sim)
#### Pclass (Classe: 1 - Primeira, 2 - Segunda, 3 - Terceira)
#### Sex (Sexo)
#### Age (Idade)

Conta a quantidade de linhas no dataset

In [None]:
len(train_df)

In [None]:
%matplotlib inline

plt.figure(figsize=(16,9))
sns.heatmap(train_df.corr(), annot=True, linewidths=0.5, linecolor='black', cmap='RdGy_r')
plt.xticks(rotation=90)
plt.show()

In [None]:
train_df.describe(include = "all")

Verificando a quantidade de linhas vazias para cada coluna

In [None]:
train_df.isnull().sum()

### No nosso dataset temos 891 linhas 


Observei que para a idade temos 177 linhas que nao possuem idade
estou supondo que a idade e importante para a sobrevivencia.
Assim vou preencher a idade de forma a nao deixar vazio.
 
Na coluna cabine temos 687 linhas vazias, presumo que seja um dado irrelavante
uma vez que temos a classe do passageiro.




### Obtendo a media de idade para poder preencher as linhas de idade nulas

In [None]:
mode(train_df['Age']).mode[0]

In [None]:
mode(test_df['Age']).mode[0]

#### inputando a media de idade para as linhas vazias

In [None]:
train_df['Age'].fillna(mode(train_df['Age']).mode[0], inplace=True)

In [None]:
test_df['Age'].fillna(mode(test_df['Age']).mode[0], inplace=True)

Preenchendo valores vazio na tarifa



In [None]:
train_df['Fare'].fillna(train_df['Fare'].mean(), inplace=True)

In [None]:
test_df['Fare'].fillna(test_df['Fare'].mean(), inplace=True)

# Analise de sobrevivente dividido por classes

#### Grafico dos sobreviventes por clase

In [None]:
print("Percentual de sobreviventes: 1 Classe:", train_df["Survived"][train_df["Pclass"] == 1].value_counts(normalize = True)[1]*100)

print("Percentual de sobreviventes: 2 Classe:", train_df["Survived"][train_df["Pclass"] == 2].value_counts(normalize = True)[1]*100)

print("Percentual de sobreviventes: 3 Classe:", train_df["Survived"][train_df["Pclass"] == 3].value_counts(normalize = True)[1]*100)

In [None]:
sns.barplot(x="Pclass", y="Survived", data=train_df)

### Vamos deixas as informações mais claras removendo as informações que nao seram uteis nas analises
###### Julgamos que estas variaveis nao serao de grande impacto para nosso modelo
#### Ticket, Cabin e PassegerId



In [None]:
train_df.drop(['Ticket','Cabin','PassengerId'], axis=1, inplace = True)

In [None]:
test_df.drop(['Ticket','Cabin','PassengerId'], axis=1, inplace = True)

In [None]:
train_df.head()

In [None]:
#agora precisamos preencher os valores ausentes no recurso Embarcado
print("Number of people embarking in Southampton (S):")
southampton = train_df[train_df["Embarked"] == "S"].shape[0]
print(southampton)

print("Number of people embarking in Cherbourg (C):")
cherbourg = train_df[train_df["Embarked"] == "C"].shape[0]
print(cherbourg)

print("Number of people embarking in Queenstown (Q):")
queenstown = train_df[train_df["Embarked"] == "Q"].shape[0]
print(queenstown)

##### Como a maioria das pessoas embarcaram no portao de Southampton, vamos preencher os nulos como Southampton

In [None]:
train_df = train_df.fillna({"Embarked": "S"})

In [None]:
test_df = test_df.fillna({"Embarked": "S"})

In [None]:
train_df.isnull().sum()

##### Precisamos que as variaveis Sex e Embarked sejam numericas, assim vamos deixar elas binarias

In [None]:
train_df = pd.get_dummies(train_df, dummy_na=True, columns=['Sex','Embarked'])

In [None]:
test_df = pd.get_dummies(test_df, dummy_na=True, columns=['Sex','Embarked'])

In [None]:
display(train_df.head())

#### Removendo Colunas Vazias

In [None]:
train_df.drop(['Sex_nan','Embarked_nan'], axis=1, inplace = True)

In [None]:
test_df.drop(['Sex_nan','Embarked_nan'], axis=1, inplace = True)

In [None]:
%matplotlib inline

plt.figure(figsize=(16,9))
sns.heatmap(train_df.corr(), annot=True, linewidths=0.5, linecolor='black', cmap='Blues')
plt.xticks(rotation=90)
plt.show()

In [None]:
#Agrupando a proporção de sobrevivente por classe e gerando um gráfico a partir do resultado

sobreviventes_classe = train_df.copy()
sobreviventes_classe['Survived'] = train_df['Survived'] == 1

sns.barplot(data=sobreviventes_classe, x="Pclass", y="Survived")

plt.title('Proporção de Sobreviventes por classe')
plt.ylabel('Proporção')
plt.show()

In [None]:
sns.barplot(x="Sex_female", y ="Survived", data=train_df)


In [None]:
for name_string in train_df['Name']:
    train_df['Title']=train_df['Name'].str.extract('([A-Za-z]+)\.',expand=True)
    
    

#replacing the rare title with more common one.
mapping = {'Mlle': 'Miss', 'Major': 'Mr', 'Col': 'Mr', 'Sir': 'Mr', 'Don': 'Mr', 'Mme': 'Miss',
          'Jonkheer': 'Mr', 'Lady': 'Mrs', 'Capt': 'Mr', 'Countess': 'Mrs', 'Ms': 'Miss', 'Dona': 'Mrs'}
train_df.replace({'Title': mapping}, inplace=True)

train_df['Title'].value_counts()

#### Discretizando a tarifa

In [None]:
train_df["Fare"].describe()

In [None]:
def discrete_fare(fare):
    if np.isnan(fare):
        return fare
    elif fare <= 7.8958:
        return 0
    elif fare <= 14.4542:
        return 1
    elif fare <= 31.275:
        return 2
    else:
        return 3

train_df["Discrete Fare"] = train_df.apply(lambda row: discrete_fare(row["Fare"]), axis=1)
train_df.head()

In [None]:
train_df.info()

In [None]:
%matplotlib inline

plt.figure(figsize=(16,9))
sns.heatmap(train_df.corr(), annot=True, linewidths=0.5, linecolor='black', cmap='Blues')
plt.xticks(rotation=90)
plt.show()

## Relatório de Análise Exploratória com o pandas_profiling

Vamos visualizar agora algumas informações sobre esse dataset com o pandas_profiling que facilita todo o processo de obter informações sobre o dataset:

In [None]:
pp.ProfileReport(train_df)

In [None]:
train_df.head()

### Separação dos dados de treino e classe


_**Definição da classe:**_ O que queremos descobrir nesse estudo? Se o tripulante do titanic sobreviveu ou nao <br>


In [None]:
#classe = train_df['Survived']

Separação das variaveis do modelo (features) - Somente os dados numéricos considerados relevantes, no caso as variáveis definidas anteriormente: ['Pclass', 'Age', 'Sex_famale', 'Sex_male', 'Embarked_C', 'Embarked_Q', 'Embarked_S']

In [None]:
# Definição do dataset de treino somente com as informações relevantes para treinar o modelo
#features = ['Pclass','Age','Sex_female','Sex_male','Embarked_C','Embarked_Q','Embarked_S','SibSp','Fare','Parch']
#x_train = train_df[features]

Vamos selecionar os dados de teste contendo somente as features necessárias a análise:

In [None]:
#x_test = test_df[features]

In [None]:
# Criando o objeto RandomForest
#rf = RandomForestRegressor(random_state=42, n_estimators=200).fit(x_train,classe)
#rf

In [None]:
# Score do classificador usando a métrica R-quadrado (coeficiente de determinação)
#rf.score(x_train,classe)

In [None]:
#sobreviventes = rf.predict(x_test)

In [None]:
#df_resposta['Survived'] = np.around(sobreviventes,2)

In [None]:
# Exemplos de sobreviventes
#df_resposta['Survived'].unique()

In [None]:
#sobreviventes

In [None]:
#test_df.head()

In [None]:
#df_resposta.to_csv('datasets/sobreviu.csv', index=False, header=True)

In [None]:
# Salvar o modelo preditivo
#joblib.dump(rf, 'rf_regressor.pkl')

# Usar/carregar o modelo preditivo
#rf2 = joblib.load('rf_regressor.pkl')
#rf2.predict(x_test)

In [None]:
#data_df = pd.concat([train_df.drop(['Survived'], axis=1), test_df])
#print(set(test_df.columns).issubset(set(train_df.columns)))

## Importando o KNN e criando nosso classificador

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_treino, y_treino)
knn.score(X_teste, y_teste)