# TITANIC KAGGLE 

## Análise Exploratória (EDA), e testes de modelos de ML.

# BIBLIOTECAS

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

pd.options.display.max_columns = None

# CARREGANDO OS DADOS

In [None]:
train = pd.read_csv('../input/titanic/train.csv')
test = pd.read_csv('../input/titanic/test.csv')
data = [train, test]
train.head()

# VISUALIZANDO OS DADOS

In [None]:
train.shape

In [None]:
test.shape

In [None]:
print(train.dtypes)

In [None]:
print(test.dtypes)

In [None]:
train.isna().sum().sort_values(ascending=False)


In [None]:
test.isna().sum().sort_values(ascending=False)

In [None]:
for dataset in data:
    dataset['Age'].fillna(dataset['Age'].mean(), inplace=True)
    

In [None]:
for dataset in data:
    dataset['Fare'].fillna(dataset['Fare'].mean(), inplace=True)

In [None]:
top = 'S'
for dataset in data:
    dataset['Embarked'] = dataset['Embarked'].fillna(top)
    
train.isnull().sum().sort_values(ascending=False)


In [None]:
train.describe()

In [None]:
train.describe(include = ['O'])

In [None]:
train.info()

In [None]:
train.hist(figsize=(10,8))

# ANÁLISE EXPLORATÓRIA (EDA)

In [None]:
train_drop_passengerId = train.drop(['PassengerId'], axis = 1)
train_drop_passengerId.head()
train_drop_passengerId_corr = train_drop_passengerId.corr()
train_drop_passengerId_corr['Survived'].sort_values(ascending=False).round(3)

In [None]:
# CORRELAÇÃO - MATRIZ

plt.figure(figsize=(15,6))
sns.heatmap(train.drop('PassengerId', axis = 1).corr(), vmax = 0.6, square = True,annot=True)

In [None]:
# QUANTAS PESSOAS SOBREVIVERAM AO TITANIC?

survived = train[train['Survived'] == 1]
not_survived = train[train['Survived'] == 0]

print(f'Total of passengers: {len(train)}')
print(f'Survived: {len(survived)}')
print(f'Not Survived {len(not_survived)}')

#train['Survived'].value_counts()


In [None]:
# QUANTIDADE DE PASSAGEIROS POR SEXO
male = train[train['Sex'] == 'male']
female = train[train['Sex'] == 'female']

print(f'male passengers: {len(male)}')
print(f'female passengers: {len(female)}')

#train['Sex'].value_counts()

In [None]:
# TOTAL DE PASSAGEIROS POR CLASSE

# (1) 1ª classe = ricos
# (2) 2ª classe = classe média
# (3) 3ª classe = classe baixa, imigrantes

train.groupby('Pclass').size()

In [None]:
# TOTAL DE PASSAGEIROS DE CADA CLASSE DIVIDIDOS PELO SEXO

train.groupby('Pclass')['Sex'].value_counts()


In [None]:
# TOTAL DE SOBREVIVENTES POR CLASSE

train.groupby('Pclass')['Survived'].value_counts()

In [None]:
# TOTAL DE SOBREVIVENTES POR SEXO
# 0 - not survived    1 - survived
train.groupby('Survived')['Sex'].value_counts()



In [None]:
# MÉDIA DE SOBREVIVENTES POR SEXO

train[['Sex','Survived']].groupby(['Sex']).mean()

In [None]:
sns.countplot(x='Survived', hue = 'Sex', data = train, palette='Accent')

In [None]:
# NÚMERO DE SOBREVIVENTES POR IDADE

train.groupby('Age')['Survived'].value_counts()

In [None]:
# MÉDIA DE SOBREVIVENTES POR IDADE 


train[['Age','Survived']].groupby(['Age'], as_index = True).mean().sort_values(by='Age',ascending=False)


In [None]:
# GRÁFICO DAS IDADES
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
fig = train.Age.hist(bins=25)
fig.set_title('Idades dos Passageiros')

In [None]:
# NÚMERO DE PASSAGEIROS DIVIDIDO COM O PAÍS DE EMBARQUE.
# S-> Southampton (Reino Unido)
# C-> Cherbourg-Octeville (França)
# Q-> Queenstown (Irlanda)

train['Embarked'].value_counts()

In [None]:
# NÚMERO DE SOBREVIVENTES POR PAÍS DE EMBARQUE
# 0 - not survived    1 - survived
# S-> Southampton (Reino Unido)
# C-> Cherbourg-Octeville (França)
# Q-> Queenstown (Irlanda)

train.groupby('Survived')['Embarked'].value_counts()

In [None]:
# MÉDIA DE SOBREVIVENTES DE ACORDO COM O PAÍS DE EMBARQUE

train[['Embarked','Survived']].groupby(['Embarked'],as_index = False).mean()

In [None]:
# GRÁFICOS DE SOBREVIVENTES POR SEXO

sns.barplot(x='Sex', y='Survived', data=train, palette='Blues_d')


In [None]:
# GRÁFICOS DE SOBREVIVENTES POR CLASSE

sns.barplot(x='Pclass', y='Survived', data=train, palette='Blues_d')

In [None]:
# GRÁFICOS DE SOBREVIVENTES PELO PAÍS DE EMBARQUE

sns.barplot(x='Embarked', y='Survived', data=train, palette='Blues_d')

In [None]:
# QUANTIDADE DE PAIS E FILHOS A BORDO 

train['Parch'].value_counts()




In [None]:
# NÚMERO DE SOBREVIVENTES DE ACORDO COM A QUANTIDADE DE PAIS E FILHOS A BORDO
# 0 - not survived    1 - survived

train.groupby('Parch')['Survived'].value_counts()

In [None]:
# MÉDIA DE SOBREVIVENTES DE ACORDO COM A QUANTIDADE DE PAIS E FILHOS A BORDO

train[['Parch','Survived']].groupby(['Parch'], 
                                    as_index = False).mean().sort_values(by='Survived',ascending=False)

In [None]:
sns.barplot(x='Parch', y='Survived', data=train, palette='Blues_d')

In [None]:
# NÚMERO DE CÔNJUGES E IRMÃOS A BORDO

train['SibSp'].value_counts()

In [None]:
# NÚMERO DE SOBREVIVENTES CÔNJUGES E IRMÃOS A BORDO
# 0 - not survived    1 - survived

train.groupby('SibSp')['Survived'].value_counts()

In [None]:
 # MÉDIA DE SOBREVIVENTES DE ACORDO COM A QUANTIDADE DE CÔNJUGES E IRMÃOS A BORDO
 
 train[['SibSp','Survived']].groupby(['SibSp'], 
                                     as_index = False).mean().sort_values(by='Survived',ascending=False)

In [None]:
sns.barplot(x='SibSp', y='Survived', data=train, palette='Blues_d')

# TRANSFORMAÇÃO DOS DADOS

In [None]:
# CONVERTER OS DADOS DA COLUNA EMBARKED PARA NÚMERICO.

name_ports = {'S':0,'C':1,'Q':2}

for dataset in data:
    dataset['Embarked'] = dataset['Embarked'].map(name_ports)

In [None]:
# CONVERTER OS DADOS DA COLUNA SEX PARA NÚMERICO.

sexual_genders = {'male':0,'female':1}

for dataset in data:
    dataset['Sex'] = dataset['Sex'].map(sexual_genders)

In [None]:
# DROPANDO AS VARIÁVEIS QUE NÃO POSSUEM INFLUÊNCIA SIGNIFICATIVA NA RELAÇÃO DE CAUSA DO ACIDENTE.
passengerId = test['PassengerId']
for dataset in data:
    dataset.drop(['PassengerId','Name','Ticket','Cabin'], axis = 1, inplace = True)

# CRIANDO O MODELO

In [None]:
# SEPARANDO OS DADOS DE TREINO E TESTE
target = train['Survived']
train.drop(['Survived'], axis=1, inplace = True)



In [None]:
# MODELO DE REGRESSÃO LOGÍSTICA

lr_model = LogisticRegression(solver='liblinear')
lr_model.fit(train, target)

# verificar a acurácia do modelo
accuracy_lr_model = round(lr_model.score(train, target) * 100, 2)
print("Acurácia do modelo de Regressão Logística: {}".format(accuracy_lr_model))

In [None]:
# MODELO DE PREDIÇÃO E GERAÇÃO DE ARQUIVO PARA SUBMISSÃO

y_pred_lr = lr_model.predict(test)
submission = pd.DataFrame({'PassengerId': passengerId, 'Survived':y_pred_lr})

# GERAR O ARQUIVO

submission.to_csv('submission_lr.csv',index = False)

In [None]:
submission.head()

In [None]:
# MODELO DE ÁRVORE DE DECISÃO

tree_model = DecisionTreeClassifier(max_depth=3)
tree_model.fit(train,target)

In [None]:
# ACURÁCIA DO MODELO

accuracy_tree_model = round(tree_model.score(train, target) * 100, 2)
print('Acurácia do modelo de Árvore de Decisão: {}'.format(accuracy_tree_model))

In [None]:
# MODELO DE PREDIÇÃO E GERAÇÃO DE ARQUIVO PARA SUBMISSÃO

y_pred_tree = tree_model.predict(test)

submission = pd.DataFrame({
    'PassengerId':passengerId,
    'Survived': y_pred_tree
})

# GERAR O ARQUIVO

submission.to_csv('submission_tm.csv', index = False)

In [None]:
submission.head()