<a href="https://www.kaggle.com/code/esantosdata/titanic-dataset-applying-ml-model-on-datas?scriptVersionId=223270063" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

In [1]:
import pandas as pd
import numpy as num
train_data = pd.read_csv("/kaggle/input/titanic/train.csv") # Ler o arquivo
train_data.head() # Mostrar o cabeçalho das primeiras 5 linhas usando head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [2]:
test_data = pd.read_csv("/kaggle/input/titanic/test.csv")
test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


**EXPLORANDO PADRÕES**

Lembre-se que o arquivo "gender_submission.csv" pressupõe que todas as passageiras femininas sobreviveram e todos os passageiros masculinos morreram. Vamos agora verificar se esse padrão e verdadeiro no arquivo "train_csv".

In [3]:
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)

print("% de mulheres que sobreviveram:", rate_women)

% de mulheres que sobreviveram: 0.7420382165605095


Este modelo acima baseia suas previsões em apenas uma coluna, como você pode imaginar, ao **considerar várias colunas**, podemos descobrir **padrões mais complexos** que podem potencialmente produzir previsões mais bem informadas. Como é muito difícil considerar várias colunas ao mesmo tempo (ou levaria muito tempo para considerar todos os padrões possíveis em muitas colunas diferentes simultaneamente), **usaremos M.L para automatizar** isso para nós.

* Vamos construir o modelo conhecido como **Random Forest Model**, este modelo é construído de várias "árvores" (há três árvores na imagem abaixo, mas vamos construir 100) que considerarão individualmente os dados de cada passageiro e votarão se o indivíduo sobreviveu. Então, o **modelo de floresta aleatória toma uma decisão democrática**: o resultado com **mais votos vence**
    * <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html" target="_blank">Documentação do RandomForestClassifier</a>
* * 
![](https://infoaryan.com/wp-content/uploads/2023/11/random-forest-diagram-768x525.jpg)


In [4]:
from sklearn.ensemble import RandomForestClassifier #
y = train_data["Survived"] 

features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)

output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print("Your submission was successfully saved!")

Your submission was successfully saved!


# **EXPLICAÇÃO DE CADA LINHA DA IMPLEMENTAÇÃO DO MODELO DE M.L APLICADO NA NOSSA ANÁLISE.**

**1. Importação do modelo de Random Forest:**
   Aqui, estamos importando o RandomForestClassifier da biblioteca sklearn (Scikit-learn), que é uma das bibliotecas mais usadas para machine   learning em Python. Esse modelo vai ser usado para construir uma floresta de árvores de decisão para prever se um passageiro sobreviveu ou não.

**2. Definição da variável target (y) :**
   train_data["Survived"] acessa a coluna Survived do conjunto de dados train_data, que é a variável de saída que queremos prever.
y será o vetor de rótulos (a resposta), ou seja, se o passageiro sobreviveu (1) ou não (0).

**3. Definição das variáveis independentes (features):**
   Aqui você está selecionando as colunas que serão usadas como características de entrada (variáveis independentes) para treinar o modelo.

    "Pclass": Classe do passageiro (1, 2 ou 3)
    "Sex": Gênero do passageiro (masculino ou feminino)
    "SibSp": Número de irmãos/cônjuges a bordo
    "Parch": Número de pais/filhos a bordo

**4. Transformação das variáveis categóricas:**
   O método pd.get_dummies() converte as variáveis categóricas (como "Sex") em variáveis numéricas, criando uma coluna para cada valor único. Por exemplo, "Sex" será transformado em duas colunas, uma para "female" e outra para "male", com 0 ou 1 indicando a presença do valor.
X é o conjunto de dados de entrada (features) após a conversão de variáveis categóricas em variáveis numéricas.

**5. Transformação das variáveis de teste:**
   Aqui, a mesma transformação de variáveis categóricas é aplicada ao conjunto de dados de teste test_data, para garantir que as colunas de entrada (X_test) tenham o mesmo formato de X (conjunto de treinamento).

**6. Criação e treinamento do modelo Random Forest :**
   n_estimators=100: Define o número de árvores na floresta. O modelo irá usar 100 árvores de decisão.
max_depth=5: Define a profundidade máxima das árvores. Limita a quantidade de divisões em cada árvore, ajudando a evitar overfitting.
random_state=1: Define uma semente para a aleatoriedade, garantindo que o resultado seja reprodutível (sempre que rodar o código com a mesma semente, o modelo terá o mesmo comportamento).

**7. Treinamento do modelo:**
   model.fit(X, y) treina o modelo usando as variáveis de entrada (X) e a variável de saída (y), ou seja, ele aprende a relação entre as features e o resultado de sobrevivência com base no conjunto de dados de treinamento.

**8. Fazendo previsões com o modelo treinado:**
   model.predict(X_test) usa o modelo treinado para fazer previsões no conjunto de dados de teste X_test. O modelo tentará prever se os passageiros do conjunto de dados de teste sobreviveram ou não.

**9. Criando o DataFrame de saída:**
   Aqui você cria um DataFrame chamado output que contém duas colunas:

    PassengerId: Identificador de cada passageiro.
    Survived: As previsões feitas pelo modelo (0 ou 1, dependendo se o modelo previu que o passageiro sobreviveu ou não).

**10. Salvando a saída em um arquivo CSV :**
    output.to_csv('submission.csv', index=False) salva o DataFrame output em um arquivo CSV chamado "submission.csv". O parâmetro index=False significa que o índice das linhas não será incluído no arquivo.

**11. Mensagem de confirmação:**
    Por fim, o código imprime uma mensagem de sucesso, indicando que o arquivo foi salvo com sucesso.

# *Medindo a acurácia deste modelo resultamos em: 0,77511 - Oque nos diz que fomos cerca de 77% assertivos na taxa de sobrevivência, podemos ainda irmos mais profundamente nestes dados então seguimos explorando este dataset utilizando outras ferramentas e novas formas de exploração em busca de uma assertividade melhor, implementando alguns conceitos de estatística, visualização de dados, limpeza de dados e aplicação de modelos de machine learning.*

In [5]:
# Para uma melhor visualização da base de dados, vamos utilizar o ydata-profiling (antigo pandas profiling), Podemos tambem utilizar o Excel,SQL,PQ...
from ydata_profiling import ProfileReport

In [6]:
# Gerando visualização
profile = ProfileReport(train_data, title="Titanic_train")

In [7]:
# Criando relatorio, exportando o HTML para a pasta.
# Neste momento pode apresentar uma mensagem de erro mas nao impede a geracao do relatorio, isto acontece pois deveriamos utilizar apos o tratamento de dados "NaN", Porem a biblioteca foi carregada em add-ons do notebook, e foi a ferramenta escolhida parar uma primeira analise grafica dos dados.
profile.to_file("Titanic_train.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

  has_large_values = (abs_vals > 1e6).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()


Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [8]:
# Análise da base :
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [9]:
# Verificando os tipos de dados : 
train_data.dtypes.value_counts()

int64      5
object     5
float64    2
Name: count, dtype: int64

In [10]:
# Verificando valores nulos :
train_data.isnull().sum().sort_values(ascending=False).head(5)

Cabin          687
Age            177
Embarked         2
PassengerId      0
Survived         0
dtype: int64

# Verificando a base de testes:

In [11]:
test_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


In [12]:
test_data.dtypes.value_counts()

object     5
int64      4
float64    2
Name: count, dtype: int64

In [13]:
test_data.isnull().sum().sort_values(ascending=False).head(5)

Cabin          327
Age             86
Fare             1
PassengerId      0
Pclass           0
dtype: int64

* Temos colunas que **possuem valores vazios na base de testes e que não estão vazias na base de treino** (neste caso, precisaríamos tratar estas colunas apenas na base de teste.)

## Realizando os tratamentos iniciais dos dados: 

* Podemos começar tratando os **valores vazios**

In [14]:
# Verificando novamente os valores vazios da base de treino :
train_data.isnull().sum().sort_values(ascending=False).head(5)


Cabin          687
Age            177
Embarked         2
PassengerId      0
Survived         0
dtype: int64

In [15]:
# Retornando o shape da base :
train_data.shape

(891, 12)

In [16]:
# Visualizando novamente a base : 
train_data.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [17]:
# Verificando a cardinalidade dos dados : 
train_data.nunique().sort_values(ascending=False)

PassengerId    891
Name           891
Ticket         681
Fare           248
Cabin          147
Age             88
SibSp            7
Parch            7
Pclass           3
Embarked         3
Survived         2
Sex              2
dtype: int64

* Colunas com **alta cardinalidade** como nome, numero do ticket e código da cabine não vão ajudar o modelo, pois podem torná-lo **menos generalizável.** Nesse caso vamos **eliminar estas colunas**

# Nota importante: por exemplo, se assumirmos que o passageiro com o ID = 5, Henry Willian Allen vai sobreviver, nos não conseguimos fazer uma previsão para novos dados, pois muito provavelmente não terá um passageiro com o mesmo nome. Mais para a frente, podemos, sim, utilizar estas colunas para nos ajudar a sermos mais assertivos. 

In [18]:
# Eliminando na base de treino
train_data = train_data.drop(['Name','Ticket','Cabin'],axis=1)

In [19]:
# Eliminando na base de teste
test_data = test_data.drop(['Name','Ticket','Cabin'],axis=1)

Realizamos este drop em ambas as bases, porque não podemos ter bases diferentes para enviar ao nosso modelo, precisamos treinar com a mesma estrutura que vamos avaliar o nosso modelo de teste. 

* Agora precisamos **tratar a coluna "Age"**, que possui valores vazios tanto no train_data quanto no test_data
  Como esta coluna possui a idade dos passageiros, podemos utilizar a **media das idades** para substituir os valores vazios.

In [20]:
# Descobrindo a média de idade para a base train_data : 
train_data.Age.mean()

29.69911764705882

In [21]:
# Selecionando as colunas que estão com valores vazios e substituir pela média de idade que encontramos.
train_data.loc[train_data.Age.isnull(),'Age'] = train_data.Age.mean()

In [22]:
# O mesmo para a base test_data : 
test_data.loc[test_data.Age.isnull(),'Age'] = test_data.Age.mean()

* Para a **base de treino**, ainda temos 2 valores vazios na coluna **Embarked**.
  Podemos utilizar a mesma logica que usamos para "Age" e substituir pela **moda**.

In [23]:
# Verificando os valores da coluna Embarked :
train_data.Embarked.value_counts()


Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [24]:
# Selecionando a moda da coluna : 
train_data.Embarked.mode()[0]

'S'

In [25]:
# Substituindo os valores vazios pelo o mais frequente : 
train_data.loc[train_data.Embarked.isnull(),'Embarked'] = train_data.Embarked.mode()[0]


* Para finalizar a **base de teste** temos ainda 1 valor vazio em **"Fare"**.
  Vamos utilizar a mesma logica da coluna "Age" e substituir pela **moda**

In [26]:
# Verificando e substituindo a media da coluna Fare para a base de teste: 
test_data.loc[test_data.Fare.isnull(),'Fare'] = test_data.Fare.mean()

## Após estes tratamentos vamos verificar novamente os valores vazios de nossa base

In [27]:
# Para a base de treino
train_data.isnull().sum().sort_values(ascending=False).head(5)

PassengerId    0
Survived       0
Pclass         0
Sex            0
Age            0
dtype: int64

In [28]:
# Para a base de teste
test_data.isnull().sum().sort_values(ascending=False).head(5)

PassengerId    0
Pclass         0
Sex            0
Age            0
SibSp          0
dtype: int64

## Considerando apenas, as colunas que não são de texto. 

In [29]:
# Verificando as colunas de texto na base train_data
train_data.columns[train_data.dtypes != 'object']

Index(['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare'], dtype='object')

In [30]:
# Selecionando somente os valores numericos da base train_data 
train_data_nr = train_data.loc[:,train_data.columns[train_data.dtypes != 'object']]

In [31]:
# Verificando as colunas de texto na base test_data
test_data.columns[test_data.dtypes != 'object']

Index(['PassengerId', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare'], dtype='object')

In [32]:
# Selecionando somente os valores numericos da base test_data
test_data_nr = test_data.loc[:,test_data.columns[test_data.dtypes != 'object']]

É **valido** comentar que na base **train_data** temos a coluna **"Survived"** e na base **test_data** não. Pois é justamente esta coluna que iremos prever.

## Selecionando um modelo para classificar esses dados.

Vamos testar estes **3 modelos** primeiramente:
1. Arvore de classificação
   https://scikit-learn.org/stable/modules/tree.html#classification
3. Classificação dos vizinhos mais próximos https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier
4. Regressão Logística https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

* Antes de usarmos estes algoritmos, precisamos separar a **base_train** em **train_val**, pois vamos usar train_val como parâmetro de validação
  Vamos fazer isso utilizando o **Train_Test_Split** https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [33]:
# Importando o train_test_split
from sklearn.model_selection import train_test_split

In [34]:
# Separando a base_train em x e y
X = train_data_nr.drop(['PassengerId','Survived'],axis=1)
y = train_data.Survived

In [35]:
# Separando treino e validaçao
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.33, random_state=42)

* Para a **Árvore de Classificação**

In [36]:
# Fazendo a importação
from sklearn import tree

In [37]:
# Criando classificador
clf_ac = tree.DecisionTreeClassifier(random_state=42)

In [38]:
# Fazendo fit com os dados
clf_ac = clf_ac.fit(X_train, y_train)

In [39]:
# Fazendo a previsão
y_pred_ac = clf_ac.predict(X_val)

* Para o **KNeighborsClassifier**

In [40]:
# Fazendo a importaçao
from sklearn.neighbors import KNeighborsClassifier

In [41]:
# Criando classificador
clf_knn = KNeighborsClassifier(n_neighbors=3)

In [42]:
# Fazendo fit com os dados
clf_knn = clf_knn.fit(X_train, y_train)

In [43]:
# Fazendo a previsão
y_pred_knn = clf_knn.predict(X_val)

* E para a **Regressão logística**

In [44]:
# Fazendo a importaçao
from sklearn.linear_model import LogisticRegression

In [45]:
# Criando classificador
clf_rl = LogisticRegression(random_state=42)

In [46]:
# Fazendo fit com os dados
clf_rl = clf_rl.fit(X_train, y_train)

In [47]:
# Fazendo a previsao
y_pred_rl = clf_rl.predict(X_val)

## Avaliação dos modelos

* Para fazermos esta analise, podemos usar:
  * **Acurácia** (método de avaliação da competição): https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
  * **Matriz de confusão** (ajuda a visualizar a distribuição dos erros): https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

* **Acurácia:**

In [48]:
# Importando
from sklearn.metrics import accuracy_score

In [49]:
# Para a Arvore de classificaçao
accuracy_score(y_val, y_pred_ac)

0.6169491525423729

In [50]:
# Para o KNN
accuracy_score(y_val, y_pred_knn)

0.6610169491525424

In [51]:
# Para a Regressão logística
accuracy_score(y_val, y_pred_rl)

0.7254237288135593

* **Matriz de confusão:**

In [52]:
# Importando
from sklearn.metrics import confusion_matrix

In [53]:
# Para a Árvore de classificação
confusion_matrix(y_val, y_pred_ac)

array([[125,  50],
       [ 63,  57]])

In [54]:
# Para o KNN
confusion_matrix(y_val, y_pred_knn)

array([[133,  42],
       [ 58,  62]])

In [55]:
# Para a Regressao logistica
confusion_matrix(y_val, y_pred_rl)

array([[156,  19],
       [ 62,  58]])

## Fazendo a previsão para dados de teste
       * Vamos usar o modelo com melhor precisão para fazer a predição na base de teste 

In [56]:
# Visualizando o X_train
X_train.head(5)

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
6,1,54.0,0,0,51.8625
718,3,29.699118,0,0,15.5
685,2,25.0,1,2,41.5792
73,3,26.0,1,0,14.4542
882,3,22.0,0,0,10.5167


In [57]:
# Visualizando a base de teste (apenas com valores numericos)
train_data_nr.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.25
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.925
3,4,1,1,35.0,1,0,53.1
4,5,0,3,35.0,0,0,8.05


In [58]:
# Para a base de teste ser igual a base de treino, retiramos a coluna 'PassengerId'
X_test_data = test_data_nr.drop("PassengerId",axis=1)

In [59]:
# Utilizando a regressao logistica na base teste
y_pred = clf_rl.predict(X_test_data)

In [60]:
# Criando uma nova coluna na previsao na base de teste
test_data['Survived'] = y_pred

In [61]:
# Selecionando apenas a colunia PassengerId e Survived para fazer o envio
base_envio = test_data[['PassengerId','Survived']]

In [62]:
# Exportando para um CSV
base_envio.to_csv('resultados2.csv',index=False)

# Verificando a acurácia temos 0.66746 cerca de 66% de acurácia neste modelo de Regressão logística

# Vamos continuar o tratamento das bases e explorar um pouco mais dos modelos de machine learning na [parte 2](http://www.kaggle.com/code/esantosdata/titanic-dataset-applying-ml-model-on-datas-pt2)