In [1]:
import pandas as pd 
import numpy as np
import plotly.express as px

## Iniciando a base de dados

In [2]:
df_train = pd.read_csv("train.csv")
df_train.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Aqui nos vamos retirar as informações da base de dados

In [3]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [4]:
df_train.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### O que podemos perceber a partir da tabela acima ?
   - A coluna "cabin" contem 687 linhas com o argumento 'Nan'.
   - A coluna "Age" contem 177 linhas com arguntos 'Nan'.
##### A partir dessas obsevações, vamos remover toda a coluna "Cabin" e todas as linhas que contem "Nan" da coluna "Age"

In [5]:
df_train = df_train.drop(columns=["Cabin"])
df_train = df_train.dropna(how="any",axis=0)

In [6]:
df_train.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

#### Vamos separar a tabela em homens e mulheres

In [7]:
df_mulheres = df_train.loc[df_train["Sex"]=="female"]

In [9]:
df_homens = df_train.loc[df_train["Sex"]=="male"]

In [10]:
print(df_homens["Survived"].value_counts(normalize=True).map("{:.1%}".format))

0    79.5%
1    20.5%
Name: Survived, dtype: object


In [43]:
grafico = px.histogram(df_train,x= "Sex", color= "Survived", text_auto= True)
grafico.show()

#### O que podemos preceber atravez das infomações acima?
Podemos ver uma grande discrepância entre a quantidade de mortos entre sexo.

- Cerca de 24% dos tripulantes do sexo feminino não sobreviveram. 
- Cerca de 79% dos tripulantes do sexo masculino não sobreviveram. 

In [11]:
df_m_death= df_mulheres.loc[df_mulheres["Survived"]==0]

In [15]:
print(df_m_death["Pclass"].value_counts(normalize=True).map("{:.1%}".format))

3    85.9%
2     9.4%
1     4.7%
Name: Pclass, dtype: object


In [48]:
grafico1 = px.histogram(df_mulheres,x= "Pclass", color= "Survived", text_auto= True)
grafico1.show()

##### O que podemos observar atravez do grafico ?

- Cerca de 85% das mulheres que morreram faziam parte da terceira classe.
- Cerca de 41% das mulheres que sobreviveram faziam parte da primeira classe.

In [17]:
print(df_m_death["Parch"].value_counts(normalize=True).map("{:.1%}".format))

0    51.6%
2    20.3%
1    17.2%
5     4.7%
4     3.1%
6     1.6%
3     1.6%
Name: Parch, dtype: object


In [18]:
grafico2 = px.histogram(df_mulheres,x= "Parch", color= "Survived", text_auto= True)
grafico2.show()

Tambem percebemos que cerca de 71% das mulheres que sobreviveram não contiam parentes abordo do navio.


##### Vamos fazer o mesmo com as tabelas de homens

In [19]:
df_h_death= df_homens.loc[df_homens["Survived"]==0]

In [27]:
print(df_h_death["Pclass"].value_counts(normalize=True).map("{:.1%}".format))

3    59.7%
2    23.3%
1    16.9%
Name: Pclass, dtype: object


In [49]:
grafico3 = px.histogram(df_homens,x= "Pclass", color= "Survived", text_auto= True)
grafico3.show()

#### O que podemos observar atravez do grafico ?
Percebemos que o numero de obtos de homens e bem maior que das mulheres. 
- Na terceira classe 215 pessoas de um total de 253 pessoas não sobreviveram, isto é cerca de 60% dos homens que morreram. 
- Cerca de 43% das homens que sobreviveram faziam parte da primeira classe.

In [22]:
print(df_h_death["Parch"].value_counts(normalize=True).map("{:.1%}".format))

0    83.9%
1    10.6%
2     4.4%
4     0.6%
5     0.3%
3     0.3%
Name: Parch, dtype: object


In [23]:
grafico3 = px.histogram(df_homens,x= "Parch", color= "Survived", text_auto= True)
grafico3.show()

#### O que podemos observar no grafico acima?
- So houve sobreviventes que tinham no maximo 2 parentes abordo.
- A maior parte dos passageiros nâo tinham parentes abordo.
- Cerca de 71% dos homens que sobreviveram não tinham parentes abordo do navio.

## Vamos iniciar a base de dados de teste

In [24]:
df_teste = pd.read_csv("test.csv")
df_teste

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S
