## *Información del dataset*

### *Titanic*

Se adjunta un dataset sobre el desastre del Titanic para hacer ejercicios libres.

Algunos ejercicios que puedes llegar a realizar son:

* Ver el número de valores nulos
* Representar el porcentaje de filas con atributos nulos.
* Limpieza de columnas.
* Saber la edad mínima y máxima de las personas del barco.
* Conocer la mediana de las edades.
* Ver los precios (columna `fares`) más altos y bajos.
* Número de pasajeros embarcados (columna `Embarked`).
* Ver la distribución de sexos en las personas embarcadas.

Desarrolla todo lo visto en clase, usa las librerías que consideres y ¡échale imaginación!

### *Datos de Titanic*

Se propone un archivo CSV (`titanic.csv`) de 891 filas (pasajeros) con 12 columnas. 

Más específicamente, las columnas son:

* `PassengerId `: Identificador único Pasajero .

* `Survived`: nos indica si el pasajero ha sobrevivido o no, mediante `(1=sobrevivio, 0=no sobrevivio)`.

* `Pclass`: Tipo de la estancia, clasificado en 1era clase, 2da clase y 3era clase.

* `Name`: Nombre del pasajero.

* `Sex`: Genero del pasajero.

* `Age`: Edad del pasajero.

* `SibSp`: Referido a si lleva de acompañantes hermana/o ó esposa/o.

* `Parch`: Referido a si lleva de acompañantes, padres e hijos.

* `Ticket`: Número del tickect.

* `Fare`: Importe del pasaje.

* `Cabin`: Número de la cabina correspondiente al pasajero o pasajera.

* `Embarked`: Indica el puerto en el cual embarco casa pasajero..

## *Librerias*

In [1]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, GridSearchCV



## *Lectura del archivo*

In [2]:
titanic = pd.read_csv(r'C:\Users\nico_\Data\Post_Bc\Titanic\Datos\titanic.csv')

## *Preprocesamiento*

### Información 

In [3]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [4]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [5]:
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [6]:
titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### % de valores nulos en columnas

In [7]:
#porcentaje de valores nulos para la columna Age
porcen_nulo_age = ((titanic['Age'].isnull().sum())/(titanic['Age'].size))*100
print(round(porcen_nulo_age,2),'% de valores nulos')

19.87 % de valores nulos


In [8]:
#porcentaje de valores nulos para la columna Cabin
porcen_nulo_cabin = ((titanic['Cabin'].isnull().sum())/(titanic['Cabin'].size))*100
print(round(porcen_nulo_cabin,2),'% de valores nulos')

77.1 % de valores nulos


In [9]:
#porcentaje de valores nulos para la columna Embarked
porcen_nulo_embarked = ((titanic['Embarked'].isnull().sum())/(titanic['Embarked'].size))*100
print(round(porcen_nulo_embarked,2),'% de valores nulos')

0.22 % de valores nulos


### Limpieza de columnas

In [10]:
# Columna Age
media_age = titanic['Age'].mean()
titanic['Age'] = titanic['Age'].fillna(media_age)

In [11]:
# Columna Embarked
titanic['Embarked'] = titanic['Embarked'].fillna('Desconocido')

In [12]:
# Eliminaremos la columna Cabin debido a su alta cantidad de valores nulos
del titanic['Cabin']

In [13]:
titanic.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

## *EDA*

### Edad mínima y máxima de los pasajeros del titanic

In [14]:
# Edad Mínima
print(' La persona con la menor edad a bordo del barco tenia:',titanic['Age'].min(),'Años')
edad_ = (titanic['Age'].min()* 12)
print(' Esta persona tendria unos:',edad_,'meses de edad')

 La persona con la menor edad a bordo del barco tenia: 0.42 Años
 Esta persona tendria unos: 5.04 meses de edad


In [15]:
# Edad Máxima
print(' La persona con la mayor edad a bordo del barco tenia:',titanic['Age'].max(),'Años')

 La persona con la mayor edad a bordo del barco tenia: 80.0 Años


### Monto mínimo y máximo de los tickets 

In [16]:
titanic['Fare'].min()

0.0

In [17]:
# Monto mínimo
df_fare_min = titanic.loc[titanic['Fare']>1]
df_fare_min.min()

PassengerId                      1
Survived                         0
Pclass                           1
Name           Abbing, Mr. Anthony
Sex                         female
Age                           0.42
SibSp                            0
Parch                            0
Ticket                      110152
Fare                        4.0125
Embarked                         C
dtype: object

In [18]:
# Monto máximo
df_fare_max = titanic.loc[titanic['Fare']>1]
df_fare_max.max()

PassengerId                            891
Survived                                 1
Pclass                                   3
Name           van Melkebeke, Mr. Philemon
Sex                                   male
Age                                   80.0
SibSp                                    8
Parch                                    6
Ticket                           WE/P 5735
Fare                              512.3292
Embarked                                 S
dtype: object

### Distribución de pasajeros según su tipo de estancia

In [19]:
# Primera Clase 

primera_c = titanic.loc[titanic['Pclass']==1]
primera_c['Pclass'].__len__()

216

In [20]:
# segunda Clase 

segunda_c = titanic.loc[titanic['Pclass']==2]
segunda_c['Pclass'].__len__()

184

In [21]:
# Tercera Clase 

tercera_c = titanic.loc[titanic['Pclass']==3]
tercera_c['Pclass'].__len__()

491

In [22]:
pasajeros_t = ((primera_c['Pclass'].__len__())+(segunda_c['Pclass'].__len__())+(tercera_c['Pclass'].__len__()))
pasajeros_t

891

In [23]:
# Porcetnaje de pasajeros segun su estancia 1era 
porcentaje_t_1 = (len(primera_c)*100)/pasajeros_t
print(round(porcentaje_t_1,2),'%','de los pasajeros que embarcaron estaban en 1era clase')
# Porcetnaje de pasajeros segun su estancia 2da
porcentaje_t_2 = (len(segunda_c)*100)/pasajeros_t
print(round(porcentaje_t_2,2),'%','de los pasajeros que embarcaron estaban en 2da  clase')
# Porcetnaje de pasajeros segun su estancia 3era
porcentaje_t_3 = (len(tercera_c)*100)/pasajeros_t
print(round(porcentaje_t_3,2),'%','de los pasajeros que embarcaron estaban en 3era clase')

24.24 % de los pasajeros que embarcaron estaban en 1era clase
20.65 % de los pasajeros que embarcaron estaban en 2da  clase
55.11 % de los pasajeros que embarcaron estaban en 3era clase


### Número de poasajeros embarcados por puerto

#### Southampton (Inglaterra)

In [24]:
# El puerto donde zarpo el Titanic fue en Southampton

titanic_s = titanic.loc[titanic['Embarked'] == 'S']
titanic_s['Embarked'].value_counts()

Embarked
S    644
Name: count, dtype: int64

In [25]:
# Numero de pasajeros que embarcaron en el puerto de Southampton en 1era Clase
titanic_s_1 = titanic.loc[(titanic['Embarked'] == 'S') & (titanic['Pclass'] == 1)]
len(titanic_s_1)

127

In [26]:
# Numero de pasajeros que embarcaron en el puerto de Southampton en 2da Clase
titanic_s_2 = titanic.loc[(titanic['Embarked'] == 'S') & (titanic['Pclass'] == 2)]
len(titanic_s_2)

164

In [27]:
# Numero de pasajeros que embarcaron en el puerto de Southampton en 3era Clase
titanic_s_3 = titanic.loc[(titanic['Embarked'] == 'S') & (titanic['Pclass'] == 3)]
len(titanic_s_3)

353

In [28]:
# Porcentaje de pasajeros de 1era clase que embarcaron en el puerto de Southhampton 
porcentaje_s_1 = ((len(titanic_s_1)*100)/len(titanic_s))
print(round(porcentaje_s_1,2),'%', 'de los pasajeros que embarcaron en el puerto de Southampton estaban en 1era clase ')
# Porcentaje de pasajeros de 2da clase que embarcaron en el puerto de Southampton 
porcentaje_s_2 = ((len(titanic_s_2)*100)/len(titanic_s))
print(round(porcentaje_s_2,2),'%', 'de los pasajeros que embarcaron en el puerto de Southampton estaban en 2da  clase ')
# Porcentaje de pasajeros de 3era clase que embarcaron en el puerto de Southampton 
porcentaje_s_3 = ((len(titanic_s_3)*100)/len(titanic_s))
print(round(porcentaje_s_3,2),'%', 'de los pasajeros que embarcaron en el puerto de Southampton estaban en 3era clase' )

19.72 % de los pasajeros que embarcaron en el puerto de Southampton estaban en 1era clase 
25.47 % de los pasajeros que embarcaron en el puerto de Southampton estaban en 2da  clase 
54.81 % de los pasajeros que embarcaron en el puerto de Southampton estaban en 3era clase


#### Cherburgo (Francia)

In [29]:
# la C corresponde al puerto de Cherburgo en Francia, el cual llego el mismo dia que zarpo 10 de abril de 1912

titanic_c = titanic.loc[titanic['Embarked'] == 'C']
titanic_c['Embarked'].value_counts()

Embarked
C    168
Name: count, dtype: int64

In [30]:
# Numero de pasajeros que embarcaron en el puerto de Cherburgo en 1era Clase
titanic_c_1 = titanic.loc[(titanic['Embarked'] == 'C') & (titanic['Pclass'] == 1)]
len(titanic_c_1)

85

In [31]:
# Numero de pasajeros que embarcaron en el puerto de Cherburgo en 2sa Clase
titanic_c_2 = titanic.loc[(titanic['Embarked'] == 'C') & (titanic['Pclass'] == 2)]
len(titanic_c_2)

17

In [32]:
# Numero de pasajeros que embarcaron en el puerto de Cherburgo en 3era Clase
titanic_c_3 = titanic.loc[(titanic['Embarked'] == 'C') & (titanic['Pclass'] == 3)]
len(titanic_c_3)

66

In [33]:
# Porcentaje de pasajeros de 1era clase que embarcaron en el puerto de Cherburgo 
porcentaje_c_1 = ((len(titanic_c_1)*100)/len(titanic_c))
print(round(porcentaje_c_1,2),'%', 'de los pasajeros que embarcaron en el puerto de Cherburgo estaban en 1era clase ')
# Porcentaje de pasajeros de 2da clase que embarcaron en el puerto de Cherburgo 
porcentaje_c_2 = ((len(titanic_c_2)*100)/len(titanic_c))
print(round(porcentaje_c_2,2),'%', 'de los pasajeros que embarcaron en el puerto de Cherburgo estaban en 2da  clase ')
# Porcentaje de pasajeros de 3era clase que embarcaron en el puerto de Cherburgo 
porcentaje_c_3 = ((len(titanic_c_3)*100)/len(titanic_c))
print(round(porcentaje_c_3,2),'%', 'de los pasajeros que embarcaron en el puerto de Cherburgo estaban en 3era clase' )

50.6 % de los pasajeros que embarcaron en el puerto de Cherburgo estaban en 1era clase 
10.12 % de los pasajeros que embarcaron en el puerto de Cherburgo estaban en 2da  clase 
39.29 % de los pasajeros que embarcaron en el puerto de Cherburgo estaban en 3era clase


#### Queenstownn (Irlanda)

In [34]:
# El puerto donde zarpo el Titanic fue en Queenstownn

titanic_q = titanic.loc[titanic['Embarked'] == 'Q']
titanic_q['Embarked'].value_counts()

Embarked
Q    77
Name: count, dtype: int64

In [35]:
# Numero de pasajeros que embarcaron en el puerto de Queenstownn en 1era Clase
titanic_q_1 = titanic.loc[(titanic['Embarked'] == 'Q') & (titanic['Pclass'] == 1)]
len(titanic_q_1)

2

In [36]:
# Numero de pasajeros que embarcaron en el puerto de Queenstownn en 2da Clase
titanic_q_2 = titanic.loc[(titanic['Embarked'] == 'Q') & (titanic['Pclass'] == 2)]
len(titanic_q_2)

3

In [37]:
# Numero de pasajeros que embarcaron en el puerto de Queenstownn en 3era Clase
titanic_q_3 = titanic.loc[(titanic['Embarked'] == 'Q') & (titanic['Pclass'] == 3)]
len(titanic_q_3)

72

In [38]:
# Porcentaje de pasajeros de 1era clase que embarcaron en el puerto de Queenstownn 
porcentaje_q_1 = ((len(titanic_q_1)*100)/len(titanic_q))
print(round(porcentaje_q_1,2),'%', 'de los pasajeros que embarcaron en el puerto de Queenstownn estaban en 1era clase ')
# Porcentaje de pasajeros de 2da clase que embarcaron en el puerto de Queenstownn 
porcentaje_q_2 = ((len(titanic_q_2)*100)/len(titanic_q))
print(round(porcentaje_q_2,2),'%', 'de los pasajeros que embarcaron en el puerto de Queenstownn estaban en 2da  clase ')
# Porcentaje de pasajeros de 3era clase que embarcaron en el puerto de Queenstownn 
porcentaje_q_3 = ((len(titanic_q_3)*100)/len(titanic_q))
print(round(porcentaje_q_3,2),'%', 'de los pasajeros que embarcaron en el puerto de Queenstownn estaban en 3era clase' )

2.6 % de los pasajeros que embarcaron en el puerto de Queenstownn estaban en 1era clase 
3.9 % de los pasajeros que embarcaron en el puerto de Queenstownn estaban en 2da  clase 
93.51 % de los pasajeros que embarcaron en el puerto de Queenstownn estaban en 3era clase


### Distribución de pasajeros segun su sexo

In [39]:
# Genero masculino
df_dist_m = titanic.loc[(titanic['Sex'] == 'male')]
print(len(df_dist_m),'pasajeros de genero masculino embarcaron en el Titanic')
# Genero femenino
df_dist_f = titanic.loc[(titanic['Sex'] == 'female')]
print(len(df_dist_f),'pasajeros de genero femenino embarcaron en el Titanic')

577 pasajeros de genero masculino embarcaron en el Titanic
314 pasajeros de genero femenino embarcaron en el Titanic


#### Genero masculino según su estancia

In [40]:
# Distribucion deel genero masculino en 1era clase 
dist_m_1 = titanic.loc[(titanic['Sex'] == 'male') & (titanic['Pclass'] == 1)]
len(dist_m_1)

122

In [41]:
# Distribucion deel genero masculino en 2da clase 
dist_m_2 = titanic.loc[(titanic['Sex'] == 'male') & (titanic['Pclass'] == 2)]
len(dist_m_2)

108

In [42]:
# Distribucion deel genero masculino en 3era clase 
dist_m_3 = titanic.loc[(titanic['Sex'] == 'male') & (titanic['Pclass'] == 3)]
len(dist_m_3)

347

In [43]:
# Suma total de Hombres embarcados
total_m = (len(dist_m_1)+len(dist_m_2)+len(dist_m_3))
total_m

577

In [44]:
# Distribución del genero masculino segun su estancia
porcentaje_m_1 = (len(dist_m_1)*100)/(total_m)
print(round(porcentaje_m_1,2),'%','de los hombres que embarcaron estaban en 1era clase')
porcentaje_m_2 = (len(dist_m_2)*100)/(total_m)
print(round(porcentaje_m_2,2),'%','de los hombres que embarcaron estaban en 2da  clase')
porcentaje_m_3 = (len(dist_m_3)*100)/(total_m)
print(round(porcentaje_m_3,2),'%','de los hombres que embarcaron estaban en 3era clase')

21.14 % de los hombres que embarcaron estaban en 1era clase
18.72 % de los hombres que embarcaron estaban en 2da  clase
60.14 % de los hombres que embarcaron estaban en 3era clase


#### Genero masculino según su estancia

In [45]:
# Distribucion deel genero femenino en 1era clase 
dist_f_1 = titanic.loc[(titanic['Sex'] == 'female') & (titanic['Pclass'] == 1)]
len(dist_f_1)

94

In [46]:
# Distribucion deel genero femenino en 2da clase 
dist_f_2 = titanic.loc[(titanic['Sex'] == 'female') & (titanic['Pclass'] == 2)]
len(dist_f_2)

76

In [47]:
# Distribucion deel genero femenino en 3era clase 
dist_f_3 = titanic.loc[(titanic['Sex'] == 'female') & (titanic['Pclass'] == 3)]
len(dist_f_3)

144

In [48]:
# Suma total de Mujeres embarcadas
total_f = (len(dist_f_1)+len(dist_f_2)+len(dist_f_3))
total_f

314

In [49]:
# Distribución del genero femenino segun su estancia
porcentaje_f_1 = (len(dist_f_1)*100)/(total_f)
print(round(porcentaje_f_1,2),'%','de las mujeres que embarcaron estaban en 1era clase')
porcentaje_f_2 = (len(dist_f_2)*100)/(total_f)
print(round(porcentaje_f_2,2),'%',' de las mujeres que embarcaron estaban en 2da  clase')
porcentaje_f_3 = (len(dist_f_3)*100)/(total_f)
print(round(porcentaje_f_3,2),'%','de las mujeres que embarcaron estaban en 3era clase')

29.94 % de las mujeres que embarcaron estaban en 1era clase
24.2 %  de las mujeres que embarcaron estaban en 2da  clase
45.86 % de las mujeres que embarcaron estaban en 3era clase


### Promedio de precio de los tickets

#### Promedio de precio ticket según clase

In [50]:
# Media de precio de ticket de 1era clase
ticket_1era = titanic.query('Fare > 1 and SibSp == 0 and Parch == 0 and Pclass == 1')
print(round(ticket_1era['Fare'].mean(),2),'precio promedio por ticket en 1era clase')
# Media de precio de ticket de 2da clase
ticket_2da = titanic.query('Fare > 1 and SibSp == 0 and Parch == 0 and Pclass == 2')
print(round(ticket_2da['Fare'].mean(),2),'precio promedio por ticket en 2da  clase')
# Media de precio de ticket de 1era clase
ticket_3era = titanic.query('Fare > 1 and SibSp == 0 and Parch == 0 and Pclass == 3')
print(round(ticket_3era['Fare'].mean(),2),' precio promedio por ticket en 3era clase')



66.73 precio promedio por ticket en 1era clase
14.93 precio promedio por ticket en 2da  clase
9.39  precio promedio por ticket en 3era clase


#### Precio promedio del ticket según puerto de embarque

Southampton

In [51]:
# Media de precio de ticket de 1era clase
ticket_1era_s = titanic_s_1.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_1era_s['Fare'].mean(),2),'precio promedio por ticket en 1era clase en el puerto de Southampton')
# Media de precio de ticket de 2da clase
ticket_2da_s = titanic_s_2.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_2da_s['Fare'].mean(),2),'precio promedio por ticket en 2da  clase en el puerto de Southampton')
# Media de precio de ticket de 1era clase
ticket_3era_s = titanic_s_3.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_3era_s['Fare'].mean(),2),' precio promedio por ticket en 3era clase en el puerto de Southampton')



48.33 precio promedio por ticket en 1era clase en el puerto de Southampton
15.09 precio promedio por ticket en 2da  clase en el puerto de Southampton
9.86  precio promedio por ticket en 3era clase en el puerto de Southampton


Cherburgo

In [52]:
# Media de precio de ticket de 1era clase
ticket_1era_c = titanic_c_1.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_1era_c['Fare'].mean(),2),'precio promedio por ticket en 1era clase en el puerto de Cherburgo')
# Media de precio de ticket de 2da clase
ticket_2da_c = titanic_c_2.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_2da_c['Fare'].mean(),2),'precio promedio por ticket en 2da  clase en el puerto de Cherburgo')
# Media de precio de ticket de 1era clase
ticket_3era_c = titanic_c_3.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_3era_c['Fare'].mean(),2),' precio promedio por ticket en 3era clase en el puerto de Cherburgo')

93.47 precio promedio por ticket en 1era clase en el puerto de Cherburgo
13.77 precio promedio por ticket en 2da  clase en el puerto de Cherburgo
8.28  precio promedio por ticket en 3era clase en el puerto de Cherburgo


Queenstownn

In [53]:
# Media de precio de ticket de 1era clase
ticket_1era_q = titanic_q_1.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_1era_q['Fare'].mean(),2),'precio promedio por ticket en 1era clase en el puerto de Queenstownn')
# Media de precio de ticket de 2da clase
ticket_2da_q = titanic_q_2.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_2da_q['Fare'].mean(),2),'precio promedio por ticket en 2da  clase en el puerto de Queenstownn')
# Media de precio de ticket de 1era clase
ticket_3era_q = titanic_q_3.query('Fare > 1 and SibSp == 0 and Parch == 0 ')
print(round(ticket_3era_q['Fare'].mean(),2),' precio promedio por ticket en 3era clase en el puerto de Queenstownn')

nan precio promedio por ticket en 1era clase en el puerto de Queenstownn
12.35 precio promedio por ticket en 2da  clase en el puerto de Queenstownn
8.16  precio promedio por ticket en 3era clase en el puerto de Queenstownn


### Análisis de los sobrevivientes

In [54]:
surv = (titanic['Survived']== 1).sum()
no_surv = (titanic['Survived']== 0).sum()
print(f"Sobrevivieron {surv} personas, mientras que {no_surv} no lograron sobrevivir ")

Sobrevivieron 342 personas, mientras que 549 no lograron sobrevivir 


In [55]:
procent_surv = (surv/len(titanic)*100)
procent_no_surv = (no_surv/len(titanic)*100)
print(f'    Sobrevivieron: {procent_surv:.2f} % \n No Sobrevivieron: {procent_no_surv:.2f} %  ')

    Sobrevivieron: 38.38 % 
 No Sobrevivieron: 61.62 %  


#### Sobrevivientes por su estancia 

##### 1era Clase

In [56]:
surv_1era = (titanic['Pclass']==1) & (titanic['Survived']==1)
print(surv_1era.sum())


136


In [57]:
# % de sobrevivientes que estaban en 1era clase
por_surv_1era = (surv_1era.sum()/surv)*100
print(f'un {por_surv_1era:.2f} % de los sobrevivientes, estaban en 1era clase')

un 39.77 % de los sobrevivientes, estaban en 1era clase


In [58]:
# % de sobrevivientes en 1 era clase 
tot_surv_1era = (surv_1era.sum()/primera_c['Pclass'].__len__())*100
print(f'un {tot_surv_1era:.2f} % de los pasajeros que estaban en 1era clase lograron sobrevivir')

un 62.96 % de los pasajeros que estaban en 1era clase lograron sobrevivir


##### 2da Clase

In [59]:
surv_2da = (titanic['Pclass']==2) & (titanic['Survived']==1)
print(surv_2da.sum())

87


In [60]:
# % de sobrevivientes que estaban en 2da clase
por_surv_2da = (surv_2da.sum()/surv)*100
print(f'un {por_surv_2da:.2f} % de los sobrevivientes, estaban en 2da clase')

un 25.44 % de los sobrevivientes, estaban en 2da clase


In [61]:
# % de sobrevivientes en 2da clase 
tot_surv_2da = (surv_2da.sum()/segunda_c['Pclass'].__len__())*100
print(f'un {tot_surv_2da:.2f} % de los pasajeros que estaban en 2da clase lograron sobrevivir')

un 47.28 % de los pasajeros que estaban en 2da clase lograron sobrevivir


##### 3era Clase

In [62]:
surv_3era = (titanic['Pclass']==3) & (titanic['Survived']==1)
print(surv_3era.sum())

119


In [63]:
# % de sobrevivientes que estaban en 3era clase
por_surv_3era = (surv_3era.sum()/surv)*100
print(f'un {por_surv_3era:.2f} % de los sobrevivientes, estaban en 3era clase')

un 34.80 % de los sobrevivientes, estaban en 3era clase


In [64]:
len(segunda_c)

184

In [65]:
# % de sobrevivientes en 3era clase 
tot_surv_3era = (surv_3era.sum()/tercera_c['Pclass'].__len__())*100
print(f'un {tot_surv_3era:.2f} % de los pasajeros que estaban en 3era clase lograron sobrevivir')

un 24.24 % de los pasajeros que estaban en 3era clase lograron sobrevivir


### Gráficas

#### distribución de edades de los pasajeros

In [66]:
# Usando plotly
fig = px.strip(titanic, x="Pclass", y="Age", template="plotly_dark", color='Pclass', title="Salario según nivel de experiencia")
fig.show()

In [67]:
fig = px.box(titanic, x='Pclass', y='Age', 
             title='Relación entre las edades y las clases de los pasajeros', 
             category_orders={"Caase": ["1era", "2da", "3era"]}, 
             template="plotly_dark", color='Pclass',
             color_discrete_sequence=["seashell", "seagreen", "sandybrown"]) 

fig.show()

#### Distribución de pasajeros según su genero

In [68]:
fig = px.pie(titanic,values='Pclass',names='Sex', height=600 , title='DIstribución de pasajeros según su sexo', template="plotly_dark", color_discrete_sequence=['darkred','darkblue'])
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

#### Distribución de pasajeros en cada clase según su genero 

In [69]:
fig = px.bar(titanic,
                x='Pclass', y='Sex', title='Distribución de pasajeros en cada clase según su genero ',
                template="plotly_dark", color='Sex')

fig.show()

In [70]:
pasa_sex_clase = titanic.groupby(['Pclass','Sex']).size().reset_index(name= 'Total')
fig = px.bar(pasa_sex_clase, x='Pclass', y='Total', color='Sex', title='Distribución de pasajeros en cada clase según su genero',
             template='plotly_dark', labels={'Sex': 'Genero'})
fig.show()


#### Distribución de pasajeros según su estancia

In [71]:
totla_pjr = titanic.groupby('Pclass').size().reset_index(name= 'Total')

In [72]:
fig = px.bar(totla_pjr,
                x='Pclass', y='Total', title='Distribución de pasajeros en cada clase ',
                template="plotly_dark", color='Pclass', labels={'Pclass':'Clase'})

fig.show()

In [73]:
fig = px.pie(totla_pjr,values='Total',names='Pclass', height=600 , title='DIstribución de pasajeros según su sexo', template="plotly_dark", color='Pclass')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

#### Distribución de pasajeros según el puerto de embarque

In [74]:
grupo_puerto = titanic.groupby('Embarked').size().reset_index(name= 'Total')

In [75]:
grupo_puerto

Unnamed: 0,Embarked,Total
0,C,168
1,Desconocido,2
2,Q,77
3,S,644


In [76]:
fig = px.bar(grupo_puerto.sort_values('Total',ascending=False), x='Embarked', y='Total', title='Distribución de pasajeros según el puerto de embarque', 
             template="plotly_dark", color='Embarked') 
fig.show()

#### Sobrevivientes del Titanic

In [77]:
sobrevivientes = titanic.groupby('Survived').size().reset_index(name= 'Total')
sobrevivientes

Unnamed: 0,Survived,Total
0,0,549
1,1,342


In [78]:
fig = px.bar(sobrevivientes.sort_values('Total',ascending=False), x='Survived', y='Total', title='Distribución de pasajeros según el puerto de embarque (1: Sobrevivió, 2: no sobrevivió)', 
             template="plotly_dark", color='Survived') 
fig.show()

In [79]:
fig = px.pie(titanic,values='Survived',names='Sex', height=600 , title='Sobrevivientes según su sexo', template="plotly_dark", color_discrete_sequence=['darkred','darkblue'])
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

Sobrevivientes por Clase de estancia

In [80]:
fig = px.pie(titanic,values='Survived',names='Pclass', height=600 , title='Sobrevivientes según su estancia', template="plotly_dark", color_discrete_sequence=['darkred','darkblue','Wheat'])
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

In [81]:
#  % Sobrevivientes en cada Clase
data_clase = {'Clase': ['1era Clase','2da Clase','3era Clase'],
              'Porcentaje de Sobrevivientes':[62.96,47.28,24.24]} 
df_clase =pd.DataFrame(data_clase) 
colores = {'1era Clase':'yellowgreen'}
fig = px.bar(df_clase, x='Clase', y='Porcentaje de Sobrevivientes', title='% de Sobrevivientes en cada clase', 
             template="plotly_dark", color_discrete_sequence = list(colores.values()))
fig.show()


Correlacion entre tipo estancia y supervivencia del pasajero

In [82]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,C


## *Machine Learning*

Modelo Predictivo para detemrinar si un pasajero sobrevive o no, deacuerdo a su sexo, estancia y edad.

Para agregar la columna Age y usarla en el modelo predictivo es mas cómodo si la transformamos de Float a Int

In [None]:
#Preprocesamos la columna Age para trasnformarla a entero
titanic['Age'] = titanic['Age'].astype(int)
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age              int32
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Embarked        object
dtype: object

### Aplicando Random Forest sin especificar algunos parámetros

In [None]:
# Determinaos la variable objetivo
X = titanic[['Pclass','Sex','Age']]
y = titanic['Survived']

# Mapeamos la columna Sex a valores númericos 
X['Sex'] = X['Sex'].map({'male':0, 'female':1})

# Dvidimos los datos en entramiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.12, random_state=32)

# Creamos el modelo de Random Forest 
rf_model = RandomForestClassifier(n_estimators=5,random_state=32)
rf_model.fit(X_train,y_train)

# Realizamos las predicciones
y_pred = rf_model.predict(X_test)

# Evaluar la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo: {:.2f}%".format(accuracy * 100))

Precisión del modelo: 84.11%




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
# Aplicamos el modelo predictivo con valores a ingresar por el usuario
pclass_input = int(input('Ingrese la clase donde se hospedara el pasajero (1, 2 o 3):'))
sex_input = int(input('Ingrese el sexo del pasajero (0 si es Hombre, 1 si es Mujer)'))
age_input = int(input('Ingrese la edad del pasajero'))
nuevos_datos = pd.DataFrame({'Pclass': [pclass_input], 'Sex': [sex_input], 'Age': [age_input] })
prediccion = rf_model.predict(nuevos_datos)

if prediccion==1 :
    print('El pasajero sobreviviría.')
else :
    print('El pasajero no sobreviviría.')

El pasajero sobreviviría.


### Aplicando Random Forest utlizando previamente el Grid Search

In [None]:
# Determinaos la variable objetivo
X = titanic[['Pclass','Sex','Age']]
y = titanic['Survived']

# Mapeamos la columna Sex a valores númericos 
X['Sex'] = X['Sex'].map({'male':0, 'female':1})

# Dvidimos los datos en entramiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.15, random_state=42)
rf_model_2 = RandomForestClassifier(random_state=32)

# Establecemos los hiperparámetros a probar
param_grid = {'n_estimators':[25,50,75,100],# Es el número de árboles en el bosque.
               'max_depth':[5,10,15,20], # la profundidad máxima de cada árbol en el bosque.
               'min_samples_split':[5,10,15,20], # el número mínimo de muestras requeridas para dividir un nodo interno.
               'min_samples_leaf':[1,2,4]} #Es el número mínimo de muestras requeridas para estar en un nodo hoja. 

# Creamos el Grid Search
grid_search = GridSearchCV(estimator= rf_model_2, param_grid= param_grid, cv= 5, n_jobs= 1) 
# Cv=5 validación cruzada con 5 pliegues.--- n_jobs=1 le indicamos que utilizara 1 núcleo del ordenador 

# Ajustamos el Grid Search con los datos de entrenamiento 
grid_search.fit(X_train,y_train) 





A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
# Covertimos los resultaods del grid search en un dataframe para poder visualizar las características de cada resultado
resultados = pd.DataFrame(grid_search.cv_results_)
resultados

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_leaf,param_min_samples_split,param_n_estimators,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.038542,0.007324,0.004492,0.001423,5,1,5,25,"{'max_depth': 5, 'min_samples_leaf': 1, 'min_s...",0.802632,0.802632,0.788079,0.781457,0.788079,0.792576,0.008559,171
1,0.063592,0.009140,0.005372,0.000998,5,1,5,50,"{'max_depth': 5, 'min_samples_leaf': 1, 'min_s...",0.809211,0.802632,0.768212,0.807947,0.781457,0.793892,0.016265,162
2,0.082375,0.001261,0.006333,0.001310,5,1,5,75,"{'max_depth': 5, 'min_samples_leaf': 1, 'min_s...",0.809211,0.809211,0.781457,0.801325,0.794702,0.799181,0.010392,126
3,0.115721,0.008652,0.007399,0.000497,5,1,5,100,"{'max_depth': 5, 'min_samples_leaf': 1, 'min_s...",0.815789,0.815789,0.781457,0.801325,0.788079,0.800488,0.014037,113
4,0.030408,0.002404,0.003220,0.000405,5,1,10,25,"{'max_depth': 5, 'min_samples_leaf': 1, 'min_s...",0.809211,0.802632,0.788079,0.781457,0.788079,0.793892,0.010327,162
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
187,0.121993,0.007775,0.010113,0.001169,20,4,15,100,"{'max_depth': 20, 'min_samples_leaf': 4, 'min_...",0.815789,0.815789,0.781457,0.781457,0.821192,0.803137,0.017811,97
188,0.032663,0.001398,0.003399,0.001310,20,4,20,25,"{'max_depth': 20, 'min_samples_leaf': 4, 'min_...",0.809211,0.828947,0.794702,0.774834,0.774834,0.796506,0.020767,150
189,0.061154,0.002528,0.006562,0.000986,20,4,20,50,"{'max_depth': 20, 'min_samples_leaf': 4, 'min_...",0.815789,0.828947,0.781457,0.774834,0.774834,0.795173,0.022721,159
190,0.091217,0.002897,0.006727,0.000498,20,4,20,75,"{'max_depth': 20, 'min_samples_leaf': 4, 'min_...",0.822368,0.809211,0.781457,0.794702,0.821192,0.805786,0.015740,76


In [None]:
# Seleccionamos las columnas que mas nos interesan 
print(resultados[['params', 'mean_test_score', 'rank_test_score']])

                                                params  mean_test_score  \
0    {'max_depth': 5, 'min_samples_leaf': 1, 'min_s...         0.792576   
1    {'max_depth': 5, 'min_samples_leaf': 1, 'min_s...         0.793892   
2    {'max_depth': 5, 'min_samples_leaf': 1, 'min_s...         0.799181   
3    {'max_depth': 5, 'min_samples_leaf': 1, 'min_s...         0.800488   
4    {'max_depth': 5, 'min_samples_leaf': 1, 'min_s...         0.793892   
..                                                 ...              ...   
187  {'max_depth': 20, 'min_samples_leaf': 4, 'min_...         0.803137   
188  {'max_depth': 20, 'min_samples_leaf': 4, 'min_...         0.796506   
189  {'max_depth': 20, 'min_samples_leaf': 4, 'min_...         0.795173   
190  {'max_depth': 20, 'min_samples_leaf': 4, 'min_...         0.805786   
191  {'max_depth': 20, 'min_samples_leaf': 4, 'min_...         0.799155   

     rank_test_score  
0                171  
1                162  
2                126  
3      

In [None]:
# otra forma de visualizar los mejores parámetros, modelos y % de acierto ( viendo estos parámetros, podemos intentar cambiar los mismos en el grid search, con la finalidad de mejorar el % de acierto)
best_param = grid_search.best_params_
best_model = grid_search.best_estimator_
best_score = grid_search.best_score_ 
print(best_param)
print(best_model)
print(best_score)

{'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 10, 'n_estimators': 100}
RandomForestClassifier(max_depth=10, min_samples_split=10, random_state=32)
0.8203206692227256


In [None]:
# Realizamos las predicciones con el mejor módelo
y_pred = best_model.predict(X_test)

# Evaluamos la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo: {:.2f}%".format(accuracy * 100))

Precisión del modelo: 81.34%


In [None]:
# Aplicamos el modelo predictivo con valores a ingresar por el usuario
pclass_input = int(input('Ingrese la clase donde se hospedara el pasajero (1, 2 o 3):'))
sex_input = int(input('Ingrese el sexo del pasajero (0 si es Hombre, 1 si es Mujer)'))
age_input = int(input('Ingrese la edad del pasajero'))
nuevos_datos = pd.DataFrame({'Pclass': [pclass_input], 'Sex': [sex_input], 'Age': [age_input] })
prediccion = best_model.predict(nuevos_datos)

if prediccion==1 :
    print('El pasajero sobreviviría.')
else :
    print('El pasajero no sobreviviría.')

El pasajero no sobreviviría.
