# Titanic

Se adjunta un dataset sobre el desastre del Titanic para hacer ejercicios libres.

Algunos ejercicios que puedes llegar a realizar son:

* Ver el número de valores nulos
* Representar el porcentaje de filas con atributos nulos.
* Limpieza de columnas.
* Saber la edad mínima y máxima de las personas del barco.
* Conocer la mediana de las edades.
* Ver los precios (columna `fares`) más altos y bajos.
* Número de pasajeros embarcados (columna `Embarked`).
* Ver la distribución de sexos en las personas embarcadas.

Desarrolla todo lo visto en clase, usa las librerías que consideres y ¡échale imaginación!


####  Descripción de las Variables:

* PassengerId: identificador único del pasajero. 
* Survived: si el pasajero sobrevivió al naufragio, codificada como 0 (no) y 1 (si). Esta es la variable respuesta que interesa predecir.
* Pclass: clase a la que pertenecía el pasajero: 1, 2 o 3.
* Name: nombre del pasajero.
* Sex: sexo del pasajero.
* Age: edad del pasajero.
* SibSp: número de hermanos, hermanas, hermanastros o hermanastras en el barco.
* Parch: número de padres e hijos en el barco.
* Ticket: identificador del billete.
* Fare: precio pagado por el billete.
* Cabin: identificador del camarote asignado al pasajero.
* Embarked: puerto en el que embarcó el pasajero

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

In [3]:
df = pd.read_csv('data/titanic_original.csv')


In [4]:
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


# PROCESAMIENTO DE DATOS

Tenemos una base de datos con una forma de 12 columnas y 891 filas.
De nuestra base de datos pudimos identificar 866 nulos y para algunos   
casos fueron eliminados ya que su % es muy significativo con respecto al total
y otros fueron completados con su media:
 - Age - 177 null - reemplazados por su media
 -  Embarked - 2 null - reemplazados por su moda
 -  Cambin - 687 null - Columna eliminada
 
También revisamos si habían valores duplicados.


In [5]:
df.shape 

(891, 12)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [7]:
df.isnull().sum().reset_index()

Unnamed: 0,index,0
0,PassengerId,0
1,Survived,0
2,Pclass,0
3,Name,0
4,Sex,0
5,Age,177
6,SibSp,0
7,Parch,0
8,Ticket,0
9,Fare,0


In [8]:
# calculamos el % de null en cada columan, consideramos contar el total de pasajeros para conocer asi el total de filas.
Total_pasajeros = df['PassengerId'].count()

total_Age = df['Age'].isnull().sum() / Total_pasajeros*100
total_Cabin = df['Cabin'].isnull().sum() / Total_pasajeros*100
total_Embarked = df['Embarked'].isnull().sum() / Total_pasajeros*100


print(" Total null columna:Age"," ",total_Age.__round__(2),'%' )
print(" Total null columna:Cabin"," ",total_Cabin.__round__(2),'%' )
print(" Total null columna:Embarked"," ",total_Embarked.__round__(2),'%' )


 Total null columna:Age   19.87 %
 Total null columna:Cabin   77.1 %
 Total null columna:Embarked   0.22 %


In [9]:
# Eliminamos la Columna Cabin ya que tenemos un 77,1% de valores faltantes.
df = df.drop('Cabin', axis=1)

In [10]:
df[df['Embarked'].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,


In [11]:
df.groupby('Embarked')['Survived'].count()

Embarked
C    168
Q     77
S    644
Name: Survived, dtype: int64

In [12]:
# Commpletamos los null de las columnas Embarked con su moda 
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

In [13]:
df[df['PassengerId']== 62]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,S


In [14]:
# Commpletamos los null de las columnas Age con su media 
df['Age'] = df['Age'].fillna(df['Age'].mean())

In [15]:
df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

###  ANALISIS DEL DATA SET

In [16]:
colorx =[ '#8A307F', 'MEDIUMturquoise','wheat']

# Creo otra columna para no alterar cuando calculo la correlación
df['Survived_Indicator'] = df['Survived'].map({1: 'Sobrevivientes', 0: 'No Sobrevivientes'})

In [17]:
# MAPA DE CALOR DE LAS VARIABLES 
Variables_Cuant = ['PassengerId','Survived','Pclass','Age','SibSp','Parch','Fare']        
# Calculamos la correlación entre las columnas seleccionadas y obtenemos la matriz 
df_corr = df[Variables_Cuant].corr().sort_values(by='Survived',ascending=False,axis=0).sort_values(by='Survived',ascending=False,axis=1)

fig = go.Figure(data=go.Heatmap(x=df_corr.columns, y=df_corr.columns,z=df_corr.values,
                                colorscale='tropic'))
fig.update_layout(
    width=500, 
    height=500, 
    title='Mapa de calor de Correlación',
    template='plotly_dark',
    yaxis=dict(autorange='reversed'), # esto le agregamos de manera forzada ya que el mapa no estaba ordenando de manera descendente. 
    )
fig.show()


"""Esta es una gráfica de mapa de calor de correlación en función de la variable: Survived. 
Los colores más oscuros indican una correlación más fuerte, mientras que los colores más claros indican una correlación más débil o nula.
Se puede observar que no hay una correlación fuerte entre las variables esto significa que podrían no estar relacionadas con la probabilidad de supervivencia.
"""

In [18]:
from plotly.subplots import make_subplots
cols = ['Survived','Pclass','Age']
fig = make_subplots(rows=1, cols=3)
for i, col in enumerate(cols):
    fig.add_trace(go.Histogram(x=df[col], nbinsx=20, name=f'Distribución de {col}'), row=1, col=i+1)

fig.update_layout(
   
    title_text="Distribución de Variables",  
    template="plotly_dark",
    )
fig.show()

In [19]:

from plotly.subplots import make_subplots
cols = ['SibSp','Parch','Fare']
fig = make_subplots(rows=1, cols=3)
for i, col in enumerate(cols):
    fig.add_trace(go.Histogram(x=df[col], nbinsx=20, name=f'Distribución de {col}'), row=1, col=i+1)

fig.update_layout(
    height=600, width=1400, 
    title_text="Distribución de Variables", 
    template="plotly_dark",
    )
fig.show()



In [20]:
# % CANTIDAD DE SIBREVIVIENTES


Sobrevivientes= df.groupby('Survived_Indicator')['PassengerId'].count().reset_index()
px.pie(Sobrevivientes, values='PassengerId', names='Survived_Indicator', template="plotly_dark", title="Total Pasajeros",hole=0.3,color_discrete_sequence = colorx
    ).show()

""En esta gráfica tipo Pie muestra el porcentaje de los pasajeros que han sobrevivido y no sobrevivido al accidente del Titanic.
    De manera simple se puede ver que un 61,6% de los pasajeros no sobrevivieron a accidente.
    """

###  ANALISIS DE LOS PASAJEROS

In [21]:
# Edad mínima y máxima de las personas del barco.
print(f"La edad máxima y mínima de personas fueron {df['Age'].max()} y {df['Age'].min()} años respectivamente")
print ("Y la edad promedio fue:",df['Age'].mean().round(2),'años')


La edad máxima y mínima de personas fueron 80.0 y 0.42 años respectivamente
Y la edad promedio fue: 29.7 años


In [22]:
# ANALISIS DE SOBREVIVIENTES SEGUN EL TITULO

fig = px.histogram(df, x='Age', color='Survived_Indicator', barmode='stack', nbins=25,
                   color_discrete_sequence=colorx, opacity=0.85,template='plotly_dark')

fig.update_layout(
    title='Distribución de edades',
    xaxis=dict(title='Edad (Años)'),
    yaxis=dict(title='Cantidad'),
    bargap=0.1,
    )

fig.show()

In [23]:
# ANALISIS DE SOBREVIVIENTES SEGUN EL EDAD
bins = pd.cut(df['Age'], np.arange(0, 100, 5)).astype(str)
grouped = df.groupby([bins, 'Survived_Indicator']).size().reset_index(name='Count')

fig = px.bar(grouped, x='Age', y='Count', color='Survived_Indicator',
             color_discrete_sequence=colorx, opacity=0.85,template='plotly_dark')

fig.update_layout(
    title='Distribución de Pasajeros en función de su edad',
    xaxis=dict(title='Edad'),
    yaxis=dict(title='Cantidad'),
    bargap=0.1,
    showlegend=True,
    barmode='group' 
)

fig.show()

"""El histograma muestra cómo se distribuyen los pasajeros, que sobrevivieron y no, en diferentes rangos de edad.
    Como podemos ver la mayor concentración esta en el rango de edad de 25 y 30 años por lo que se puede ver que en su gran mayoría eran personas jóvenes. 
    Para ese rango tenemos un total de 94 sobrevivientes, mientras que el de no sobrevivientes es de 191.
    Otro rango que podemos destacar es el de 0 a 5 donde la cantidad de sobrevivientes es mayor, ya que la cantidad de sobrevivientes es de 31 niños mientras que los no sobrevivientes fueron 13 niños.
    """

In [24]:
print()




In [25]:
import re
def get_title(name): 

    title_search = re.search(' ([A-Za-z]+)\.', name)
    if title_search:
        return title_search.group(1)
    return 
# Aplicamos la función para generar una nueva columna con el título
df['Title'] = df['Name'].apply(get_title) 
# Agrupamos por la columnaSurvived y TiTle para tener asi las cantidades de titulos en los sobrevivientes.
survived_by_title = df[['Survived_Indicator','Title']].value_counts().reset_index()


In [26]:
survived_by_title

Unnamed: 0,Survived_Indicator,Title,count
0,No Sobrevivientes,Mr,436
1,Sobrevivientes,Miss,127
2,Sobrevivientes,Mrs,99
3,Sobrevivientes,Mr,81
4,No Sobrevivientes,Miss,55
5,No Sobrevivientes,Mrs,26
6,Sobrevivientes,Master,23
7,No Sobrevivientes,Master,17
8,No Sobrevivientes,Rev,6
9,No Sobrevivientes,Dr,4


In [27]:
# ANALISIS DE SOBREVIVIENTES SEGUN EL TITULO

""" Esta función extrae de la columna Name el título con el que el pasajero se identificaba"""

import re
def get_title(name): 

    title_search = re.search(' ([A-Za-z]+)\.', name)
    if title_search:
        return title_search.group(1)
    return 

# Aplicamos la función para generar una nueva columna con el título
df['Title'] = df['Name'].apply(get_title) 
# Agrupamos por la columnaSurvived y TiTle para tener asi las cantidades de titulos en los sobrevivientes.
survived_by_title = df[['Survived_Indicator','Title']].value_counts().reset_index()

fig = px.bar(survived_by_title, x='Title',y='count', color='Survived_Indicator',
             color_discrete_sequence=colorx, opacity=0.85,template='plotly_dark')

fig.update_layout(
    title='Distribución de pasajeros en función de su título',
    xaxis=dict(title='Títulos'),
    yaxis=dict(title='Cantidad'),
    bargap=0.1,
    showlegend=True,
    barmode='group' 
)

fig.show()

survived_by_title.head()


Unnamed: 0,Survived_Indicator,Title,count
0,No Sobrevivientes,Mr,436
1,Sobrevivientes,Miss,127
2,Sobrevivientes,Mrs,99
3,Sobrevivientes,Mr,81
4,No Sobrevivientes,Miss,55


 """Este histograma muestra la cantidad de pasajeros en cada categoría de título que tenía dentro de la columna “Name”. Observamos que la mayoría de los pasajeros tienen títulos comunes como “Miss”, “Mrs.” y “Miss”. Con estos títulos podemos ver el género y el estado civil de los pasajeros. 
    Podemos observar que la categoría más numerosa es “Mr.” Esto sugiere que la mayoría de los pasajeros eran hombres
    """

In [28]:
# ANALISIS DE SOBREVIVIENTES SEGUN EL GÉNERO
fig = px.histogram(df, x='Sex', color='Survived_Indicator', barmode='stack', nbins=25,
                   color_discrete_sequence=colorx, opacity=0.85,template='plotly_dark')

fig.update_layout(
    title='Distribución de los pasajeros por distinción género',
    xaxis=dict(title='Pasajeros'),
    yaxis=dict(title='Cantidad')
    )
fig.show()

  """El histograma muestra la proporción de pasajeros masculinos y femeninos que sobrevivieron y no sobrevivieron.
    Cuando analizamos la proporción de sobrevivientes dentro de cada género vemos que, a pesar de que había más hombres a bordo, un mayor porcentaje de mujeres sobrevivió en comparación con los hombres. 
    Esto nos sugiere la idea de que el género fue un factor determinante en la supervivencia durante el accidente del Titanic.
    """

In [29]:
# ANALISIS EN CUANTO A VIAJAR SOLO O ACOMPAÑADO

# Creamos una nueva columna con la suma de las columnas SibSp y Parch para saber si viajaban solos con con Familares.
df['With_Family'] = df['SibSp'] + df['Parch']

# Creamos una nueva columna donde indica si el pasajero vajaba solo.
df['Alone'] = 0
df.loc[df.With_Family == 0, 'Alone'] = 1
df['Alone'] = df['Alone'].map({1: 'With_Family', 0: 'Alone'})

Compania = df[['Survived_Indicator','Alone']].value_counts().reset_index()

fig = px.bar(Compania, x='Alone', y='count', color='Survived_Indicator',
             color_discrete_sequence=colorx, opacity=0.85,template='plotly_dark')
fig.update_layout(
    title='Distribución pasajeros según si viajaban solos o con familiares',
    xaxis=dict(title='Pasajeros'),
    yaxis=dict(title='Cantidad'),
    )
fig.show()


"""El histograma muestra la distribución de pasajeros según si viajaban con familia o solos y la proporción de sobrevivientes y no sobrevivientes.
    Podemos ver que la proporción de pasajeros que viajaban con familia y sobrevivieron es menor en comparación con los que sobrevivieron. Por otro lado, la proporción de pasajeros que viajaban solos y sobrevivieron es mayor en comparación con los que no sobrevivieron.
    Estos hallazgos sugieren que viajar con familia podría haber sido negativo en términos de posibilidades de supervivencia durante el accidente del Titanic. Es posible que aquellos que estaban acompañados por familiares prioricen ayudar y salvar a sus familiares antes que a sí mismos. 
    """

###  ANALISIS DE LA VARIABLE: FARE

In [30]:
# Tarifa mínima y máxima de las personas del barco.
print(f"La tarifa máxima y mínima de personas fueron {df['Fare'].max()} y {df['Fare'].min()} valores monetarios respectivamente")
print ("Y la tarifa promedio fue:",df['Fare'].mean().round(2) , 'valores monetarios ')
Media_Clase_Calse= df.groupby('Pclass')['Fare'].mean().reset_index()
Media_Clase_Calse

La tarifa máxima y mínima de personas fueron 512.3292 y 0.0 valores monetarios respectivamente
Y la tarifa promedio fue: 32.2 valores monetarios 


Unnamed: 0,Pclass,Fare
0,1,84.154687
1,2,20.662183
2,3,13.67555


In [31]:
fig = px.box(df, y="Fare",x= 'Pclass', template="plotly_dark",color_discrete_sequence=[colorx[1]])
fig.show()

* "S": Southampton, Inglaterra
* "C": Cherbourg, Francia
* "Q": Queenstown (ahora conocido como Cobh), Irlanda

In [32]:
# Como vimos que no hay una correlación entre esas variables, procedimos a analizar las variables un poco mas con una gráfica de Arbol:

#  Agrupar los datos por Survived - Pclass - Sex
experience_job_ds = df.groupby(['Survived_Indicator', 'Pclass','Embarked']).size().reset_index(name='Count')
# Crear el gráfico de barras agrupadas
fig = px.treemap(experience_job_ds, path=['Survived_Indicator', 'Pclass','Embarked'], values='Count', 
                 color_discrete_sequence=colorx, template='plotly_dark')

fig.update_layout(
    title='Sobrevivientes por Clase',
    xaxis=dict(title='Edad'),
    yaxis=dict(title='Cantidad'),
    bargap=0.1,
    showlegend=True
)
fig.show()

"""Existe una notoria diferencia en la cantidad de sobrevivientes entre las diferentes clases. La clase 1 tiene un número considerablemente mayor de sobrevivientes en comparación con las clases 2 y 3. Esto puede ser atribuido a varios factores, como la ubicación de las cabinas en el barco, el acceso a los botes salvavidas y posiblemente la priorización de los pasajeros de primera clase en la asignación de botes salvavidas y/o medidas de salvación que se hayan considerado.
"""

In [33]:
fig = px.density_heatmap (df, x="Embarked", y="Survived_Indicator", marginal_x="histogram", marginal_y="rug",
                          template='plotly_dark',color_continuous_scale= colorx)

fig.update_layout(
    title='Mapa de calor por lugar de embarque',
    xaxis=dict(title='Lugar de Embarque'),
    yaxis=dict(title='Cantidad')
    )
fig.show()


In [34]:
fig = px.histogram(df, x='Embarked', color='Pclass', barmode='stack', nbins=25,
                   color_discrete_sequence=colorx, opacity=0.85,template='plotly_dark')

fig.update_layout(
    title='Distribución de pasajeros segun donde se embarcaron',
    xaxis=dict(title='Lugar de Embarque'),
    yaxis=dict(title='Cantidad'),
    )
fig.show()

In [35]:
# df.to_csv('titanic_Procesado.csv')

# CONCLUSIONES:

* Podemos ver que la proporción de pasajeros que sobrevivieron al desastre del Titanic fue inferior a la proporción de pasajeros que no sobrevivieron. 
Solo un 38% de los pasajeros sobrevivieron.

* En la Grafica de la distribución de edades de los pasajeros muestra que la mayoría de ellos se encontraban en el rango de 20 a 43 años. Sin embargo, 
cuando analizamos las correlaciones no encontramos una correlación entre estas dos variables (Age, Survived). Por lo que pudimos ver que en el barco la mayoría de los pasajeros eran personas jóvenes.

* En cuanto al género parece estar asociado a la supervivencia, ya que pudimos ver en la gráfica de distribución por género, que la mayoría de mujeres ha 
sobrevivido en comparación con los hombres. Esto puede deberse a la prioridad dada en las mujeres y niños durante la asignación de botes salvavidas y durante el rescate.

* Los pasajeros que viajaban solos tenían mayor probabilidad de sobrevivir en comparación con aquellos que viajaban con familiares a bordo. Esto puede deberse al priorizar buscar y salvar a sus familiares en lugar de a si mismos, o en la toma de decisiones en momentos de emergencia.

* Se puede ver en la gráfica de sobrevivientes que según el lugar de empaque los pasajeros que se embarcaron en Cherboug: “C” tuvieron mayor probabilidad de sobrevivir en comparación a los que se embarcaron en Queenstown: “Q” y Southampton: “S”. Siendo este último el que muestra menor probabilidad de sobrevivir.

* Y para finalizar podemos observar que los pasajeros que viajaban en la primera clase tienen una mayor proporción que el resto de las clases. Esto puede indicar que se hayan priorizado al momento de asignar los botes o al lugar donde se encontraban las cabinas. Esto puede indicar que puede haber sido un factor determinante en su probabilidad de sobrevivir.


# Clasificación

In [36]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

CORRELACIÓN

In [37]:
# Tengo que encodear la variable Survived

In [38]:
## Correlaciones
from scipy.stats import pearsonr
from scipy.stats import spearmanr

In [39]:
# Seleccionamos las columnas que con las que queremos usar para hacer nuetro modelo y poder estima el precio fare
df_procesado = df[['Survived','Pclass', 'Sex', 'Age', 'Fare']]
df_procesado.head()


Unnamed: 0,Survived,Pclass,Sex,Age,Fare
0,0,3,male,22.0,7.25
1,1,1,female,38.0,71.2833
2,1,3,female,26.0,7.925
3,1,1,female,35.0,53.1
4,0,3,male,35.0,8.05


In [40]:
# Procedemos a Encodear las variables que estan 'object' o 'string' para poder analizar las correlaciones

def encodear (df):
    from sklearn.preprocessing import LabelEncoder #Librería
    le = LabelEncoder()
    df_encoded = df.copy()
    for col in df_encoded.columns[df_encoded.dtypes == 'object']:
        df_encoded[col] = le.fit_transform(df_encoded[col].astype(str))
    return df_encoded

In [41]:
df_encoded = encodear(df_procesado)

In [42]:
## Correlaciones
from scipy.stats import pearsonr
from scipy.stats import spearmanr

In [43]:
# Correlación Pearson Entre las variables: Pclass y Survived
x = df_encoded['Pclass']
y = df_encoded['Survived']
corr,p_value = pearsonr(x, y)
print("Coeficiente de correlación de Pearson: ",corr)

Coeficiente de correlación de Pearson:  -0.33848103596101514


In [44]:
df_procesado = df[['Survived','Pclass', 'Sex', 'Age', 'Fare']]
df_encoded = encodear(df_procesado)

X = df_encoded.drop('Survived', axis=1)
y = df_encoded['Survived']

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=357)
regl = LogisticRegression()

#Entrenamos el modelo
regl.fit(X_train, y_train)

#Hacemos predicciones sobre el test

Y_pred = regl.predict(X_test)
#Evaluación
score = regl.score(X_test,y_test)
print(score)

0.8097014925373134


### FASTML

In [45]:
import pycaret 

In [46]:
from pycaret.classification import *

In [50]:
s = setup(df, target='Survived',session_id=357)

Unnamed: 0,Description,Value
0,Session id,357
1,Target,Survived
2,Target type,Binary
3,Original data shape,"(891, 15)"
4,Transformed data shape,"(891, 31)"
5,Transformed train set shape,"(623, 31)"
6,Transformed test set shape,"(268, 31)"
7,Ordinal features,3
8,Numeric features,7
9,Categorical features,7


In [48]:
print(pd.__version__)

2.0.2
