<a href="https://colab.research.google.com/github/johnreyes96/modeling-and-simulation/blob/master/src/main/python/Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Tabla de contenido:**
* Introducción
* Nave espacial titánica
* Importar bibliotecas
* Obteniendo los datos
* Exploración/análisis de datos
    - Datos perdidos

# **Introducción**

Predecir si un pasajero fue transportado a una dimensión alternativa durante la colisión de la nave espacial Titanic con la anomalía del espacio-tiempo. Para ayudarlo a hacer estas predicciones, se le proporciona un conjunto de registros personales recuperados del sistema informático dañado del barco.

# **Nave espacial titánica**

Bienvenido al año 2912, en el que se necesitan tus conocimientos de ciencia de datos para resolver un misterio cósmico. Hemos recibido una transmisión desde cuatro años luz de distancia y las cosas no pintan bien.
La nave espacial Titanic era un transatlántico interestelar de pasajeros lanzado hace un mes. Con casi 13.000 pasajeros a bordo, la nave partió en su viaje inaugural transportando emigrantes de nuestro sistema solar a tres exoplanetas recientemente habitables que orbitan alrededor de estrellas cercanas.
Mientras rodeaba Alfa Centauri de camino a su primer destino, el tórrido 55 Cancri E, la incauta nave espacial Titanic colisionó con una anomalía del espacio-tiempo oculta en una nube de polvo. Desgraciadamente, tuvo un destino similar al de su homónima de 1000 años antes. Aunque la nave permaneció intacta, casi la mitad de los pasajeros fueron transportados a una dimensión alternativa.
Para ayudar a las tripulaciones de rescate y recuperar a los pasajeros perdidos, se te desafía a predecir qué pasajeros fueron transportados por la anomalía utilizando los registros recuperados del sistema informático dañado de la nave espacial.

# **Importar bibliotecas**

In [1]:
# data processing
import pandas as pd

import plotly.express as px
import plotly.graph_objects as go

# data visualization
import seaborn as sns
import matplotlib.pyplot as plt

# **Obteniendo los datos**

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
cd /content/drive/MyDrive/modeling_and_simulation

/content/drive/MyDrive/modeling_and_simulation


In [10]:
test_df = pd.read_csv("test_titanic.csv")
train_df = pd.read_csv("train_titanic.csv")

# **Exploración/análisis de datos**

In [14]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB


**El conjunto de entrenamiento tiene 8693 ejemplos, 13 características + la variable objetivo (Transported)**. 6 de las características son flotantes, 7 son objetos y un booleano. A continuación las características con su descripción:

    PassengerId:  Un Id único para cada pasajero. gggg_pp donde gggg(grupo con el que viaja el pasajero) y pp(# dentro del grupo).
                  Las personas en un grupo a menudo son miembros de la familia, pero no siempre.
    HomePlanet:   El planeta del que partió el pasajero.
    CryoSleep:    Indica si el pasajero eligió ser puesto en animación suspendida durante la duración del viaje.
                  Los pasajeros en criosueño están confinados en sus cabinas.
    Cabin:        # de cabina donde se hospeda el pasajero. deck/num/side, donde side = P(Babor) o S(Estribor).
    Destination:  El planeta al que desembarcará el pasajero.
    Age:          La edad del pasajero.
    VIP:          Si el pasajero ha pagado por servicio VIP especial durante el viaje.
    RoomService:  Monto que el pasajero ha facturado en el servicio.
    FoodCourt:    Monto que el pasajero ha facturado en el servicio.
    ShoppingMall: Monto que el pasajero ha facturado en el servicio.
    Spa:          Monto que el pasajero ha facturado en el servicio.
    VRDeck:       Monto que el pasajero ha facturado en el servicio.
    Name:         El nombre y apellido del pasajero.
    Transported:  Si el pasajero fue transportado a otra dimensión. Este es el objetivo, la columna que está tratando de predecir.

In [15]:
train_df.describe()

Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck
count,8514.0,8512.0,8510.0,8485.0,8510.0,8505.0
mean,28.82793,224.687617,458.077203,173.729169,311.138778,304.854791
std,14.489021,666.717663,1611.48924,604.696458,1136.705535,1145.717189
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,19.0,0.0,0.0,0.0,0.0,0.0
50%,27.0,0.0,0.0,0.0,0.0,0.0
75%,38.0,47.0,76.0,27.0,59.0,46.0
max,79.0,14327.0,29813.0,23492.0,22408.0,24133.0


Arriba podemos ver que las edades de **los pasajeros oscilan entre 0 y 79 años**. Además de eso, ya podemos detectar 2 características que tienen sus valores completos, como 'Id del pasajero' y 'Transportado'.

In [16]:
train_df.head(15)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True
5,0005_01,Earth,False,F/0/P,PSO J318.5-22,44.0,False,0.0,483.0,0.0,291.0,0.0,Sandie Hinetthews,True
6,0006_01,Earth,False,F/2/S,TRAPPIST-1e,26.0,False,42.0,1539.0,3.0,0.0,0.0,Billex Jacostaffey,True
7,0006_02,Earth,True,G/0/S,TRAPPIST-1e,28.0,False,0.0,0.0,0.0,0.0,,Candra Jacostaffey,True
8,0007_01,Earth,False,F/3/S,TRAPPIST-1e,35.0,False,0.0,785.0,17.0,216.0,0.0,Andona Beston,True
9,0008_01,Europa,True,B/1/P,55 Cancri e,14.0,False,0.0,0.0,0.0,0.0,0.0,Erraiam Flatic,True


De la tabla anterior, podemos notar algunas cosas. En primer lugar, **necesitamos convertir muchas funciones en funciones numéricas** más adelante, para que los algoritmos de aprendizaje automático puedan procesarlas. Además, podemos ver que las **características tienen rangos muy diferentes**, que necesitaremos convertir aproximadamente a la misma escala. También podemos detectar algunas características más, que contienen valores faltantes (NaN).

**Detallando los datos que realmente faltan:**

In [20]:
total = train_df.isnull().sum().sort_values(ascending=False)
percent_1 = train_df.isnull().sum() / train_df.isnull().count() * 100
percent_2 = (round(percent_1, 1)).sort_values(ascending=False)
missing_data = pd.concat([total, percent_2], axis=1, keys=['Total', '%'])
missing_data.head(14)

Unnamed: 0,Total,%
CryoSleep,217,2.5
ShoppingMall,208,2.4
VIP,203,2.3
HomePlanet,201,2.3
Name,200,2.3
Cabin,199,2.3
VRDeck,188,2.2
FoodCourt,183,2.1
Spa,183,2.1
Destination,182,2.1


Las 12 funciones oscilan entre 179 y 217 valores faltantes, algunas que se pueden completar fácilmente, otras más difíciles como 'HomePlanet' y 'Destination', por tal motivo sus valores 'NaN' serán reemplazados por 'Unknown', esto con el fin de identificar, si los pasajeros transportados tienen en común su planeta de origen y/o destino. Por otro lado, la función "Name" podríamos eliminarla del conjunto de datos, ya que no aportaría valor alguno.

In [21]:
train_df.columns.values

array(['PassengerId', 'HomePlanet', 'CryoSleep', 'Cabin', 'Destination',
       'Age', 'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa',
       'VRDeck', 'Name', 'Transported'], dtype=object)

Arriba puede ver las 13 características + la variable de destino (Transported). **¿Qué características podrían contribuir a una alta tasa de transportados a una dimensión alternativa?**

Para nosotros tendría sentido todos, menos 'Name', por los demás, se correlacionaran con una alta tasa de transportados a una dimensión alternativa.

In [18]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB
