# Titanic Survival

#### The challenge:

Build a predictive model that answers the question: "what sorts of people were more likely to survive the Titanic sinking?

In [1]:
# data analysis and wrangling
import numpy as np
import pandas as pd

# data visualization
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression

In [3]:
# Acquiring the data
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')
combine = [train_df, test_df]

In [4]:
print(train_df.columns.values)

['PassengerId' 'Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch'
 'Ticket' 'Fare' 'Cabin' 'Embarked']


In [5]:
# find if age is continuous or discrete
print(train_df['Age'].unique())

[22.   38.   26.   35.     nan 54.    2.   27.   14.    4.   58.   20.
 39.   55.   31.   34.   15.   28.    8.   19.   40.   66.   42.   21.
 18.    3.    7.   49.   29.   65.   28.5   5.   11.   45.   17.   32.
 16.   25.    0.83 30.   33.   23.   24.   46.   59.   71.   37.   47.
 14.5  70.5  32.5  12.    9.   36.5  51.   55.5  40.5  44.    1.   61.
 56.   50.   36.   45.5  20.5  62.   41.   52.   63.   23.5   0.92 43.
 60.   10.   64.   13.   48.    0.75 53.   57.   80.   70.   24.5   6.
  0.67 30.5   0.42 34.5  74.  ]


In [6]:
# preview  the data
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Features categóricas

**Categóricas:** Survived, Sex, Cabin, Embarked.  
**Categóricas ordinales:** PClass.  

#### Features numéricas

**Continuas:** Edad, Fate.  
**Discretas:** SibSp, Parch  

#### Features mixtas

**Ticket** es una mezcla de tipos de datos numéricos y alfanuméricos  
**Cabin** es alfanumérico  

#### Features que podrían contener erorres ortográficos o tipográficos

**Name**, debido a que hay varias formas de describir un nombre (títulos, corchetes y comillas para nombres alternativos o abreviados)

In [7]:
print('train info')
train_df.info()
print('-'*40)
print('test info')
test_df.info()

train info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
----------------------------------------
test info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -

#### Distribución de valores de features numéricas en las muestras

Hechos relevantes:  

- Survived es una variable categórico con valores 0 y 1
- En este dataset hay un total de 891 pasajeros. El número real de pasajeros del Titanic era de 2223 personas.
- Aproximadamente el 38% de pasajeros (en el dataset) sobrevivieron al hundimiento.
- La gran mayoría de pasajeros (>75%) no tienen ni padres ni hijos
- Cerca del 25% de pasajeros tiene esposa o hermanos a bordo.

In [8]:
train_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Preguntas técnicas.  
¿Qué se hace cuando un pasajero no tiene una edad registrada (campo nulo)?    
¿Cómo se reemplazan los datos numéricos y categóricos nulos?

In [None]:
train_df.tail()

#### Features que contienen valores en blanco, nulos o vacíos

Variables que requieren corrección:

- **Cabin > Age > Embarked** contienen varios valores nulos en ese orden para el conjunto de datos de entrenamiento.
- **Cabin > Age** están incompletos en el caso del conjunto de datos de prueba.

### Descripción de los datos

- **PassengerId**  
    - Id del pasajero. 
    - No se tiene en cuenta para el modelo.
- **Pclass**  
    - Clase del Tiquete
    - 1 = Primera clase, 2 = Segunda clase, 3 = Tercera clase
- **Name**:  
    - Nombre del pasajero
    - No se tiene en cuenta para el modelo
- **Sex**:  
    - Sexo del pasajero. male o female.
- **Age**:  
    - Edad del pasajero.
    - Hay valores nulos
- **SibSp**:  
    - Número de hermanos / Cónyuges a bordo del Titanic.
- **Parch**:  
    - Parents/Child
    - Padres e hijos que abordaron el Titanic junto con el pasajero
- **Ticket**:  
    - Número del tiquete
- **Fare**:  
    - Tarifa del pasajero
- **Cabin**: 
    - Número de cabina
    - Datos nulos
- **Embarked**:  
    - Puerto de embarcación
    - C = Cherbourg, Q = Queenstown, S = Southampton  
- **Survided**:
    - Variable objetivo
    - ¿Un pasajero sobrevivió? 0 = No,  1 = Si
    - 891 datos no nulos. El resto se debería eliminar (?

- **Variables que se eliminarían por irrelevantes**:  
    - PassengerId  
    - Name  
    - Fare  

### Explorando un patrón

In [None]:
women = train_df.loc[]

## Modelación

In [None]:
# y = num['Survived']
# X = num.drop(['Survived'], axis=1)
# X.head(1)

In [None]:
# from sklearn.model_selection import train_test_split

# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)

In [None]:
# print(len(X))
# print(len(X_train))
# print(len(X_test))

In [None]:
from sklearn.linear_model import Lasso

#model = Lasso()

In [None]:
# Se entrena el modelo
#model.fit(X_train, y_train)