# Dataset Titanic

El dataset del Titanic, es un conjunto de datos clásico utilizado para tareas de clasificación binaria. Se basa en información histórica de los pasajeros del RMS Titanic, que se hundió en 1912 tras chocar con un iceberg. El objetivo principal es predecir si un pasajero sobrevivió o no, basado en características como su clase social,
edad, género y otros factores socioeconómicos.

El RMS Titanic se hundió el 15 de abril de 1912 durante su viaje inaugural. De las aproximadamente 2,224
personas a bordo, más de 1,500 murieron, convirtiendo este evento en uno de los naufragios más mortíferos en tiempos de paz.

| **Atributo** |                         **Descripción**                          |
| :----------: | :--------------------------------------------------------------: |
| PassengerId  |                 Identificador único del pasajero                 |
|   Survived   | Variable objetivo: Indica si el pasajero sobrevivió (1) o no (0) |
|    Pclass    |        Clase del ticket (proxy de estatus socioeconómico)        |
|     Name     | Nombre completo del pasajero, incluyendo títulos (ej. Mr., Mrs.) |
|     Sex      |                Género del pasajero (male, female)                |
|     Age      |          Edad en años (puede ser fraccional para niños)          |
|    SibSp     |                Número de hermanos/esposos a bordo                |
|    Parch     |                  Número de padres/hijos a bordo                  |
|    Ticket    |                        Número del ticket                         |
|     Fare     |                   Tarifa pagada por el ticket                    |
|    Cabin     |               Número de cabina (muchos faltantes)                |
|   Embarked   |                   Puerto de embarque (C, Q, S)                   |


In [None]:
ColabNotebook = 'google.colab' in str(get_ipython())

if ColabNotebook:
    # monta G-drive en entorno COLAB
    from google.colab import drive
    drive.mount('/content/drive/')

    DATOS_DIR = '/content/drive/MyDrive/Colab Notebooks/DATOS/'  # carpeta donde se encuentran los datasets
else:
    DATOS_DIR   = '../../Datos/p1/' # carpeta LOCAL donde se encuentran los datasets


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv(DATOS_DIR + '???????.csv')

## Ejercicio 7

Realice las siguientes tareas para preparar el dataset para que pueda ser utilizado para entrenar modelos de redes neuronales.

### a) Visualice las primeras 5 filas y el resumen estadístico.

### b) Identifique los atributos (columnas) con valores nulos y su porcentaje.

### c) Analizar los valores faltantes y discutir cuales serían las alternativas posibles para tratarlos.

### d) Los nombres de los pasajeros van acompañados de títulos que pueden ser importantes para la interpretación de los datos o para completar información faltante:

**i.** Extrae el título (como Mr, Miss, Mrs, Master, etc.) del nombre de cada pasajero y crea una nueva columna llamada Title.

**ii.** Unifica los valores para que queden Mr, Miss (Mlle, Ms), Mrs (Mme), Master, Others (resto).

**iii.** Computa las edades faltantes utilizando la edad promedio por categoría.


### e) Complete los valores faltantes utilizando las estrategias planteadas en los puntos anteriores.

### f) Cree un nuevo atributo FamilySize que contabiliza los integrantes de familia a partir de los atributos SibSp (hermanos y esposo) y Parch (padres e hijos). No olvidar contar a la persona.

### g) Numerice los atributos categóricos: Sex, Embarked, y Title.

### h) Discuta y responda ¿Por qué one-hot encoding podría ser preferible a label encoding para el atributo Pclass?

### i) Visualiza distribuciones: Histograma de Age, gráfico de barras para Survived por Sex y Pclass.

## Ejercicio 8

Calcule la correlación lineal entre los atributos **“Fare”** (Tarifa) y **“PClass”** (clase del ticket). Indique la intensidad de la correlación (no hay correlación/débil/fuerte) y el tipo (positiva/negativa). Explique el significado del valor de correlación obtenido.

<div style="display: flex; justify-content: center;">
  <table border="1" cellpadding="5" cellspacing="0" style="border-collapse: collapse; text-align: center;">
    <thead>
      <tr>
	  	<th></th>
        <th style="background-color:#2E86C1; color:white;">Fare/PClass</th>
        <th style="background-color:#2E86C1; color:white;">PClass</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Valor</td>
        <td></td>
		<td></td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Intensidad</td>
        <td></td>
		<td></td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Tipo</td>
        <td></td>
		<td></td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Significado</td>
        <td></td>
		<td></td>
      </tr>
    </tbody>
  </table>
</div>


## Ejercicio 9

Realice un análisis sobre los valores de los atributos del dataset automobile.csv. Para cada atributo que no pueda ser procesado directamente, indique que problema tiene (valores nulos o vacíos, valores categóricos, valores atípicos o outliers, etc.) y como solucionarlo.

## Ejercicio 10

Dada la siguiente tabla con mediciones de 2 características correspondientes a mediciones de altura y peso de personas:

<div style="display: flex; justify-content: center;">
  <table border="1" cellpadding="5" cellspacing="0" style="border-collapse: collapse; text-align: center;">
    <tbody>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Altura</td>
		<td>1.65</td> <td>1.81</td> <td>1.70</td> <td>1.62</td> <td>1.74</td> <td>1.70</td> <td>1.80</td> <td>1.73</td> <td>1.68</td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Peso</td>
        <td>75</td> <td>86</td> <td>82</td> <td>78</td> <td>77</td> <td>87</td> <td>90</td> <td>83</td> <td>80</td>
      </tr>
    </tbody>
  </table>
</div>

### a) Aplique las siguientes normalizaciones y grafíquelas con un diagrama de caja:

$$
MinMax: \frac{x_{i}-min(x)}{max(x)- min(x)}\quad\quad\quad\quad Standard: \frac{x_{i} - media(x)}{stddev(x)} \quad\quad\quad\quad Robust: \frac{x_{i} - Q1(x)}{Q3(x)-Q1(x)}
$$

### b) Agregue la siguiente medición (2.20, 120) y repita el punto a)

### c) Compare los diagramas de caja entre las normalizaciones de los puntos a) y b) y comente las diferencias.