# Titanic Dataset: Tu Primer Contacto con Datos Reales

---

## 🎯 Objetivo de este Notebook

En este notebook, darás un gran paso al trabajar con tu primer dataset de Machine Learning: el famoso conjunto de datos del **Titanic**. Aprenderás a cargarlo, a inspeccionar su estructura y a identificar la información clave que usaremos para nuestro objetivo de **clasificación binaria**.

Al finalizar este notebook, serás capaz de:
* Cargar un dataset en Python usando la librería `Pandas`.
* Realizar una inspección inicial de los datos (`.head()`, `.info()`, `.shape()`, `.describe()`).
* Distinguir entre la **variable objetivo** y las **variables características**.

---

## 🚢 El Trágico Viaje del Titanic: Un Dataset Clásico

El dataset del Titanic es uno de los más populares y utilizados en el mundo del Machine Learning para principiantes. Contiene información sobre los pasajeros del desafortunado viaje inaugural del RMS Titanic, que se hundió en 1912 después de chocar con un iceberg.

El objetivo principal es predecir si un pasajero **sobrevivió (1)** o **no sobrevivió (0)** al desastre, basándose en características como su edad, sexo, clase de billete, etc.

Este es un problema clásico de **Clasificación Binaria**, exactamente el tipo que exploraremos en este curso.

---

## 📥 Paso 1: Cargar el Dataset

Para cargar y manipular datos en Python, usaremos una librería fundamental llamada **Pandas**. Es como una hoja de cálculo muy potente para Python.

Primero, necesitamos importar Pandas (es una convención darle el alias `pd`).

El dataset del Titanic se puede obtener fácilmente desde un enlace público. Utilizaremos `pd.read_csv()` para cargarlo directamente desde esa URL.

In [None]:
# Importamos la librería pandas
import pandas as pd

# URL del dataset del Titanic (versión de Kaggle, comúnmente usada)
url_titanic = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'

# Cargamos el dataset en un DataFrame de Pandas
df_titanic = pd.read_csv(url_titanic)

print("¡Dataset del Titanic cargado exitosamente!")

---

## 🧐 Paso 2: Inspección Inicial del Dataset

Una vez que hemos cargado los datos, es crucial echar un primer vistazo para entender su estructura, qué columnas tiene, cuántas filas, y qué tipo de información contiene cada columna.

Utilizaremos las siguientes funciones:

* **`.head()`:** Muestra las primeras filas del DataFrame (por defecto, las 5 primeras). Es útil para ver cómo se ven los datos.
* **`.info()`:** Proporciona un resumen conciso del DataFrame, incluyendo el número de entradas (filas), el número de columnas, el tipo de datos de cada columna y si hay valores nulos (`NaN`).
* **`.shape`:** Devuelve una tupla que representa las dimensiones del DataFrame (número de filas, número de columnas).
* **`.describe()`:** Genera estadísticas descriptivas de las columnas numéricas (conteo, media, desviación estándar, valores mínimos/máximos, cuartiles).

In [None]:
print("\n--- Primeras 5 filas del dataset (.head()) ---")
print(df_titanic.head())

print("\n--- Información general del dataset (.info()) ---")
df_titanic.info()

print("\n--- Dimensiones del dataset (.shape) ---")
print(f"Filas: {df_titanic.shape[0]}, Columnas: {df_titanic.shape[1]}")

print("\n--- Estadísticas descriptivas de columnas numéricas (.describe()) ---")
print(df_titanic.describe())

---

## 🎯 Paso 3: Identificar la Variable Objetivo y las Características

En un problema de Machine Learning:

* La **Variable Objetivo (o `target` / etiqueta)** es lo que queremos predecir. Es nuestra "respuesta correcta" que el modelo debe aprender.
* Las **Variables Características (o `features` / atributos)** son las piezas de información (columnas) que usaremos para hacer la predicción.

Para el dataset del Titanic:

* **Variable Objetivo:** `Survived`
    * `0`: No sobrevivió
    * `1`: Sobrevivió

* **Variables Características:** Todas las demás columnas que nos puedan ayudar a predecir la supervivencia (ej. `Pclass`, `Sex`, `Age`, `Fare`, `SibSp`, `Parch`, etc.).

Vamos a ver cuántos sobrevivieron y cuántos no:

In [None]:
print("\n--- Conteo de Sobrevivientes vs. No Sobrevivientes ---")
print(df_titanic['Survived'].value_counts())

print("\n--- Proporción de Sobrevivientes vs. No Sobrevivientes ---")
print(df_titanic['Survived'].value_counts(normalize=True).round(2))


---

## 📈 Paso 4: Una Pequeña Visualización Inicial (¡Intuitiva!)

Las visualizaciones nos ayudan a entender los datos de un vistazo. No te preocupes por los detalles del código ahora, la idea es que veas cómo podemos empezar a encontrar patrones. ¿Crees que el sexo o la clase del pasajero influyeron en la supervivencia?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1) # Gráfico 1: Supervivencia por Sexo
sns.barplot(x='Sex', y='Survived', data=df_titanic, palette='viridis')
plt.title('Proporción de Supervivencia por Sexo')
plt.ylabel('Tasa de Supervivencia')
plt.xlabel('Sexo')

plt.subplot(1, 2, 2) # Gráfico 2: Supervivencia por Clase de Billete
sns.barplot(x='Pclass', y='Survived', data=df_titanic, palette='cividis')
plt.title('Proporción de Supervivencia por Clase de Billete')
plt.ylabel('Tasa de Supervivencia')
plt.xlabel('Clase de Billete')

plt.tight_layout() # Ajusta el diseño para que no se solapen los gráficos
plt.show()


### ✨ Reflexiona sobre las visualizaciones:

* ¿Qué observas en el gráfico de **supervivencia por sexo**? ¿Quién tuvo más posibilidades de sobrevivir?
* ¿Qué patrón ves en el gráfico de **supervivencia por clase de billete**? ¿Había alguna clase con mayor tasa de supervivencia?

Estas primeras observaciones nos dan pistas valiosas sobre qué características podrían ser importantes para predecir la supervivencia. ¡Esto es el inicio del **análisis de datos exploratorio**!

---

## ⏭️ ¿Qué sigue?

¡Excelente trabajo! Has cargado y explorado tu primer dataset de Machine Learning. Ahora tienes una idea de cómo se ven los datos y qué tipo de información contienen.

Te animo a:

1.  Revisar el `README.md` de la Fase 1 para tener una visión general.
2.  Si aún no lo has hecho, repasa el `Intro_ML.ipynb` para consolidar los conceptos básicos de ML.
3.  Consultar la **`Guía_Conceptos_ML.pdf`** para profundizar en la teoría de los tipos de Machine Learning y los términos clave.

¡Estás construyendo una base muy sólida en Machine Learning!