# Titanic Dataset: Tu Primer Contacto con Datos Reales

---

## üéØ Objetivo de este Notebook

En este notebook, dar√°s un gran paso al trabajar con tu primer dataset de Machine Learning: el famoso conjunto de datos del **Titanic**. Aprender√°s a cargarlo, a inspeccionar su estructura y a identificar la informaci√≥n clave que usaremos para nuestro objetivo de **clasificaci√≥n binaria**.

Al finalizar este notebook, ser√°s capaz de:
* Cargar un dataset en Python usando la librer√≠a `Pandas`.
* Realizar una inspecci√≥n inicial de los datos (`.head()`, `.info()`, `.shape()`, `.describe()`).
* Distinguir entre la **variable objetivo** y las **variables caracter√≠sticas**.

---

## üö¢ El Tr√°gico Viaje del Titanic: Un Dataset Cl√°sico

El dataset del Titanic es uno de los m√°s populares y utilizados en el mundo del Machine Learning para principiantes. Contiene informaci√≥n sobre los pasajeros del desafortunado viaje inaugural del RMS Titanic, que se hundi√≥ en 1912 despu√©s de chocar con un iceberg.

El objetivo principal es predecir si un pasajero **sobrevivi√≥ (1)** o **no sobrevivi√≥ (0)** al desastre, bas√°ndose en caracter√≠sticas como su edad, sexo, clase de billete, etc.

Este es un problema cl√°sico de **Clasificaci√≥n Binaria**, exactamente el tipo que exploraremos en este curso.

---

## üì• Paso 1: Cargar el Dataset

Para cargar y manipular datos en Python, usaremos una librer√≠a fundamental llamada **Pandas**. Es como una hoja de c√°lculo muy potente para Python.

Primero, necesitamos importar Pandas (es una convenci√≥n darle el alias `pd`).

El dataset del Titanic se puede obtener f√°cilmente desde un enlace p√∫blico. Utilizaremos `pd.read_csv()` para cargarlo directamente desde esa URL.

In [None]:
# Importamos la librer√≠a pandas
import pandas as pd

# URL del dataset del Titanic (versi√≥n de Kaggle, com√∫nmente usada)
url_titanic = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'

# Cargamos el dataset en un DataFrame de Pandas
df_titanic = pd.read_csv(url_titanic)

print("¬°Dataset del Titanic cargado exitosamente!")

---

## üßê Paso 2: Inspecci√≥n Inicial del Dataset

Una vez que hemos cargado los datos, es crucial echar un primer vistazo para entender su estructura, qu√© columnas tiene, cu√°ntas filas, y qu√© tipo de informaci√≥n contiene cada columna.

Utilizaremos las siguientes funciones:

* **`.head()`:** Muestra las primeras filas del DataFrame (por defecto, las 5 primeras). Es √∫til para ver c√≥mo se ven los datos.
* **`.info()`:** Proporciona un resumen conciso del DataFrame, incluyendo el n√∫mero de entradas (filas), el n√∫mero de columnas, el tipo de datos de cada columna y si hay valores nulos (`NaN`).
* **`.shape`:** Devuelve una tupla que representa las dimensiones del DataFrame (n√∫mero de filas, n√∫mero de columnas).
* **`.describe()`:** Genera estad√≠sticas descriptivas de las columnas num√©ricas (conteo, media, desviaci√≥n est√°ndar, valores m√≠nimos/m√°ximos, cuartiles).

In [None]:
print("\n--- Primeras 5 filas del dataset (.head()) ---")
print(df_titanic.head())

print("\n--- Informaci√≥n general del dataset (.info()) ---")
df_titanic.info()

print("\n--- Dimensiones del dataset (.shape) ---")
print(f"Filas: {df_titanic.shape[0]}, Columnas: {df_titanic.shape[1]}")

print("\n--- Estad√≠sticas descriptivas de columnas num√©ricas (.describe()) ---")
print(df_titanic.describe())

---

## üéØ Paso 3: Identificar la Variable Objetivo y las Caracter√≠sticas

En un problema de Machine Learning:

* La **Variable Objetivo (o `target` / etiqueta)** es lo que queremos predecir. Es nuestra "respuesta correcta" que el modelo debe aprender.
* Las **Variables Caracter√≠sticas (o `features` / atributos)** son las piezas de informaci√≥n (columnas) que usaremos para hacer la predicci√≥n.

Para el dataset del Titanic:

* **Variable Objetivo:** `Survived`
    * `0`: No sobrevivi√≥
    * `1`: Sobrevivi√≥

* **Variables Caracter√≠sticas:** Todas las dem√°s columnas que nos puedan ayudar a predecir la supervivencia (ej. `Pclass`, `Sex`, `Age`, `Fare`, `SibSp`, `Parch`, etc.).

Vamos a ver cu√°ntos sobrevivieron y cu√°ntos no:

In [None]:
print("\n--- Conteo de Sobrevivientes vs. No Sobrevivientes ---")
print(df_titanic['Survived'].value_counts())

print("\n--- Proporci√≥n de Sobrevivientes vs. No Sobrevivientes ---")
print(df_titanic['Survived'].value_counts(normalize=True).round(2))


---

## üìà Paso 4: Una Peque√±a Visualizaci√≥n Inicial (¬°Intuitiva!)

Las visualizaciones nos ayudan a entender los datos de un vistazo. No te preocupes por los detalles del c√≥digo ahora, la idea es que veas c√≥mo podemos empezar a encontrar patrones. ¬øCrees que el sexo o la clase del pasajero influyeron en la supervivencia?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1) # Gr√°fico 1: Supervivencia por Sexo
sns.barplot(x='Sex', y='Survived', data=df_titanic, palette='viridis')
plt.title('Proporci√≥n de Supervivencia por Sexo')
plt.ylabel('Tasa de Supervivencia')
plt.xlabel('Sexo')

plt.subplot(1, 2, 2) # Gr√°fico 2: Supervivencia por Clase de Billete
sns.barplot(x='Pclass', y='Survived', data=df_titanic, palette='cividis')
plt.title('Proporci√≥n de Supervivencia por Clase de Billete')
plt.ylabel('Tasa de Supervivencia')
plt.xlabel('Clase de Billete')

plt.tight_layout() # Ajusta el dise√±o para que no se solapen los gr√°ficos
plt.show()


### ‚ú® Reflexiona sobre las visualizaciones:

* ¬øQu√© observas en el gr√°fico de **supervivencia por sexo**? ¬øQui√©n tuvo m√°s posibilidades de sobrevivir?
* ¬øQu√© patr√≥n ves en el gr√°fico de **supervivencia por clase de billete**? ¬øHab√≠a alguna clase con mayor tasa de supervivencia?

Estas primeras observaciones nos dan pistas valiosas sobre qu√© caracter√≠sticas podr√≠an ser importantes para predecir la supervivencia. ¬°Esto es el inicio del **an√°lisis de datos exploratorio**!

---

## ‚è≠Ô∏è ¬øQu√© sigue?

¬°Excelente trabajo! Has cargado y explorado tu primer dataset de Machine Learning. Ahora tienes una idea de c√≥mo se ven los datos y qu√© tipo de informaci√≥n contienen.

Te animo a:

1.  Revisar el `README.md` de la Fase 1 para tener una visi√≥n general.
2.  Si a√∫n no lo has hecho, repasa el `Intro_ML.ipynb` para consolidar los conceptos b√°sicos de ML.
3.  Consultar la **`Gu√≠a_Conceptos_ML.pdf`** para profundizar en la teor√≠a de los tipos de Machine Learning y los t√©rminos clave.

¬°Est√°s construyendo una base muy s√≥lida en Machine Learning!