
# Notebook 5 — Nuestro primer modelo de Machine Learning

### Clasificación sencilla con el Titanic (de Python a R)

En el cuaderno anterior no entrenamos ningún modelo.
Aprendimos algo más importante: **mirar los datos antes de usarlos**.

Ahora damos el siguiente paso lógico.
Vamos a construir **nuestro primer modelo de Machine Learning**, algo sencillo, sin matemáticas raras y sin “magia”.

La pregunta que vamos a intentar responder es muy simple:

> *Con los datos del Titanic, ¿podemos predecir si una persona sobrevive o no?*

---

## Empezamos preparando el entorno

Cuando trabajábamos en Python, normalmente empezábamos importando:

* `pandas` para los datos
* `scikit-learn` para los modelos

En R hacemos lo mismo, pero con otras librerías:

* `tidyverse` para datos
* `caret` para Machine Learning

In [None]:
library(tidyverse)
library(caret)


No te preocupes por `caret` todavía.
Piensa en ella como “el scikit-learn de R”.

---

## Cargamos el dataset

En Python hacíamos algo así:

```python
df = pd.read_csv("titanic.csv")
```

En R usamos la función equivalente `read_csv()`.

In [None]:
titanic <- read_csv(
  "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
)

El resultado es el mismo:

* tenemos los datos en memoria
* cada fila es una persona
* cada columna es una característica

---

## Recordamos qué queremos predecir

En Python ya habíamos visto que:

* `Survived = 0` → no sobrevivió
* `Survived = 1` → sobrevivió

Eso significa que estamos ante un problema de **clasificación**:
no queremos predecir un número, sino una **categoría**.

En R es exactamente igual.

---

## Elegir qué columnas usar

Cuando preparábamos modelos en Python, nunca usábamos todas las columnas.
Siempre eliminábamos:

* textos largos
* identificadores
* columnas que no aportan información

Aquí hacemos lo mismo.

Nos quedamos con un conjunto pequeño y fácil de entender:

* `Survived` → lo que queremos predecir
* `Pclass`, `Sex`, `Age`, `Fare` → información básica


In [None]:
titanic_sel <- titanic %>%
  select(Survived, Pclass, Sex, Age, Fare)


o estamos diciendo que este sea el mejor conjunto posible.
Solo que **es suficiente para aprender**.

---

## Primer problema real: valores que faltan

En Python ya vimos que los modelos no aceptan valores nulos (`NaN`).
Por eso siempre había que tomar una decisión antes de entrenar.

En R pasa exactamente lo mismo.

Para este primer modelo vamos a usar la solución más simple:
**eliminar las filas que tengan valores que faltan**.


In [None]:
titanic_clean <- titanic_sel %>%
  drop_na()


Más adelante aprenderemos formas mejores de tratar estos casos.


---

## Preparar variables categóricas

En Python, scikit-learn no acepta texto directamente, así que convertíamos variables como `Sex` en valores categóricos codificados.

En R ocurre algo muy parecido:
las variables categóricas deben ser **factores**.

In [None]:
titanic_clean$Survived <- factor(titanic_clean$Survived)
titanic_clean$Sex <- factor(titanic_clean$Sex)

Conceptualmente:

* en Python → codificación
* en R → factores

El objetivo es el mismo.

--

## Separar datos de entrenamiento y test

En Python usábamos algo como:

```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(...)
```

La idea era muy clara:

* entrenar el modelo con una parte de los datos
* comprobar si funciona con datos nuevos

En R hacemos exactamente lo mismo, aunque con otra función.

In [None]:
set.seed(123)

indices <- createDataPartition(
  titanic_clean$Survived,
  p = 0.8,
  list = FALSE
)

train_data <- titanic_clean[indices, ]
test_data  <- titanic_clean[-indices, ]

Ahora:

* el 80 % de los datos se usa para entrenar
* el 20 % se reserva para probar el modelo


## Elegimos nuestro primer modelo

En Python, para clasificación sencilla, solíamos usar **regresión logística**:

```python
from sklearn.linear_model import LogisticRegression
```

En R usamos el mismo tipo de modelo, solo que con otra sintaxis.

La idea es la misma:

> el modelo aprende una regla para decidir si alguien sobrevive o no.

In [None]:
modelo <- train(
  Survived ~ .,
  data = train_data,
  method = "glm",
  family = "binomial"
)

Aunque el nombre suene distinto, **es el mismo tipo de modelo** que en Python.


---

## El modelo ya está entrenado

Podemos ver un resumen del modelo simplemente escribiendo su nombre.


In [None]:
modelo

Esto nos confirma que:

* el modelo se ha entrenado
* ha aprendido algo de los datos

Todavía no sabemos si es bueno o malo.
Eso lo veremos ahora.

---

## Hacer predicciones

En Python, una vez entrenado el modelo, llamábamos a `predict()`.

En R hacemos exactamente lo mismo.

In [None]:
predicciones <- predict(modelo, test_data)


Estas predicciones son lo que el modelo **cree** que ocurrió, sin haber visto esos datos antes.


---

## Comprobar si ha acertado

En Python usábamos métricas como accuracy o la matriz de confusión.

En R, `caret` nos da directamente una matriz de confusión muy clara.

In [None]:
confusionMatrix(predicciones, test_data$Survived)


Aquí podemos ver:

* cuántos casos ha acertado
* cuántos ha fallado
* qué porcentaje total de aciertos tiene

No buscamos un resultado perfecto.
Buscamos entender **qué significa que un modelo funcione**.

Después de todo lo que has hecho en este cuaderno, ya has visto que **R y Python hacen exactamente lo mismo**, solo que con nombres distintos.

Antes de pasar al siguiente cuaderno, aquí tienes una **tabla resumen** con las equivalencias más importantes que has usado hoy.


---

### Python vs R — Primer modelo de Machine Learning (Titanic)

| Qué estábamos haciendo     | En Python                | En R                        |
| -------------------------- | ------------------------ | --------------------------- |
| Cargar librerías           | `import pandas, sklearn` | `library(tidyverse, caret)` |
| Leer datos CSV             | `pd.read_csv()`          | `read_csv()`                |
| Ver estructura del dataset | `df.info()`              | `glimpse()`                 |
| Seleccionar columnas       | `df[[...]]`              | `select()`                  |
| Eliminar valores nulos     | `df.dropna()`            | `drop_na()`                 |
| Variables categóricas      | Encoding                 | `factor()`                  |
| Separar train / test       | `train_test_split()`     | `createDataPartition()`     |
| Entrenar modelo            | `LogisticRegression()`   | `train(method="glm")`       |
| Hacer predicciones         | `model.predict()`        | `predict()`                 |
| Evaluar modelo             | `accuracy_score()`       | `confusionMatrix()`         |

---