### üìò ¬øQu√© es un Modelo de Clasificaci√≥n y un Modelo de Regresi√≥n?

En Machine Learning, un **modelo predictivo** se entrena con datos hist√≥ricos para hacer predicciones sobre datos nuevos. Dependiendo del tipo de predicci√≥n que queremos hacer, usamos **dos tipos principales de modelos**:

---

#### üî¢ Modelo de Regresi√≥n

Un modelo de **regresi√≥n** se utiliza cuando queremos predecir un **valor num√©rico continuo**.

üìå **Ejemplos:**
- ¬øCu√°ntos turistas llegar√°n a Cartagena el pr√≥ximo mes?
- ¬øCu√°l ser√° el costo promedio del alojamiento?

üéØ **Objetivo:** Predecir cantidades (n√∫meros).

---

#### üè∑Ô∏è Modelo de Clasificaci√≥n

Un modelo de **clasificaci√≥n** se utiliza cuando queremos predecir una **categor√≠a o clase**.

üìå **Ejemplos:**
- ¬øLa ocupaci√≥n hotelera ser√° *Alta* o *Baja*?
- ¬øHabr√° *lluvia* o *no lluvia*?

üéØ **Objetivo:** Predecir etiquetas (clases).

---

### ü§î ¬øC√≥mo s√© cu√°l modelo usar?

| Pregunta clave                          | Si la respuesta es...        | Usa...          |
|----------------------------------------|-------------------------------|------------------|
| ¬øLo que quiero predecir es un n√∫mero?  | ‚úÖ S√≠                          | üî¢ Regresi√≥n     |
| ¬øLo que quiero predecir es una clase?  | ‚úÖ S√≠ (*Alta/Baja*, *S√≠/No*)   | üè∑Ô∏è Clasificaci√≥n |

---

üí° En este taller vamos a usar **ambos tipos de modelos**:

- üî¢ Un modelo de **regresi√≥n** para predecir el **n√∫mero de turistas** que visitan Cartagena.
- üè∑Ô∏è Un modelo de **clasificaci√≥n** para predecir si la **ocupaci√≥n hotelera** ser√° *Alta* o *Baja*.


### üéØ ¬øQu√© son las M√âTRICAS en Machine Learning?

Las **m√©tricas** son herramientas que nos permiten **evaluar el rendimiento de un modelo**.  
Nos ayudan a saber si el modelo hace buenas predicciones o si se est√° equivocando, y **cu√°nto se equivoca**.

Las m√©tricas que se usan dependen del tipo de modelo que estamos usando:  
üî¢ **Regresi√≥n** o üè∑Ô∏è **Clasificaci√≥n**.

---

## üìà M√âTRICAS PARA REGRESI√ìN

Se usan cuando el modelo predice **valores num√©ricos continuos**, como el n√∫mero de turistas.

| M√©trica        | ¬øQu√© mide?                                                           | ¬øQu√© significa un valor bajo?         |
|----------------|----------------------------------------------------------------------|---------------------------------------|
| **MAE**        | *Error Absoluto Medio*: promedio de las diferencias absolutas entre las predicciones y los valores reales. | El modelo tiene errores peque√±os.     |
| **MSE**        | *Error Cuadr√°tico Medio*: igual que MAE pero eleva los errores al cuadrado (penaliza errores grandes).     | El modelo comete pocos errores graves.|
| **RMSE**       | *Ra√≠z del MSE*: vuelve a la escala original de los datos, f√°cil de interpretar.                             | El modelo predice con buena precisi√≥n.|

üìå **Ejemplo**:  
Si el RMSE = 1500, significa que el modelo se equivoca en promedio **en 1.500 turistas**.

---

## üè∑Ô∏è M√âTRICAS PARA CLASIFICACI√ìN

Se usan cuando el modelo predice **categor√≠as**, como *Alta* o *Baja* ocupaci√≥n hotelera.

| M√©trica         | ¬øQu√© mide?                                                                 | Interpretaci√≥n                          |
|------------------|---------------------------------------------------------------------------|------------------------------------------|
| **Accuracy**     | Porcentaje de predicciones correctas.                                     | A mayor valor, mejor modelo.             |
| **Precision**    | De todas las veces que el modelo dijo ‚ÄúAlta‚Äù, ¬øcu√°ntas fueron ciertas?    | Evita falsos positivos.                  |
| **Recall**       | De todas las veces que realmente fue ‚ÄúAlta‚Äù, ¬øcu√°ntas veces acert√≥ el modelo? | Evita falsos negativos.              |
| **F1-score**     | Promedio entre Precision y Recall.                                        | Equilibrio cuando hay clases desbalanceadas.|

üìå **Ejemplo**:  
Si el modelo dijo "Alta" 10 veces, pero solo 7 eran ciertas:  
- **Precision** = 7/10 = 0.70  
Si realmente hab√≠a 14 casos de "Alta" y el modelo predijo 7:  
- **Recall** = 7/14 = 0.50

---

### üß† ¬øCu√°l m√©trica usar?

| Si te importa...                        | Usa esta m√©trica               |
|----------------------------------------|-------------------------------|
| Que el modelo acierte en general       | Accuracy                      |
| Que los ‚Äúpositivos‚Äù sean correctos     | Precision                     |
| Que no se te escapen los ‚Äúpositivos‚Äù   | Recall                        |
| Un equilibrio entre ambos              | F1-score                      |


In [110]:
import pandas as pd
import numpy as np

# Cargar archivo
df = pd.read_csv('turistas_cartagena_data.csv')

# Guarda una copia del dataset original antes de comenzar la limpieza.
df_original = df.copy()

# Vista general
print(df.info())
df.head(20)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   Fecha                                      495 non-null    object 
 1   N√∫mero de Visitantes                       485 non-null    float64
 2   Temperatura Media (¬∞C)                     495 non-null    float64
 3   Precipitaci√≥n (mm)                         495 non-null    float64
 4   Eventos Especiales                         495 non-null    float64
 5   Costo Promedio de Alojamiento (COP)        495 non-null    float64
 6   Tasa de Cambio (USD/COP)                   495 non-null    float64
 7   Promociones de Turismo                     495 non-null    float64
 8   Cantidad de Vuelos y Cruceros Disponibles  495 non-null    float64
 9   Ocupaci√≥n Hotelera (%)                     495 non-null    float64
dtypes: float64(9), object(

Unnamed: 0,Fecha,N√∫mero de Visitantes,Temperatura Media (¬∞C),Precipitaci√≥n (mm),Eventos Especiales,Costo Promedio de Alojamiento (COP),Tasa de Cambio (USD/COP),Promociones de Turismo,Cantidad de Vuelos y Cruceros Disponibles,Ocupaci√≥n Hotelera (%)
0,1982-12,126958.0,27.6,195.4,0.0,252889.0,3076.77,0.0,74.0,88.0
1,1983-01,136932.0,27.6,248.9,0.0,268933.0,3231.5,1.0,103.0,98.4
2,1983-02,108694.0,30.7,61.9,1.0,113428.0,3478.34,0.0,205.0,72.0
3,1983-03,124879.0,31.6,3.3,0.0,275006.0,3925.8,0.0,122.0,63.9
4,1983-04,115268.0,31.9,41.1,0.0,346627.0,3400.98,0.0,169.0,89.9
5,1983-05,59886.0,30.3,270.0,1.0,345439.0,3615.39,0.0,105.0,66.3
6,,,,,,,,,,
7,,,,,,,,,,
8,,,,,,,,,,
9,,,,,,,,,,


**üßΩ Paso 2: Limpieza de Datos**

In [111]:
#imprimir registros con valores nulos  a lo ancho
print(df[df.isnull().any(axis=1)])


# Ver valores nulos
print(df.isnull().sum())

# Eliminar filas completamente vac√≠as
df.dropna(how='all', inplace=True)


# Rellenar 'N√∫mero de Visitantes' con la media
df['N√∫mero de Visitantes'].fillna(df['N√∫mero de Visitantes'].mean(), inplace=True)

#imprimir


       Fecha  N√∫mero de Visitantes  Temperatura Media (¬∞C)  \
6        NaN                   NaN                     NaN   
7        NaN                   NaN                     NaN   
8        NaN                   NaN                     NaN   
9        NaN                   NaN                     NaN   
10       NaN                   NaN                     NaN   
12   1983-12                   NaN                    25.8   
52   1987-03                   NaN                    28.2   
57   1987-08                   NaN                    31.9   
71   1988-10                   NaN                    31.1   
114  1992-04                   NaN                    25.9   
125  1993-03                   NaN                    28.1   
140  1994-06                   NaN                    28.4   
327  2009-10                   NaN                    30.7   
377  2013-11                   NaN                    27.3   
379  2014-01                   NaN                    25.0   

     

2.2 Eliminar duplicados

In [112]:
# Identificar filas duplicadas
duplicados = df[df.duplicated()]


#imprimir data set sin datos duplicados
print(duplicados)

#eliminar duplicados
df.drop_duplicates(inplace=True)


Empty DataFrame
Index: []


2.3 Corregir valores inconsistentes

En este paso, se deben buscar valores que est√©n fuera de los rangos aceptables. Por ejemplo, una precipitaci√≥n negativa no tiene sentido, as√≠ que hay que corregir estos valores:

In [113]:
# Identificar valores inconsistentes (precipitaci√≥n negativa)
df_inconsistentes = df[df['Precipitaci√≥n (mm)'] < 0]

# Corregir valores inconsistentes (estableciendo a 0 o la media, por ejemplo)
df.loc[df['Precipitaci√≥n (mm)'] < 0, 'Precipitaci√≥n (mm)'] = df['Precipitaci√≥n (mm)'].mean()


2.4 Normalizaci√≥n (para modelos)
*  La normalizaci√≥n es importante para que los valores de las distintas columnas est√©n en rangos comparables, especialmente cuando se utilizan modelos de Machine Learning que se ven afectados por escalas de variables diferentes (por ejemplo, redes neuronales o m√©todos de distancia).

Dos t√©cnicas comunes de normalizaci√≥n son:
* Min-Max Scaling: Escala los datos a un rango entre 0 y 1.
* Estandarizaci√≥n: Centra los datos en la media con una desviaci√≥n est√°ndar de 1.

In [114]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
columnas_a_normalizar = [
    'Temperatura Media (¬∞C)', 'Precipitaci√≥n (mm)',
    'Costo Promedio de Alojamiento (COP)', 'Tasa de Cambio (USD/COP)',
    'Cantidad de Vuelos y Cruceros Disponibles'
]
df[columnas_a_normalizar] = scaler.fit_transform(df[columnas_a_normalizar])
#print(df)


**üî¢ Paso 3: Modelo de Regresi√≥n (Predecir visitantes)**  

3.1 Separar variables

### üìä Principales Modelos de Regresi√≥n

| **Modelo de Regresi√≥n**           | **¬øCu√°ndo usarlo?**                                                                 |
|----------------------------------|-------------------------------------------------------------------------------------|
| üîπ **Regresi√≥n Lineal**          | Cuando la relaci√≥n entre las variables es lineal (tendencia recta).                |
| üîπ **Regresi√≥n Polin√≥mica**      | Cuando la relaci√≥n tiene forma de curva o cambia en distintos tramos.              |
| üîπ **Regresi√≥n Ridge/Lasso**     | Cuando hay muchas variables y se desea evitar sobreajuste (regularizaci√≥n).        |
| üîπ **Regresi√≥n con √Årboles**     | Cuando la relaci√≥n entre variables es no lineal y se requieren decisiones por rangos. |
| üîπ **Random Forest Regressor**   | Cuando hay muchas variables y relaciones complejas; mejora precisi√≥n.              |
| üîπ **Redes Neuronales**          | Cuando se trabaja con grandes vol√∫menes de datos y relaciones altamente complejas.  |

---

üí° En este taller vamos a usar el modelo de **Regresi√≥n Lineal**, ideal para comenzar por su simplicidad y facilidad de interpretaci√≥n.



In [115]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X = df[columnas_a_normalizar]
y = df['N√∫mero de Visitantes']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


3.2 Entrenar modelo

In [116]:


# Ahora puedes entrenar el modelo
modelo_regresion = LinearRegression()
modelo_regresion.fit(X_train, y_train)

3.3 M√©tricas b√°sicas (explicadas)

## üìà M√âTRICAS PARA REGRESI√ìN

Se usan cuando el modelo predice **valores num√©ricos continuos**, como el n√∫mero de turistas.

| M√©trica        | ¬øQu√© mide?                                                           | ¬øQu√© significa un valor bajo?         |
|----------------|----------------------------------------------------------------------|---------------------------------------|
| **MAE**        | *Error Absoluto Medio*: promedio de las diferencias absolutas entre las predicciones y los valores reales. | El modelo tiene errores peque√±os.     |
| **MSE**        | *Error Cuadr√°tico Medio*: igual que MAE pero eleva los errores al cuadrado (penaliza errores grandes).     | El modelo comete pocos errores graves.|
| **RMSE**       | *Ra√≠z del MSE*: vuelve a la escala original de los datos, f√°cil de interpretar.                             | El modelo predice con buena precisi√≥n.|

üìå **Ejemplo**:  
Si el RMSE = 1500, significa que el modelo se equivoca en promedio **en 1.500 turistas**.

In [117]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

y_pred = modelo_regresion.predict(X_test)

# Explicaci√≥n para estudiantes:
# MAE: diferencia promedio entre valores reales y predichos.
# MSE: error cuadr√°tico medio (penaliza m√°s los errores grandes).
# RMSE: ra√≠z del MSE, tiene la misma escala que los valores reales.

mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print(f"MAE: {mae:.2f}")
print(f"MSE: {mse:.2f}")
print(f"RMSE: {rmse:.2f}")



MAE: 37278.66
MSE: 1776346926.16
RMSE: 42146.73


In [118]:
# Calcular el promedio de los valores reales
promedio_reales = y_test.mean()

# Comparar el MAE con ese promedio
porcentaje_error_mae = (mae / promedio_reales) * 100


print(f"MAE representa un error del {porcentaje_error_mae:.2f}% respecto al promedio real de turistas.")

# Comparar el RMSE  con ese promedio
porcentaje_error_mae = (rmse / promedio_reales) * 100
print(f"RMSE representa un error del {porcentaje_error_mae:.2f}% respecto al promedio real de turistas.")


MAE representa un error del 48.10% respecto al promedio real de turistas.
RMSE representa un error del 54.38% respecto al promedio real de turistas.


### üìä Lectura de las m√©tricas aplicadas al modelo de regresi√≥n

Este an√°lisis se basa en un modelo que predice **valores num√©ricos continuos**, espec√≠ficamente el **n√∫mero de turistas**.

---

#### üß† ¬øQu√© se midi√≥?

Se aplicaron tres m√©tricas para evaluar el rendimiento del modelo:

- **MAE (Error Absoluto Medio)**  
- **MSE (Error Cuadr√°tico Medio)**  
- **RMSE (Ra√≠z del Error Cuadr√°tico Medio)**

---

#### üìå ¬øQu√© significan los valores obtenidos?

- **MAE: 37,278.66**  
  ‚Üí En promedio, el modelo se equivoca por **37 mil turistas**.  
  ‚úèÔ∏è *Este valor indica un error alto si se necesita precisi√≥n.*

- **MSE: 1,776,346,926.16**  
  ‚Üí Penaliza m√°s los errores grandes.  
  ‚úèÔ∏è *Este n√∫mero es elevado y est√° en escala cuadr√°tica, lo que lo hace dif√≠cil de interpretar directamente.*

- **RMSE: 42,146.73**  
  ‚Üí Devuelve el error a la misma escala que los datos originales.  
  ‚Üí En promedio, el modelo se equivoca por **42 mil turistas**.  
  ‚úèÔ∏è *Este valor es m√°s f√°cil de entender y refleja que el modelo a√∫n no es preciso.*

---

#### üéØ Conclusi√≥n:

- Estas m√©tricas permiten **cuantificar el error del modelo**.
- Un **RMSE mayor a 30 mil** puede ser inaceptable dependiendo del contexto.
- El modelo deber√≠a **mejorarse** para ofrecer predicciones m√°s cercanas a la realidad.
- El **RMSE** es especialmente √∫til porque **est√° en la misma escala** que el n√∫mero de turistas.

---

> üìå **Nota**: Si el total estimado de turistas es, por ejemplo, 100.000, un error de 42.000 representa una desviaci√≥n significativa que puede impactar la toma de decisiones.



‚úÖ Bloque para probar el modelo con nuevos datos ingresados por el usuario

In [119]:
# Supongamos que ya entrenaste el modelo con estas variables:
# ['Temperatura Media (¬∞C)', 'Precipitaci√≥n (mm)',
#  'Costo Promedio de Alojamiento (COP)', 'Tasa de Cambio (USD/COP)',
#  'Cantidad de Vuelos y Cruceros Disponibles']

# Paso 1: Ingresar nuevos datos manualmente
nuevos_datos = {
    'Temperatura Media (¬∞C)': [30],
    'Precipitaci√≥n (mm)': [5],
    'Costo Promedio de Alojamiento (COP)': [200000],
    'Tasa de Cambio (USD/COP)': [4000],
    'Cantidad de Vuelos y Cruceros Disponibles': [50]
}

nuevo_df = pd.DataFrame(nuevos_datos)

# Paso 2: Normalizar los nuevos datos con el mismo scaler usado antes
nuevo_df_normalizado = scaler.transform(nuevo_df)

# Paso 3: Hacer la predicci√≥n
prediccion = modelo_regresion.predict(nuevo_df_normalizado)

# Paso 4: Mostrar el resultado
print(f"üîÆ N√∫mero estimado de visitantes: {int(prediccion[0]):,} turistas")


üîÆ N√∫mero estimado de visitantes: 85,843 turistas




**üè∑Ô∏è Paso 4: Modelo de Clasificaci√≥n (Alta/Baja Ocupaci√≥n Hotelera)**

4.1 Crear variable categ√≥rica

In [120]:
# Umbral: 70% o m√°s se considera "Alta"
df['Ocupaci√≥n Categor√≠a'] = df['Ocupaci√≥n Hotelera (%)'].apply(lambda x: 'Alta' if x >= 70 else 'Baja')


4.2 Entrenar modelo

### ‚úÖ ¬øQu√© modelo de clasificaci√≥n debo emplear?

üéØ **1. ¬øQu√© tipo de problema de clasificaci√≥n tengo?**

| **Situaci√≥n**                                                                 | **Modelo recomendado**                      |
|-------------------------------------------------------------------------------|---------------------------------------------|
| Quiero clasificar en **dos categor√≠as** (Ej: *Alta* o *Baja*)                | üîπ Regresi√≥n Log√≠stica                      |
| Las relaciones entre variables no son lineales o hay muchas reglas complejas | üîπ √Årbol de Decisi√≥n                        |
| Tengo muchas variables y quiero mejorar la precisi√≥n                         | üîπ Random Forest Classifier                 |
| Quiero un modelo r√°pido y eficiente para datos lineales                      | üîπ Support Vector Machine (SVM)             |
| Tengo muchos datos y quiero un modelo que aprenda patrones complejos         | üîπ Redes Neuronales                         |

---

üí° En este ejercicio trabajaremos con **Random Forest Classifier**, ideal para problemas de clasificaci√≥n donde hay varias variables y relaciones complejas.


In [121]:
from sklearn.ensemble import RandomForestClassifier

X_clas = df[columnas_a_normalizar]
y_clas = df['Ocupaci√≥n Categor√≠a']

Xc_train, Xc_test, yc_train, yc_test = train_test_split(X_clas, y_clas, test_size=0.2, random_state=42)

modelo_clasificacion = RandomForestClassifier()
modelo_clasificacion.fit(Xc_train, yc_train)


4.3 M√©tricas para clasificaci√≥n (explicadas)

In [122]:
from sklearn.metrics import accuracy_score, classification_report

yc_pred = modelo_clasificacion.predict(Xc_test)

# Accuracy: porcentaje de predicciones correctas.
# Precision: cu√°ntos positivos predichos realmente lo son.
# Recall: cu√°ntos positivos reales se detectaron.
# F1-score: balance entre precision y recall.

print("Accuracy:", accuracy_score(yc_test, yc_pred))
print("\nReporte de Clasificaci√≥n:")
print(classification_report(yc_test, yc_pred))


Accuracy: 0.5454545454545454

Reporte de Clasificaci√≥n:
              precision    recall  f1-score   support

        Alta       0.57      0.75      0.65        55
        Baja       0.48      0.30      0.37        44

    accuracy                           0.55        99
   macro avg       0.53      0.52      0.51        99
weighted avg       0.53      0.55      0.52        99



### üìä ¬øC√≥mo interpretamos las m√©tricas del modelo de clasificaci√≥n?

Despu√©s de entrenar un modelo de clasificaci√≥n como `RandomForestClassifier`, es importante **evaluar qu√© tan bien predice las categor√≠as**. En este caso, estamos prediciendo si la **ocupaci√≥n hotelera** ser√° **Alta** o **Baja**.

---

### ‚úÖ 1. Accuracy: **0.57**

- **¬øQu√© significa?** El modelo acert√≥ en el **57%** de los casos.
- **¬øEs bueno?** Un valor de 0.57 es bajo. Significa que el modelo se equivoca frecuentemente.
  
> üìâ *Necesitamos mejorarlo, tal vez con m√°s datos, otro modelo o ajustando los par√°metros.*

---

### üìã 2. Reporte por Clase

| Clase | Precision | Recall | F1-score | Cantidad de casos (support) |
|-------|-----------|--------|----------|------------------------------|
| **Alta** | 0.62 | 0.68 | 0.65 | 59 |
| **Baja** | 0.47 | 0.41 | 0.44 | 41 |

#### üü© Precision:
- **¬øQu√© mide?** Cu√°ntas veces que el modelo dijo una clase, acert√≥.
- **Ejemplo Alta (0.62):** Cuando el modelo predijo ‚ÄúAlta‚Äù, acert√≥ el **62%** de las veces.

#### üü¶ Recall:
- **¬øQu√© mide?** Cu√°ntos casos reales de una clase el modelo logr√≥ detectar.
- **Ejemplo Alta (0.68):** De todos los casos reales de ‚ÄúAlta‚Äù, el modelo detect√≥ el **68%**.

#### üü£ F1-score:
- **¬øQu√© mide?** Un promedio entre Precision y Recall.
- **Ejemplo Alta (0.65):** Buen balance entre aciertos y detecci√≥n.

> ‚ö†Ô∏è El modelo **funciona mejor para la clase "Alta"** que para "Baja". Detecta y acierta m√°s en esos casos.

---

### üî¢ 3. Promedios generales

| Tipo de promedio | Precision | Recall | F1-score |
|------------------|-----------|--------|----------|
| **Macro avg**     | 0.55      | 0.55   | 0.55     |
| **Weighted avg**  | 0.56      | 0.57   | 0.56     |

- **Macro avg:** Promedia cada clase por igual.
- **Weighted avg:** Toma en cuenta cu√°ntos ejemplos hay de cada clase.

---

### üéØ Conclusi√≥n para este modelo:

- Tiene **mayor precisi√≥n para predecir ‚ÄúAlta‚Äù** ocupaci√≥n.
- Tiene **dificultades con la clase ‚ÄúBaja‚Äù**, pues falla m√°s.
- Necesitamos mejorar el modelo si queremos que sea m√°s confiable en ambas clases.

üí° *Posibles mejoras: ajustar par√°metros, probar otros modelos o balancear las clases.*


Bloque para probar el modelo de clasificaci√≥n con nuevos datos ingresados por el usuario

In [123]:
# Paso 1: Ingresar nuevos datos manualmente
nuevos_datos_clas = {
    'Temperatura Media (¬∞C)': [30],
    'Precipitaci√≥n (mm)': [10],
    'Costo Promedio de Alojamiento (COP)': [180000],
    'Tasa de Cambio (USD/COP)': [4100],
    'Cantidad de Vuelos y Cruceros Disponibles': [60]
}

nuevo_df_clas = pd.DataFrame(nuevos_datos_clas)

# Paso 2: Normalizar los nuevos datos con el mismo scaler
nuevo_df_clas_normalizado = scaler.transform(nuevo_df_clas)

# Paso 3: Hacer la predicci√≥n con el modelo Random Forest
prediccion_clas = modelo_clasificacion.predict(nuevo_df_clas_normalizado)

# Paso 4: Mostrar el resultado
print(f"üè® Ocupaci√≥n hotelera estimada: {prediccion_clas[0]}")


üè® Ocupaci√≥n hotelera estimada: Baja




**Nuevo enfoque**

### üìÖ ¬øPor qu√© es importante incluir la variable `Fecha` en nuestros modelos?

En nuestro an√°lisis anterior no tuvimos en cuenta la columna `Fecha`, que contiene informaci√≥n como `"1982-12"`, representando el **a√±o** y el **mes** de cada registro. Sin embargo, esta variable es muy importante porque:

- üìà El **a√±o** puede reflejar tendencias a largo plazo: por ejemplo, el turismo ha aumentado en las √∫ltimas d√©cadas.
- üìÜ El **mes** puede capturar **patrones estacionales**: Cartagena recibe m√°s turistas en diciembre, junio o Semana Santa.

---

### üîç ¬øQu√© pasa si ignoramos la fecha?

Si eliminamos o ignoramos esta columna, el modelo:
- ‚ùå No entiende que hay **una evoluci√≥n en el tiempo** (no distingue 1982 de 2022).
- ‚ùå No puede aprender **cu√°les meses del a√±o tienen m√°s turismo**.
- ‚ùå Pierde contexto que podr√≠a mejorar su capacidad predictiva.

---

### üõ†Ô∏è ¬øQu√© haremos ahora?

Vamos a **extraer el a√±o y el mes** de la columna `Fecha` para crear dos nuevas columnas:

- `A√±o`: Para detectar si el turismo ha crecido o disminuido a lo largo del tiempo.
- `Mes`: Para identificar patrones repetitivos como temporadas altas o bajas.

```python
# Convertir 'Fecha' a tipo datetime y crear nuevas columnas
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%Y-%m')
df['A√±o'] = df['Fecha'].dt.year
df['Mes'] = df['Fecha'].dt.month


### üéØ ¬øC√≥mo mejora esto nuestros modelos?

| **Tipo de Modelo** | **Beneficio al usar Fecha** |
|--------------------|------------------------------|
| üî¢ **Regresi√≥n**     | Detecta tendencias (m√°s turistas en a√±os recientes, m√°s en diciembre). |
| üè∑Ô∏è **Clasificaci√≥n** | Aprende en qu√© meses hay m√°s probabilidad de *Alta* o *Baja* ocupaci√≥n. |

---

üí° **Incluir variables temporales es fundamental en modelos que analizan comportamientos a lo largo del tiempo**, como el turismo.

