# AED - Proyecto III

**Autores:**
- Leopoldo Muñoz
- Valentina Yáñez

---

In [2]:
# Configuración inicial
import warnings
warnings.filterwarnings('ignore')

# Configurar pandas para mostrar más columnas y filas
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

# Configurar matplotlib para mejores gráficos
import matplotlib.pyplot as plt
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12



## Contexto

La información utilizada en este proyecto proviene del UCI Machine Learning Repository y fue recopilada en el año 2018. El objetivo principal del dataset es predecir la intención de compra de los usuarios durante sus sesiones de navegación en una tienda en línea. Los datos se recolectaron en tiempo real mediante analítica web (Google Analytics) y se respetó que cada fila represente un usuario diferente, evitando la dependencia temporal entre sesiones.

El conjunto de datos contiene 12,330 registros, cada uno representando una sesión única de usuario. Presenta un balance de clases donde el 84.5% de las sesiones no terminan en compra y el 15.5% sí lo hacen. El período de observación abarca un año completo, lo que permite evitar sesgos relacionados con campañas o eventos específicos.

Se considera útil para aplicar técnicas de clasificación, detección de outliers y clustering no supervisado.

## Estructura general

| Tipo             | Cantidad                |
|------------------|------------------------|
| Instancias       | 12,330                 |
| Atributos        | 18                     |
| Atributo clase   | 1 (Revenue)            |
| Tipo de datos    | Mixto (numérico y categórico) |
| Valores faltantes| No                     |


## Atributos

| Atributo                  | Tipo        | Descripción                                                                                   |
|---------------------------|-------------|-----------------------------------------------------------------------------------------------|
| Administrative            | Entero      | N.º de páginas administrativas visitadas (como política de privacidad, contactos, etc.).      |
| Administrative_Duration   | Real        | Tiempo total (segundos) en páginas administrativas.                                           |
| Informational             | Entero      | N.º de páginas informativas (por ejemplo, ayuda o preguntas frecuentes).                      |
| Informational_Duration    | Real        | Tiempo total en páginas informativas.                                                         |
| ProductRelated            | Entero      | N.º de páginas de productos visitadas.                                                        |
| ProductRelated_Duration   | Real        | Tiempo total en páginas de productos.                                                         |
| BounceRates               | Real        | Porcentaje de usuarios que abandonan el sitio tras visitar solo una página.                   |
| ExitRates                 | Real        | Porcentaje de veces que una página fue la última visitada en la sesión.                       |
| PageValues                | Real        | Valor promedio de las páginas visitadas antes de una conversión.                              |
| SpecialDay                | Real        | Proximidad a fechas especiales (por ejemplo, Día de San Valentín), valores de 0 a 1.          |
| Month                     | Categórico  | Mes de la visita (por ejemplo, "Feb", "Mar").                                                 |
| OperatingSystems          | Entero  | Sistema operativo utilizado.                                                                  |
| Browser                   | Entero  | Navegador web utilizado.                                                                      |
| Region                    | Entero  | Región geográfica del usuario.                                                                |
| TrafficType               | Entero  | Tipo de tráfico de la sesión (directo, referido, etc.).                                       |
| VisitorType               | Categórico  | Visitante nuevo, recurrente u otro.                                                           |
| Weekend                   | Booleano    | Si la visita fue durante el fin de semana (TRUE o FALSE).                                     |
| Revenue                   | Booleano    | Variable objetivo. Si la sesión terminó en compra (TRUE) o no (FALSE).                        |

**Observaciones:**

- Como el dataset trae una característica objetivo, esta se debería eliminar para un entrenamiento no supervisado, pero puede ser útil más adelante para evaluar resultados.
- Las características enteras `OperatingSystems`, `Browser`, `Region` y `TrafficType` representan en realidad enumeraciones categóricas, por lo que se debe decidir una manera de transformarlas, interpretarlas o incluso eliminarlas.
