# Taller de Análisis Exploratorio de Datos (EDA)

## Objetivo
Realizar un análisis exploratorio detallado del dataset proporcionado, identificando patrones, distribuciones, relaciones y posibles problemas en los datos que deben ser abordados antes de construir modelos predictivos o realizar análisis más avanzados.

---

## Instrucciones Generales

- El taller debe realizarse en equipos de **3 o 4 estudiantes**.
- Se entrega un único informe por grupo.
- La entrega debe incluir:
  - Un **informe en Jupyter Notebook** (No se recibiran otros tipos de documentos)
  - Todos los códigos utilizados para el análisis.
  - Visualizaciones claras y bien comentadas.
- Fecha de entrega: **09/09/2025**.
- El dataset se entrega en formato `.xlsx`.

---

## Actividades del Taller

### 1. Carga y revisión inicial de los datos
- Cargar el dataset en un entorno como Jupyter Notebook.

- Mostrar las primeras y últimas filas del dataset.
- Verificar el número de filas y columnas.
- Obtener información general del dataset (`.info()`).

### 2. Tipos de datos y estructura
- Identificar los tipos de datos de cada columna (numérico, categórico, fecha, booleano, etc.).
- Verificar si hay columnas mal tipificadas.

### 3. Valores nulos y duplicados
- Contar y analizar la distribución de valores nulos por columna.
- Decidir si imputar, eliminar o dejar los nulos justificadamente.
- Revisar si hay filas duplicadas y decidir qué hacer con ellas.

### 4. Análisis univariado
#### Variables numéricas:
- Calcular:
  - Media
  - Mediana
  - Moda
  - Mínimo
  - Máximo
  - Rango
  - Desviación estándar
  - Varianza
- Visualizar distribución con:
  - Histogramas
  - Boxplots

#### Variables categóricas:
- Calcular:
  - Frecuencia absoluta y relativa
- Visualizar con:
  - Gráficos de barras

### 5. Análisis bivariado y correlaciones
- Para variables numéricas:
  - Calcular matriz de correlación.
  - Visualizar las correlaciones con un mapa de calor (heatmap).
- Para relaciones entre variables categóricas y numéricas:
  - Boxplots agrupados
  - Tablas de contingencia (Tablas Dinamicas)

### 6. Detección de valores atípicos (outliers)
- Detectar outliers usando:
  - Boxplots
- Analizar cómo afectan los valores extremos a los datos.

### 7. Visualización temporal
  - Gráfico de líneas para ver la evolución de ventas netas mes a mes.
  - Gráfico de barras para ver el total de ventas brutas por día de la semana (lunes, martes, miércoles, etc).

### 8. Insights y conclusiones
- Extraer **al menos 5 hallazgos relevantes** del análisis.
- Proponer **al menos 3 ideas** ideas para un análisis posterior

---

## Entregable final

- Un notebook con todo el análisis y visualizaciones.
- Comentarios en el código explicando lo que se hizo.
- Un apartado de **conclusiones finales claras**.

---

¡Éxitos en su análisis!


# Descripción de Variables del Dataset

| Variable         | Descripción |
|------------------|-------------|
| **Order ID**     | Identificador único asignado a cada orden de compra. |
| **Order Date**   | Fecha en que se realizó el pedido. |
| **Ship Date**    | Fecha en que se despachó el pedido al cliente. |
| **Ship Mode**    | Tipo de envío utilizado. |
| **Customer ID**  | Identificador único del cliente. |
| **Customer Name**| Nombre completo del cliente. |
| **Segment**      | Segmento de mercado al que pertenece el cliente. |
| **Country**      | País donde se entregó el pedido. |
| **City**         | Ciudad de destino del pedido. |
| **State**        | Estado o región dentro del país. |
| **Postal Code**  | Código postal correspondiente al destino del pedido. |
| **Region**       | Región geográfica. |
| **Product ID**   | Identificador único del producto comprado. |
| **Category**     | Categoría principal del producto. |
| **Sub-Category** | Subcategoría específica del producto. |
| **Product Name** | Nombre detallado del producto. |
| **Sales**        | Valor total de la venta en dólares. |
| **Quantity**     | Cantidad de unidades vendidas en esa línea de pedido. |
| **Taxes**        | Valor de los impuestos aplicados a la venta. |
| **Ship Cost**    | Costo del envío asumido. |
| **Net Sales**    | Venta neta |
| **Rating**       | Calificación o satisfacción del cliente sobre la compra. |

'juan'