# Análisis Exploratorio y Perfilado de Datos (EDA básico → avanzado)

**Curso:** Fundamentos de Programación y Analítica de Datos con Python  
**Duración estimada del bloque:** 2 horas  
**Autores:** Jhon Erik Navarrete Gómez, Equipo de Instrucción – Curso Python (Asesoría)  
**Creado:** 2025-09-16T18:25:56+00:00

**Descripción breve del bloque:**  
Bloque orientado a comprender, diagnosticar y perfilar datasets mediante técnicas de EDA desde un nivel introductorio hasta prácticas más avanzadas, incorporando visualización, estadística descriptiva y reporte automatizado.

## Objetivos específicos
- Realizar una lectura y exploración inicial de datasets con `pandas`, identificando estructura, tipos y calidad de datos.
- Generar estadísticas descriptivas básicas y avanzadas que soporten hipótesis iniciales.
- Producir visualizaciones univariadas y multivariadas para detectar patrones, sesgos y anomalías.
- Elaborar un reporte de perfilado automático (si la librería está disponible) para acelerar el diagnóstico del dataset.
- Documentar hallazgos iniciales de calidad y proponar acciones de mejora (limpieza/transformación) para etapas posteriores.

## Prerrequisitos
- Conocimientos básicos de Python (tipos de datos, funciones, estructuras de control).
- Familiaridad mínima con `pandas` (lectura de CSV, `DataFrame`, operaciones elementales).

## Tema 1 — Introducción al Dataset: lectura, estructura y estadísticas descriptivas

### Definición
La exploración inicial de un dataset consiste en cargar la fuente de datos y realizar inspecciones básicas de su forma, tipos de datos, valores únicos, valores faltantes y estadísticas descriptivas (tendencia central, dispersión y rangos).

### Importancia en programación y analítica de datos
Este primer diagnóstico permite:
- Comprender el dominio y la granularidad de los datos (filas = observaciones, columnas = variables).
- Identificar rápidamente problemas de calidad (nulos, tipos incorrectos, duplicados).
- Priorizar decisiones de limpieza y transformación antes de modelar o visualizar en profundidad.
- Definir hipótesis y líneas de investigación (qué variables podrían explicar el comportamiento de interés).

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Separar claramente la carga de datos, la inspección estructural y el análisis descriptivo.
- Registrar supuestos (por ejemplo, codificación de categorías o unidades de medida).
- Versionar datasets de trabajo (copias con fecha) para asegurar reproducibilidad.

**Errores comunes:**
- Confiar solo en `head()` y omitir `info()`/`describe()` o conteo de nulos.
- No validar tipos (fechas como texto, categorías como enteros).
- Asumir que no hay duplicados ni outliers sin verificar.

In [None]:

# TODO: Ejemplo en Python — Carga y exploración inicial
# -------------------------------------------------------------------
# Objetivo: cargar un dataset de ejemplo (Titanic si está disponible),
#           con alternativa sintética en caso de que seaborn no esté instalado.
# -------------------------------------------------------------------

## Tema 2 — Perfilado Automático de Datos (reporte integral)

### Definición
El perfilado automático es la generación de un reporte integral que resume estructura, estadística descriptiva, valores faltantes, duplicados, correlaciones, interacciones y alertas de calidad, entre otros.

### Importancia en programación y analítica de datos
- Permite **acelerar el diagnóstico** y priorizar tareas de limpieza.
- Facilita la **comunicación con stakeholders** al presentar un reporte navegable.
- Estandariza un **checklist de calidad** (distribuciones, cardinalidades, tipos, outliers).

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Acompañar el perfil con notas técnicas (supuestos, decisiones tomadas).
- Versionar el reporte y asociarlo a un *commit* del dataset.

**Errores comunes:**
- Tratar el reporte como “verdad absoluta” sin análisis crítico del contexto del negocio.
- Omitir la revisión manual de columnas clave o de alta cardinalidad.

In [None]:

# TODO: Ejemplo en Python — ydata-profiling (opcional)
# -------------------------------------------------------------------
# Si está instalada la librería ydata-profiling, generará un reporte incrustado.
# En caso contrario, se mostrará una alternativa manual resumida.
# -------------------------------------------------------------------

## Tema 3 — Visualización básica: distribuciones y correlaciones

### Definición
La visualización descriptiva transforma datos en gráficos para identificar patrones, comparar grupos, reconocer sesgos y posibles anomalías. En EDA se utilizan principalmente histogramas, diagramas de caja y matrices de correlación.

### Importancia en programación y analítica de datos
- Permite **detectar sesgos** (asimetría), rangos atípicos y agrupamientos.
- Complementa la estadística descriptiva con una **intuición visual**.
- Identifica relaciones entre variables que orientan hipótesis y modelos.

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Definir la pregunta antes del gráfico (¿qué quiero responder?).  
- Etiquetar ejes y unidades cuando corresponda.  
- Usar muestras/agrupaciones representativas para evitar interpretaciones erróneas.

**Errores comunes:**
- Hacer gráficos redundantes o poco legibles.  
- Ignorar el tamaño de muestra o la presencia de valores extremos.

In [None]:

# TODO: Ejemplo en Python — Visualización con matplotlib (evitando dependencias innecesarias)

# Ejercicios integradores

A continuación se presentan ejercicios que abarcan los temas del bloque: exploración inicial, perfilado y visualización.
Cada ejercicio incluye: contexto técnico, datos/entradas, requerimientos, criterios de aceptación y pistas.
Se sugiere intentar resolverlos **antes** de revisar la solución propuesta.

### Ejercicio 1 — Diagnóstico inicial estructurado

**Contexto técnico:**  
Usted se desempeña como Analista de Datos en un equipo de auditoría interna. Recibe un extracto de pasajeros de un sistema histórico y debe entregar un diagnóstico preliminar de calidad para priorizar limpieza.

**Datos/entradas:**  
Utilice el dataset `df` cargado en este notebook (Titanic o sintético).

**Requerimientos:**  
1. Reporte número de filas/columnas y tipos de datos por variable.  
2. Calcule el conteo de valores nulos por columna y la proporción (%) en relación con el total.  
3. Presente estadísticas descriptivas de las variables numéricas y una lista de variables categóricas con su cardinalidad.

**Criterios de aceptación:**  
- El reporte debe contener una tabla con nulos por columna y proporción.  
- Debe listar explícitamente columnas numéricas y categóricas y su conteo.

**Pistas:**  
- Use `df.shape`, `df.info()`, `df.isna().sum()`, `df.select_dtypes(...)`, `df.nunique()`.

In [None]:

# TODO: Solución Ejercicio 1

### Ejercicio 2 — Visualización de distribuciones y sesgo

**Contexto técnico:**  
En un comité de control de riesgos se requiere un breve informe visual de la distribución de una variable clave para evaluar sesgo y presencia de valores extremos.

**Datos/entradas:**  
Seleccione cualquier columna numérica de `df` (por ejemplo, `age` o `fare` si existen).

**Requerimientos:**  
1. Dibuje un histograma con ~20 bins.  
2. Genere un diagrama de caja (boxplot) de la misma variable.  
3. Comente si la distribución parece simétrica, sesgada a la derecha/izquierda o presenta outliers evidentes.

**Criterios de aceptación:**  
- Se visualizan ambos gráficos sin errores.  
- Hay una breve interpretación escrita (1–3 líneas).

**Pistas:**  
- Use `plt.hist(...)` y `plt.boxplot(...)`.

In [None]:

# TODO: Solución Ejercicio 2

### Ejercicio 3 — Correlaciones y variables relevantes

**Contexto técnico:**  
Como parte de una prueba de hipótesis inicial, se solicita identificar posibles relaciones lineales entre variables numéricas para anticipar multicolinealidad y orientar modelos posteriores.

**Datos/entradas:**  
Utilice todas las columnas numéricas disponibles en `df`.

**Requerimientos:**  
1. Calcule la matriz de correlación.  
2. Identifique al menos dos pares de variables con |correlación| ≥ 0.3 (si existen).  
3. Visualice la matriz de correlación.

**Criterios de aceptación:**  
- La matriz de correlación se calcula correctamente.  
- Los pares con correlación fuerte/moderada se identifican y listan.

**Pistas:**  
- Use `df.corr()` y `plt.imshow(...)`.

In [None]:

# TODO: Solución Ejercicio 3

### Ejercicio 4 — Mini reporte ejecutivo de EDA inicial

**Contexto técnico:**  
Debe entregar un sumario ejecutivo de 8–12 líneas a un público técnico (equipo de ingeniería de datos) que resuma hallazgos y riesgos de calidad para planificar la limpieza.

**Datos/entradas:**  
Utilice los resultados de los ejercicios anteriores sobre `df`.

**Requerimientos:**  
1. Redacte un breve texto con hallazgos clave (nulos, tipos, distribuciones, outliers, correlaciones).  
2. Proponga al menos tres acciones prioritarias de mejora (limpieza/transformación).

**Criterios de aceptación:**  
- El texto es conciso y cubre los aspectos solicitados.  
- Las acciones son específicas y ejecutables.

**Pistas:**  
- Use viñetas y destaque riesgos con alto impacto en análisis o modelado.

In [None]:

# TODO: Solución Ejercicio 4