<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/retos_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 120 RETOS DE DATA

---

## **BLOQUE 1: FUNDAMENTOS Y CARGA DE DATOS (Retos 1-10)**

### Reto 1. Gestión de archivos en Google Colab
- **Objetivo**: Familiarizarse con la interfaz de Colab y la gestión básica de archivos.
- Descarga manualmente el dataset Titanic desde Kaggle
- Súbelo a Google Colab
- Cárgalo con Pandas y visualiza las primeras 5 filas
- Monta Google Drive y guarda el dataset allí
- Verifica la persistencia recargándolo desde Drive

### **Reto 2. Carga directa desde URL y análisis exploratorio**
- **Objetivo**: Cargar datasets desde URLs y realizar análisis exploratorio inicial.
- Carga Titanic con Pandas desde URL
- Verifica dimensiones con `.shape`
- Visualiza las 4 primeras filas y las 4 últimas
- Explora tipos de datos con `.dtypes`
- Identifica valores nulos con `.isnull().sum()`
- Calcula estadísticas descriptivas con `.describe()`

### Reto 3. Datasets embebidos y análisis de supervivencia
- **Objetivo**: Analizar supervivencia con datasets embebidos y visualización de barras.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Calcula proporción de supervivientes global
- Calcula proporción de supervivientes por sexo
- Calcula proporción de supervivientes por clase
- Crea gráfico de barras comparando supervivencia por sexo y clase

### Reto 4. Limpieza básica de datos
- **Objetivo**: Practicar técnicas básicas de limpieza y transformación de datos.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Identifica valores nulos por columna
- Rellena edad con la mediana
- Elimina columna "deck" por exceso de nulos
- Crea columna "family_size" sumando sibsp + parch + 1

### Reto 5. Filtros y consultas básicas
- **Objetivo**: Aplicar filtros y consultas para analizar subconjuntos de datos.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Filtra pasajeros de primera clase que sobrevivieron
- Cuenta cuántos pasajeros cumplen esta condición
- Encuentra el pasajero más joven y el más viejo
- Calcula tarifa promedio por clase

### Reto 6. Dataset Iris y análisis por especie
- **Objetivo**: Analizar estadísticas y distribuciones por categorías con boxplots.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula estadísticas descriptivas generales
- Calcula estadísticas por especie
- Identifica qué especie tiene mayor petal_length promedio
- Crea boxplot de petal_length por especie

### Reto 7. Correlaciones y mapa de calor
- **Objetivo**: Explorar correlaciones entre variables con mapas de calor.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona solo columnas numéricas
- Calcula matriz de correlación
- Visualiza con heatmap incluyendo anotaciones
- Identifica las dos variables más correlacionadas

### Reto 8. Clasificación con regla simple
- **Objetivo**: Implementar y evaluar una regla simple de clasificación.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea regla: si petal_length < 2.5 → setosa, si < 5.0 → versicolor, sino → virginica
- Crea columna 'prediccion' implementando esta regla
- Compara con columna 'species' real
- Calcula precisión de tu clasificador

### Reto 9. Visualización: pairplot
- **Objetivo**: Visualizar relaciones multivariadas con pairplots.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea pairplot coloreado por especie
- Observa qué pares de variables separan mejor las especies
- Identifica si alguna especie es linealmente separable
- Escribe en comentarios qué par de variables usarías para clasificar

### Reto 10. Ordenación y selección de datos
- **Objetivo**: Ordenar y seleccionar datos para análisis específicos.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Ordena por petal_length de menor a mayor
- Muestra las primeras y últimas 10 filas
- Extrae solo columnas de pétalos
- Filtra flores con sepal_length > 6 y muestra solo columnas de pétalos

---

## **BLOQUE 2: ANÁLISIS EXPLORATORIO Y AGREGACIONES (Retos 11-25)**

### Reto 11. Dataset Penguins y valores nulos
- **Objetivo**: Identificar y manejar valores nulos en un dataset.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Identifica valores nulos por columna
- Calcula porcentaje de nulos por columna
- Elimina filas con valores nulos
- Compara número de filas antes y después

### Reto 12. Análisis morfológico de pingüinos
- **Objetivo**: Analizar características físicas por categorías con scatterplots.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina filas con nulos
- Calcula peso promedio (body_mass_g) por especie
- Calcula peso promedio por especie Y sexo
- Identifica especie con mayor peso promedio
- Crea scatterplot de flipper_length_mm vs body_mass_g coloreado por especie

### Reto 13. Distribución geográfica de pingüinos
- **Objetivo**: Explorar patrones geográficos con boxplots y tablas cruzadas.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Crea boxplot de body_mass_g por isla
- Identifica isla con pingüinos más pesados en promedio
- Crea tabla cruzada de especies por isla
- Identifica qué especie está presente en las tres islas

### Reto 14. Dataset Tips y análisis de propinas
- **Objetivo**: Analizar propinas por categorías temporales con visualizaciones.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula propina promedio por día de la semana
- Calcula propina promedio por momento del día (Lunch/Dinner)
- Crea columna con porcentaje de propina
- Identifica qué combinación día-momento tiene mayor porcentaje de propina
- Crea boxplot de porcentaje de propina por día

### Reto 15. Análisis de fumadores en restaurante
- **Objetivo**: Comparar grupos categóricos con métricas y boxplots.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Cuenta cuántos clientes fumadores y no fumadores hay
- Calcula cuenta promedio (total_bill) para cada grupo
- Calcula propina promedio para cada grupo
- Crea boxplots lado a lado comparando total_bill
- ¿Los fumadores gastan más o dan más propina?

### Reto 16. Dataset Diamonds - exploración inicial
- **Objetivo**: Explorar la estructura y estadísticas de un dataset complejo.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Explora dimensiones y primeras filas
- Identifica variables categóricas: cut, color, clarity
- Cuenta valores únicos de cada variable categórica
- Calcula estadísticas descriptivas de price
- Identifica el diamante más caro y más barato

### Reto 17. Análisis de precios de diamantes
- **Objetivo**: Evaluar el impacto de categorías en precios con gráficos de barras.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula precio promedio por calidad de corte (cut)
- Calcula precio promedio por color
- Calcula precio promedio por claridad (clarity)
- Crea gráfico de barras de precio promedio por cut
- Identifica qué característica tiene mayor impacto en el precio

### Reto 18. Correlaciones en diamantes
- **Objetivo**: Analizar correlaciones numéricas con mapas de calor.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Selecciona solo columnas numéricas
- Calcula matriz de correlación
- Crea heatmap con anotaciones
- Identifica qué variable numérica está MÁS correlacionada con price
- ¿Las dimensiones (x, y, z) están correlacionadas entre sí?

### Reto 19. Dataset Flights - series temporales básicas
- **Objetivo**: Introducirse al análisis de series temporales con gráficos de líneas.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Explora estructura: year, month, passengers
- Identifica rango de años incluido
- Calcula total de pasajeros por año
- Identifica el año con más pasajeros totales
- Crea gráfico de líneas de pasajeros totales por año

### Reto 20. Análisis mensual de vuelos
- **Objetivo**: Identificar patrones estacionales con gráficos de barras.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Calcula pasajeros promedio por mes (promediando entre todos los años)
- Identifica el mes con más pasajeros consistentemente
- Identifica el mes con menos pasajeros
- Crea gráfico de barras de pasajeros promedio por mes
- ¿Observas estacionalidad? ¿En qué meses?

### Reto 21. Mapa de calor mensual
- **Objetivo**: Visualizar patrones temporales con mapas de calor.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea tabla pivot con mes como índice, año como columnas y passengers como valores
- Crea heatmap con anotaciones
- Identifica visualmente el año y mes con más pasajeros
- Identifica visualmente el año y mes con menos pasajeros
- ¿Qué patrón temporal observas?

### Reto 22. Introducción a APIs - JSONPlaceholder
- **Objetivo**: Extraer y explorar datos de APIs simples.
- Carga datos de usuarios: `url = 'https://jsonplaceholder.typicode.com/users'` y convierte a DataFrame
- Explora estructura del JSON convertido
- Extrae columnas: name, email, city (dentro de address)
- Cuenta cuántos usuarios hay por ciudad
- Imprime los nombres de los 5 primeros usuarios

### Reto 23. API de citas famosas
- **Objetivo**: Analizar datos de citas desde una API.
- Carga citas: `url = 'https://api.quotable.io/quotes?limit=150'` y extrae `data['results']`
- Explora columnas: content, author, tags
- Calcula longitud de cada cita
- Identifica la cita más larga y más corta
- Cuenta cuántas citas tiene cada autor
- Identifica el autor con más citas en el dataset

### Reto 24. Análisis de repositorios GitHub
- **Objetivo**: Explorar popularidad de lenguajes con gráficos de barras.
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/datasets/major-programming-languages/master/programming-languages.csv')`
- Explora variables disponibles
- Si hay columna de lenguajes, cuenta repositorios por lenguaje
- Identifica los 5 lenguajes más populares
- Crea gráfico de barras de top 10 lenguajes

### Reto 25. Regex en Pandas - limpieza de texto
- **Objetivo**: Aplicar expresiones regulares para limpiar datos de texto.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea columna simulada 'phone' con formato: (555) 123-4567
- Extrae solo números del teléfono usando regex
- Crea columna 'customer_id' con formato: CUST-001, CUST-002...
- Extrae el número del customer_id usando regex
- Verifica que ambas limpiezas funcionaron correctamente

---

## **BLOQUE 3: OPERACIONES COMPLEJAS Y TRANSFORMACIONES (Retos 26-45)**

### Reto 26. Tablas cruzadas y análisis multivariable
- **Objetivo**: Analizar relaciones categóricas con tablas cruzadas y heatmaps.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea tabla cruzada de class × sex con conteo
- Crea tabla cruzada con tasa de supervivencia como valor
- Interpreta: ¿Qué combinación clase-sexo tuvo mayor supervivencia?
- Visualiza con heatmap la tasa de supervivencia

### Reto 27. Operación melt (formato ancho a largo)
- **Objetivo**: Transformar datos de formato ancho a largo.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea pivot table de mes × año con valores de passengers
- Aplica melt para volver a formato largo
- Compara estructura original vs pivot vs melted
- Verifica que melted tiene la misma información que el DataFrame original
- Cuenta filas en cada formato

### Reto 28. Combinación con merge
- **Objetivo**: Combinar datasets para calcular métricas derivadas.
- Crea DataFrame de información de islas: Torgersen, Biscoe, Dream con country y area_km2
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Combina ambos DataFrames usando merge
- Verifica número de filas resultante
- Calcula número de pingüinos por km² en cada isla
- Identifica isla con mayor densidad de pingüinos

### Reto 29. Concatenación vertical y validación
- **Objetivo**: Concatenar datasets y validar consistencia de datos.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Filtra solo filas de sábado
- Filtra solo filas de domingo
- Concatena verticalmente ambos DataFrames
- Verifica que total de filas = suma de ambos
- Valida que solo hay registros de Sat y Sun

### Reto 30. Detección y eliminación de duplicados
- **Objetivo**: Identificar y eliminar datos duplicados en datasets.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Duplica artificialmente las primeras 15 filas
- Cuenta duplicados totales
- Identifica filas duplicadas
- Elimina duplicados manteniendo la primera aparición
- Verifica que no quedan duplicados

### Reto 31. Método .query() para filtrado
- **Objetivo**: Filtrar datos con sintaxis simplificada de consultas.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Usa `.query()` para filtrar: total_bill > 20 and tip > 3
- Filtra comidas de cena con más de 4 personas usando `.query()`
- Filtra días de fin de semana con propina > 5
- Compara legibilidad con filtrado tradicional

### Reto 32. pd.eval() para operaciones eficientes
- **Objetivo**: Realizar cálculos eficientes con expresiones dinámicas.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula price_per_carat usando `.eval()`
- Calcula volumen aproximado usando `.eval()` (x * y * z)
- Crea flag de diamantes premium: price > 5000 y carat > 1
- Compara sintaxis con operaciones tradicionales de Pandas

### Reto 33. Agrupaciones con múltiples funciones
- **Objetivo**: Aplicar múltiples agregaciones a datos agrupados.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Agrupa por día y calcula mean, median, std de total_bill
- Calcula mean, sum, count de tip
- Calcula mean de size
- Interpreta: ¿Qué día tiene mayor variabilidad en cuentas?
- ¿Qué día tiene más transacciones?

### Reto 34. Transformaciones con .transform()
- **Objetivo**: Crear columnas derivadas basadas en grupos.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula propina promedio por día usando `.transform()`
- Crea columna con diferencia respecto al promedio del día
- Identifica transacciones con propina muy por encima del promedio (> 2 std)
- Visualiza distribución de diferencias con histograma

### Reto 35. Dataset Breast Cancer - análisis médico
- **Objetivo**: Analizar datos médicos con estadísticas y visualizaciones.
- Carga Breast Cancer desde scikit-learn
- Explora dimensiones con `.shape` y balance de clases
- Calcula estadísticas descriptivas por diagnóstico (malignant/benign)
- Identifica las 5 características con mayor diferencia entre diagnósticos
- Crea boxplot de 'mean radius' por diagnóstico

### Reto 36. Correlaciones en datos médicos
- **Objetivo**: Evaluar correlaciones en datos médicos con heatmaps.
- Carga Breast Cancer desde scikit-learn
- Selecciona las primeras 10 características
- Calcula matriz de correlación
- Identifica características altamente correlacionadas entre sí (|r| > 0.9)
- Visualiza con heatmap
- ¿Qué característica está más correlacionada con 'mean radius'?

### Reto 37. Dataset California Housing
- **Objetivo**: Explorar datos inmobiliarios y calcular estadísticas categóricas.
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv')`
- Explora variables disponibles
- Calcula estadísticas descriptivas de median_house_value
- Identifica valores nulos y elimínalos
- Calcula precio promedio por categoría de ocean_proximity

### Reto 38. Análisis geográfico de viviendas
- **Objetivo**: Visualizar patrones geográficos con scatterplots.
- Carga California Housing (usa código del Reto 37)
- Crea scatterplot de longitude × latitude coloreado por median_house_value
- Usa tamaño de punto proporcional a población
- Observa patrones geográficos: ¿dónde están las viviendas más caras?
- Calcula correlación entre median_income y median_house_value

### Reto 39. Binning de variables continuas
- **Objetivo**: Clasificar variables continuas y analizar tasas categóricas.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea grupos de edad: Niño (0-12), Adolescente (12-18), Adulto Joven (18-35), Adulto (35-60), Senior (60+)
- Calcula tasa de supervivencia por grupo de edad
- Crea gráfico de barras de supervivencia por age_group
- ¿Qué grupo tuvo mayor tasa de supervivencia?

### Reto 40. Cuartiles y percentiles
- **Objetivo**: Calcular y analizar cuartiles de variables numéricas.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula cuartiles (Q1, Q2, Q3) de price
- Calcula percentil 90 y 95 de price
- Crea columna categórica según cuartil de precio (Q1, Q2, Q3, Q4)
- Cuenta diamantes en cada cuartil
- Calcula características promedio de diamantes en Q4 (más caros)

### Reto 41. Detección de outliers con IQR
- **Objetivo**: Identificar outliers usando el rango intercuartílico.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula Q1, Q3 e IQR de carat
- Define límites de outliers: lower = Q1 - 1.5×IQR, upper = Q3 + 1.5×IQR
- Identifica outliers fuera de estos límites
- Calcula porcentaje de outliers
- Visualiza con boxplot

### Reto 42. Detección de outliers con Z-score
- **Objetivo**: Detectar outliers con puntuaciones Z y visualización.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Calcula Z-score de body_mass_g
- Identifica outliers con |Z| > 3
- Compara cantidad de outliers con método IQR
- Visualiza outliers en scatterplot con color diferente
- ¿Qué método es más estricto?

### Reto 43. Imputación de valores nulos - comparación
- **Objetivo**: Comparar métodos de imputación de valores nulos.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Crea 3 copias del dataset
- Versión 1: elimina nulos con `dropna()`
- Versión 2: imputa body_mass_g con media
- Versión 3: imputa body_mass_g con mediana
- Compara estadísticas descriptivas de body_mass_g en las 3 versiones
- ¿Qué método altera menos la distribución?

### Reto 44. Normalización Min-Max
- **Objetivo**: Normalizar variables continuas y comparar distribuciones.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Normaliza sepal_length usando fórmula: (x - min) / (max - min)
- Verifica que valores están entre 0 y 1
- Normaliza también sepal_width, petal_length, petal_width
- Compara distribuciones originales vs normalizadas con histogramas

### Reto 45. Normalización Z-score (Estandarización)
- **Objetivo**: Estandarizar variables y analizar distribuciones transformadas.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula Z-score de sepal_length: (x - media) / desviación estándar
- Verifica que media ≈ 0 y std ≈ 1
- Estandariza todas las columnas numéricas
- Compara distribución original vs estandarizada con histogramas
- ¿Cuándo usar Min-Max vs Z-score?

---

## **BLOQUE 4: SERIES TEMPORALES Y DATOS EXTERNOS (Retos 46-65)**

### Reto 46. Rick and Morty API - JSON anidado
- **Objetivo**: Procesar datos anidados de APIs y analizar categorías.
- Carga datos de personajes: `url = 'https://rickandmortyapi.com/api/character'`
- Extrae columnas: name, species, status, gender
- Cuenta personajes por especie
- Calcula porcentaje de personajes vivos por género
- Identifica especie con más personajes muertos

### Reto 47. Análisis de personajes de Rick and Morty
- **Objetivo**: Analizar características de personajes desde una API.
- Carga datos de personajes: `url = 'https://rickandmortyapi.com/api/character'`
- Filtra personajes humanos
- Cuenta personajes por género
- Identifica el personaje con más apariciones en episodios
- Crea gráfico de barras de personajes por status (Alive, Dead, unknown)

### Reto 48. Dataset de Temperaturas Globales
- **Objetivo**: Analizar series temporales de temperaturas con gráficos.
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/datasets/global-temp/master/data/monthly.csv')`
- Explora columnas: Date, Mean
- Filtra datos desde 2000
- Calcula temperatura promedio anual
- Crea gráfico de líneas de temperatura media mensual
- Identifica el mes más caliente y más frío en promedio

### Reto 49. Análisis de cambio climático
- **Objetivo**: Evaluar tendencias climáticas con comparaciones temporales.
- Carga dataset de temperaturas globales (usa código del Reto 48)
- Calcula temperatura promedio por década
- Compara temperatura promedio de 1950-1999 vs 2000-2020
- Crea gráfico de barras comparando las dos periodos
- Calcula diferencia absoluta entre periodos
- Interpreta: ¿hay evidencia de calentamiento global?

### Reto 50. Media móvil en series temporales
- **Objetivo**: Aplicar medias móviles para suavizar series temporales.
- Carga dataset de temperaturas globales (usa código del Reto 48)
- Ordena por fecha
- Calcula media móvil de 12 meses
- Crea gráfico de líneas: original vs media móvil
- Interpreta: ¿qué patrones revela la media móvil?
- Identifica picos o valles suavizados

### Reto 51. Dataset World Happiness Report
- **Objetivo**: Explorar felicidad mundial y correlaciones económicas.
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/mathiasjepsen/World-Happiness-Report/master/2022.csv')`
- Explora columnas: Country, Happiness score, GDP per capita
- Calcula correlación entre Happiness score y GDP per capita
- Identifica top 5 países más felices
- Identifica bottom 5 países menos felices

### Reto 52. Análisis de factores de felicidad
- **Objetivo**: Identificar factores clave de felicidad con visualizaciones.
- Carga World Happiness Report (usa código del Reto 51)
- Selecciona columnas numéricas: Happiness score, GDP, Social support, Healthy life expectancy
- Calcula matriz de correlación
- Visualiza con heatmap
- Identifica factor más correlacionado con Happiness score
- Crea scatterplot de Happiness vs GDP coloreado por región

### Reto 53. Dataset Gapminder - datos socioeconómicos
- **Objetivo**: Analizar indicadores socioeconómicos globales por año.
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Explora columnas: country, continent, year, lifeExp, pop, gdpPercap
- Filtra datos de 2007
- Calcula lifeExp promedio por continente
- Identifica continente con mayor gdpPercap promedio

### Reto 54. Evolución temporal por continente
- **Objetivo**: Visualizar tendencias socioeconómicas por continente.
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Agrupa por year y continent, calcula lifeExp promedio
- Crea gráfico de líneas de lifeExp por year, coloreado por continent
- Identifica continente con mayor mejora en lifeExp
- ¿Qué patrón temporal observas globalmente?

### Reto 55. Análisis de correlación temporal en Gapminder
- **Objetivo**: Evaluar correlaciones socioeconómicas con scatterplots.
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Filtra datos de 2007
- Crea scatterplot de gdpPercap vs lifeExp, tamaño por pop, color por continent
- Calcula correlación entre gdpPercap y lifeExp
- Interpreta: ¿es la relación lineal? ¿hay outliers?

### Reto 56. Open-Meteo API - pronóstico meteorológico
- **Objetivo**: Analizar pronósticos meteorológicos con gráficos temporales.
- Carga pronóstico para tu ciudad: `url = 'https://api.open-meteo.com/v1/forecast?latitude=52.52&longitude=13.41&hourly=temperature_2m'`
- Extrae temperaturas horarias
- Calcula temperatura promedio diaria
- Crea gráfico de líneas de temperaturas horarias
- Identifica hora con temperatura máxima

### Reto 57. Comparación meteorológica entre ciudades
- **Objetivo**: Comparar condiciones climáticas de ciudades con visualizaciones.
- Carga pronóstico para dos ciudades diferentes usando Open-Meteo API
- Extrae temperaturas para cada una
- Calcula diferencia de temperatura entre ciudades por hora
- Crea gráfico de líneas comparando temperaturas
- Identifica qué ciudad es más cálida en promedio

### Reto 58. Análisis de calidad de vida por ciudades
- **Objetivo**: Clasificar y analizar calidad de vida por ciudades.
- Descarga manualmente el dataset de calidad de vida en ciudades desde Kaggle: `https://www.kaggle.com/datasets/bilalabdulmalik/top-cities-worldwide-quality-of-life-index-2024` y cárgalo localmente en Google Colab
- Crea clasificación por nivel de calidad de vida usando el índice (`Quality of Life Index`): Baja (<100), Media (100-150), Alta (>150)
- Usa `pd.cut()` para asignar categorías a las ciudades según el índice
- Cuenta el número de ciudades en cada categoría (Baja, Media, Alta)
- Identifica el país con más ciudades en la categoría "Alta"
- Visualiza la distribución de ciudades por categoría con un gráfico de barras

### Reto 59. CoinGecko API - criptomonedas en tiempo real
- **Objetivo**: Explorar datos de criptomonedas desde una API.
- Carga datos de cripto: `url = 'https://api.coingecko.com/api/v3/coins/markets?vs_currency=usd&order=market_cap_desc&per_page=100'`
- Extrae columnas: id, current_price, market_cap
- Identifica top 5 cripto por market_cap
- Calcula precio promedio de las top 100

### Reto 60. Análisis de volatilidad en criptomonedas
- **Objetivo**: Evaluar volatilidad de criptomonedas con visualizaciones.
- Carga datos históricos de Bitcoin: `url = 'https://api.coingecko.com/api/v3/coins/bitcoin/market_chart?vs_currency=usd&days=30'`
- Extrae precios diarios
- Calcula desviación estándar de precios (volatilidad)
- Crea gráfico de líneas de precios diarios
- Identifica día con mayor variación de precio

### Reto 61. REST Countries API - datos de países
- **Objetivo**: Analizar datos demográficos y geográficos de países.
- Carga datos de países: `url = 'https://restcountries.com/v3.1/all'`
- Extrae columnas: name.common, population, area, region
- Cuenta países por region
- Identifica top 5 países por población

### Reto 62. Análisis geográfico de países
- **Objetivo**: Calcular métricas geográficas agrupadas por regiones.
- Carga REST Countries API (usa código del Reto 61)
- Calcula densidad poblacional: population / area
- Agrupa por region y calcula densidad promedio
- Identifica región con mayor densidad promedio
- Crea boxplot de densidad por region

### Reto 63. Análisis de idiomas en el mundo
- **Objetivo**: Explorar distribución de idiomas por países.
- Carga REST Countries API (usa código del Reto 61)
- Extrae idiomas de cada país
- Cuenta cuántos países hablan cada idioma
- Identifica top 5 idiomas más hablados (por número de países)
- Crea gráfico de barras de top 10 idiomas

### Reto 64. Análisis de música en Spotify
- **Objetivo**: Analizar características musicales por género.
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-01-21/spotify_songs.csv')`
- Explora columnas: track_name, track_artist, playlist_genre, danceability, energy
- Calcula danceability promedio por playlist_genre
- Identifica género con mayor energy promedio
- Crea boxplot de danceability por género

### Reto 65. Análisis temporal de características musicales
- **Objetivo**: Evaluar tendencias musicales por década.
- Carga dataset de Spotify (usa código del Reto 64)
- Extrae año de track_album_release_date
- Crea grupos por década (ej: 1980s, 1990s, etc.)
- Calcula energy promedio por década
- Crea gráfico de líneas de energy por década
- Interpreta: ¿la música es más energética con el tiempo?

---

## **BLOQUE 5: SQL E INGENIERÍA DE DATOS (Retos 66-85)**

### Reto 66. SQL: SELECT y WHERE simulado
- **Objetivo**: Simular consultas SQL básicas con filtrado.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Simula SELECT total_bill, tip WHERE total_bill > 20
- Simula SELECT * WHERE day = 'Sun' AND time = 'Dinner'
- Cuenta resultados de cada consulta
- Compara con sintaxis SQL real

### Reto 67. SQL: ORDER BY simulado
- **Objetivo**: Ordenar datos simulando consultas SQL.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Simula SELECT * ORDER BY price DESC LIMIT 10
- Simula SELECT cut, AVG(price) GROUP BY cut ORDER BY AVG(price) ASC
- Verifica ordenación ascendente/descendente

### Reto 68. SQL: GROUP BY y agregaciones
- **Objetivo**: Realizar agregaciones simulando GROUP BY de SQL.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Simula SELECT species, AVG(body_mass_g) GROUP BY species
- Simula SELECT island, COUNT(*) GROUP BY island
- Interpreta resultados agregados

### Reto 69. SQL: GROUP BY múltiple
- **Objetivo**: Aplicar agregaciones por múltiples categorías.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Simula SELECT species, sex, AVG(flipper_length_mm) GROUP BY species, sex
- Simula SELECT island, species, COUNT(*) GROUP BY island, species
- Visualiza con tabla pivot

### Reto 70. SQL: HAVING simulado
- **Objetivo**: Filtrar grupos agregados simulando HAVING.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Simula SELECT day, AVG(tip) GROUP BY day HAVING AVG(tip) > 3
- Simula SELECT size, COUNT(*) GROUP BY size HAVING COUNT(*) > 50
- Interpreta grupos que cumplen la condición

### Reto 71. SQL: DISTINCT y COUNT DISTINCT
- **Objetivo**: Identificar y contar valores únicos en datos.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Simula SELECT DISTINCT species
- Simula SELECT COUNT(DISTINCT species)
- Aplica a otras columnas como sepal_length

### Reto 72. SQL: INNER JOIN simulado
- **Objetivo**: Combinar datasets simulando INNER JOIN.
- Crea dos DataFrames simples: empleados (id, name, dept_id) y departamentos (dept_id, dept_name)
- Simula INNER JOIN ON dept_id
- Cuenta empleados por departamento
- Verifica que solo incluye matches

### Reto 73. SQL: LEFT JOIN simulado
- **Objetivo**: Combinar datasets simulando LEFT JOIN.
- Usa DataFrames del Reto 72, añade empleados sin dept
- Simula LEFT JOIN ON dept_id
- Identifica empleados sin departamento (dept_name NULL)
- Compara con INNER JOIN

### Reto 74. SQL: Subconsultas simuladas
- **Objetivo**: Filtrar datos usando subconsultas simuladas.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Simula SELECT * WHERE total_bill > (SELECT AVG(total_bill))
- Simula SELECT day, AVG(tip) WHERE AVG(tip) > (SELECT AVG(tip) FROM all)
- Interpreta resultados

### Reto 75. SQL: UNION simulado
- **Objetivo**: Unir datasets simulando UNION.
- Crea dos DataFrames con columnas comunes: ventas_enero y ventas_febrero
- Simula UNION ALL
- Simula UNION (elimina duplicados)
- Cuenta filas totales

### Reto 76. SQL: Window Functions - RANK
- **Objetivo**: Crear rankings simulando funciones de ventana.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Simula RANK() OVER (ORDER BY price DESC)
- Asigna rank a cada diamante por precio
- Filtra top 10 por rank

### Reto 77. SQL: Window Functions - ROW_NUMBER por grupo
- **Objetivo**: Asignar números de fila por grupos.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Simula ROW_NUMBER() OVER (PARTITION BY species ORDER BY body_mass_g DESC)
- Asigna número dentro de cada especie
- Filtra el pingüino más pesado por especie

### Reto 78. SQL: CTE (Common Table Expression) simulado
- **Objetivo**: Simular expresiones de tabla comunes.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Simula WITH avg_passengers AS (SELECT AVG(passengers))
- Usa CTE para filtrar meses por encima del promedio
- Calcula número de meses por encima/bajo promedio

### Reto 79. Pipeline ETL - Extract y Transform
- **Objetivo**: Estandarizar y transformar datos en un pipeline ETL.
- Carga datos crudos de una API o CSV
- Extrae columnas relevantes
- Transforma: limpia nulos, normaliza unidades, crea variables derivadas
- Verifica transformaciones

### Reto 80. Pipeline ETL - Load
- **Objetivo**: Consolidar y exportar datos en un pipeline ETL.
- Usa datos transformados del Reto 79
- Carga en un nuevo DataFrame o exporta a CSV
- Valida integridad de datos cargados
- Simula carga a base de datos

### Reto 81. Validación de calidad de datos
- **Objetivo**: Implementar validaciones para asegurar calidad de datos.
- Carga un dataset
- Valida: no nulos en columnas clave, rangos lógicos, unicidad
- Reporta errores encontrados
- Corrige o elimina datos inválidos

### Reto 82. Data Profiling automatizado
- **Objetivo**: Generar reportes automáticos de calidad de datos.
- Carga un dataset
- Usa pandas-profiling o similar para generar reporte
- Analiza métricas: missing values, distribuciones, correlaciones
- Identifica problemas potenciales

### Reto 83. Detección de anomalías en datos temporales
- **Objetivo**: Identificar anomalías en series temporales.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Calcula Z-score por mes
- Identifica meses con |Z| > 3
- Visualiza anomalías en gráfico de líneas

### Reto 84. Feature Engineering - variables derivadas
- **Objetivo**: Crear variables derivadas para análisis predictivo.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea feature: age_group (binning)
- Crea feature: fare_per_person = fare / (sibsp + parch + 1)
- Analiza correlación con survived

### Reto 85. Análisis de correlación logarítmica
- **Objetivo**: Analizar relaciones no lineales con transformaciones.
- Carga datos de países (usa REST Countries API)
- Calcula correlación lineal entre población y área
- Observa en scatterplot la relación no lineal
- Aplica transformación logarítmica a ambas variables
- Calcula correlación entre variables transformadas
- Compara ambos coeficientes: ¿qué método captura mejor la relación?

---

## **BLOQUE 6: ANÁLISIS AVANZADO Y MACHINE LEARNING PREP (Retos 86-105)**

### Reto 86. Encoding: Label Encoding
- **Objetivo**: Convertir categorías a valores numéricos.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Convierte species a números usando LabelEncoder de sklearn
- Verifica mapeo: imprime diccionario de equivalencias
- Guarda mapeo para referencia futura
- ¿Cuándo es apropiado usar Label Encoding?

### Reto 87. Encoding: One-Hot Encoding
- **Objetivo**: Transformar categorías en variables binarias.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Aplica one-hot encoding a island usando `pd.get_dummies()`
- Verifica que se crearon 3 columnas binarias
- Compara número de columnas antes y después
- ¿Cuándo usar One-Hot vs Label Encoding?
- ¿Qué es el problema de multicolinealidad?

### Reto 88. Encoding: Target Encoding
- **Objetivo**: Codificar categorías usando información del target.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula propina promedio por día (esto es target encoding)
- Mapea estos promedios a una nueva columna day_encoded
- Compara con label encoding simple
- Ventaja: captura relación con variable objetivo
- Visualiza relación entre day_encoded y tip

### Reto 89. Transformación logarítmica para normalizar
- **Objetivo**: Normalizar distribuciones sesgadas con transformaciones.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Observa que price está muy sesgado (crea histograma)
- Aplica transformación logarítmica a price
- Compara histogramas de price vs log_price
- Calcula sesgo antes y después usando scipy.stats.skew
- ¿La transformación normalizó la distribución?

### Reto 90. Transformación Box-Cox
- **Objetivo**: Aplicar transformaciones automáticas para normalizar datos.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Aplica transformación Box-Cox a price usando scipy.stats.boxcox
- Imprime lambda óptimo encontrado
- Compara distribución original vs transformada con histogramas
- Box-Cox encuentra automáticamente mejor transformación
- Interpreta: si lambda ≈ 0 es similar a log, si lambda ≈ 1 no necesita transformación

### Reto 91. Manejo de desbalanceo de clases
- **Objetivo**: Balancear clases en datasets desequilibrados.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Verifica balance de survived con `.value_counts()`
- Calcula ratio de clases
- Simula undersampling de clase mayoritaria (igualar al tamaño de minoritaria)
- Verifica nuevo balance
- Compara tamaño de datasets original vs balanceado

### Reto 92. Feature Selection: correlación con target
- **Objetivo**: Seleccionar características basadas en correlaciones.
- Carga Breast Cancer desde scikit-learn
- Calcula correlación de cada feature con target (diagnóstico)
- Ordena features por correlación absoluta de mayor a menor
- Selecciona top 10 features más correlacionadas
- Crea subset del DataFrame con solo estas features
- ¿Esto es reducción de dimensionalidad?

### Reto 93. Feature Selection: varianza
- **Objetivo**: Eliminar características con baja varianza.
- Carga Breast Cancer desde scikit-learn
- Calcula varianza de cada feature
- Identifica features con varianza muy baja (< 0.1)
- Interpreta: features con baja varianza aportan poca información
- Elimina features de baja varianza
- Compara número de features antes y después

### Reto 94. Análisis de Componentes Principales (PCA) - Preparación
- **Objetivo**: Preparar datos para análisis de componentes principales.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona solo columnas numéricas
- Estandariza datos usando StandardScaler de sklearn
- Verifica que media ≈ 0 usando `.mean()`
- Verifica que std ≈ 1 usando `.std()`
- Los datos están listos para PCA

### Reto 95. Análisis de Componentes Principales (PCA) - Aplicación
- **Objetivo**: Aplicar PCA y visualizar componentes principales.
- Usa datos estandarizados del Reto 94
- Aplica PCA con 2 componentes usando sklearn
- Transforma los datos
- Crea DataFrame con las componentes PC1 y PC2
- Añade columna de especies del dataset original
- Visualiza en 2D coloreado por especie
- Imprime varianza explicada por cada componente

### Reto 96. Interpretación de componentes principales
- **Objetivo**: Interpretar contribuciones de variables en PCA.
- Continúa con PCA del Reto 95
- Examina loadings (contribución de cada variable original)
- Identifica qué variables contribuyen más a PC1
- Identifica qué variables contribuyen más a PC2
- Interpreta: ¿qué representa cada componente?
- ¿Cuánta información total se conserva con 2 componentes?

### Reto 97. Análisis de sesgo (skewness) y curtosis
- **Objetivo**: Evaluar sesgo y curtosis de distribuciones.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula sesgo de price usando scipy.stats.skew
- Calcula curtosis de price usando scipy.stats.kurtosis
- Interpreta sesgo: > 0 (asimetría derecha), < 0 (asimetría izquierda)
- Interpreta curtosis: > 0 (leptocúrtica, colas pesadas), < 0 (platicúrtica)
- Compara con distribución normal en histograma
- Calcula también para carat

### Reto 98. Detección de outliers multivariante - Distancia de Mahalanobis
- **Objetivo**: Detectar outliers usando distancia de Mahalanobis.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula distancia de Mahalanobis para cada observación
- Usa matriz de covarianza inversa y media del dataset
- Identifica outliers: distancia > percentil 97.5
- Compara con outliers univariados detectados con Z-score
- Visualiza outliers en scatterplot con color diferente

### Reto 99. Análisis de correlación con variables lag
- **Objetivo**: Analizar autocorrelación en series temporales.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Ordena por año y mes
- Crea variable lag-1: valor de passengers del mes anterior
- Crea variable lag-12: valor de passengers del mismo mes año anterior
- Calcula correlación entre passengers y lag-1
- Calcula correlación entre passengers y lag-12
- Interpreta: ¿hay autocorrelación? ¿hay estacionalidad?

### Reto 100. Análisis de estacionalidad
- **Objetivo**: Identificar patrones estacionales en datos temporales.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Calcula pasajeros promedio por mes (entre todos los años)
- Calcula promedio global de pasajeros
- Calcula índice de estacionalidad: (promedio_mes / promedio_global) × 100
- Identifica meses con estacionalidad positiva (índice > 110)
- Identifica meses con estacionalidad negativa (índice < 90)
- Visualiza índice estacional con gráfico de barras
- Interpreta patrones turísticos

### Reto 101. Binning avanzado con qcut
- **Objetivo**: Clasificar datos en bins de igual frecuencia.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Crea bins de igual frecuencia (cuartiles) usando `pd.qcut()`
- Compara con bins de igual amplitud usando `pd.cut()`
- Cuenta diamantes en cada cuartil (deben ser aproximadamente iguales con qcut)
- Calcula características promedio de diamantes en cada cuartil
- Visualiza distribución de carat por price_quartile con boxplot
- ¿Cuándo usar qcut vs cut?

### Reto 102. Imputación avanzada - KNN Imputer
- **Objetivo**: Imputar valores nulos usando vecinos cercanos.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Identifica valores nulos en variables numéricas
- Aplica imputación por KNN usando sklearn (5 vecinos)
- Compara estadísticas con imputación por media y mediana
- Ventaja de KNN: usa información de observaciones similares
- Verifica que no quedan nulos

### Reto 103. Imputación con forward fill y backward fill
- **Objetivo**: Imputar valores nulos en series temporales.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Introduce nulos artificiales en passengers en posiciones específicas
- Aplica forward fill
- Aplica backward fill
- Aplica combinación: primero ffill, luego bfill para nulos restantes
- Compara métodos visualmente con gráfico de líneas
- ¿Cuándo es apropiado cada método?

### Reto 104. Análisis de multicolinealidad - VIF
- **Objetivo**: Detectar multicolinealidad en variables numéricas.
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv')`
- Selecciona variables numéricas sin nulos
- Calcula VIF (Variance Inflation Factor) para cada variable usando statsmodels
- Identifica variables con VIF > 10 (alta multicolinealidad)
- Interpreta: variables redundantes que miden lo mismo
- Considera eliminar variables con VIF alto

### Reto 105. Análisis de interacciones entre variables
- **Objetivo**: Evaluar interacciones entre variables para predicción.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea variables de interacción: total_bill × size
- Crea interacción booleana: is_weekend × is_dinner
- Calcula correlación de interacciones con tip
- Visualiza interacción con scatterplot categorizando por grupos
- ¿Las interacciones capturan patrones no lineales?
- Compara poder predictivo de variables originales vs interacciones

---

## **BLOQUE 7: VISUALIZACIÓN AVANZADA (Retos 106-120)**

### Reto 106. Subplots múltiples organizados
- **Objetivo**: Crear visualizaciones múltiples en una sola figura.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea figura con 4 subplots (2×2) usando matplotlib
- Subplot 1: Histograma de sepal_length
- Subplot 2: Scatterplot de sepal_length vs petal_length
- Subplot 3: Boxplot de petal_width por especie
- Subplot 4: Heatmap de correlaciones
- Añade título general a la figura

### Reto 107. Distribuciones comparativas - KDE
- **Objetivo**: Comparar métodos de visualización de distribuciones.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Crea figura con 3 subplots mostrando body_mass_g
- Plot 1: Histograma simple
- Plot 2: KDE (Kernel Density Estimate)
- Plot 3: Histograma + KDE superpuestos
- Compara métodos
- ¿Qué método muestra mejor la distribución?

### Reto 108. FacetGrid para análisis multivariado
- **Objetivo**: Visualizar datos multivariados con rejillas de gráficos.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea FacetGrid con columnas por 'time' y filas por 'smoker'
- Mapea histograma de total_bill en cada faceta
- Añade títulos descriptivos
- Analiza diferencias entre grupos
- ¿Qué combinación tiene distribución más sesgada?

### Reto 109. Pairplot personalizado avanzado
- **Objetivo**: Personalizar visualizaciones multivariadas avanzadas.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina nulos
- Crea pairplot con hue='species', diag_kind='kde'
- Personaliza markers (diferentes símbolos por especie)
- Personaliza paleta de colores
- Añade título general
- Identifica visualmente qué pares de variables separan mejor las especies

### Reto 110. Gráfico de barras apiladas
- **Objetivo**: Visualizar composiciones categóricas con barras apiladas.
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea tabla cruzada de class vs survived
- Normaliza por filas para obtener porcentajes
- Visualiza con barras apiladas al 100%
- Añade leyenda, título y etiquetas apropiadas
- Analiza composición de supervivencia por clase
- ¿Qué clase tuvo peor supervivencia?

### Reto 111. Gráfico de áreas apiladas (serie temporal)
- **Objetivo**: Mostrar tendencias y composiciones temporales.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea pivot table de pasajeros por año y meses seleccionados
- Selecciona 4 meses representativos (ej: Enero, Abril, Julio, Octubre)
- Visualiza con gráfico de áreas apiladas
- Útil para mostrar composición temporal y tendencia global
- ¿Qué mes contribuye más al total de pasajeros?

### Reto 112. Heatmap con anotaciones personalizadas
- **Objetivo**: Visualizar patrones temporales con heatmaps personalizados.
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea pivot table de mes × año con valores de passengers
- Crea heatmap con anotaciones de valores
- Personaliza: colormap, bordes entre celdas, colorbar
- Añade título descriptivo y etiquetas de ejes
- Identifica visualmente patrones estacionales

### Reto 113. Gráfico de regresión con intervalo de confianza
- **Objetivo**: Visualizar relaciones lineales con intervalos de confianza.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea regplot de total_bill vs tip
- Personaliza puntos (transparencia, tamaño, borde)
- Personaliza línea de regresión (color, grosor)
- Calcula y muestra R² en el gráfico usando texto
- Interpreta: la banda de confianza muestra incertidumbre de la predicción

### Reto 114. Jointplot para análisis bivariado
- **Objetivo**: Explorar relaciones bivariadas con distribuciones marginales.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina nulos
- Crea jointplot de flipper_length_mm vs body_mass_g
- Colorea por especie (hue='species')
- Prueba diferentes kinds: 'scatter', 'hex', 'kde', 'reg'
- Las distribuciones marginales muestran distribuciones univariadas
- El gráfico central muestra relación bivariada

### Reto 115. Violinplot para distribuciones complejas
- **Objetivo**: Visualizar distribuciones complejas con violinplots.
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea figura con 2 subplots lado a lado
- Subplot 1: Boxplot de total_bill por día
- Subplot 2: Violinplot de total_bill por día
- Compara ambas visualizaciones
- Violinplot muestra forma completa de la distribución
- Mejor para detectar multimodalidad

### Reto 116. Swarmplot para visualizar puntos individuales
- **Objetivo**: Mostrar observaciones individuales con swarmplots.
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina nulos
- Crea figura con 3 subplots comparando: boxplot, violinplot y swarmplot
- Todos muestran body_mass_g por especie
- Swarmplot muestra cada observación individual
- Útil para datasets pequeños-medianos
- Identifica outliers fácilmente

### Reto 117. Gráfico de coordenadas paralelas
- **Objetivo**: Visualizar patrones multivariados con coordenadas paralelas.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea parallel coordinates plot usando pandas.plotting
- Colorea por especie
- Personaliza colormap y transparencia
- Útil para visualizar patrones multivariados
- Cada línea representa una observación
- Identifica visualmente separación entre especies

### Reto 118. Clustermap de correlaciones
- **Objetivo**: Agrupar variables correlacionadas con clustermaps.
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona columnas numéricas y calcula correlación
- Crea clustermap usando seaborn
- El clustermap agrupa variables con correlación similar
- Personaliza: anotaciones, colormap centrado en 0, bordes
- Útil para identificar bloques de variables relacionadas

### Reto 119. Layout complejo con GridSpec
- **Objetivo**: Crear layouts complejos con visualizaciones integradas.
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Toma muestra de 5000 filas para eficiencia
- Crea layout complejo: gráfico principal (2×2), histogramas marginales, panel de estadísticas
- Gráfico principal: scatter de carat vs price coloreado por depth
- Histogramas: distribuciones marginales de price y carat
- Panel de estadísticas: texto con métricas clave
- Añade título general

### Reto 120. Dashboard de análisis global
- **Objetivo**: Integrar múltiples visualizaciones en un dashboard analítico.
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Filtra datos del año 2007
- Crea figura con 6 subplots (2×3):
  1. Scatterplot: gdpPercap vs lifeExp (tamaño=población, color=continente)
  2. Barras horizontales: lifeExp promedio por continente (ordenado)
  3. Boxplot: gdpPercap por continente (escala log)
  4. Histograma+KDE: distribución de lifeExp global
  5. Heatmap: correlaciones entre variables numéricas
  6. Barras horizontales: Top 10 países por gdpPercap
- Añade título general: "Análisis Global de Desarrollo 2007"
- Personaliza colores, etiquetas y leyendas para presentación profesional
- Guarda como PNG de alta calidad (300 dpi)
- Escribe en comentarios 3 insights principales que descubriste del análisis

---

## **RESUMEN FINAL - 120 RETOS**

### 📊 **Distribución por Bloques**

| Bloque | Retos | Contenido Principal |
|--------|-------|---------------------|
| **1. Fundamentos** | 1-10 | Carga de datos, exploración básica, Drive |
| **2. EDA y Agregaciones** | 11-25 | Análisis exploratorio, groupby, APIs simples, regex |
| **3. Operaciones Complejas** | 26-45 | Merge, pivot, melt, encoding, normalización |
| **4. Series Temporales** | 46-65 | Datos temporales, APIs externas, análisis global |
| **5. SQL e Ingeniería** | 66-85 | SQL simulado, ETL, validación, feature engineering |
| **6. ML Preprocessing** | 86-105 | Encoding, PCA, outliers, transformaciones, VIF |
| **7. Visualización Avanzada** | 106-120 | Subplots, FacetGrid, clustermap, dashboard final |

### 🌐 **Fuentes de Datos Utilizadas**

**Datasets Embebidos (Seaborn):**
- titanic, iris, tips, penguins, flights, diamonds, gapminder

**APIs Públicas:**
- JSONPlaceholder, Quotable, Rick and Morty, Open-Meteo, CoinGecko, REST Countries

**Datasets Externos (CSV):**
- California Housing, Breast Cancer, Temperaturas Globales, World Happiness, Spotify, Programming Languages

**Total: 120 retos | 25+ fuentes únicas | 6 APIs estables | 7 bloques temáticos**

---