<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/retos_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 120 RETOS DE DATA - VERSIÓN FINAL

---

## **BLOQUE 1: FUNDAMENTOS Y CARGA DE DATOS (Retos 1-10)**

### Reto 1. Gestión de archivos en Google Colab
- Descarga manualmente el dataset Titanic desde Kaggle
- Súbelo a Google Colab
- Cárgalo con Pandas y visualiza las primeras 5 filas
- Monta Google Drive y guarda el dataset allí
- Verifica la persistencia recargándolo desde Drive

### Reto 2. Carga directa desde URL y análisis exploratorio
- Carga Iris desde URL: `df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')`
- Verifica dimensiones con `.shape`
- Explora tipos de datos con `.dtypes`
- Identifica valores nulos con `.isnull().sum()`
- Calcula estadísticas descriptivas con `.describe()`

### Reto 3. Datasets embebidos y análisis de supervivencia
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Calcula proporción de supervivientes global
- Calcula proporción de supervivientes por sexo
- Calcula proporción de supervivientes por clase
- Crea gráfico de barras comparando supervivencia por sexo y clase

### Reto 4. Limpieza básica de datos
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Identifica valores nulos por columna
- Rellena edad con la mediana
- Elimina columna "deck" por exceso de nulos
- Crea columna "family_size" sumando sibsp + parch + 1

### Reto 5. Filtros y consultas básicas
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Filtra pasajeros de primera clase que sobrevivieron
- Cuenta cuántos pasajeros cumplen esta condición
- Encuentra el pasajero más joven y el más viejo
- Calcula tarifa promedio por clase

### Reto 6. Dataset Iris y análisis por especie
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula estadísticas descriptivas generales
- Calcula estadísticas por especie
- Identifica qué especie tiene mayor petal_length promedio
- Crea boxplot de petal_length por especie

### Reto 7. Correlaciones y mapa de calor
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona solo columnas numéricas
- Calcula matriz de correlación
- Visualiza con heatmap incluyendo anotaciones
- Identifica las dos variables más correlacionadas

### Reto 8. Clasificación con regla simple
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea regla: si petal_length < 2.5 → setosa, si < 5.0 → versicolor, sino → virginica
- Crea columna 'prediccion' implementando esta regla
- Compara con columna 'species' real
- Calcula precisión de tu clasificador

### Reto 9. Visualización: pairplot
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea pairplot coloreado por especie
- Observa qué pares de variables separan mejor las especies
- Identifica si alguna especie es linealmente separable
- Escribe en comentarios qué par de variables usarías para clasificar

### Reto 10. Ordenación y selección de datos
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Ordena por petal_length de menor a mayor
- Muestra las primeras y últimas 10 filas
- Extrae solo columnas de pétalos
- Filtra flores con sepal_length > 6 y muestra solo columnas de pétalos

---

## **BLOQUE 2: ANÁLISIS EXPLORATORIO Y AGREGACIONES (Retos 11-25)**

### Reto 11. Dataset Penguins y valores nulos
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Identifica valores nulos por columna
- Calcula porcentaje de nulos por columna
- Elimina filas con valores nulos
- Compara número de filas antes y después

### Reto 12. Análisis morfológico de pingüinos
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina filas con nulos
- Calcula peso promedio (body_mass_g) por especie
- Calcula peso promedio por especie Y sexo
- Identifica especie con mayor peso promedio
- Crea scatterplot de flipper_length_mm vs body_mass_g coloreado por especie

### Reto 13. Distribución geográfica de pingüinos
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Crea boxplot de body_mass_g por isla
- Identifica isla con pingüinos más pesados en promedio
- Crea tabla cruzada de especies por isla
- Identifica qué especie está presente en las tres islas

### Reto 14. Dataset Tips y análisis de propinas
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula propina promedio por día de la semana
- Calcula propina promedio por momento del día (Lunch/Dinner)
- Crea columna con porcentaje de propina
- Identifica qué combinación día-momento tiene mayor porcentaje de propina
- Crea boxplot de porcentaje de propina por día

### Reto 15. Análisis de fumadores en restaurante
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Cuenta cuántos clientes fumadores y no fumadores hay
- Calcula cuenta promedio (total_bill) para cada grupo
- Calcula propina promedio para cada grupo
- Crea boxplots lado a lado comparando total_bill
- ¿Los fumadores gastan más o dan más propina?

### Reto 16. Dataset Diamonds - exploración inicial
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Explora dimensiones y primeras filas
- Identifica variables categóricas: cut, color, clarity
- Cuenta valores únicos de cada variable categórica
- Calcula estadísticas descriptivas de price
- Identifica el diamante más caro y más barato

### Reto 17. Análisis de precios de diamantes
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula precio promedio por calidad de corte (cut)
- Calcula precio promedio por color
- Calcula precio promedio por claridad (clarity)
- Crea gráfico de barras de precio promedio por cut
- Identifica qué característica tiene mayor impacto en el precio

### Reto 18. Correlaciones en diamantes
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Selecciona solo columnas numéricas
- Calcula matriz de correlación
- Crea heatmap con anotaciones
- Identifica qué variable numérica está MÁS correlacionada con price
- ¿Las dimensiones (x, y, z) están correlacionadas entre sí?

### Reto 19. Dataset Flights - series temporales básicas
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Explora estructura: year, month, passengers
- Identifica rango de años incluido
- Calcula total de pasajeros por año
- Identifica el año con más pasajeros totales
- Crea gráfico de líneas de pasajeros totales por año

### Reto 20. Análisis mensual de vuelos
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Calcula pasajeros promedio por mes (promediando entre todos los años)
- Identifica el mes con más pasajeros consistentemente
- Identifica el mes con menos pasajeros
- Crea gráfico de barras de pasajeros promedio por mes
- ¿Observas estacionalidad? ¿En qué meses?

### Reto 21. Mapa de calor mensual
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea tabla pivot con mes como índice, año como columnas y passengers como valores
- Crea heatmap con anotaciones
- Identifica visualmente el año y mes con más pasajeros
- Identifica visualmente el año y mes con menos pasajeros
- ¿Qué patrón temporal observas?

### Reto 22. Introducción a APIs - JSONPlaceholder
- Carga datos de usuarios: `url = 'https://jsonplaceholder.typicode.com/users'` y convierte a DataFrame
- Explora estructura del JSON convertido
- Extrae columnas: name, email, city (dentro de address)
- Cuenta cuántos usuarios hay por ciudad
- Imprime los nombres de los 5 primeros usuarios

### Reto 23. API de citas famosas
- Carga citas: `url = 'https://api.quotable.io/quotes?limit=150'` y extrae `data['results']`
- Explora columnas: content, author, tags
- Calcula longitud de cada cita
- Identifica la cita más larga y más corta
- Cuenta cuántas citas tiene cada autor
- Identifica el autor con más citas en el dataset

### Reto 24. Análisis de repositorios GitHub
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/datasets/major-programming-languages/master/programming-languages.csv')`
- Explora variables disponibles
- Si hay columna de lenguajes, cuenta repositorios por lenguaje
- Identifica los 5 lenguajes más populares
- Crea gráfico de barras de top 10 lenguajes

### Reto 25. Regex en Pandas - limpieza de texto
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea columna simulada 'phone' con formato: (555) 123-4567
- Extrae solo números del teléfono usando regex
- Crea columna 'customer_id' con formato: CUST-001, CUST-002...
- Extrae el número del customer_id usando regex
- Verifica que ambas limpiezas funcionaron correctamente

---

## **BLOQUE 3: OPERACIONES COMPLEJAS Y TRANSFORMACIONES (Retos 26-45)**

### Reto 26. Tablas cruzadas y análisis multivariable
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea tabla cruzada de class × sex con conteo
- Crea tabla cruzada con tasa de supervivencia como valor
- Interpreta: ¿Qué combinación clase-sexo tuvo mayor supervivencia?
- Visualiza con heatmap la tasa de supervivencia

### Reto 27. Operación melt (formato ancho a largo)
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea pivot table de mes × año con valores de passengers
- Aplica melt para volver a formato largo
- Compara estructura original vs pivot vs melted
- Verifica que melted tiene la misma información que el DataFrame original
- Cuenta filas en cada formato

### Reto 28. Combinación con merge
- Crea DataFrame de información de islas: Torgersen, Biscoe, Dream con country y area_km2
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Combina ambos DataFrames usando merge
- Verifica número de filas resultante
- Calcula número de pingüinos por km² en cada isla
- Identifica isla con mayor densidad de pingüinos

### Reto 29. Concatenación vertical y validación
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Filtra solo filas de sábado
- Filtra solo filas de domingo
- Concatena verticalmente ambos DataFrames
- Verifica que total de filas = suma de ambos
- Valida que solo hay registros de Sat y Sun

### Reto 30. Detección y eliminación de duplicados
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Duplica artificialmente las primeras 15 filas
- Cuenta duplicados totales
- Identifica filas duplicadas
- Elimina duplicados manteniendo la primera aparición
- Verifica que no quedan duplicados

### Reto 31. Método .query() para filtrado
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Usa `.query()` para filtrar: total_bill > 20 and tip > 3
- Filtra comidas de cena con más de 4 personas usando `.query()`
- Filtra días de fin de semana con propina > 5
- Compara legibilidad con filtrado tradicional

### Reto 32. pd.eval() para operaciones eficientes
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula price_per_carat usando `.eval()`
- Calcula volumen aproximado usando `.eval()` (x * y * z)
- Crea flag de diamantes premium: price > 5000 y carat > 1
- Compara sintaxis con operaciones tradicionales de Pandas

### Reto 33. Agrupaciones con múltiples funciones
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Agrupa por día y calcula mean, median, std de total_bill
- Calcula mean, sum, count de tip
- Calcula mean de size
- Interpreta: ¿Qué día tiene mayor variabilidad en cuentas?
- ¿Qué día tiene más transacciones?

### Reto 34. Transformaciones con .transform()
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula propina promedio por día usando `.transform()`
- Crea columna con diferencia respecto al promedio del día
- Identifica transacciones con propina muy por encima del promedio (> 2 std)
- Visualiza distribución de diferencias con histograma

### Reto 35. Dataset Breast Cancer - análisis médico
- Carga Breast Cancer desde scikit-learn
- Explora dimensiones con `.shape` y balance de clases
- Calcula estadísticas descriptivas por diagnóstico (malignant/benign)
- Identifica las 5 características con mayor diferencia entre diagnósticos
- Crea boxplot de 'mean radius' por diagnóstico

### Reto 36. Correlaciones en datos médicos
- Carga Breast Cancer desde scikit-learn
- Selecciona las primeras 10 características
- Calcula matriz de correlación
- Identifica características altamente correlacionadas entre sí (|r| > 0.9)
- Visualiza con heatmap
- ¿Qué característica está más correlacionada con 'mean radius'?

### Reto 37. Dataset California Housing
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv')`
- Explora variables disponibles
- Calcula estadísticas descriptivas de median_house_value
- Identifica valores nulos y elimínalos
- Calcula precio promedio por categoría de ocean_proximity

### Reto 38. Análisis geográfico de viviendas
- Carga California Housing (usa código del Reto 37)
- Crea scatterplot de longitude × latitude coloreado por median_house_value
- Usa tamaño de punto proporcional a población
- Observa patrones geográficos: ¿dónde están las viviendas más caras?
- Calcula correlación entre median_income y median_house_value

### Reto 39. Binning de variables continuas
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea grupos de edad: Niño (0-12), Adolescente (12-18), Adulto Joven (18-35), Adulto (35-60), Senior (60+)
- Calcula tasa de supervivencia por grupo de edad
- Crea gráfico de barras de supervivencia por age_group
- ¿Qué grupo tuvo mayor tasa de supervivencia?

### Reto 40. Cuartiles y percentiles
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula cuartiles (Q1, Q2, Q3) de price
- Calcula percentil 90 y 95 de price
- Crea columna categórica según cuartil de precio (Q1, Q2, Q3, Q4)
- Cuenta diamantes en cada cuartil
- Calcula características promedio de diamantes en Q4 (más caros)

### Reto 41. Detección de outliers con IQR
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula Q1, Q3 e IQR de carat
- Define límites de outliers: lower = Q1 - 1.5×IQR, upper = Q3 + 1.5×IQR
- Identifica outliers fuera de estos límites
- Calcula porcentaje de outliers
- Visualiza con boxplot

### Reto 42. Detección de outliers con Z-score
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Calcula Z-score de body_mass_g
- Identifica outliers con |Z| > 3
- Compara cantidad de outliers con método IQR
- Visualiza outliers en scatterplot con color diferente
- ¿Qué método es más estricto?

### Reto 43. Imputación de valores nulos - comparación
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Crea 3 copias del dataset
- Versión 1: elimina nulos con `dropna()`
- Versión 2: imputa body_mass_g con media
- Versión 3: imputa body_mass_g con mediana
- Compara estadísticas descriptivas de body_mass_g en las 3 versiones
- ¿Qué método altera menos la distribución?

### Reto 44. Normalización Min-Max
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Normaliza sepal_length usando fórmula: (x - min) / (max - min)
- Verifica que valores están entre 0 y 1
- Normaliza también sepal_width, petal_length, petal_width
- Compara distribuciones originales vs normalizadas con histogramas

### Reto 45. Normalización Z-score (Estandarización)
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula Z-score de sepal_length: (x - media) / desviación estándar
- Verifica que media ≈ 0 y std ≈ 1
- Estandariza todas las columnas numéricas
- Compara distribución original vs estandarizada con histogramas
- ¿Cuándo usar Min-Max vs Z-score?

---

## **BLOQUE 4: SERIES TEMPORALES Y DATOS EXTERNOS (Retos 46-65)**

### Reto 46. Rick and Morty API - JSON anidado
- Carga personajes: `url = 'https://rickandmortyapi.com/api/character'` y extrae `data['results']`
- Explora estructura del DataFrame
- Usa `pd.json_normalize()` para aplanar campos anidados como 'origin' y 'location'
- Cuenta cuántos personajes hay por especie (species)
- Cuenta cuántos personajes hay por estado (status: alive/dead/unknown)
- Identifica el personaje con más episodios

### Reto 47. Análisis de personajes de Rick and Morty
- Carga personajes (usa código del Reto 46)
- Filtra solo personajes humanos
- Calcula proporción de personajes vivos, muertos y desconocidos
- Crea gráfico de barras de conteo por especie (top 10 especies)
- Identifica el origen (origin.name) más común de los personajes

### Reto 48. Dataset de Temperaturas Globales
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/datasets/global-temp/master/data/annual.csv')`
- Explora columnas: Year, Mean
- Convierte 'Year' a tipo datetime si es necesario
- Filtra datos desde 1900 en adelante
- Crea gráfico de líneas de temperatura media por año
- Identifica el año más caluroso registrado

### Reto 49. Análisis de cambio climático
- Carga temperaturas globales (usa código del Reto 48)
- Calcula temperatura media del período 1900-1950
- Calcula temperatura media del período 1970-2020
- Calcula diferencia entre ambos períodos (calentamiento)
- Calcula la tendencia: temperatura promedio por década desde 1900
- Visualiza tendencia con gráfico de líneas

### Reto 50. Media móvil en series temporales
- Carga temperaturas globales (usa código del Reto 48)
- Calcula media móvil de 10 años
- Calcula media móvil de 30 años
- Crea gráfico con temperatura original y ambas medias móviles superpuestas
- Observa cómo la media móvil suaviza fluctuaciones
- ¿Qué período de media móvil muestra mejor la tendencia a largo plazo?

### Reto 51. Dataset World Happiness Report
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/Opensourcefordatascience/Data-sets/master/world-happiness-report.csv')`
- Explora variables disponibles
- Filtra datos del año más reciente
- Agrupa por región y calcula promedios de Happiness Score y GDP per capita
- Identifica región con mayor felicidad promedio
- Calcula correlación entre GDP per capita y Happiness Score

### Reto 52. Análisis de factores de felicidad
- Carga World Happiness Report (usa código del Reto 51)
- Identifica las variables explicativas (social support, freedom, etc.)
- Calcula correlación de cada variable con Happiness Score
- Ordena variables por correlación absoluta
- Visualiza con gráfico de barras horizontal las correlaciones
- ¿Qué factor tiene mayor impacto en la felicidad?

### Reto 53. Dataset Gapminder - datos socioeconómicos
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Explora variables: country, continent, year, lifeExp, pop, gdpPercap
- Identifica años disponibles
- Calcula población mundial por año
- Identifica país con mayor esperanza de vida en 2007
- Identifica país con mayor GDP per capita en 2007

### Reto 54. Evolución temporal por continente
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Calcula esperanza de vida promedio por continente y año
- Crea gráfico de líneas múltiples (una línea por continente)
- Identifica qué continente tuvo mayor crecimiento en lifeExp entre 1952 y 2007
- Calcula GDP per capita promedio por continente en 2007
- ¿Qué continente tiene mayor desigualdad económica interna?

### Reto 55. Análisis de correlación temporal en Gapminder
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Filtra datos del año 2007
- Calcula correlación entre lifeExp y gdpPercap
- Crea scatterplot con línea de regresión
- Usa tamaño de punto proporcional a población
- Colorea por continente
- ¿Existe relación entre riqueza y esperanza de vida?

### Reto 56. Open-Meteo API - pronóstico meteorológico
- Carga: `url = 'https://api.open-meteo.com/v1/forecast?latitude=40.4168&longitude=-3.7038&daily=temperature_2m_max,temperature_2m_min,precipitation_sum&timezone=Europe/Madrid'` y extrae `data['daily']`
- Calcula temperatura promedio diaria: (max + min) / 2
- Identifica día más cálido de la semana
- Identifica día más frío de la semana
- Calcula precipitación total esperada en la semana
- Visualiza temperaturas máximas y mínimas con gráfico de líneas

### Reto 57. Comparación meteorológica entre ciudades
- Carga pronósticos para Madrid, Barcelona y Valencia desde Open-Meteo (cambia latitude/longitude)
- Combina datos de las 3 ciudades en un solo DataFrame
- Calcula temperatura promedio por ciudad
- Identifica ciudad con mayor rango térmico (diferencia max-min)
- Crea gráfico comparativo de temperaturas
- ¿Qué ciudad tendrá el clima más estable?

### Reto 58. Análisis de calidad de vida por ciudades
- Carga datos de ciudades desde una fuente pública de datos urbanos
- Crea clasificación por nivel de calidad de vida: Baja (<100), Media (100-150), Alta (>150)
- Usa `pd.cut()` para la clasificación
- Cuenta ciudades por nivel de calidad
- Identifica el país con más ciudades en nivel "Alta"

### Reto 59. CoinGecko API - criptomonedas en tiempo real
- Carga: `url = 'https://api.coingecko.com/api/v3/coins/markets?vs_currency=usd&order=market_cap_desc&per_page=100'` y convierte a DataFrame
- Explora variables: name, current_price, market_cap, price_change_percentage_24h
- Identifica las 10 criptomonedas con mayor capitalización
- Identifica las 10 con mayor variación positiva en 24h
- Identifica las 10 con mayor variación negativa en 24h
- Calcula capitalización total del mercado

### Reto 60. Análisis de volatilidad en criptomonedas
- Carga CoinGecko (usa código del Reto 59)
- Calcula estadísticas de price_change_percentage_24h: media, mediana, std
- Identifica criptomonedas extremadamente volátiles (|change| > 10%)
- Crea categorías de volatilidad: Baja (<2%), Media (2-5%), Alta (>5%)
- Visualiza distribución de variaciones con histograma
- Crea scatterplot de market_cap vs price_change_percentage_24h

### Reto 61. REST Countries API - datos de países
- Carga: `url = 'https://restcountries.com/v3.1/all?fields=name,population,area,capital,region,languages'` y usa `pd.json_normalize()`
- Explora estructura del DataFrame
- Identifica los 10 países más poblados
- Identifica los 10 países más grandes por área
- Calcula densidad poblacional: población / área
- Identifica país con mayor y menor densidad

### Reto 62. Análisis geográfico de países
- Carga REST Countries (usa código del Reto 61)
- Agrupa por región y calcula población total por región
- Calcula área total por región
- Calcula densidad promedio por región
- Cuenta número de países por región
- Crea gráfico de barras de población por región

### Reto 63. Análisis de idiomas en el mundo
- Carga REST Countries (usa código del Reto 61)
- Extrae idiomas de cada país (campo anidado 'languages')
- Cuenta países por número de idiomas oficiales
- Identifica idiomas más hablados (presentes en más países)
- Filtra países de habla hispana
- Calcula población total de países hispanohablantes

### Reto 64. Análisis de música en Spotify
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-01-21/spotify_songs.csv')`
- Explora variables: danceability, energy, tempo, track_popularity, playlist_genre
- Calcula popularidad promedio por género musical
- Identifica correlación entre danceability y energy
- Crea boxplot de tempo por género
- ¿Qué género tiene mayor energy promedio?

### Reto 65. Análisis temporal de características musicales
- Carga Spotify (usa código del Reto 64)
- Extrae año del álbum desde track_album_release_date
- Cuenta canciones por género musical
- Identifica géneros minoritarios (< 50 canciones)
- Calcula danceability promedio por década
- Visualiza top 10 géneros más populares con gráfico de barras

---

## **BLOQUE 5: INGENIERÍA DE DATOS Y SQL SIMULADO (Retos 66-85)**

### Reto 66. SQL: SELECT y WHERE simulado
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Simula SELECT: selecciona columnas total_bill, tip, day, time
- Simula WHERE: filtra comidas de cena
- Combina: selecciona columnas específicas de comidas de cena
- Filtra cuentas mayores a $20
- Muestra primeras 10 filas (equivalente a LIMIT 10)

### Reto 67. SQL: ORDER BY simulado
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Ordena por total_bill descendente
- Ordena por múltiples columnas: day (ascendente) y total_bill (descendente)
- Muestra top 10 propinas más altas
- Muestra bottom 10 propinas más bajas

### Reto 68. SQL: GROUP BY y agregaciones
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Agrupa por día y calcula COUNT, AVG(total_bill), SUM(tip)
- Equivale a: SELECT day, COUNT(*), AVG(total_bill), SUM(tip) FROM tips GROUP BY day
- Identifica día con más transacciones
- Identifica día con mayor ingreso total

### Reto 69. SQL: GROUP BY múltiple
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Agrupa por day Y time simultáneamente
- Calcula COUNT, AVG(total_bill), AVG(tip)
- Equivale a: SELECT day, time, COUNT(*), AVG(total_bill), AVG(tip) FROM tips GROUP BY day, time
- Identifica combinación día-momento con más ventas
- Identifica combinación con mayor ticket promedio

### Reto 70. SQL: HAVING simulado
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Agrupa por smoker y day
- Calcula total_bill promedio por grupo
- Filtra solo grupos con promedio > 20
- Equivale a: SELECT smoker, day, AVG(total_bill) FROM tips GROUP BY smoker, day HAVING AVG(total_bill) > 20
- Interpreta resultados

### Reto 71. SQL: DISTINCT y COUNT DISTINCT
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Cuenta valores únicos de embark_town
- Lista valores únicos
- Cuenta combinaciones únicas de class y sex
- Usa `.drop_duplicates()` para obtener filas únicas
- Equivale a: SELECT DISTINCT embark_town FROM titanic

### Reto 72. SQL: INNER JOIN simulado
- Crea DataFrame customers con columnas: customer_id, name
- Crea DataFrame orders con columnas: order_id, customer_id, amount
- Realiza INNER JOIN usando merge
- Verifica que solo aparecen customers con orders
- Cuenta cuántos clientes tienen órdenes

### Reto 73. SQL: LEFT JOIN simulado
- Usa DataFrames del Reto 72
- Realiza LEFT JOIN
- Identifica clientes sin órdenes (valores nulos en order_id)
- Cuenta clientes sin órdenes
- Equivale a: SELECT * FROM customers LEFT JOIN orders ON customers.customer_id = orders.customer_id

### Reto 74. SQL: Subconsultas simuladas
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula total_bill promedio global
- Filtra transacciones con total_bill mayor al promedio
- Equivale a: SELECT * FROM tips WHERE total_bill > (SELECT AVG(total_bill) FROM tips)
- Cuenta cuántas transacciones están sobre el promedio
- Calcula porcentaje de transacciones sobre el promedio

### Reto 75. SQL: UNION simulado
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Filtra transacciones de Sábado (columnas: total_bill, tip, day)
- Filtra transacciones de Domingo (mismas columnas)
- Une con UNION usando concat y eliminando duplicados
- Verifica que solo hay registros de fin de semana
- Equivale a: SELECT * FROM tips WHERE day='Sat' UNION SELECT * FROM tips WHERE day='Sun'

### Reto 76. SQL: Window Functions - RANK
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Ordena por price descendente
- Crea ranking de precios usando `.rank()`
- Identifica los 10 diamantes más caros (rank <= 10)
- Equivale a: SELECT *, RANK() OVER (ORDER BY price DESC) as price_rank FROM diamonds
- Calcula también el percentil de cada diamante

### Reto 77. SQL: Window Functions - ROW_NUMBER por grupo
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Crea row_number dentro de cada grupo de cut usando `.rank()` por grupo
- Filtra el diamante más caro de cada cut (row_num == 1)
- Equivale a: SELECT * FROM (SELECT *, ROW_NUMBER() OVER (PARTITION BY cut ORDER BY price DESC) FROM diamonds) WHERE rn = 1
- ¿Cuál es el precio del diamante más caro de cada categoría de corte?

### Reto 78. SQL: CTE (Common Table Expression) simulado
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Simula CTE: crea variable con sobrevivientes de primera clase
- Desde ese CTE, calcula edad promedio
- Crea otro CTE con mujeres sobrevivientes
- Calcula estadísticas de este grupo
- Compara con población general

### Reto 79. Pipeline ETL - Extract y Transform
- Crea 3 DataFrames sintéticos de ventas (Q1, Q2, Q3) con columnas: date, sales, quarter
- Estandariza nombres de columnas a minúsculas en los 3 DataFrames
- Verifica que fechas son tipo datetime
- Crea columnas 'month' y 'year' en cada DataFrame
- Elimina duplicados si los hay en cada uno

### Reto 80. Pipeline ETL - Load
- Concatena los 3 DataFrames de ventas del Reto 79 verticalmente
- Ordena por fecha
- Valida que no hay nulos en columnas críticas (date, sales)
- Calcula ventas totales por quarter
- Exporta resultado consolidado a CSV
- Crea log simple mostrando filas procesadas y timestamp

### Reto 81. Validación de calidad de datos
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea validaciones usando assert: no nulos en total_bill, valores positivos, tip <= bill
- Añade validación: size debe estar entre 1 y 10
- Verifica que day tiene solo valores válidos (Thur, Fri, Sat, Sun)
- Crea función de validación reutilizable que reciba un DataFrame
- Ejecuta todas las validaciones y reporta éxito

### Reto 82. Data Profiling automatizado
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea función que calcule: n_rows, n_cols, memory_usage (MB), duplicados, missing_values por columna, tipos de datos
- Aplica función a Titanic y muestra resultados
- Identifica columnas con más del 50% de nulos
- Genera reporte de calidad del dataset

### Reto 83. Detección de anomalías en datos temporales
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Calcula media y desviación estándar de passengers por mes
- Identifica valores anómalos: |valor - media| > 2 × std
- Marca anomalías en una nueva columna booleana
- Visualiza serie temporal marcando anomalías con color diferente
- Cuenta cuántas anomalías hay

### Reto 84. Feature Engineering - variables derivadas
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea features: bill_per_person, tip_per_person, tip_rate (porcentaje)
- Crea flag binario: is_generous (tip_rate > 20%)
- Crea flag binario: is_weekend (Sat o Sun)
- Calcula correlación de nuevas features con tip
- Identifica qué feature nueva es más predictiva

### Reto 85. Análisis de correlación logarítmica
- Carga: `url = 'https://restcountries.com/v3.1/all?fields=name,population,area'` y usa `pd.json_normalize()`
- Filtra países con población > 0 y área > 0
- Calcula correlación lineal entre población y área
- Observa en scatterplot la relación no lineal
- Aplica transformación logarítmica a ambas variables
- Calcula correlación entre variables transformadas
- Compara ambos coeficientes: ¿qué método captura mejor la relación?

---

## **BLOQUE 6: ANÁLISIS AVANZADO Y MACHINE LEARNING PREP (Retos 86-105)**

### Reto 86. Encoding: Label Encoding
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Convierte species a números usando LabelEncoder de sklearn
- Verifica mapeo: imprime diccionario de equivalencias
- Guarda mapeo para referencia futura
- ¿Cuándo es apropiado usar Label Encoding?

### Reto 87. Encoding: One-Hot Encoding
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Aplica one-hot encoding a island usando `pd.get_dummies()`
- Verifica que se crearon 3 columnas binarias
- Compara número de columnas antes y después
- ¿Cuándo usar One-Hot vs Label Encoding?
- ¿Qué es el problema de multicolinealidad?

### Reto 88. Encoding: Target Encoding
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Calcula propina promedio por día (esto es target encoding)
- Mapea estos promedios a una nueva columna day_encoded
- Compara con label encoding simple
- Ventaja: captura relación con variable objetivo
- Visualiza relación entre day_encoded y tip

### Reto 89. Transformación logarítmica para normalizar
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Observa que price está muy sesgado (crea histograma)
- Aplica transformación logarítmica a price
- Compara histogramas de price vs log_price
- Calcula sesgo antes y después usando scipy.stats.skew
- ¿La transformación normalizó la distribución?

### Reto 90. Transformación Box-Cox
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Aplica transformación Box-Cox a price usando scipy.stats.boxcox
- Imprime lambda óptimo encontrado
- Compara distribución original vs transformada con histogramas
- Box-Cox encuentra automáticamente mejor transformación
- Interpreta: si lambda ≈ 0 es similar a log, si lambda ≈ 1 no necesita transformación

### Reto 91. Manejo de desbalanceo de clases
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Verifica balance de survived con `.value_counts()`
- Calcula ratio de clases
- Simula undersampling de clase mayoritaria (igualar al tamaño de minoritaria)
- Verifica nuevo balance
- Compara tamaño de datasets original vs balanceado

### Reto 92. Feature Selection: correlación con target
- Carga Breast Cancer desde scikit-learn
- Calcula correlación de cada feature con target (diagnóstico)
- Ordena features por correlación absoluta de mayor a menor
- Selecciona top 10 features más correlacionadas
- Crea subset del DataFrame con solo estas features
- ¿Esto es reducción de dimensionalidad?

### Reto 93. Feature Selection: varianza
- Carga Breast Cancer desde scikit-learn
- Calcula varianza de cada feature
- Identifica features con varianza muy baja (< 0.1)
- Interpreta: features con baja varianza aportan poca información
- Elimina features de baja varianza
- Compara número de features antes y después

### Reto 94. Análisis de Componentes Principales (PCA) - Preparación
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona solo columnas numéricas
- Estandariza datos usando StandardScaler de sklearn
- Verifica que media ≈ 0 usando `.mean()`
- Verifica que std ≈ 1 usando `.std()`
- Los datos están listos para PCA

### Reto 95. Análisis de Componentes Principales (PCA) - Aplicación
- Usa datos estandarizados del Reto 94
- Aplica PCA con 2 componentes usando sklearn
- Transforma los datos
- Crea DataFrame con las componentes PC1 y PC2
- Añade columna de especies del dataset original
- Visualiza en 2D coloreado por especie
- Imprime varianza explicada por cada componente

### Reto 96. Interpretación de componentes principales
- Continúa con PCA del Reto 95
- Examina loadings (contribución de cada variable original)
- Identifica qué variables contribuyen más a PC1
- Identifica qué variables contribuyen más a PC2
- Interpreta: ¿qué representa cada componente?
- ¿Cuánta información total se conserva con 2 componentes?

### Reto 97. Análisis de sesgo (skewness) y curtosis
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Calcula sesgo de price usando scipy.stats.skew
- Calcula curtosis de price usando scipy.stats.kurtosis
- Interpreta sesgo: > 0 (asimetría derecha), < 0 (asimetría izquierda)
- Interpreta curtosis: > 0 (leptocúrtica, colas pesadas), < 0 (platicúrtica)
- Compara con distribución normal en histograma
- Calcula también para carat

### Reto 98. Detección de outliers multivariante - Distancia de Mahalanobis
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula distancia de Mahalanobis para cada observación
- Usa matriz de covarianza inversa y media del dataset
- Identifica outliers: distancia > percentil 97.5
- Compara con outliers univariados detectados con Z-score
- Visualiza outliers en scatterplot con color diferente

### Reto 99. Análisis de correlación con variables lag
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Ordena por año y mes
- Crea variable lag-1: valor de passengers del mes anterior
- Crea variable lag-12: valor de passengers del mismo mes año anterior
- Calcula correlación entre passengers y lag-1
- Calcula correlación entre passengers y lag-12
- Interpreta: ¿hay autocorrelación? ¿hay estacionalidad?

### Reto 100. Análisis de estacionalidad
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Calcula pasajeros promedio por mes (entre todos los años)
- Calcula promedio global de pasajeros
- Calcula índice de estacionalidad: (promedio_mes / promedio_global) × 100
- Identifica meses con estacionalidad positiva (índice > 110)
- Identifica meses con estacionalidad negativa (índice < 90)
- Visualiza índice estacional con gráfico de barras
- Interpreta patrones turísticos

### Reto 101. Binning avanzado con qcut
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Crea bins de igual frecuencia (cuartiles) usando `pd.qcut()`
- Compara con bins de igual amplitud usando `pd.cut()`
- Cuenta diamantes en cada cuartil (deben ser aproximadamente iguales con qcut)
- Calcula características promedio de diamantes en cada cuartil
- Visualiza distribución de carat por price_quartile con boxplot
- ¿Cuándo usar qcut vs cut?

### Reto 102. Imputación avanzada - KNN Imputer
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Identifica valores nulos en variables numéricas
- Aplica imputación por KNN usando sklearn (5 vecinos)
- Compara estadísticas con imputación por media y mediana
- Ventaja de KNN: usa información de observaciones similares
- Verifica que no quedan nulos

### Reto 103. Imputación con forward fill y backward fill
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Introduce nulos artificiales en passengers en posiciones específicas
- Aplica forward fill
- Aplica backward fill
- Aplica combinación: primero ffill, luego bfill para nulos restantes
- Compara métodos visualmente con gráfico de líneas
- ¿Cuándo es apropiado cada método?

### Reto 104. Análisis de multicolinealidad - VIF
- Carga: `df = pd.read_csv('https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv')`
- Selecciona variables numéricas sin nulos
- Calcula VIF (Variance Inflation Factor) para cada variable usando statsmodels
- Identifica variables con VIF > 10 (alta multicolinealidad)
- Interpreta: variables redundantes que miden lo mismo
- Considera eliminar variables con VIF alto

### Reto 105. Análisis de interacciones entre variables
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea variables de interacción: total_bill × size
- Crea interacción booleana: is_weekend × is_dinner
- Calcula correlación de interacciones con tip
- Visualiza interacción con scatterplot categorizando por grupos
- ¿Las interacciones capturan patrones no lineales?
- Compara poder predictivo de variables originales vs interacciones

---

## **BLOQUE 7: VISUALIZACIÓN AVANZADA (Retos 106-120)**

### Reto 106. Subplots múltiples organizados
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea figura con 4 subplots (2×2) usando matplotlib
- Subplot 1: Histograma de sepal_length
- Subplot 2: Scatterplot de sepal_length vs petal_length
- Subplot 3: Boxplot de petal_width por especie
- Subplot 4: Heatmap de correlaciones
- Añade título general a la figura

### Reto 107. Distribuciones comparativas - KDE
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Crea figura con 3 subplots mostrando body_mass_g
- Plot 1: Histograma simple
- Plot 2: KDE (Kernel Density Estimate)
- Plot 3: Histograma + KDE superpuestos
- Compara métodos
- ¿Qué método muestra mejor la distribución?

### Reto 108. FacetGrid para análisis multivariado
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea FacetGrid con columnas por 'time' y filas por 'smoker'
- Mapea histograma de total_bill en cada faceta
- Añade títulos descriptivos
- Analiza diferencias entre grupos
- ¿Qué combinación tiene distribución más sesgada?

### Reto 109. Pairplot personalizado avanzado
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina nulos
- Crea pairplot con hue='species', diag_kind='kde'
- Personaliza markers (diferentes símbolos por especie)
- Personaliza paleta de colores
- Añade título general
- Identifica visualmente qué pares de variables separan mejor las especies

### Reto 110. Gráfico de barras apiladas
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea tabla cruzada de class vs survived
- Normaliza por filas para obtener porcentajes
- Visualiza con barras apiladas al 100%
- Añade leyenda, título y etiquetas apropiadas
- Analiza composición de supervivencia por clase
- ¿Qué clase tuvo peor supervivencia?

### Reto 111. Gráfico de áreas apiladas (serie temporal)
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea pivot table de pasajeros por año y meses seleccionados
- Selecciona 4 meses representativos (ej: Enero, Abril, Julio, Octubre)
- Visualiza con gráfico de áreas apiladas
- Útil para mostrar composición temporal y tendencia global
- ¿Qué mes contribuye más al total de pasajeros?

### Reto 112. Heatmap con anotaciones personalizadas
- Carga Flights desde Seaborn: `sns.load_dataset('flights')`
- Crea pivot table de mes × año con valores de passengers
- Crea heatmap con anotaciones de valores
- Personaliza: colormap, bordes entre celdas, colorbar
- Añade título descriptivo y etiquetas de ejes
- Identifica visualmente patrones estacionales

### Reto 113. Gráfico de regresión con intervalo de confianza
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea regplot de total_bill vs tip
- Personaliza puntos (transparencia, tamaño, borde)
- Personaliza línea de regresión (color, grosor)
- Calcula y muestra R² en el gráfico usando texto
- Interpreta: la banda de confianza muestra incertidumbre de la predicción

### Reto 114. Jointplot para análisis bivariado
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina nulos
- Crea jointplot de flipper_length_mm vs body_mass_g
- Colorea por especie (hue='species')
- Prueba diferentes kinds: 'scatter', 'hex', 'kde', 'reg'
- Las distribuciones marginales muestran distribuciones univariadas
- El gráfico central muestra relación bivariada

### Reto 115. Violinplot para distribuciones complejas
- Carga Tips desde Seaborn: `sns.load_dataset('tips')`
- Crea figura con 2 subplots lado a lado
- Subplot 1: Boxplot de total_bill por día
- Subplot 2: Violinplot de total_bill por día
- Compara ambas visualizaciones
- Violinplot muestra forma completa de la distribución
- Mejor para detectar multimodalidad

### Reto 116. Swarmplot para visualizar puntos individuales
- Carga Penguins desde Seaborn: `sns.load_dataset('penguins')`
- Elimina nulos
- Crea figura con 3 subplots comparando: boxplot, violinplot y swarmplot
- Todos muestran body_mass_g por especie
- Swarmplot muestra cada observación individual
- Útil para datasets pequeños-medianos
- Identifica outliers fácilmente

### Reto 117. Gráfico de coordenadas paralelas
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea parallel coordinates plot usando pandas.plotting
- Colorea por especie
- Personaliza colormap y transparencia
- Útil para visualizar patrones multivariados
- Cada línea representa una observación
- Identifica visualmente separación entre especies

### Reto 118. Clustermap de correlaciones
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona columnas numéricas y calcula correlación
- Crea clustermap usando seaborn
- El clustermap agrupa variables con correlación similar
- Personaliza: anotaciones, colormap centrado en 0, bordes
- Útil para identificar bloques de variables relacionadas

### Reto 119. Layout complejo con GridSpec
- Carga Diamonds desde Seaborn: `sns.load_dataset('diamonds')`
- Toma muestra de 5000 filas para eficiencia
- Crea layout complejo: gráfico principal (2×2), histogramas marginales, panel de estadísticas
- Gráfico principal: scatter de carat vs price coloreado por depth
- Histogramas: distribuciones marginales de price y carat
- Panel de estadísticas: texto con métricas clave
- Añade título general

### Reto 120. Dashboard de análisis global
- Carga Gapminder desde Seaborn: `sns.load_dataset('gapminder')`
- Filtra datos del año 2007
- Crea figura con 6 subplots (2×3):
  1. Scatterplot: gdpPercap vs lifeExp (tamaño=población, color=continente)
  2. Barras horizontales: lifeExp promedio por continente (ordenado)
  3. Boxplot: gdpPercap por continente (escala log)
  4. Histograma+KDE: distribución de lifeExp global
  5. Heatmap: correlaciones entre variables numéricas
  6. Barras horizontales: Top 10 países por gdpPercap
- Añade título general: "Análisis Global de Desarrollo 2007"
- Personaliza colores, etiquetas y leyendas para presentación profesional
- Guarda como PNG de alta calidad (300 dpi)
- Escribe en comentarios 3 insights principales que descubriste del análisis

---

## **RESUMEN FINAL - 120 RETOS**

### 📊 **Distribución por Bloques**

| Bloque | Retos | Contenido Principal |
|--------|-------|---------------------|
| **1. Fundamentos** | 1-10 | Carga de datos, exploración básica, Drive |
| **2. EDA y Agregaciones** | 11-25 | Análisis exploratorio, groupby, APIs simples, regex |
| **3. Operaciones Complejas** | 26-45 | Merge, pivot, melt, encoding, normalización |
| **4. Series Temporales** | 46-65 | Datos temporales, APIs externas, análisis global |
| **5. SQL e Ingeniería** | 66-85 | SQL simulado, ETL, validación, feature engineering |
| **6. ML Preprocessing** | 86-105 | Encoding, PCA, outliers, transformaciones, VIF |
| **7. Visualización Avanzada** | 106-120 | Subplots, FacetGrid, clustermap, dashboard final |

### 🌐 **Fuentes de Datos Utilizadas**

**Datasets Embebidos (Seaborn):**
- titanic, iris, tips, penguins, flights, diamonds, gapminder

**APIs Públicas:**
- JSONPlaceholder, Quotable, Rick and Morty, Open-Meteo, CoinGecko, REST Countries

**Datasets Externos (CSV):**
- California Housing, Breast Cancer, Temperaturas Globales, World Happiness, Spotify, Programming Languages

**Total: 120 retos | 25+ fuentes únicas | 6 APIs estables | 7 bloques temáticos**

---