<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/retos_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 120 RETOS DE DATA

---

## **BLOQUE 1: FUNDAMENTOS Y CARGA DE DATOS (Retos 1-10)**

### Reto 1. Gestión de archivos en Google Colab
- Objetivo: Familiarizarse con la interfaz de Colab y la gestión básica de archivos
- Descarga manualmente el dataset `Titanic` desde Kaggle
- Sube el archivo manualmente a Google Colab
- Carga el dataset usando Pandas
- Visualiza las primeras 5 filas con `.head()`
- Monta Google Drive y verifica persistencia

### Reto 2. Carga directa desde URL y análisis exploratorio
- Carga Titanic desde URL con Pandas
- Verifica con `.shape` y `.head()`
- Explora tipos de datos con `.dtypes`, valores nulos con `.isnull().sum()` y estadísticas descriptivas con `.describe()`

### Reto 3. Datasets embebidos y análisis de supervivencia
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Calcula proporción de supervivientes por sexo usando `.groupby(['sex'])['survived'].mean()`
- Calcula proporción de supervivientes por clase
- Crea gráfico de barras con estas proporciones

### Reto 4. Limpieza básica de datos
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Identifica valores nulos en Titanic con `.isnull().sum()`
- Rellena "age" con mediana: `df['age'].fillna(df['age'].median(), inplace=True)`
- Elimina columna "deck": `df.drop('deck', axis=1, inplace=True)`
- Crea columna "family_size" = sibsp + parch + 1

### Reto 5. Filtros y consultas básicas
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Filtra pasajeros de primera clase que sobrevivieron: `df[(df['class']=='First') & (df['survived']==1)]`
- Encuentra pasajero más joven con `df.loc[df['age'].idxmin()]`
- Encuentra pasajero más viejo
- Calcula tarifa promedio por clase con `.groupby('class')['fare'].mean()`

### Reto 6. Dataset "Iris" desde Seaborn
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Explora estructura con `.shape`, `.info()`, `.columns`
- Verifica valores nulos
- Calcula número de observaciones por especie con `.value_counts()`

### Reto 7. Estadísticas descriptivas y pairplot
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Calcula media de todas las columnas numéricas con `.mean()`
- Calcula desviación estándar con `.std()`
- Calcula estadísticas por especie: `df.groupby('species').mean()`
- Crea pairplot coloreado por especie: `sns.pairplot(df, hue='species')`

### Reto 8. Correlaciones y mapa de calor
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona solo columnas numéricas de Iris
- Calcula matriz de correlación con `.corr()`
- Visualiza con heatmap: `sns.heatmap(corr, annot=True, cmap='coolwarm')`
- Identifica las dos variables más correlacionadas

### Reto 9. Clasificación con regla simple
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea regla: si petal_length < 2.5 → setosa, si < 5.0 → versicolor, sino → virginica
- Crea nueva columna 'prediccion' con esta regla
- Compara con columna 'species' real
- Calcula precisión: `(df['prediccion'] == df['species']).mean()`

### Reto 10. Visualización avanzada con boxplot y violinplot
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea boxplot de sepal_width por especie
- Crea violinplot de la misma variable
- Identifica especie con mayor mediana de sepal_width
- Identifica especie con mayor variabilidad

---

## **BLOQUE 2: ANÁLISIS EXPLORATORIO Y VISUALIZACIÓN (Retos 11-25)**

### Reto 11. Dataset "Breast Cancer" desde scikit-learn
```python
from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df['diagnosis'] = df['target'].map({0: 'malignant', 1: 'benign'})
```
- Explora dimensiones con `.shape`
- Verifica balance entre clases con `.value_counts()`
- Calcula porcentaje de cada diagnóstico

### Reto 12. Análisis de características médicas
- Carga el dataset "Breast Cancer" desde scikit-learn
- Calcula estadísticas descriptivas por diagnóstico: `df.groupby('diagnosis').mean()`
- Identifica las 5 características con mayor diferencia entre malignos y benignos
- Crea histograma de 'mean radius' separado por diagnóstico usando `hue='diagnosis'`

### Reto 13. Correlaciones en datos médicos
- Carga el dataset "Breast Cancer" desde scikit-learn
- Calcula matriz de correlación de las primeras 10 características
- Encuentra qué características están más correlacionadas con 'worst radius'
- Visualiza con heatmap las primeras 10 características

### Reto 14. Dataset Tips desde Seaborn
- Carga dataset: `sns.load_dataset('tips')`
- Explora estructura y variables con `.info()`
- Crea columna 'tip_pct' = (tip / total_bill) * 100
- Calcula tip_pct promedio del dataset

### Reto 15. Análisis de patrones de propinas
- Carga el dataset: `sns.load_dataset('tips')`
- Calcula propina promedio por día: `df.groupby('day')['tip'].mean()`
- Calcula propina promedio por día y sexo
- Identifica qué combinación día-sexo deja más propina
- Crea boxplot de tip_pct por día

### Reto 16. Relación cuenta-propina
- Carga el dataset: `sns.load_dataset('tips')`
- Crea scatterplot de total_bill vs tip
- Calcula correlación entre ambas variables con `.corr()`
- Crea scatterplot separado por sexo usando `hue='sex'`
- ¿Qué sexo muestra mayor correlación?

### Reto 17. Creación de nuevas columnas en Iris
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea 'sepal_area' = sepal_length * sepal_width
- Crea 'petal_area' = petal_length * petal_width
- Calcula área promedio de pétalos por especie
- Identifica especie con pétalos más grandes en promedio

### Reto 18. Ordenación y selección
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Ordena Iris por petal_length de menor a mayor con `.sort_values()`
- Muestra las primeras 10 filas con `.head(10)`
- Muestra las últimas 10 filas con `.tail(10)`
- Extrae solo columnas de pétalos: `df[['petal_length', 'petal_width']]`

### Reto 19. Agrupaciones y agregaciones
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Usa groupby en Iris para calcular media, máximo y mínimo de sepal_length por especie
- Cuenta número de observaciones por especie
- Crea gráfico de barras con media de sepal_length por especie
- Añade título y etiquetas al gráfico

### Reto 20. Filtrado combinado
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Filtra flores con sepal_length > 6 AND petal_width < 1.5
- Cuenta cuántas flores cumplen la condición
- Identifica qué especies están en este subconjunto
- Crea scatterplot de sepal_length vs petal_width de estas flores

### Reto 21. Normalización min-max
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Normaliza sepal_length usando fórmula: (x - min) / (max - min)
- Verifica que los valores estén entre 0 y 1 con `.min()` y `.max()`
- Normaliza también petal_length
- Crea scatterplot de versiones normalizadas

### Reto 22. Dataset Penguins desde Seaborn
- Carga: `sns.load_dataset('penguins')`
- Explora valores nulos por columna
- Elimina filas con valores nulos: `df.dropna()`
- Identifica las 3 especies diferentes

### Reto 23. Análisis morfológico de pingüinos
- Carga: `sns.load_dataset('penguins')`
- Calcula peso promedio (body_mass_g) por especie
- Calcula peso promedio por especie y sexo
- Identifica especie con mayor peso promedio
- Crea scatterplot de flipper_length_mm vs body_mass_g coloreado por especie

### Reto 24. Distribución geográfica de pingüinos
- Carga: `sns.load_dataset('penguins')`
- Crea boxplot de body_mass_g por island
- Identifica isla con pingüinos más pesados en promedio
- Crea tabla cruzada de especies por isla: `pd.crosstab(df['species'], df['island'])`
- ¿Qué especie está en las tres islas?

### Reto 25. Exportación a múltiples formatos
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Guarda Iris (con columnas calculadas) en CSV: `df.to_csv('iris_modified.csv', index=False)`
- Guarda en Excel: `df.to_excel('iris_modified.xlsx', index=False)`
- Guarda en JSON: `df.to_json('iris_modified.json', orient='records')`
- Verifica carga correcta de cada formato

---

## **BLOQUE 3: OPERACIONES CON DATOS Y TRANSFORMACIONES (Retos 26-45)**

### Reto 26. Tablas cruzadas en Titanic
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Crea tabla cruzada entre sex y class: `pd.crosstab(df['sex'], df['class'])`
- Crea tabla cruzada con survived como valores y aggfunc='mean'
- Interpreta: ¿qué combinación sexo-clase tiene mayor tasa de supervivencia?
- Visualiza con heatmap

### Reto 27. Dataset Diamonds desde Seaborn
- Carga: `sns.load_dataset('diamonds')`
- Explora dimensiones y primeras filas
- Identifica variables categóricas: cut, color, clarity
- Calcula estadísticas descriptivas de price

### Reto 28. Análisis de precios por calidad
- Carga: `sns.load_dataset('diamonds')`
- Calcula precio promedio por cut
- Calcula precio promedio por color
- Identifica combinación cut-color más costosa con `.groupby(['cut','color'])['price'].mean()`
- Crea scatterplot de carat vs price coloreado por cut

### Reto 29. Detección y eliminación de duplicados
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Duplica artificialmente primeras 10 filas: `df = pd.concat([df, df.head(10)])`
- Cuenta duplicados con `.duplicated().sum()`
- Elimina duplicados: `df.drop_duplicates()`
- Verifica nuevo tamaño del dataset

### Reto 30. Dataset Flights desde Seaborn
- Carga: `sns.load_dataset('flights')`
- Explora estructura temporal (year, month, passengers)
- Identifica rango de años incluido
- Identifica todos los meses únicos

### Reto 31. Análisis de tráfico aéreo
- Carga: `sns.load_dataset('flights')`
- Agrupa por año y calcula total de pasajeros: `df.groupby('year')['passengers'].sum()`
- Crea gráfico de líneas de evolución temporal
- Calcula tasa de crecimiento entre primer y último año
- ¿En qué año se superaron los 400 pasajeros totales?

### Reto 32. Mapa de calor mensual
- Carga: `sns.load_dataset('flights')`
- Crea tabla pivote: `df.pivot(index='month', columns='year', values='passengers')`
- Crea heatmap con anotaciones: `sns.heatmap(pivot, annot=True, fmt='d', cmap='YlOrRd')`
- Identifica mes con más tráfico consistente a lo largo de los años
- ¿Qué mes tiene menos tráfico?

### Reto 33. Dataset MPG desde Seaborn
- Carga: `sns.load_dataset('mpg')`
- Explora variables (mpg, cylinders, horsepower, weight, etc.)
- Calcula consumo promedio (mpg) por número de cylinders
- Identifica origen de los coches (origin)

### Reto 34. Análisis de eficiencia vehicular
- Carga: `sns.load_dataset('mpg')`
- Filtra solo coches de 4 cilindros
- Calcula mpg promedio por origin en estos coches
- Crea scatterplot de weight vs mpg
- Calcula correlación entre weight y mpg

### Reto 35. Manipulación de texto en MPG
- Carga: `sns.load_dataset('mpg')`
- Extrae marca del coche (primera palabra de 'name'): `df['brand'] = df['name'].str.split().str[0]`
- Cuenta coches por marca con `.value_counts()`
- Identifica las 5 marcas con más modelos
- Calcula mpg promedio por marca (top 5)

### Reto 36. Tablas pivot avanzadas
- Carga: `sns.load_dataset('flights')`
- Con flights, crea tabla pivot año-mes como en Reto 32
- Calcula pasajeros promedio por mes (promedio entre todos los años)
- Identifica julio de 1955: ¿cuántos pasajeros hubo?
- Calcula crecimiento de pasajeros entre enero y diciembre de cada año

### Reto 37. Operación melt (formato ancho a largo)
- Toma la tabla pivot del Reto 36
- Aplica melt para volver a formato largo: `pd.melt(pivot.reset_index(), id_vars=['month'])`
- Verifica que coincide con estructura original
- Cuenta cuántas filas tiene cada formato

### Reto 38. Dataset Planets desde Seaborn
- Carga: `sns.load_dataset('planets')`
- Explora métodos de descubrimiento (method)
- Cuenta exoplanetas descubiertos por cada método
- Identifica los 5 métodos más comunes

### Reto 39. Análisis de exoplanetas
- Carga: `sns.load_dataset('planets')`
- Calcula masa promedio por método (ignora nulos)
- Calcula año promedio de descubrimiento por método
- Usa `.agg()` para calcular múltiples funciones: `df.groupby('method').agg({'mass': 'mean', 'year': 'mean', 'number': 'count'})`
- ¿Qué método tiene exoplanetas más masivos en promedio?

### Reto 40. Combinación con merge
- Crea DataFrame auxiliar con información ficticia de islas:
```python
island_info = pd.DataFrame({
    'island': ['Torgersen', 'Biscoe', 'Dream'],
    'country': ['Antarctica', 'Antarctica', 'Antarctica'],
    'area_km2': [15, 40, 25]
})
```
- Carga: `sns.load_dataset('penguins')`
- Combina con merge: `pd.merge(penguins, island_info, on='island')`
- Verifica número de filas resultante
- Calcula densidad de pingüinos por km2 por isla

### Reto 41. Concatenación vertical
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, filtra solo filas de Saturday: `sat = df[df['day']=='Sat']`
- Filtra solo filas de Sunday: `sun = df[df['day']=='Sun']`
- Concatena verticalmente: `pd.concat([sat, sun])`
- Verifica que total de filas = suma de ambos

### Reto 42. Análisis de cuartiles e IQR
- Carga: `sns.load_dataset('diamonds')`
- En diamonds, calcula Q1, Q2 (mediana), Q3 de price con `.quantile([0.25, 0.5, 0.75])`
- Calcula IQR = Q3 - Q1
- Define límites outliers: inferior = Q1 - 1.5*IQR, superior = Q3 + 1.5*IQR
- Cuenta cuántos diamantes son outliers de precio

### Reto 43. Cálculo de sesgo (skewness)
- Carga: `sns.load_dataset('diamonds')`
- Usa `from scipy.stats import skew`
- Calcula sesgo de price en diamonds: `skew(df['price'])`
- Interpreta: valor positivo indica asimetría hacia derecha
- Crea histograma de price para visualizar el sesgo

### Reto 44. Visualización: swarmplot
- Carga: `sns.load_dataset('penguins')`
- En penguins (sin nulos), crea swarmplot de body_mass_g por species
- Compara visualmente con boxplot de la misma variable
- Identifica outliers individuales fácilmente
- ¿Qué especie tiene mayor dispersión de pesos?

### Reto 45. Visualización: violinplot
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, crea violinplot de tip_pct por day
- Identifica día con distribución más ancha (mayor dispersión)
- Identifica día con distribución bimodal (dos picos) si existe
- Compara con boxplot de la misma variable

---

## **BLOQUE 4: SERIES TEMPORALES Y DATASETS COMPLEJOS (Retos 46-60)**

### Reto 46. Dataset de Temperaturas Globales (Berkeley Earth)
- Carga desde URL: `https://raw.githubusercontent.com/datasets/global-temp/master/data/annual.csv`
- Explora columnas: Year, Mean
- Filtra datos desde 1900 en adelante
- Crea gráfico de líneas de temperatura media por año

### Reto 47. Análisis de cambio climático
- Carga desde URL: `https://raw.githubusercontent.com/datasets/global-temp/master/data/annual.csv`
- Calcula temperatura media del período 1900-1950
- Calcula temperatura media del período 1970-2020
- Calcula diferencia entre ambos períodos
- Identifica el año más cálido registrado desde 1900

### Reto 48. Media móvil en series temporales
- Carga desde URL: `https://raw.githubusercontent.com/datasets/global-temp/master/data/annual.csv`
- Con temperaturas globales, calcula media móvil de 10 años: `df['MA_10'] = df['Mean'].rolling(window=10).mean()`
- Crea gráfico con temperatura original y media móvil
- ¿La media móvil suaviza las fluctuaciones?
- Calcula también media móvil de 30 años

### Reto 49. Dataset COVID-19 (Our World in Data)
- Carga desde URL: `https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/owid-covid-data.csv`
- Filtra solo datos de Spain
- Extrae columnas: date, total_cases, total_deaths
- Convierte 'date' a formato datetime

### Reto 50. Análisis temporal de COVID en España
- Carga desde URL: `https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/owid-covid-data.csv`
- Calcula nuevos casos diarios: `df['new_cases'] = df['total_cases'].diff()`
- Identifica día con más casos nuevos
- Calcula media móvil de 7 días de casos nuevos
- Crea gráfico de casos nuevos con media móvil

### Reto 51. Extracción de componentes de fecha
- Carga desde URL: `https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/owid-covid-data.csv`
- En COVID España, extrae mes y año de 'date'
- Agrupa por mes-año y calcula total de casos nuevos
- Identifica mes con más casos
- Crea gráfico de barras de casos por mes

### Reto 52. Dataset Anscombe desde Seaborn
- Carga: `sns.load_dataset('anscombe')`
- Explora los 4 datasets (I, II, III, IV)
- Calcula media y varianza de x e y para cada dataset
- Crea 4 scatterplots (uno por dataset) en la misma figura

### Reto 53. Lección estadística de Anscombe
- Carga: `sns.load_dataset('anscombe')`
- Calcula correlación entre x e y para cada dataset
- Observa que las 4 tienen estadísticas casi idénticas
- Compara con los gráficos del Reto 52
- Identifica dataset con outlier claro y dataset con relación no lineal

### Reto 54. Normalización Z-score
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- En Iris, calcula Z-score de sepal_length: `(df['sepal_length'] - df['sepal_length'].mean()) / df['sepal_length'].std()`
- Verifica que media ≈ 0 con `.mean()`
- Verifica que std ≈ 1 con `.std()`
- Compara distribución original vs normalizada con histogramas

### Reto 55. Análisis de títulos en Titanic
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- Extrae título del nombre: `df['title'] = df['name'].str.extract(' ([A-Za-z]+)\.', expand=False)`
- Cuenta pasajeros por título con `.value_counts()`
- Identifica títulos raros (< 10 ocurrencias)
- Calcula tasa de supervivencia por título

### Reto 56. Dataset Car Crashes desde Seaborn
- Carga: `sns.load_dataset('car_crashes')`
- Explora variables por estado de USA
- Identifica estado con más accidentes totales (total)
- Crea ranking de top 10 estados por total de accidentes

### Reto 57. Correlación alcohol-accidentes
- Carga: `sns.load_dataset('car_crashes')`
- Crea scatterplot de alcohol vs total en car_crashes
- Calcula correlación entre ambas variables
- Identifica estado con mayor consumo de alcohol
- ¿Este estado también tiene muchos accidentes?

### Reto 58. Dataset de Poblaciones (Gapminder)
- Carga: `sns.load_dataset('gapminder')`
- Explora variables: country, continent, year, lifeExp, pop, gdpPercap
- Identifica países y años incluidos
- Calcula población mundial por año

### Reto 59. Análisis de desarrollo por continente
- Carga: `sns.load_dataset('gapminder')`
- Filtra solo año 2007
- Agrupa por continente y calcula promedios de lifeExp y gdpPercap
- Identifica continente con mayor esperanza de vida
- Calcula correlación entre gdpPercap y lifeExp

### Reto 60. Evolución temporal en Gapminder
- Carga: `sns.load_dataset('gapminder')`
- Filtra datos de Spain a lo largo del tiempo
- Crea gráfico de líneas de lifeExp por año
- Crea gráfico de líneas de gdpPercap por año
- Calcula crecimiento porcentual de gdpPercap entre 1952 y 2007

---

## **BLOQUE 5: DATOS DEL MUNDO REAL Y WEB (Retos 61-80)**

### Reto 61. Dataset Wine Quality desde UCI
- Carga desde URL: `https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv`
- Nota: usar `sep=';'` en read_csv
- Explora características físico-químicas
- Identifica vinos con quality > 7

### Reto 62. Correlaciones en vinos
- Carga desde URL: `https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv`
- Calcula matriz de correlación de todas las variables
- Crea heatmap con anotaciones
- Identifica variable más correlacionada con quality
- ¿alcohol está correlacionado con quality?

### Reto 63. Dataset de Estudiantes (UCI Student Performance)
- Carga desde URL: `https://raw.githubusercontent.com/uci-ml-repo/ucimlrepo/main/docs/assets/student_performance_math.csv`
- Explora variables demográficas y académicas
- Calcula nota promedio (G3) por sexo
- Calcula nota promedio por nivel educativo de los padres (Medu, Fedu)

### Reto 64. Análisis de factores académicos
- Carga desde URL: `https://raw.githubusercontent.com/uci-ml-repo/ucimlrepo/main/docs/assets/student_performance_math.csv`
- Crea variable 'studytime_bin' categorizando studytime en 'bajo', 'medio', 'alto'
- Compara G3 promedio por categoría de studytime
- Crea boxplot de G3 por studytime_bin
- ¿Estudiar más tiempo correlaciona con mejores notas?

### Reto 65. Dataset de Países (REST Countries API simulado)
```python
# Usar dataset pre-descargado de países
url = 'https://raw.githubusercontent.com/samayo/country-json/master/src/country-by-population.json'
df = pd.read_json(url)
```
- Explora estructura: country, population
- Identifica los 10 países más poblados
- Calcula población mundial total
- Calcula población promedio por país

### Reto 66. Dataset de Capitales
```python
url = 'https://raw.githubusercontent.com/samayo/country-json/master/src/country-by-capital-city.json'
df_capitals = pd.read_json(url)
```
- Combina con dataset de población del Reto 65
- Usa merge para crear dataset completo país-capital-población
- Identifica capitales de países más poblados

### Reto 67. Dataset Earthquakes (USGS - últimos 30 días)
```python
url = 'https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_month.csv'
df = pd.read_csv(url)
```
- Explora variables: time, latitude, longitude, mag, place
- Filtra terremotos con magnitud > 4.5
- Identifica terremoto más fuerte del mes

### Reto 68. Análisis sísmico
```python
url = 'https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_month.csv'
df = pd.read_csv(url)
```
- Calcula media y desviación estándar de magnitudes
- Crea histograma de distribución de magnitudes
- Identifica el país/región con más terremotos (extraer de 'place')
- Calcula cuántos terremotos ocurrieron en la última semana

### Reto 69. Dataset de Intercambio de Divisas
```python
# Usar API gratuita de exchangerate-api
url = 'https://open.er-api.com/v6/latest/USD'
import requests
data = requests.get(url).json()
rates = pd.DataFrame(list(data['rates'].items()), columns=['currency', 'rate'])
```
- Explora tasas de cambio desde USD
- Identifica las 10 monedas con mayor valor frente al USD
- Calcula cuántos EUR equivalen a 100 USD

### Reto 70. Conversión de monedas
```python
# Usar API gratuita de exchangerate-api
url = 'https://open.er-api.com/v6/latest/USD'
import requests
data = requests.get(url).json()
rates = pd.DataFrame(list(data['rates'].items()), columns=['currency', 'rate'])
```
- Crea función que convierta cualquier cantidad de USD a otra moneda
- Calcula equivalencias de 1000 USD en: EUR, GBP, JPY, MXN
- Crea DataFrame con estas conversiones
- Ordena monedas por valor de mayor a menor

### Reto 71. Dataset de Lenguajes de Programación
```python
url = 'https://raw.githubusercontent.com/datasets/awesome-data/master/programming-languages.csv'
# Si no está disponible, usar alternativa de GitHub similar
```
- Explora variables: nombre, año de creación, paradigma
- Identifica los 10 lenguajes más antiguos
- Cuenta lenguajes por década de creación
- Identifica paradigma más común

### Reto 72. Web Scraping: Tabla HTML simple
```python
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'
tables = pd.read_html(url)
df = tables[1]  # Segunda tabla suele ser la correcta
```
- Extrae tabla de GDP de países desde Wikipedia
- Limpia nombres de columnas
- Identifica top 10 países por GDP
- Calcula GDP promedio de top 20

### Reto 73. Dataset de Feriados (Nager.Date API)
```python
url = 'https://date.nager.at/api/v3/PublicHolidays/2024/ES'
df = pd.read_json(url)
```
- Explora feriados de España en 2024
- Cuenta cuántos feriados hay
- Identifica mes con más feriados
- Extrae solo nombre y fecha de cada feriado

### Reto 74. Dataset de Universidades
```python
url = 'https://raw.githubusercontent.com/Hipo/university-domains-list/master/world_universities_and_domains.json'
df = pd.read_json(url)
```
- Filtra universidades de Spain
- Cuenta cuántas universidades españolas hay en el dataset
- Identifica las 10 primeras universidades de la lista
- Extrae dominios web de universidades españolas

### Reto 75. Limpieza de texto avanzada
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, convierte 'sex' a minúsculas: `df['sex'] = df['sex'].str.lower()`
- Elimina espacios con `.str.strip()`
- Verifica categorías únicas con `.unique()`
- Reemplaza valores si hay inconsistencias

### Reto 76. Dataset de Datos Abiertos (Data.gov simulado)
```python
# Usar dataset de calidad del aire
url = 'https://data.cityofnewyork.us/api/views/c3uy-2p5r/rows.csv?accessType=DOWNLOAD'
df = pd.read_csv(url)
```
- Explora variables de calidad del aire NYC
- Filtra datos más recientes
- Calcula promedio de contaminantes
- Identifica áreas con peor calidad del aire

### Reto 77. Análisis de calidad del aire
```python
# Usar dataset de calidad del aire
url = 'https://data.cityofnewyork.us/api/views/c3uy-2p5r/rows.csv?accessType=DOWNLOAD'
df = pd.read_csv(url)
```
- Agrupa por borough y calcula promedio de contaminantes
- Identifica borough con mejor calidad del aire
- Crea gráfico de barras comparativo
- Filtra días con niveles peligrosos (si aplica)

### Reto 78. Dataset de Bibliotecas JSON anidado
```python
data = {
    'students': [
        {'name': 'Ana', 'grades': {'math': 85, 'science': 92}},
        {'name': 'Luis', 'grades': {'math': 78, 'science': 88}},
        {'name': 'María', 'grades': {'math': 95, 'science': 89}}
    ]
}
df = pd.json_normalize(data['students'])
```
- Aplana estructura JSON anidada
- Calcula promedio de cada estudiante
- Identifica estudiante con mejor promedio
- Calcula nota promedio por materia

### Reto 79. Exportación condicional
- Carga: `sns.load_dataset('diamonds')`
- En diamonds, filtra diamantes con price > 15000
- Filtra diamantes "Ideal" cut
- Combina ambos filtros con operador &
- Guarda resultado en CSV: `filtered.to_csv('expensive_ideal_diamonds.csv', index=False)`

### Reto 80. Dataset de Pronóstico del Tiempo (Open-Meteo)
```python
url = 'https://api.open-meteo.com/v1/forecast?latitude=40.4168&longitude=-3.7038&daily=temperature_2m_max,temperature_2m_min&timezone=Europe/Madrid'
import requests
data = requests.get(url).json()
df = pd.DataFrame(data['daily'])
```
- Extrae pronóstico de 7 días para Madrid
- Crea DataFrame con fechas y temperaturas
- Calcula temperatura promedio de la semana
- Identifica día más cálido y más frío

---

## **BLOQUE 6: INGENIERÍA DE DATOS BÁSICA (Retos 81-95)**

### Reto 81. Simulación de operaciones SQL con Pandas
- Carga el dataset: `sns.load_dataset('tips')`
- SELECT: selecciona columnas total_bill, tip, day
- WHERE: filtra dinner meals: `df[df['time']=='Dinner']`
- ORDER BY: ordena por total_bill descendente
- Muestra primeras 10 filas del resultado

### Reto 82. GROUP BY en Pandas
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, agrupa por day y time
- Calcula: COUNT, AVG(total_bill), SUM(tip) usando `.agg()`
- Recrea query SQL: `SELECT day, time, COUNT(*), AVG(total_bill), SUM(tip) FROM tips GROUP BY day, time`
- Identifica combinación día-hora con más ventas

### Reto 83. JOIN simulado con Pandas
- Crea dos DataFrames:
```python
customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 4],
    'name': ['Ana', 'Luis', 'María', 'Carlos']
})
orders = pd.DataFrame({
    'order_id': [101, 102, 103],
    'customer_id': [1, 2, 1],
    'amount': [50, 75, 30]
})
```
- Realiza INNER JOIN: `pd.merge(customers, orders, on='customer_id')`
- Realiza LEFT JOIN con `how='left'`
- Identifica cliente sin órdenes

### Reto 84. Subconsultas simuladas
- Carga: `sns.load_dataset('penguins')`
- En penguins, calcula peso promedio general
- Filtra pingüinos con peso mayor al promedio
- Equivale a SQL: `SELECT * FROM penguins WHERE body_mass_g > (SELECT AVG(body_mass_g) FROM penguins)`
- Cuenta cuántos pingüinos están sobre el promedio

### Reto 85. HAVING simulado
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, agrupa por smoker y day
- Calcula total_bill promedio por grupo
- Filtra solo grupos con promedio > 20
- Equivale a: `SELECT smoker, day, AVG(total_bill) FROM tips GROUP BY smoker, day HAVING AVG(total_bill) > 20`

### Reto 86. DISTINCT y COUNT DISTINCT
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- En titanic, cuenta valores únicos de embark_town: `df['embark_town'].nunique()`
- Cuenta combinaciones únicas de class y sex
- Usa `.drop_duplicates()` para obtener filas únicas
- Compara tamaño original vs sin duplicados

### Reto 87. CASE WHEN simulado con np.where
```python
import numpy as np
```
- Carga: `sns.load_dataset('penguins')`
- En penguins, crea columna 'size_category':
- Si body_mass_g < 3500: 'Small'
- Si entre 3500-4500: 'Medium'
- Si > 4500: 'Large'
- Usa `np.where()` o `pd.cut()`
- Cuenta pingüinos por categoría

### Reto 88. Window Functions: Ranking
- Carga: `sns.load_dataset('diamonds')`
- En diamonds, ordena por price descendente
- Crea columna 'price_rank' con ranking: `df['price_rank'] = df['price'].rank(ascending=False)`
- Identifica los 10 diamantes más caros
- Calcula percentil de precio de cada diamante

### Reto 89. Window Functions: Media móvil
- Carga: `sns.load_dataset('flights')`
- En flights, ordena por year y month
- Calcula media móvil de 3 meses de passengers: `df['MA_3'] = df['passengers'].rolling(3).mean()`
- Crea media móvil de 12 meses (año completo)
- Compara valores originales vs suavizados

### Reto 90. CTEs simulados con variables
- Simula CTE (Common Table Expression):
```python
# CTE: pasajeros que sobrevivieron
cte_survivors = titanic[titanic['survived']==1]
# Query principal: edad promedio de sobrevivientes
avg_age = cte_survivors['age'].mean()
```
- Crea CTE de pasajeros de primera clase
- Calcula tarifa promedio de este grupo
- Compara con tarifa promedio general

### Reto 91. UNION simulado
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, filtra meals de Saturday: `sat = df[df['day']=='Sat']`
- Filtra meals de Sunday: `sun = df[df['day']=='Sun']`
- Une ambos con concat: `pd.concat([sat, sun])`
- Elimina duplicados si los hay
- Verifica tamaño final

### Reto 92. Pipeline ETL básico - Extract
- Simula extracción de múltiples fuentes:
```python
# Fuente 1: CSV local
sales_q1 = pd.read_csv('sales_q1.csv')
# Fuente 2: JSON
sales_q2 = pd.read_json('sales_q2.json')
# Fuente 3: Excel
sales_q3 = pd.read_excel('sales_q3.xlsx')
```
- Para práctica, crea estos archivos artificialmente primero
- Verifica que todos se carguen correctamente

### Reto 93. Pipeline ETL - Transform
- Con los 3 DataFrames del Reto 92:
- Estandariza nombres de columnas a minúsculas
- Convierte fechas a formato datetime
- Elimina duplicados en cada uno
- Crea columna 'quarter' en cada DataFrame

### Reto 94. Pipeline ETL - Load
- Concatena los 3 DataFrames transformados verticalmente
- Ordena por fecha
- Valida que no haya nulos en columnas críticas
- Exporta resultado consolidado a CSV
- Crea log simple: `print(f"Filas procesadas: {len(df)}, Fecha: {datetime.now()}")`

### Reto 95. Validación de calidad de datos
- Carga el dataset: `sns.load_dataset('tips')`
- Crea validaciones:
```python
# Check 1: No nulos en columnas críticas
assert df['total_bill'].notna().all(), "Hay nulos en total_bill"
# Check 2: Valores positivos
assert (df['total_bill'] > 0).all(), "Hay valores negativos"
# Check 3: Tip no mayor que bill
assert (df['tip'] <= df['total_bill']).all(), "Propina mayor que cuenta"
```
- Añade check de rango de valores
- Crea función de validación reutilizable

---

## **BLOQUE 7: ANÁLISIS AVANZADO Y DATOS COMPLEJOS (Retos 96-110)**

### Reto 96. Detección de outliers con IQR
- Carga: `sns.load_dataset('diamonds')`
- En diamonds, calcula Q1, Q3 e IQR de carat
- Define límites: `lower = Q1 - 1.5*IQR`, `upper = Q3 + 1.5*IQR`
- Identifica outliers: `outliers = df[(df['carat'] < lower) | (df['carat'] > upper)]`
- Calcula porcentaje de outliers
- Visualiza con boxplot marcando outliers

### Reto 97. Detección de outliers con Z-score
- Carga: `sns.load_dataset('penguins')`
- En penguins, calcula Z-score de body_mass_g
- Identifica outliers (|Z| > 3)
- Compara cantidad de outliers con método IQR
- ¿Qué método es más estricto?

### Reto 98. Análisis de outliers multivariante
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- En iris, identifica outliers combinando:
- petal_length > Q3 + 1.5*IQR
- sepal_width < Q1 - 1.5*IQR
- Usa operador & para condición compuesta
- Visualiza outliers en scatterplot con color diferente

### Reto 99. Imputación de valores nulos - Media/Mediana
- Carga: `sns.load_dataset('penguins')`
- Carga penguins (con nulos)
- Crea 3 copias del dataset
- Versión 1: elimina nulos con dropna()
- Versión 2: imputa con media
- Versión 3: imputa con mediana
- Compara estadísticas descriptivas de las 3 versiones

### Reto 100. Imputación de valores nulos - Forward Fill
- Carga: `sns.load_dataset('flights')`
- En series temporal de flights, introduce nulos artificiales:
```python
df_missing = df.copy()
df_missing.loc[10:15, 'passengers'] = np.nan
```
- Aplica forward fill: `df_missing['passengers'].fillna(method='ffill')`
- Aplica backward fill: `fillna(method='bfill')`
- Compara ambos métodos visualmente

### Reto 101. Análisis de sesgo y curtosis
- Carga: `sns.load_dataset('diamonds')`
```python
from scipy.stats import skew, kurtosis
```
- Calcula sesgo de price en diamonds
- Calcula curtosis de la misma variable
- Interpreta: sesgo > 0 (asimetría derecha), curtosis > 3 (leptocúrtica)
- Compara con distribución normal en histograma

### Reto 102. Transformación logarítmica
- Carga: `sns.load_dataset('diamonds')`
- En diamonds, price está muy sesgado
- Aplica transformación log: `df['log_price'] = np.log(df['price'])`
- Compara histogramas de price vs log_price
- Calcula nuevo sesgo de log_price
- ¿La transformación normalizó la distribución?

### Reto 103. Transformación Box-Cox
- Carga: `sns.load_dataset('diamonds')`
```python
from scipy.stats import boxcox
```
- Aplica transformación Box-Cox a price en diamonds:
```python
transformed, lambda_param = boxcox(df['price'])
df['boxcox_price'] = transformed
```
- Compara distribución original vs transformada
- Box-Cox encuentra automáticamente mejor transformación

### Reto 104. Binning de variables continuas
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- En titanic, crea bins de edad:
```python
bins = [0, 12, 18, 35, 60, 100]
labels = ['Niño', 'Adolescente', 'Adulto Joven', 'Adulto', 'Senior']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
```
- Calcula tasa de supervivencia por grupo de edad
- Visualiza con gráfico de barras

### Reto 105. Encoding de variables categóricas - Label Encoding
- Carga: `sns.load_dataset('penguins')`
- En penguins, convierte species a números:
```python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['species_encoded'] = le.fit_transform(df['species'])
```
- Verifica mapeo: Adelie=0, Chinstrap=1, Gentoo=2
- Guarda mapeo para referencia futura

### Reto 106. Encoding de variables categóricas - One-Hot Encoding
- Carga: `sns.load_dataset('penguins')`
- En penguins, aplica one-hot encoding a island:
```python
island_dummies = pd.get_dummies(df['island'], prefix='island')
df = pd.concat([df, island_dummies], axis=1)
```
- Verifica que se crearon 3 columnas binarias
- ¿Cuándo usar Label vs One-Hot encoding?

### Reto 107. Feature Engineering - Interacciones
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, crea features de interacción:
```python
df['bill_per_person'] = df['total_bill'] / df['size']
df['tip_per_person'] = df['tip'] / df['size']
df['tip_rate'] = df['tip'] / df['total_bill']
```
- Calcula correlación de nuevas features con tip
- ¿Alguna feature nueva es más predictiva?

### Reto 108. Feature Engineering - Fechas
- Carga: `sns.load_dataset('flights')`
- En flights, crea features temporales:
```python
df['month_sin'] = np.sin(2 * np.pi * df['month']/12)
df['month_cos'] = np.cos(2 * np.pi * df['month']/12)
```
- Esto captura ciclicidad de meses
- Visualiza relación entre estas features y passengers

### Reto 109. Análisis de componentes principales (PCA) - Preparación
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
```python
from sklearn.preprocessing import StandardScaler
```
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Selecciona solo columnas numéricas
- Estandariza datos: `scaler = StandardScaler()` y `scaled = scaler.fit_transform(df_numeric)`
- Verifica que media ≈ 0 y std ≈ 1
- Prepara para PCA (siguiente reto)

### Reto 110. Análisis de componentes principales (PCA)
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
```python
from sklearn.decomposition import PCA
```
- Aplica PCA con 2 componentes: `pca = PCA(n_components=2)`
- Transforma datos: `transformed = pca.fit_transform(scaled)`
- Visualiza datos en 2D coloreados por especie
- Imprime varianza explicada: `pca.explained_variance_ratio_`

---

## **BLOQUE 8: VISUALIZACIÓN AVANZADA (Retos 111-120)**

### Reto 111. Subplots múltiples
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Crea figura con 4 subplots (2x2):
```python
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
```
- Plot 1: Histograma de sepal_length en iris
- Plot 2: Scatterplot de sepal_length vs petal_length
- Plot 3: Boxplot de petal_width por especie
- Plot 4: Heatmap de correlaciones
- Añade título general a la figura

### Reto 112. Gráficos de distribución comparativos
- Carga: `sns.load_dataset('penguins')`
- En penguins, crea figura con 3 distribuciones:
- Histograma de body_mass_g
- KDE (Kernel Density Estimate) de body_mass_g
- Histograma + KDE superpuestos
- Usa `sns.histplot()` con `kde=True`

### Reto 113. FacetGrid de Seaborn
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, crea FacetGrid por time y smoker:
```python
g = sns.FacetGrid(df, col='time', row='smoker', height=4)
g.map(plt.hist, 'total_bill')
```
- Añade títulos descriptivos
- Analiza diferencias entre grupos

### Reto 114. Pairplot avanzado con personalización
- Carga: `sns.load_dataset('penguins')`
- En penguins, crea pairplot con:
- hue='species'
- diag_kind='kde'
- markers=['o', 's', 'D'] para cada especie
- Personaliza paleta de colores
- Añade título general

### Reto 115. Gráfico de barras apiladas
- Carga Titanic desde Seaborn: `sns.load_dataset('titanic')`
- En titanic, crea tabla cruzada de class vs sex
- Crea gráfico de barras apiladas:
```python
cross_tab = pd.crosstab(df['class'], df['sex'])
cross_tab.plot(kind='bar', stacked=True)
```
- Añade leyenda, título y etiquetas
- Analiza composición de género por clase

### Reto 116. Gráfico de áreas apiladas
- Carga: `sns.load_dataset('flights')`
- En flights, agrupa por year y calcula total passengers
- Simula diferentes categorías (crea columnas artificiales)
- Crea gráfico de áreas apiladas:
```python
df.plot(kind='area', stacked=True)
```
- Útil para mostrar composición a lo largo del tiempo

### Reto 117. Heatmap con anotaciones personalizadas
- Carga: `sns.load_dataset('flights')`
- En flights, crea pivot table de passengers por year-month
- Crea heatmap con:
```python
sns.heatmap(pivot, annot=True, fmt='d', cmap='YlGnBu',
            linewidths=0.5, linecolor='gray')
```
- Personaliza colorbar
- Añade título descriptivo

### Reto 118. Gráfico de regresión con intervalo de confianza
- Carga el dataset: `sns.load_dataset('tips')`
- En tips, crea regplot de total_bill vs tip:
```python
sns.regplot(x='total_bill', y='tip', data=df,
            scatter_kws={'alpha':0.5},
            line_kws={'color':'red'})
```
- Muestra banda de confianza
- Añade ecuación de regresión en título

### Reto 119. Jointplot para análisis bivariado
- Carga: `sns.load_dataset('penguins')`
- En penguins, crea jointplot de flipper_length vs body_mass:
```python
sns.jointplot(x='flipper_length_mm', y='body_mass_g',
              data=df, kind='scatter', hue='species')
```
- Prueba diferentes kinds: 'hex', 'kde', 'reg'
- Analiza distribuciones marginales

### Reto 120. Dashboard visual completo - Proyecto Integrador Final
- Carga: `sns.load_dataset('gapminder')`
- Usa gapminder del año 2007
- Crea figura con 6 subplots (2x3):

**Plot 1:** Scatterplot de gdpPercap vs lifeExp, tamaño por pop, color por continent
**Plot 2:** Gráfico de barras horizontales de lifeExp promedio por continente (ordenado)
**Plot 3:** Boxplot de gdpPercap por continente
**Plot 4:** Histograma de distribución de lifeExp con KDE
**Plot 5:** Heatmap de correlación entre variables numéricas
**Plot 6:** Top 10 países por gdpPercap (barras horizontales)

- Añade título general: "Análisis Global de Desarrollo 2007"
- Personaliza colores, etiquetas y leyendas
- Guarda como imagen PNG de alta calidad: `plt.savefig('dashboard_final.png', dpi=300, bbox_inches='tight')`
- **Reflexión final:** Escribe en comentarios 3 insights principales del análisis

---

# RESUMEN DE LOS 120 RETOS

## Distribución por Bloques

| Bloque | Retos | Enfoque Principal |
|--------|-------|-------------------|
| **1. Fundamentos y Carga** | 1-10 | Carga de datos, exploración básica, primeras visualizaciones |
| **2. EDA y Visualización** | 11-25 | Análisis exploratorio, estadísticas, gráficos básicos |
| **3. Operaciones y Transformaciones** | 26-45 | Manipulación de datos, agregaciones, transformaciones |
| **4. Series Temporales** | 46-60 | Datos temporales, tendencias, análisis histórico |
| **5. Datos del Mundo Real** | 61-80 | APIs, web scraping, datasets externos, JSON |
| **6. Ingeniería de Datos** | 81-95 | SQL simulado, ETL, validación, pipelines |
| **7. Análisis Avanzado** | 96-110 | Outliers, imputación, transformaciones, PCA |
| **8. Visualización Avanzada** | 111-120 | Gráficos complejos, dashboard, proyecto final |

## Fuentes de Datos Utilizadas (Públicas y Accesibles)

### Datasets de Seaborn (16 datasets)
- titanic, iris, tips, penguins, flights, diamonds, mpg, planets
- anscombe, car_crashes, gapminder

### Datasets de scikit-learn (2 datasets)
- breast_cancer, (california_housing removido por complejidad)

### URLs Públicas Verificadas (10+ datasets)
- Global Temperature (Berkeley Earth)
- COVID-19 (Our World in Data)
- Wine Quality (UCI)
- Student Performance (UCI)
- Country Data (GitHub JSON)
- Earthquakes (USGS)
- Currency Exchange (open.er-api.com)
- Weather Forecast (Open-Meteo)
- Wikipedia Tables (web scraping)
- Public Holidays (Nager.Date API)
- Universities (GitHub JSON)

### APIs Públicas Sin Autenticación (5 APIs)
- Open-Meteo (clima)
- USGS Earthquakes (terremotos)
- Exchange Rates API (divisas)
- Nager.Date (feriados)
- Open Data portals (calidad del aire)

## Cobertura del Temario

| Área del Temario | Retos que la Cubren | Cobertura |
|------------------|---------------------|-----------|
| **Bloque 1: Ecosistema de Datos** | 1-10, 61-80 | ⭐⭐⭐⭐⭐ |
| **Bloque 2: EDA y Visualización** | 11-45, 111-120 | ⭐⭐⭐⭐⭐ |
| **Bloque 3: Estadística y Ciencia de Datos** | 46-60, 96-110 | ⭐⭐⭐⭐⭐ |
| **Bloque 4: Ingeniería de Datos** | 81-95 | ⭐⭐⭐⭐⭐ |
| **Bloque 5: Proyecto Integrador** | 120 | ⭐⭐⭐⭐⭐ |

## Características Técnicas

- **Total de retos:** 120
- **Datasets únicos:** 35+
- **APIs públicas:** 5
- **Lenguajes/Herramientas:** Python, Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn, SciPy
- **Formatos de datos:** CSV, JSON, Excel, HTML, APIs REST
- **Todos los recursos:** Públicos, gratuitos y verificados

---
