<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reto 1. Gestión de archivos en Google Colab
- Objetivo: Familiarizarse con la interfaz de Colab y la gestión básica de archivos
- Descarga manualmente el dataset Titanic desde Kaggle:
  * Ve a https://www.kaggle.com/c/titanic/data
  * Descarga `train.csv` a tu computadora
- Sube el archivo manualmente a Google Colab usando el ícono de carpeta
- Carga el dataset usando Pandas: `df = pd.read_csv('train.csv')`
- Visualiza las primeras 5 filas con `.head()`
- Entiende que los archivos subidos manualmente se pierden al cerrar la sesión
- Monta Google Drive en Colab y guarda una copia del dataset allí
- Carga el archivo desde Drive y verifica la persistencia

---

# Reto 2. Carga directa desde URL y análisis exploratorio
- Objetivo: Aprender a cargar datos directamente desde URLs
- Carga el dataset Titanic directamente desde una URL usando Pandas:
```python
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
```
- Verifica que la carga fue exitosa con `.shape` y `.head()`
- Explora los tipos de datos con `.dtypes`
- Usa `.info()` para obtener un resumen general del dataset
- Identifica valores nulos con `.isnull().sum()`
- Calcula estadísticas descriptivas con `.describe()`
- Cuenta valores únicos en columnas clave: "Sex", "Pclass", "Embarked"

---

# Reto 3. Datasets embebidos y análisis de supervivencia
- Objetivo: Conocer datasets pre-cargados en librerías y realizar análisis básico
- Carga el dataset Titanic desde la librería Seaborn:
```python
import seaborn as sns
df = sns.load_dataset('titanic')
```
- Es una versión simplificada, tiene menos columnas, como `PassengerId`, y algunas diferencias en nulos o formato.
- Calcula la proporción de supervivientes por sexo usando `groupby`.
- Calcula también la proporción de supervivientes por clase ("pclass")
- Crea visualizaciones claras:
  * Gráfico de barras para supervivencia por sexo
  * Gráfico de barras para supervivencia por clase
- Usa matplotlib o seaborn para los gráficos
- Añade títulos, etiquetas y porcentajes en las barras

---

# Reto 4. Limpieza básica de datos
- Identifica las columnas con valores nulos
- Rellena los valores nulos en "Age" con la mediana
- Elimina la columna "Cabin" por tener demasiados valores nulos
- Crea una nueva columna "FamilySize" sumando SibSp + Parch

---

# Reto 5. Filtros y consultas básicas
- Filtra los pasajeros de primera clase que sobrevivieron
- Encuentra el pasajero más joven y el más viejo
- Calcula la tarifa promedio por clase
- Filtra mujeres menores de 18 años que sobrevivieron
- ¿Cuántas mujeres menores de 18 sobrevivieron?

Excelente base 👏. Ya cubres **manejo de archivos, carga de datos, exploración, limpieza y filtrado** con Titanic.
Te propongo **5 retos adicionales** basados en el dataset **Iris** (flores de iris), muy usado en introducción a data science. Mantienen la progresión natural y son breves, como tus ejemplos.

---

# Reto 6. Carga del dataset Iris
- Objetivo: Conocer otro dataset clásico y su estructura
- Carga el dataset Iris desde Seaborn:

```python
import seaborn as sns
df = sns.load_dataset('iris')
```

- Muestra las primeras 5 filas
- Observa las columnas y tipos de datos con `.info()`
- Verifica si hay valores nulos con `.isnull().sum()`
- Calcula el número de observaciones por especie con `.value_counts()`

---

# Reto 7. Estadísticas descriptivas y visualización básica
- Calcula las medias y desviaciones estándar de cada variable numérica
- Usa `.groupby('species').mean()` para obtener estadísticas por especie
- Crea un gráfico de pares con Seaborn:

```python
sns.pairplot(df, hue='species')
```

- Interpreta brevemente qué variables separan mejor las especies

---

# Reto 8. Correlaciones y relaciones entre variables
- Calcula la matriz de correlación con `.corr()`
- Muestra la matriz como mapa de calor con Seaborn:

```python
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
```

- Explica qué dos variables están más correlacionadas y por qué

---

# Reto 9. Clasificación de especies con una regla simple
- Crea una columna `'pred'` que clasifique como:
  - `'setosa'` si `petal_length < 2`
  - `'versicolor'` si `2 <= petal_length < 5`
  - `'virginica'` si `petal_length >= 5`
- Calcula la precisión simple: porcentaje de aciertos comparando `'pred'` con `'species'`
- Reflexiona: ¿qué tan efectiva es esta regla?

---

# Reto 10. Visualización avanzada
- Usa `sns.boxplot` para comparar la distribución de `sepal_width` por especie
- Añade un `sns.violinplot` o `sns.stripplot` para complementar la visualización
- Interpreta qué especie presenta mayor variabilidad en `sepal_width`

---

# Reto 11. Creación de nuevas columnas
- Objetivo: Practicar operaciones con columnas.
- Crea una nueva columna `'sepal_area'` = `sepal_length * sepal_width`.
- Crea otra columna `'petal_area'` = `petal_length * petal_width`.
- Muestra las medias de ambas áreas por especie.
- Comenta qué especie tiene, en promedio, pétalos más grandes.

---

# Reto 12. Ordenación y selección
- Ordena el DataFrame por `petal_length` de menor a mayor.
- Muestra las primeras 10 y las últimas 10 filas.
- Extrae solo las columnas `'species'`, `'petal_length'` y `'petal_width'`.
- ¿Cuál es el valor máximo de `petal_length` y a qué especie pertenece?

---

# Reto 13. Agrupaciones y conteos
- Usa `groupby('species')` para calcular:
  - La media de `sepal_length`
  - El máximo de `petal_width`
  - El número de muestras (`.count()`)
- Crea un gráfico de barras con la media de `sepal_length` por especie.

---

# Reto 14. Filtrado combinado
- Filtra las filas donde `sepal_length > 6` **y** `petal_width < 1.5`.
- ¿Cuántas flores cumplen esa condición?
- ¿A qué especies pertenecen?
- Crea un gráfico de dispersión (`sns.scatterplot`) de esas flores resaltando la especie.

---

# Reto 15. Guardado de resultados
- Guarda el DataFrame original con las nuevas columnas (`sepal_area` y `petal_area`) en un archivo CSV:

  ```python
  df.to_csv('iris_modificado.csv', index=False)
  ```
- Verifica que el archivo se guardó correctamente con `pd.read_csv`.
- ¿Cuántas columnas tiene el nuevo dataset?
- Reflexiona: ¿por qué puede ser útil guardar versiones procesadas del dataset?

---

# Reto 16. Histogramas por variable
- Objetivo: Visualizar la distribución de una variable numérica.
- Crea un histograma de `sepal_length` usando:

  ```python
  sns.histplot(df['sepal_length'], bins=10, kde=False)
  ```
- Añade título y etiquetas.
- ¿Qué rango de valores es más frecuente?

---

# Reto 17. Histogramas por especie
- Crea un histograma de `petal_length` separado por especie:

  ```python
  sns.histplot(data=df, x='petal_length', hue='species', kde=True)
  ```
- Observa si las distribuciones se superponen o se separan bien.
- Reflexiona qué variable parece más útil para distinguir especies.

---

# Reto 18. Boxplots para detectar valores atípicos
- Dibuja un boxplot de `sepal_width` por especie:

  ```python
  sns.boxplot(data=df, x='species', y='sepal_width')
  ```
- Interpreta:
  - ¿Cuál especie tiene mayor mediana?
  - ¿Cuál muestra más variabilidad o posibles outliers?

---

# Reto 19. Densidades y comparación de distribuciones
- Usa un gráfico de densidad para `petal_width` por especie:

  ```python
  sns.kdeplot(data=df, x='petal_width', hue='species', fill=True)
  ```
- ¿Qué especies tienen distribuciones bien separadas?
- ¿Podría esta variable ser útil para clasificar las flores?

---

# Reto 20. Normalización simple
- Normaliza `sepal_length` y `petal_length` dividiéndolas por sus valores máximos:

  ```python
  df['sepal_length_norm'] = df['sepal_length'] / df['sepal_length'].max()
  df['petal_length_norm'] = df['petal_length'] / df['petal_length'].max()
  ```
- Verifica que los nuevos valores estén entre 0 y 1.
- Crea un gráfico de dispersión comparando las versiones normalizadas.
- Reflexiona: ¿por qué la normalización es útil antes de aplicar modelos?

---

#  Reto 21. Medidas estadísticas básicas
- Calcula la **media**, **mediana** y **desviación estándar** de cada columna numérica.
- Usa `.mean()`, `.median()` y `.std()`.
- Compara visualmente los valores en una pequeña tabla.
- Reflexiona: ¿qué variable presenta más variabilidad?

---

# Reto 22. Estadísticas por grupo
- Calcula la media de todas las variables numéricas agrupando por especie:

  ```python
  df.groupby('species').mean()
  ```
- Identifica qué especie tiene el mayor `petal_length` promedio.
- Representa los resultados con un gráfico de barras para `petal_length`.

---

# Reto 23. Correlaciones
- Calcula la **matriz de correlación** entre las variables numéricas con `.corr()`.
- Visualízala con un mapa de calor:

  ```python
  sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
  ```
- Interpreta qué dos variables están más correlacionadas y por qué.

---

# Reto 24. Pairplot (gráfico de relaciones múltiples)
- Usa un pairplot para ver cómo se relacionan todas las variables:

  ```python
  sns.pairplot(df, hue='species')
  ```
- Observa si las especies se separan bien en algún par de variables.
- Identifica qué combinación de variables parece más útil para distinguirlas.

---

# Reto 25. Análisis de relaciones lineales
- Representa `petal_length` vs `petal_width` con una línea de regresión:

  ```python
  sns.lmplot(data=df, x='petal_length', y='petal_width', hue='species')
  ```
- Analiza:
  - ¿Las relaciones parecen lineales?
  - ¿Qué especie tiene la pendiente más pronunciada?

---

# Reto 26. Tablas cruzadas

* Usa el dataset Titanic cargado con Seaborn
* Crea una tabla cruzada entre `'sex'` y `'class'`:

  ```python
  pd.crosstab(df['sex'], df['class'])
  ```
* Añade `'survived'` como valores:

  ```python
  pd.crosstab(df['sex'], df['class'], values=df['survived'], aggfunc='mean')
  ```
* Interpreta los resultados

---

# Reto 27. Exportación a Excel

* Usa el dataset Iris modificado
* Exporta a Excel:

  ```python
  df.to_excel('iris.xlsx', index=False)
  ```
* Verifica leyendo con `pd.read_excel`
* ¿Cuántas filas y columnas tiene el archivo?

---

# Reto 28. Exportación a JSON

* Guarda el DataFrame en formato JSON:

  ```python
  df.to_json('iris.json', orient='records', indent=2)
  ```
* Abre y revisa su estructura
* Comenta ventajas frente a CSV

---

# Reto 29. Dataset Tips

* Carga el dataset:

  ```python
  import seaborn as sns
  df = sns.load_dataset('tips')
  ```
* Muestra las primeras filas
* Describe brevemente las variables

---

# Reto 30. Análisis de propinas

* Crea una columna con el porcentaje de propina:

  ```python
  df['tip_pct'] = df['tip'] / df['total_bill'] * 100
  ```
* Promedia por día y sexo con `groupby`
* ¿Qué día y quién deja más propina?

---

# Reto 31. Visualización de propinas

* Crea un boxplot de `tip_pct` por día:

  ```python
  sns.boxplot(data=df, x='day', y='tip_pct', hue='sex')
  ```
* Interpreta las diferencias entre grupos

---

# Reto 32. Relación entre cuenta y propina

* Dibuja un gráfico de dispersión:

  ```python
  sns.scatterplot(data=df, x='total_bill', y='tip', hue='sex')
  ```
* Calcula la correlación entre ambas variables

---

# Reto 33. Tablas cruzadas en Tips

* Crea una tabla cruzada entre día y turno:

  ```python
  pd.crosstab(df['day'], df['time'])
  ```
* Indica qué turno es más frecuente los fines de semana

---

# Reto 34. Promedios agrupados múltiples

* Calcula el promedio de `total_bill` y `tip` agrupando por día y fumador:

  ```python
  df.groupby(['day', 'smoker'])[['total_bill', 'tip']].mean()
  ```
* Analiza si los fumadores dejan más o menos propina

---

# Reto 35. Guardado de resumen final

* Guarda en CSV el resumen del reto anterior
* Añade fecha y hora al nombre del archivo con `datetime`
* Verifica que el archivo se creó correctamente

---

# Reto 36. Dataset Penguins

* Carga el dataset:

  ```python
  import seaborn as sns
  df = sns.load_dataset('penguins')
  ```
* Visualiza las primeras filas y usa `.info()`
* Verifica si hay valores nulos y cuántos por columna
* ¿Cuántas especies diferentes hay?

---

# Reto 37. Promedios por especie y sexo

* Calcula el promedio de `body_mass_g` agrupando por especie y sexo:

  ```python
  df.groupby(['species', 'sex'])['body_mass_g'].mean()
  ```
* ¿Qué especie presenta el mayor peso medio?

---

# Reto 38. Dispersión peso vs longitud

* Crea un gráfico de dispersión de `flipper_length_mm` vs `body_mass_g`:

  ```python
  sns.scatterplot(data=df, x='flipper_length_mm', y='body_mass_g', hue='species')
  ```
* Analiza la relación entre tamaño y peso

---

# Reto 39. Boxplot por isla

* Crea un boxplot de `body_mass_g` por `island`:

  ```python
  sns.boxplot(data=df, x='island', y='body_mass_g', hue='species')
  ```
* Comenta cuál isla tiene los pingüinos más pesados

---

# Reto 40. Dataset Flights

* Carga el dataset de vuelos:

  ```python
  df = sns.load_dataset('flights')
  ```
* Muestra las primeras filas y revisa las columnas
* ¿Cuántos años y meses incluye el dataset?

---

# Reto 41. Pasajeros por año

* Agrupa por año y calcula el total de pasajeros:

  ```python
  df.groupby('year')['passengers'].sum()
  ```
* Crea un gráfico de líneas mostrando la evolución

---

# Reto 42. Mapa de calor mensual

* Crea una tabla pivote de pasajeros por año y mes:

  ```python
  tabla = df.pivot('month', 'year', 'passengers')
  sns.heatmap(tabla, annot=True, fmt='d', cmap='Blues')
  ```
* Observa los meses con más tráfico aéreo

---

# Reto 43. Dataset MPG

* Carga el dataset de consumo de autos:

  ```python
  df = sns.load_dataset('mpg')
  ```
* Visualiza las primeras filas
* Revisa los tipos de combustible (`origin`) y los años

---

# Reto 44. Eficiencia por cilindros

* Calcula el consumo promedio (`mpg`) por número de cilindros:

  ```python
  df.groupby('cylinders')['mpg'].mean()
  ```
* Representa los resultados con un gráfico de barras

---

# Reto 45. Relación potencia-consumo

* Crea un gráfico de dispersión entre `horsepower` y `mpg`:

  ```python
  sns.scatterplot(data=df, x='horsepower', y='mpg', hue='origin')
  ```
* Analiza si hay correlación negativa entre ambas

---

# Reto 46. Dataset Diamonds

* Carga el dataset:

  ```python
  df = sns.load_dataset('diamonds')
  ```
* Observa las columnas y el tamaño del dataset
* Muestra un resumen de los precios (`price`)

---

# Reto 47. Precio promedio por color y claridad

* Calcula el precio medio agrupando por color y claridad:

  ```python
  df.groupby(['color', 'clarity'])['price'].mean().round(0)
  ```
* ¿Qué combinación resulta más costosa?

---

# Reto 48. Relación peso-precio

* Crea un gráfico de dispersión entre `carat` y `price`:

  ```python
  sns.scatterplot(data=df, x='carat', y='price', hue='cut')
  ```
* Analiza la tendencia general

---

# Reto 49. Dataset Gapminder (desarrollo global)

* Carga el dataset:

  ```python
  df = sns.load_dataset('gapminder')
  ```
* Muestra las primeras filas
* ¿Qué variables incluye y de qué años trata?

---

# Reto 50. Análisis de esperanza de vida y PIB

* Representa `gdpPercap` vs `lifeExp`:

  ```python
  sns.scatterplot(data=df, x='gdpPercap', y='lifeExp', hue='continent')
  ```
* Calcula la correlación entre ambas
* Comenta si los países más ricos viven más

---

# Reto 51. Datos meteorológicos desde API Open-Meteo

* Objetivo: Conectarse a una API pública.
* Consulta la temperatura diaria en Madrid:

  ```python
  import requests, pandas as pd
  url = "https://api.open-meteo.com/v1/forecast?latitude=40.4&longitude=-3.7&daily=temperature_2m_max,temperature_2m_min&timezone=auto"
  data = requests.get(url).json()
  df = pd.DataFrame(data['daily'])
  ```
* Muestra las primeras filas
* Crea un gráfico de líneas con máximas y mínimas

---

# Reto 52. Cálculo de medias y amplitud térmica

* Usa el DataFrame del reto anterior
* Calcula la media de temperatura máxima y mínima
* Crea una nueva columna `rango` = `temp_max - temp_min`
* ¿Cuál fue el día con mayor diferencia térmica?

---

# Reto 53. API de terremotos (USGS)

* Carga datos recientes de terremotos:

  ```python
  url = "https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_day.geojson"
  data = requests.get(url).json()
  df = pd.json_normalize(data['features'])
  ```
* Muestra columnas clave: `properties.place`, `properties.mag`
* ¿Cuál fue el mayor terremoto registrado hoy?

---

# Reto 54. Análisis de magnitudes sísmicas

* Usa el DataFrame del reto anterior
* Calcula la media y desviación estándar de `properties.mag`
* Crea un histograma de magnitudes
* ¿Qué rango de magnitudes es más común?

---

# Reto 55. API de tipo financiero (CoinDesk Bitcoin)

* Obtén el precio actual del Bitcoin:

  ```python
  url = "https://api.coindesk.com/v1/bpi/currentprice.json"
  data = requests.get(url).json()
  ```
* Extrae el valor en USD:

  ```python
  data['bpi']['USD']['rate']
  ```
* Muestra la fecha de actualización y el precio

---

# Reto 56. Comparación de monedas

* Carga los precios en EUR y GBP del mismo endpoint
* Crea un pequeño DataFrame con las tres monedas
* Calcula la diferencia porcentual entre USD y EUR

---

# Reto 57. API de datos espaciales (NASA Astronomy Picture of the Day)

* Obtén la imagen astronómica del día:

  ```python
  url = "https://api.nasa.gov/planetary/apod?api_key=DEMO_KEY"
  data = requests.get(url).json()
  ```
* Muestra el título, fecha y explicación
* Abre la URL de la imagen (`data['url']`) en una celda de Colab

---

# Reto 58. Dataset Wine Quality

* Carga el dataset directamente desde URL:

  ```python
  url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/wine_quality.csv"
  df = pd.read_csv(url)
  ```
* Muestra las primeras filas y revisa las columnas
* ¿Cuántos vinos tienen calidad superior a 7?

---

# Reto 59. Análisis de correlaciones en vinos

* Calcula la matriz de correlación:

  ```python
  sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
  ```
* Indica qué variable tiene mayor correlación con la calidad

---

# Reto 60. Exportación de datos obtenidos por API

* Guarda los datos de temperatura (Reto 51) en un archivo CSV:

  ```python
  df.to_csv('temperaturas_madrid.csv', index=False)
  ```
* Carga el archivo nuevamente con `pd.read_csv`
* Verifica su tamaño y contenido

---

