<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reto 1. Gesti√≥n de archivos en Google Colab
- Objetivo: Familiarizarse con la interfaz de Colab y la gesti√≥n b√°sica de archivos
- Descarga manualmente el dataset Titanic desde Kaggle:
  * Ve a https://www.kaggle.com/c/titanic/data
  * Descarga `train.csv` a tu computadora
- Sube el archivo manualmente a Google Colab usando el √≠cono de carpeta
- Carga el dataset usando Pandas: `df = pd.read_csv('train.csv')`
- Visualiza las primeras 5 filas con `.head()`
- Entiende que los archivos subidos manualmente se pierden al cerrar la sesi√≥n
- Monta Google Drive en Colab y guarda una copia del dataset all√≠
- Carga el archivo desde Drive y verifica la persistencia

---

# Reto 2. Carga directa desde URL y an√°lisis exploratorio
- Objetivo: Aprender a cargar datos directamente desde URLs
- Carga el dataset Titanic directamente desde una URL usando Pandas:
```python
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
```
- Verifica que la carga fue exitosa con `.shape` y `.head()`
- Explora los tipos de datos con `.dtypes`
- Usa `.info()` para obtener un resumen general del dataset
- Identifica valores nulos con `.isnull().sum()`
- Calcula estad√≠sticas descriptivas con `.describe()`
- Cuenta valores √∫nicos en columnas clave: "Sex", "Pclass", "Embarked"

---

# Reto 3. Datasets embebidos y an√°lisis de supervivencia
- Objetivo: Conocer datasets pre-cargados en librer√≠as y realizar an√°lisis b√°sico
- Carga el dataset Titanic desde la librer√≠a Seaborn:
```python
import seaborn as sns
df = sns.load_dataset('titanic')
```
- Es una versi√≥n simplificada, tiene menos columnas, como `PassengerId`, y algunas diferencias en nulos o formato.
- Calcula la proporci√≥n de supervivientes por sexo usando `groupby`.
- Calcula tambi√©n la proporci√≥n de supervivientes por clase ("pclass")
- Crea visualizaciones claras:
  * Gr√°fico de barras para supervivencia por sexo
  * Gr√°fico de barras para supervivencia por clase
- Usa matplotlib o seaborn para los gr√°ficos
- A√±ade t√≠tulos, etiquetas y porcentajes en las barras

---

# Reto 4. Limpieza b√°sica de datos
- Identifica las columnas con valores nulos
- Rellena los valores nulos en "Age" con la mediana
- Elimina la columna "Cabin" por tener demasiados valores nulos
- Crea una nueva columna "FamilySize" sumando SibSp + Parch

---

# Reto 5. Filtros y consultas b√°sicas
- Filtra los pasajeros de primera clase que sobrevivieron
- Encuentra el pasajero m√°s joven y el m√°s viejo
- Calcula la tarifa promedio por clase
- Filtra mujeres menores de 18 a√±os que sobrevivieron
- ¬øCu√°ntas mujeres menores de 18 sobrevivieron?

Excelente base üëè. Ya cubres **manejo de archivos, carga de datos, exploraci√≥n, limpieza y filtrado** con Titanic.
Te propongo **5 retos adicionales** basados en el dataset **Iris** (flores de iris), muy usado en introducci√≥n a data science. Mantienen la progresi√≥n natural y son breves, como tus ejemplos.

---

# Reto 6. Carga del dataset Iris
- Objetivo: Conocer otro dataset cl√°sico y su estructura
- Carga el dataset Iris desde Seaborn:

```python
import seaborn as sns
df = sns.load_dataset('iris')
```

- Muestra las primeras 5 filas
- Observa las columnas y tipos de datos con `.info()`
- Verifica si hay valores nulos con `.isnull().sum()`
- Calcula el n√∫mero de observaciones por especie con `.value_counts()`

---

# Reto 7. Estad√≠sticas descriptivas y visualizaci√≥n b√°sica
- Calcula las medias y desviaciones est√°ndar de cada variable num√©rica
- Usa `.groupby('species').mean()` para obtener estad√≠sticas por especie
- Crea un gr√°fico de pares con Seaborn:

```python
sns.pairplot(df, hue='species')
```

- Interpreta brevemente qu√© variables separan mejor las especies

---

# Reto 8. Correlaciones y relaciones entre variables
- Calcula la matriz de correlaci√≥n con `.corr()`
- Muestra la matriz como mapa de calor con Seaborn:

```python
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
```

- Explica qu√© dos variables est√°n m√°s correlacionadas y por qu√©

---

# Reto 9. Clasificaci√≥n de especies con una regla simple
- Crea una columna `'pred'` que clasifique como:
  - `'setosa'` si `petal_length < 2`
  - `'versicolor'` si `2 <= petal_length < 5`
  - `'virginica'` si `petal_length >= 5`
- Calcula la precisi√≥n simple: porcentaje de aciertos comparando `'pred'` con `'species'`
- Reflexiona: ¬øqu√© tan efectiva es esta regla?

---

# Reto 10. Visualizaci√≥n avanzada
- Usa `sns.boxplot` para comparar la distribuci√≥n de `sepal_width` por especie
- A√±ade un `sns.violinplot` o `sns.stripplot` para complementar la visualizaci√≥n
- Interpreta qu√© especie presenta mayor variabilidad en `sepal_width`

---

# Reto 11. Creaci√≥n de nuevas columnas
- Objetivo: Practicar operaciones con columnas.
- Crea una nueva columna `'sepal_area'` = `sepal_length * sepal_width`.
- Crea otra columna `'petal_area'` = `petal_length * petal_width`.
- Muestra las medias de ambas √°reas por especie.
- Comenta qu√© especie tiene, en promedio, p√©talos m√°s grandes.

---

# Reto 12. Ordenaci√≥n y selecci√≥n
- Ordena el DataFrame por `petal_length` de menor a mayor.
- Muestra las primeras 10 y las √∫ltimas 10 filas.
- Extrae solo las columnas `'species'`, `'petal_length'` y `'petal_width'`.
- ¬øCu√°l es el valor m√°ximo de `petal_length` y a qu√© especie pertenece?

---

# Reto 13. Agrupaciones y conteos
- Usa `groupby('species')` para calcular:
  - La media de `sepal_length`
  - El m√°ximo de `petal_width`
  - El n√∫mero de muestras (`.count()`)
- Crea un gr√°fico de barras con la media de `sepal_length` por especie.

---

# Reto 14. Filtrado combinado
- Filtra las filas donde `sepal_length > 6` **y** `petal_width < 1.5`.
- ¬øCu√°ntas flores cumplen esa condici√≥n?
- ¬øA qu√© especies pertenecen?
- Crea un gr√°fico de dispersi√≥n (`sns.scatterplot`) de esas flores resaltando la especie.

---

# Reto 15. Guardado de resultados
- Guarda el DataFrame original con las nuevas columnas (`sepal_area` y `petal_area`) en un archivo CSV:

  ```python
  df.to_csv('iris_modificado.csv', index=False)
  ```
- Verifica que el archivo se guard√≥ correctamente con `pd.read_csv`.
- ¬øCu√°ntas columnas tiene el nuevo dataset?
- Reflexiona: ¬øpor qu√© puede ser √∫til guardar versiones procesadas del dataset?

---

# Reto 16. Histogramas por variable
- Objetivo: Visualizar la distribuci√≥n de una variable num√©rica.
- Crea un histograma de `sepal_length` usando:

  ```python
  sns.histplot(df['sepal_length'], bins=10, kde=False)
  ```
- A√±ade t√≠tulo y etiquetas.
- ¬øQu√© rango de valores es m√°s frecuente?

---

# Reto 17. Histogramas por especie
- Crea un histograma de `petal_length` separado por especie:

  ```python
  sns.histplot(data=df, x='petal_length', hue='species', kde=True)
  ```
- Observa si las distribuciones se superponen o se separan bien.
- Reflexiona qu√© variable parece m√°s √∫til para distinguir especies.

---

# Reto 18. Boxplots para detectar valores at√≠picos
- Dibuja un boxplot de `sepal_width` por especie:

  ```python
  sns.boxplot(data=df, x='species', y='sepal_width')
  ```
- Interpreta:
  - ¬øCu√°l especie tiene mayor mediana?
  - ¬øCu√°l muestra m√°s variabilidad o posibles outliers?

---

# Reto 19. Densidades y comparaci√≥n de distribuciones
- Usa un gr√°fico de densidad para `petal_width` por especie:

  ```python
  sns.kdeplot(data=df, x='petal_width', hue='species', fill=True)
  ```
- ¬øQu√© especies tienen distribuciones bien separadas?
- ¬øPodr√≠a esta variable ser √∫til para clasificar las flores?

---

# Reto 20. Normalizaci√≥n simple
- Normaliza `sepal_length` y `petal_length` dividi√©ndolas por sus valores m√°ximos:

  ```python
  df['sepal_length_norm'] = df['sepal_length'] / df['sepal_length'].max()
  df['petal_length_norm'] = df['petal_length'] / df['petal_length'].max()
  ```
- Verifica que los nuevos valores est√©n entre 0 y 1.
- Crea un gr√°fico de dispersi√≥n comparando las versiones normalizadas.
- Reflexiona: ¬øpor qu√© la normalizaci√≥n es √∫til antes de aplicar modelos?

---

#  Reto 21. Medidas estad√≠sticas b√°sicas
- Calcula la **media**, **mediana** y **desviaci√≥n est√°ndar** de cada columna num√©rica.
- Usa `.mean()`, `.median()` y `.std()`.
- Compara visualmente los valores en una peque√±a tabla.
- Reflexiona: ¬øqu√© variable presenta m√°s variabilidad?

---

# Reto 22. Estad√≠sticas por grupo
- Calcula la media de todas las variables num√©ricas agrupando por especie:

  ```python
  df.groupby('species').mean()
  ```
- Identifica qu√© especie tiene el mayor `petal_length` promedio.
- Representa los resultados con un gr√°fico de barras para `petal_length`.

---

# Reto 23. Correlaciones
- Calcula la **matriz de correlaci√≥n** entre las variables num√©ricas con `.corr()`.
- Visual√≠zala con un mapa de calor:

  ```python
  sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
  ```
- Interpreta qu√© dos variables est√°n m√°s correlacionadas y por qu√©.

---

# Reto 24. Pairplot (gr√°fico de relaciones m√∫ltiples)
- Usa un pairplot para ver c√≥mo se relacionan todas las variables:

  ```python
  sns.pairplot(df, hue='species')
  ```
- Observa si las especies se separan bien en alg√∫n par de variables.
- Identifica qu√© combinaci√≥n de variables parece m√°s √∫til para distinguirlas.

---

# Reto 25. An√°lisis de relaciones lineales
- Representa `petal_length` vs `petal_width` con una l√≠nea de regresi√≥n:

  ```python
  sns.lmplot(data=df, x='petal_length', y='petal_width', hue='species')
  ```
- Analiza:
  - ¬øLas relaciones parecen lineales?
  - ¬øQu√© especie tiene la pendiente m√°s pronunciada?

---

# Reto 26. Tablas cruzadas

* Usa el dataset Titanic cargado con Seaborn
* Crea una tabla cruzada entre `'sex'` y `'class'`:

  ```python
  pd.crosstab(df['sex'], df['class'])
  ```
* A√±ade `'survived'` como valores:

  ```python
  pd.crosstab(df['sex'], df['class'], values=df['survived'], aggfunc='mean')
  ```
* Interpreta los resultados

---

# Reto 27. Exportaci√≥n a Excel

* Usa el dataset Iris modificado
* Exporta a Excel:

  ```python
  df.to_excel('iris.xlsx', index=False)
  ```
* Verifica leyendo con `pd.read_excel`
* ¬øCu√°ntas filas y columnas tiene el archivo?

---

# Reto 28. Exportaci√≥n a JSON

* Guarda el DataFrame en formato JSON:

  ```python
  df.to_json('iris.json', orient='records', indent=2)
  ```
* Abre y revisa su estructura
* Comenta ventajas frente a CSV

---

# Reto 29. Dataset Tips

* Carga el dataset:

  ```python
  import seaborn as sns
  df = sns.load_dataset('tips')
  ```
* Muestra las primeras filas
* Describe brevemente las variables

---

# Reto 30. An√°lisis de propinas

* Crea una columna con el porcentaje de propina:

  ```python
  df['tip_pct'] = df['tip'] / df['total_bill'] * 100
  ```
* Promedia por d√≠a y sexo con `groupby`
* ¬øQu√© d√≠a y qui√©n deja m√°s propina?

---

# Reto 31. Visualizaci√≥n de propinas

* Crea un boxplot de `tip_pct` por d√≠a:

  ```python
  sns.boxplot(data=df, x='day', y='tip_pct', hue='sex')
  ```
* Interpreta las diferencias entre grupos

---

# Reto 32. Relaci√≥n entre cuenta y propina

* Dibuja un gr√°fico de dispersi√≥n:

  ```python
  sns.scatterplot(data=df, x='total_bill', y='tip', hue='sex')
  ```
* Calcula la correlaci√≥n entre ambas variables

---

# Reto 33. Tablas cruzadas en Tips

* Crea una tabla cruzada entre d√≠a y turno:

  ```python
  pd.crosstab(df['day'], df['time'])
  ```
* Indica qu√© turno es m√°s frecuente los fines de semana

---

# Reto 34. Promedios agrupados m√∫ltiples

* Calcula el promedio de `total_bill` y `tip` agrupando por d√≠a y fumador:

  ```python
  df.groupby(['day', 'smoker'])[['total_bill', 'tip']].mean()
  ```
* Analiza si los fumadores dejan m√°s o menos propina

---

# Reto 35. Guardado de resumen final

* Guarda en CSV el resumen del reto anterior
* A√±ade fecha y hora al nombre del archivo con `datetime`
* Verifica que el archivo se cre√≥ correctamente

---

# Reto 36. Dataset Penguins

* Carga el dataset:

  ```python
  import seaborn as sns
  df = sns.load_dataset('penguins')
  ```
* Visualiza las primeras filas y usa `.info()`
* Verifica si hay valores nulos y cu√°ntos por columna
* ¬øCu√°ntas especies diferentes hay?

---

# Reto 37. Promedios por especie y sexo

* Calcula el promedio de `body_mass_g` agrupando por especie y sexo:

  ```python
  df.groupby(['species', 'sex'])['body_mass_g'].mean()
  ```
* ¬øQu√© especie presenta el mayor peso medio?

---

# Reto 38. Dispersi√≥n peso vs longitud

* Crea un gr√°fico de dispersi√≥n de `flipper_length_mm` vs `body_mass_g`:

  ```python
  sns.scatterplot(data=df, x='flipper_length_mm', y='body_mass_g', hue='species')
  ```
* Analiza la relaci√≥n entre tama√±o y peso

---

# Reto 39. Boxplot por isla

* Crea un boxplot de `body_mass_g` por `island`:

  ```python
  sns.boxplot(data=df, x='island', y='body_mass_g', hue='species')
  ```
* Comenta cu√°l isla tiene los ping√ºinos m√°s pesados

---

# Reto 40. Dataset Flights

* Carga el dataset de vuelos:

  ```python
  df = sns.load_dataset('flights')
  ```
* Muestra las primeras filas y revisa las columnas
* ¬øCu√°ntos a√±os y meses incluye el dataset?

---

# Reto 41. Pasajeros por a√±o

* Agrupa por a√±o y calcula el total de pasajeros:

  ```python
  df.groupby('year')['passengers'].sum()
  ```
* Crea un gr√°fico de l√≠neas mostrando la evoluci√≥n

---

# Reto 42. Mapa de calor mensual

* Crea una tabla pivote de pasajeros por a√±o y mes:

  ```python
  tabla = df.pivot('month', 'year', 'passengers')
  sns.heatmap(tabla, annot=True, fmt='d', cmap='Blues')
  ```
* Observa los meses con m√°s tr√°fico a√©reo

---

# Reto 43. Dataset MPG

* Carga el dataset de consumo de autos:

  ```python
  df = sns.load_dataset('mpg')
  ```
* Visualiza las primeras filas
* Revisa los tipos de combustible (`origin`) y los a√±os

---

# Reto 44. Eficiencia por cilindros

* Calcula el consumo promedio (`mpg`) por n√∫mero de cilindros:

  ```python
  df.groupby('cylinders')['mpg'].mean()
  ```
* Representa los resultados con un gr√°fico de barras

---

# Reto 45. Relaci√≥n potencia-consumo

* Crea un gr√°fico de dispersi√≥n entre `horsepower` y `mpg`:

  ```python
  sns.scatterplot(data=df, x='horsepower', y='mpg', hue='origin')
  ```
* Analiza si hay correlaci√≥n negativa entre ambas

---

# Reto 46. Dataset Diamonds

* Carga el dataset:

  ```python
  df = sns.load_dataset('diamonds')
  ```
* Observa las columnas y el tama√±o del dataset
* Muestra un resumen de los precios (`price`)

---

# Reto 47. Precio promedio por color y claridad

* Calcula el precio medio agrupando por color y claridad:

  ```python
  df.groupby(['color', 'clarity'])['price'].mean().round(0)
  ```
* ¬øQu√© combinaci√≥n resulta m√°s costosa?

---

# Reto 48. Relaci√≥n peso-precio

* Crea un gr√°fico de dispersi√≥n entre `carat` y `price`:

  ```python
  sns.scatterplot(data=df, x='carat', y='price', hue='cut')
  ```
* Analiza la tendencia general

---

# Reto 49. Dataset Gapminder (desarrollo global)

* Carga el dataset:

  ```python
  df = sns.load_dataset('gapminder')
  ```
* Muestra las primeras filas
* ¬øQu√© variables incluye y de qu√© a√±os trata?

---

# Reto 50. An√°lisis de esperanza de vida y PIB

* Representa `gdpPercap` vs `lifeExp`:

  ```python
  sns.scatterplot(data=df, x='gdpPercap', y='lifeExp', hue='continent')
  ```
* Calcula la correlaci√≥n entre ambas
* Comenta si los pa√≠ses m√°s ricos viven m√°s

---

# Reto 51. Datos meteorol√≥gicos desde API Open-Meteo

* Objetivo: Conectarse a una API p√∫blica.
* Consulta la temperatura diaria en Madrid:

  ```python
  import requests, pandas as pd
  url = "https://api.open-meteo.com/v1/forecast?latitude=40.4&longitude=-3.7&daily=temperature_2m_max,temperature_2m_min&timezone=auto"
  data = requests.get(url).json()
  df = pd.DataFrame(data['daily'])
  ```
* Muestra las primeras filas
* Crea un gr√°fico de l√≠neas con m√°ximas y m√≠nimas

---

# Reto 52. C√°lculo de medias y amplitud t√©rmica

* Usa el DataFrame del reto anterior
* Calcula la media de temperatura m√°xima y m√≠nima
* Crea una nueva columna `rango` = `temp_max - temp_min`
* ¬øCu√°l fue el d√≠a con mayor diferencia t√©rmica?

---

# Reto 53. API de terremotos (USGS)

* Carga datos recientes de terremotos:

  ```python
  url = "https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_day.geojson"
  data = requests.get(url).json()
  df = pd.json_normalize(data['features'])
  ```
* Muestra columnas clave: `properties.place`, `properties.mag`
* ¬øCu√°l fue el mayor terremoto registrado hoy?

---

# Reto 54. An√°lisis de magnitudes s√≠smicas

* Usa el DataFrame del reto anterior
* Calcula la media y desviaci√≥n est√°ndar de `properties.mag`
* Crea un histograma de magnitudes
* ¬øQu√© rango de magnitudes es m√°s com√∫n?

---

# Reto 55. API de tipo financiero (CoinDesk Bitcoin)

* Obt√©n el precio actual del Bitcoin:

  ```python
  url = "https://api.coindesk.com/v1/bpi/currentprice.json"
  data = requests.get(url).json()
  ```
* Extrae el valor en USD:

  ```python
  data['bpi']['USD']['rate']
  ```
* Muestra la fecha de actualizaci√≥n y el precio

---

# Reto 56. Comparaci√≥n de monedas

* Carga los precios en EUR y GBP del mismo endpoint
* Crea un peque√±o DataFrame con las tres monedas
* Calcula la diferencia porcentual entre USD y EUR

---

# Reto 57. API de datos espaciales (NASA Astronomy Picture of the Day)

* Obt√©n la imagen astron√≥mica del d√≠a:

  ```python
  url = "https://api.nasa.gov/planetary/apod?api_key=DEMO_KEY"
  data = requests.get(url).json()
  ```
* Muestra el t√≠tulo, fecha y explicaci√≥n
* Abre la URL de la imagen (`data['url']`) en una celda de Colab

---

# Reto 58. Dataset Wine Quality

* Carga el dataset directamente desde URL:

  ```python
  url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/wine_quality.csv"
  df = pd.read_csv(url)
  ```
* Muestra las primeras filas y revisa las columnas
* ¬øCu√°ntos vinos tienen calidad superior a 7?

---

# Reto 59. An√°lisis de correlaciones en vinos

* Calcula la matriz de correlaci√≥n:

  ```python
  sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
  ```
* Indica qu√© variable tiene mayor correlaci√≥n con la calidad

---

# Reto 60. Exportaci√≥n de datos obtenidos por API

* Guarda los datos de temperatura (Reto 51) en un archivo CSV:

  ```python
  df.to_csv('temperaturas_madrid.csv', index=False)
  ```
* Carga el archivo nuevamente con `pd.read_csv`
* Verifica su tama√±o y contenido

---

