<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reto 1. Gesti√≥n de archivos en Google Colab
- Objetivo: Familiarizarse con la interfaz de Colab y la gesti√≥n b√°sica de archivos
- Descarga manualmente el dataset Titanic desde Kaggle:
  * Ve a https://www.kaggle.com/c/titanic/data
  * Descarga `train.csv` a tu computadora
- Sube el archivo manualmente a Google Colab usando el √≠cono de carpeta
- Carga el dataset usando Pandas: `df = pd.read_csv('train.csv')`
- Visualiza las primeras 5 filas con `.head()`
- Entiende que los archivos subidos manualmente se pierden al cerrar la sesi√≥n
- Monta Google Drive en Colab y guarda una copia del dataset all√≠
- Carga el archivo desde Drive y verifica la persistencia

---

# Reto 2. Carga directa desde URL y an√°lisis exploratorio
- Objetivo: Aprender a cargar datos directamente desde URLs
- Carga el dataset Titanic directamente desde una URL usando Pandas:
```python
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
```
- Verifica que la carga fue exitosa con `.shape` y `.head()`
- Explora los tipos de datos con `.dtypes`
- Usa `.info()` para obtener un resumen general del dataset
- Identifica valores nulos con `.isnull().sum()`
- Calcula estad√≠sticas descriptivas con `.describe()`
- Cuenta valores √∫nicos en columnas clave: "Sex", "Pclass", "Embarked"

---

# Reto 3. Datasets embebidos y an√°lisis de supervivencia
- Objetivo: Conocer datasets pre-cargados en librer√≠as y realizar an√°lisis b√°sico
- Carga el dataset Titanic desde la librer√≠a Seaborn:
```python
import seaborn as sns
df = sns.load_dataset('titanic')
```
- Es una versi√≥n simplificada, tiene menos columnas, como `PassengerId`, y algunas diferencias en nulos o formato.
- Calcula la proporci√≥n de supervivientes por sexo usando `groupby`.
- Calcula tambi√©n la proporci√≥n de supervivientes por clase ("pclass")
- Crea visualizaciones claras:
  * Gr√°fico de barras para supervivencia por sexo
  * Gr√°fico de barras para supervivencia por clase
- Usa matplotlib o seaborn para los gr√°ficos
- A√±ade t√≠tulos, etiquetas y porcentajes en las barras

---

# Reto 4. Limpieza b√°sica de datos
- Identifica las columnas con valores nulos
- Rellena los valores nulos en "Age" con la mediana
- Elimina la columna "Cabin" por tener demasiados valores nulos
- Crea una nueva columna "FamilySize" sumando SibSp + Parch

---

# Reto 5. Filtros y consultas b√°sicas
- Filtra los pasajeros de primera clase que sobrevivieron
- Encuentra el pasajero m√°s joven y el m√°s viejo
- Calcula la tarifa promedio por clase
- Filtra mujeres menores de 18 a√±os que sobrevivieron
- ¬øCu√°ntas mujeres menores de 18 sobrevivieron?

Excelente base üëè. Ya cubres **manejo de archivos, carga de datos, exploraci√≥n, limpieza y filtrado** con Titanic.
Te propongo **5 retos adicionales** basados en el dataset **Iris** (flores de iris), muy usado en introducci√≥n a data science. Mantienen la progresi√≥n natural y son breves, como tus ejemplos.

---

# Reto 6. Carga del dataset Iris
- Objetivo: Conocer otro dataset cl√°sico y su estructura
- Carga el dataset Iris desde Seaborn:

```python
import seaborn as sns
df = sns.load_dataset('iris')
```

- Muestra las primeras 5 filas
- Observa las columnas y tipos de datos con `.info()`
- Verifica si hay valores nulos con `.isnull().sum()`
- Calcula el n√∫mero de observaciones por especie con `.value_counts()`

---

# Reto 7. Estad√≠sticas descriptivas y visualizaci√≥n b√°sica
- Calcula las medias y desviaciones est√°ndar de cada variable num√©rica
- Usa `.groupby('species').mean()` para obtener estad√≠sticas por especie
- Crea un gr√°fico de pares con Seaborn:

```python
sns.pairplot(df, hue='species')
```

- Interpreta brevemente qu√© variables separan mejor las especies

---

# Reto 8. Correlaciones y relaciones entre variables
- Calcula la matriz de correlaci√≥n con `.corr()`
- Muestra la matriz como mapa de calor con Seaborn:

```python
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
```

- Explica qu√© dos variables est√°n m√°s correlacionadas y por qu√©

---

# Reto 9. Clasificaci√≥n de especies con una regla simple
- Crea una columna `'pred'` que clasifique como:
  - `'setosa'` si `petal_length < 2`
  - `'versicolor'` si `2 <= petal_length < 5`
  - `'virginica'` si `petal_length >= 5`
- Calcula la precisi√≥n simple: porcentaje de aciertos comparando `'pred'` con `'species'`
- Reflexiona: ¬øqu√© tan efectiva es esta regla?

---

# Reto 10. Visualizaci√≥n avanzada
- Usa `sns.boxplot` para comparar la distribuci√≥n de `sepal_width` por especie
- A√±ade un `sns.violinplot` o `sns.stripplot` para complementar la visualizaci√≥n
- Interpreta qu√© especie presenta mayor variabilidad en `sepal_width`

---

# Reto 11. Creaci√≥n de nuevas columnas
- Objetivo: Practicar operaciones con columnas.
- Crea una nueva columna `'sepal_area'` = `sepal_length * sepal_width`.
- Crea otra columna `'petal_area'` = `petal_length - petal_width`.
- Muestra las medias de ambas √°reas por especie.
- Comenta qu√© especie tiene, en promedio, p√©talos m√°s grandes.

---

# Reto 12. Ordenaci√≥n y selecci√≥n
- Ordena el DataFrame por `petal_length` de menor a mayor.
- Muestra las primeras 10 y las √∫ltimas 10 filas.
- Extrae solo las columnas `'species'`, `'petal_length'` y `'petal_width'`.
- ¬øCu√°l es el valor m√°ximo de `petal_length` y a qu√© especie pertenece?

---

# Reto 13. Agrupaciones y conteos
- Usa `groupby('species')` para calcular:
  - La media de `sepal_length`
  - El m√°ximo de `petal_width`
  - El n√∫mero de muestras (`.count()`)
- Crea un gr√°fico de barras con la media de `sepal_length` por especie.

---

# Reto 14. Filtrado combinado
- Filtra las filas donde `sepal_length > 6` **y** `petal_width < 1.5`.
- ¬øCu√°ntas flores cumplen esa condici√≥n?
- ¬øA qu√© especies pertenecen?
- Crea un gr√°fico de dispersi√≥n (`sns.scatterplot`) de esas flores resaltando la especie.

---

# Reto 15. Guardado de resultados
- Guarda el DataFrame original con las nuevas columnas (`sepal_area` y `petal_area`) en un archivo CSV:

  ```python
  df.to_csv('iris_modificado.csv', index=False)
  ```
- Verifica que el archivo se guard√≥ correctamente con `pd.read_csv`.
- ¬øCu√°ntas columnas tiene el nuevo dataset?
- Reflexiona: ¬øpor qu√© puede ser √∫til guardar versiones procesadas del dataset?

---

# Reto 16. Histogramas por variable
- Objetivo: Visualizar la distribuci√≥n de una variable num√©rica.
- Crea un histograma de `sepal_length` usando:

  ```python
  sns.histplot(df['sepal_length'], bins=10, kde=False)
  ```
- A√±ade t√≠tulo y etiquetas.
- ¬øQu√© rango de valores es m√°s frecuente?

---

# Reto 17. Histogramas por especie
- Crea un histograma de `petal_length` separado por especie:

  ```python
  sns.histplot(data=df, x='petal_length', hue='species', kde=True)
  ```
- Observa si las distribuciones se superponen o se separan bien.
- Reflexiona qu√© variable parece m√°s √∫til para distinguir especies.

---

# Reto 18. Boxplots para detectar valores at√≠picos
- Dibuja un boxplot de `sepal_width` por especie:

  ```python
  sns.boxplot(data=df, x='species', y='sepal_width')
  ```
- Interpreta:
  - ¬øCu√°l especie tiene mayor mediana?
  - ¬øCu√°l muestra m√°s variabilidad o posibles outliers?

---

# Reto 19. Densidades y comparaci√≥n de distribuciones
- Usa un gr√°fico de densidad para `petal_width` por especie:

  ```python
  sns.kdeplot(data=df, x='petal_width', hue='species', fill=True)
  ```
- ¬øQu√© especies tienen distribuciones bien separadas?
- ¬øPodr√≠a esta variable ser √∫til para clasificar las flores?

---

# Reto 20. Normalizaci√≥n simple
- Normaliza `sepal_length` y `petal_length` dividi√©ndolas por sus valores m√°ximos:

  ```python
  df['sepal_length_norm'] = df['sepal_length'] / df['sepal_length'].max()
  df['petal_length_norm'] = df['petal_length'] / df['petal_length'].max()
  ```
- Verifica que los nuevos valores est√©n entre 0 y 1.
- Crea un gr√°fico de dispersi√≥n comparando las versiones normalizadas.
- Reflexiona: ¬øpor qu√© la normalizaci√≥n es √∫til antes de aplicar modelos?

---

#  Reto 21. Medidas estad√≠sticas b√°sicas
- Calcula la **media**, **mediana** y **desviaci√≥n est√°ndar** de cada columna num√©rica.
- Usa `.mean()`, `.median()` y `.std()`.
- Compara visualmente los valores en una peque√±a tabla.
- Reflexiona: ¬øqu√© variable presenta m√°s variabilidad?

---

# Reto 22. Estad√≠sticas por grupo
- Calcula la media de todas las variables num√©ricas agrupando por especie:

  ```python
  df.groupby('species').mean()
  ```
- Identifica qu√© especie tiene el mayor `petal_length` promedio.
- Representa los resultados con un gr√°fico de barras para `petal_length`.

---

# Reto 23. Correlaciones
- Calcula la **matriz de correlaci√≥n** entre las variables num√©ricas con `.corr()`.
- Visual√≠zala con un mapa de calor:

  ```python
  sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
  ```
- Interpreta qu√© dos variables est√°n m√°s correlacionadas y por qu√©.

---

# Reto 24. Pairplot (gr√°fico de relaciones m√∫ltiples)
- Usa un pairplot para ver c√≥mo se relacionan todas las variables:

  ```python
  sns.pairplot(df, hue='species')
  ```
- Observa si las especies se separan bien en alg√∫n par de variables.
- Identifica qu√© combinaci√≥n de variables parece m√°s √∫til para distinguirlas.

---

# Reto 25. An√°lisis de relaciones lineales
- Representa `petal_length` vs `petal_width` con una l√≠nea de regresi√≥n:

  ```python
  sns.lmplot(data=df, x='petal_length', y='petal_width', hue='species')
  ```
- Analiza:
  - ¬øLas relaciones parecen lineales?
  - ¬øQu√© especie tiene la pendiente m√°s pronunciada?

---


