# Ejercicios Pandas - DataFrames

Este notebook contiene ejercicios prácticos sobre los conceptos principales de DataFrames en Pandas. Cada sección corresponde a un concepto específico del tutorial de Pandas.

## Instrucciones
- Lee cuidadosamente cada enunciado
- Escribe tu solución en la celda de código correspondiente
- Usa las celdas de código vacías para desarrollar tus respuestas
- No modifiques las celdas de enunciado

## Configuración de Datos
Algunos ejercicios utilizan datasets reales. Puedes descargar los datos desde:
https://github.com/ricardoahumada/DataScienceBasics/tree/main/data

Los datasets incluyen: iris.csv, titanic.csv, colesterol.csv, flights14.csv, FoodMarket.xlsx, housing.csv, frutas.csv, Purchases.csv y más.

# 1. Creación de DataFrames

## Concepto: Creación de un DataFrame a partir de diferentes fuentes de datos

### Ejercicio 1.1: Crear DataFrame desde diccionario de listas

Crea un DataFrame que contenga información de estudiantes con las siguientes columnas:
- `nombre`: Lista de nombres de 5 estudiantes
- `edad`: Lista de edades (18-25 años)
- `carrera`: Lista de carreras (Ingeniería, Medicina, Derecho, Economía, Arquitectura)
- `semestre`: Lista de semestres (1-8)

Muestra el DataFrame creado y verifica sus dimensiones.

### Ejercicio 1.2: Crear DataFrame desde lista de listas

Crea un DataFrame a partir de una lista de listas que contenga datos de productos:
- Datos de 6 productos: [id, nombre, precio, categoría]
- Define manualmente los nombres de las columnas
- Asigna índices personalizados (P001, P002, P003, P004, P005, P006)

Muestra el DataFrame con sus índices y columnas.

### Ejercicio 1.3: Crear DataFrame desde archivo CSV

Carga el dataset de iris desde el archivo CSV y realiza las siguientes operaciones:
- Carga el archivo 'iris.csv' desde el repositorio de datos
- Muestra las primeras 10 filas del DataFrame
- Verifica las dimensiones del DataFrame (filas x columnas)
- Muestra los tipos de datos de cada columna
- Muestra un resumen estadístico de las columnas numéricas

Este ejercicio te ayudará a practicar la carga de datos desde archivos externos.

### Ejercicio 1.4: Cargar datos desde diferentes formatos

Practica la carga de datos desde diferentes formatos usando los datasets del repositorio:
- Carga el archivo 'frutas.csv' y muestra su estructura
- Carga el archivo 'frutas.json' y muestra su estructura
- Compara ambos datasets (¿tienen la misma información?)
- Carga el archivo 'Purchases.csv' y analiza sus columnas
- Carga el archivo 'Purchases.json' y compara con la versión CSV
- Experimenta con diferentes parámetros de carga (sep, encoding, etc.)

Este ejercicio te ayudará a entender las diferencias entre formatos y parámetros de carga.

# 2. Atributos de DataFrames

## Concepto: Propiedades y características básicas de un DataFrame

### Ejercicio 2.1: Explorar atributos básicos con dataset Titanic

Carga el dataset del Titanic y explora sus atributos básicos:
- Carga el archivo 'titanic.csv' desde el repositorio de datos
- Muestra las primeras 5 filas y las últimas 3 filas
- Muestra el shape (dimensiones) del DataFrame
- Lista todas las columnas del DataFrame
- Muestra los tipos de datos de cada columna
- Verifica si hay valores nulos y en qué columnas

Este dataset contiene información sobre los pasajeros del Titanic y es ideal para practicar la exploración inicial de datos.

### Ejercicio 2.2: Información general del DataFrame Titanic

Continuando con el dataset del Titanic del ejercicio anterior, utiliza los métodos de información para mostrar:
- Resumen estadístico de las columnas numéricas (describe())
- Información general del DataFrame usando info()
- Conteo de valores nulos por columna
- Porcentaje de valores nulos por columna
- Valores únicos en las columnas categóricas

### Ejercicio 2.3: Propiedades específicas del dataset Titanic

Continuando con el dataset del Titanic, muestra:
- Los valores únicos de las columnas 'Sex' y 'Embarked'
- El número de valores únicos en cada columna
- Los índices del DataFrame (primeras 10 y últimas 5 posiciones)
- Verifica si el índice tiene un nombre asignado
- Muestra la frecuencia de valores en la columna 'Pclass'

# 3. Acceso a Elementos y Filtrado

## Concepto: Selección de datos específicos usando diferentes métodos de indexación

### Ejercicio 3.1: Acceso por posición

Dado un DataFrame de calificaciones de estudiantes, realiza las siguientes selecciones por posición:
- Selecciona la primera fila completa
- Selecciona las primeras 3 filas
- Selecciona la columna 2 (tercera columna)
- Selecciona un bloque de 2 filas x 3 columnas desde la posición (1,1)

```python
calificaciones = {
    'Estudiante': ['Ana', 'Luis', 'Carmen', 'Pedro', 'María', 'José'],
    'Matemáticas': [8.5, 7.0, 9.2, 6.5, 8.8, 7.5],
    'Física': [7.8, 8.2, 8.9, 7.0, 9.0, 8.1],
    'Química': [9.0, 7.5, 9.5, 6.8, 8.5, 7.9],
    'Biología': [8.2, 7.8, 8.7, 7.2, 9.1, 8.0]
}
df_calif = pd.DataFrame(calificaciones)
```

### Ejercicio 3.2: Acceso por etiquetas

Usando el DataFrame de calificaciones, realiza las siguientes selecciones por etiqueta:
- Selecciona los datos del estudiante 'Luis'
- Selecciona las columnas 'Matemáticas' y 'Física'
- Selecciona la celda correspondiente al estudiante 'Carmen' en la materia 'Química'
- Selecciona las filas de 'Ana' a 'María' (inclusive)

### Ejercicio 3.3: Filtrado con condiciones

Aplica las siguientes condiciones de filtrado al DataFrame de calificaciones:
- Estudiantes con promedio mayor a 8.0
- Estudiantes que tengan calificación mayor a 8.5 en Matemáticas
- Estudiantes del rango de posición 1 a 3 (usando iloc)
- Estudiantes que tengan todas las calificaciones mayores a 7.5

### Ejercicio 3.4: Filtrado avanzado con datos de vuelos

Practica técnicas avanzadas de filtrado usando el dataset de vuelos:
- Carga el archivo 'flights14.csv' desde el repositorio de datos
- Filtra vuelos con retraso de salida mayor a 30 minutos
- Filtra vuelos de un origen específico (ej: 'JFK')
- Combina condiciones: origen + retraso + mes específico
- Usa query() para realizar filtros complejos
- Filtra usando isin() para múltiples valores de una columna
- Encuentra vuelos con los mayores retrasos usando nlargest()

Este ejercicio te ayudará a dominar técnicas avanzadas de filtrado con datos reales.

# 4. Operaciones con Columnas

## Concepto: Manipulación y análisis de columnas en un DataFrame

### Ejercicio 4.1: Análisis de datos médicos - Columnas

Carga el dataset de colesterol y realiza las siguientes operaciones con columnas:
- Carga el archivo 'colesterol.csv' desde el repositorio de datos
- Selecciona solo las columnas numéricas del DataFrame
- Renombra las columnas usando nombres más descriptivos en español
- Crea una nueva columna 'IMC_Categoria' que clasifique el IMC (Índice de Masa Corporal)
- Crea una columna 'Rango_Colesterol' que indique si el colesterol es 'Alto' (>240), 'Moderado' (200-240) o 'Normal' (<200)

Este ejercicio te ayudará a practicar la manipulación de columnas con datos médicos reales.

### Ejercicio 4.2: Operaciones aritméticas entre columnas

Usando el DataFrame de ventas, realiza las siguientes operaciones:
- Crea una columna 'Descuento_10' con un descuento del 10% sobre el precio
- Crea una columna 'Precio_Final' que sea precio - descuento
- Calcula el total de ingresos por producto (precio × cantidad_vendida)
- Encuentra el producto con mayor margen de ganancia (asumiendo costo = precio * 0.6)

### Ejercicio 4.3: Análisis estadístico por columnas

Para el DataFrame de ventas, muestra:
- Estadísticas descriptivas de las columnas numéricas
- El valor máximo y mínimo en cada columna numérica
- La suma total de todas las ventas
- La media de precios por categoría de producto

### Ejercicio 4.4: Análisis de datos de vivienda

Carga y analiza el dataset de housing para practicar operaciones avanzadas con columnas:
- Carga el archivo 'housing.csv' desde el repositorio de datos
- Crea una columna 'Precio_Por_M2' si existe información de precio y área
- Crea categorías de precio (Alto, Medio, Bajo) usando quantiles
- Calcula correlaciones entre las variables numéricas
- Identifica las columnas con mayor variabilidad
- Crea una columna binaria que indique si el valor está por encima de la mediana

Este ejercicio combina operaciones aritméticas, estadísticas y creación de variables categóricas.

# 5. Operaciones con Filas

## Concepto: Manipulación y análisis de filas en un DataFrame

### Ejercicio 5.1: Filtrado y selección de filas

Dado un DataFrame de películas, realiza las siguientes operaciones con filas:
- Selecciona las películas con calificación mayor a 8.0
- Selecciona las películas del género 'Drama'
- Selecciona las películas estrenadas después del año 2000
- Selecciona las 5 películas más recientes

```python
peliculas = {
    'titulo': ['El Padrino', 'Titanic', 'Matrix', 'Forrest Gump', 'El Rey León', 'Gladiator', 'Pulp Fiction', 'El Señor de los Anillos'],
    'año': [1972, 1997, 1999, 1994, 1994, 2000, 1994, 2001],
    'calificacion': [9.2, 7.9, 8.7, 8.8, 8.5, 8.5, 8.9, 8.9],
    'genero': ['Drama', 'Romance', 'Acción', 'Drama', 'Animación', 'Acción', 'Drama', 'Fantasía'],
    'duracion': [175, 194, 136, 142, 88, 155, 154, 178]
}
df_peliculas = pd.DataFrame(peliculas)
```

### Ejercicio 5.2: Agregar y eliminar filas

Usando el DataFrame de películas, realiza las siguientes operaciones:
- Agrega una nueva película con datos: título='Inception', año=2010, calificación=8.8, genero='Ciencia Ficción', duración=148
- Elimina la película más antigua del DataFrame
- Elimina las películas con duración menor a 90 minutos
- Crea un DataFrame con solo las películas de Drama

### Ejercicio 5.3: Ordenamiento de filas

Para el DataFrame de películas, ordena las filas según diferentes criterios:
- Por calificación de mayor a menor
- Por año de estreno (más recientes primero)
- Por duración (de menor a mayor)
- Por título alfabéticamente

# 6. Ordenar DataFrames

## Concepto: Técnicas de ordenamiento de datos en DataFrames

### Ejercicio 6.1: Ordenamiento simple

Dado un DataFrame de temperaturas de ciudades durante una semana, realiza los siguientes ordenamientos:
- Ordena por temperatura máxima (de mayor a menor)
- Ordena por nombre de ciudad alfabéticamente
- Ordena por temperatura mínima (de menor a mayor)

```python
temperaturas = {
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao', 'Zaragoza'],
    'temp_max': [28, 26, 29, 32, 24, 30],
    'temp_min': [18, 19, 20, 22, 16, 19],
    'humedad': [45, 60, 55, 40, 70, 50]
}
df_temp = pd.DataFrame(temperaturas)
```

### Ejercicio 6.2: Ordenamiento por múltiples columnas

Usando el DataFrame de temperaturas, ordena por:
- Humedad (ascendente) y luego por temperatura máxima (descendente)
- Temperatura mínima (ascendente) y luego por ciudad (alfabético)
- Realiza un ordenamiento donde la humedad tenga prioridad sobre la temperatura máxima, ambos en orden ascendente

### Ejercicio 6.3: Ordenamiento con valores NaN

Modifica el DataFrame de temperaturas introduciendo algunos valores NaN en las columnas de temperatura y humedad. Luego:
- Ordena manteniendo los NaN al final
- Ordena poniendo los NaN al principio
- Ordena ignorando los valores NaN

# 7. Agrupación de DataFrames

## Concepto: Técnicas de grouping y agregación de datos

### Ejercicio 7.1: Agrupación con datos de mercado alimentario

Carga el dataset de FoodMarket y realiza agrupaciones básicas:
- Carga el archivo 'FoodMarket.xlsx' desde el repositorio de datos
- Explora la estructura del archivo (puede tener múltiples hojas)
- Agrupa por categoría de producto y calcula el total de ventas
- Agrupa por región y calcula el promedio de precios
- Agrupa por tipo de producto y cuenta el número de transacciones

Este ejercicio te ayudará a practicar grouping con datos comerciales reales.

### Ejercicio 7.2: Agrupación por múltiples columnas

Usando el DataFrame de ventas por región:
- Agrupa por región y producto, calcula el total de ventas
- Agrupa por vendedor y producto, encuentra el máximo de ventas
- Agrupa por región y vendedor, calcula el promedio de ventas y muestra también el conteo

### Ejercicio 7.3: Funciones de agregación personalizadas

Para el DataFrame de ventas por región:
- Agrupa por región y aplica múltiples funciones: suma, promedio, mínimo, máximo
- Agrupa por región y encuentra la región con las ventas más altas y más bajas
- Agrupa por región y producto, calcula el rango de ventas (máximo - mínimo)

# 8. Combinar DataFrames

## Concepto: Técnicas de concatenación y merge de DataFrames

### Ejercicio 8.1: Concatenación de DataFrames

Crea dos DataFrames de estudiantes de diferentes semestres y concaténalos:
- DataFrame 1: Estudiantes de primer semestre
- DataFrame 2: Estudiantes de segundo semestre
- Concatena verticalmente (por filas)
- Concatena horizontalmente (por columnas)

```python
# Primer semestre
estudiantes_1 = {
    'nombre': ['Ana', 'Luis', 'Carmen'],
    'edad': [18, 19, 18],
    'carrera': ['Medicina', 'Ingeniería', 'Derecho']
}

# Segundo semestre
estudiantes_2 = {
    'nombre': ['Pedro', 'María', 'José'],
    'edad': [19, 20, 18],
    'carrera': ['Economía', 'Arquitectura', 'Medicina']
}
```

### Ejercicio 8.2: Merge con datos de FoodMarket

Utiliza el archivo FoodMarket.xlsx que puede contener múltiples hojas para practicar merge:
- Carga las diferentes hojas del archivo FoodMarket.xlsx
- Identifica las relaciones entre las hojas (keys comunes)
- Realiza un merge interno (inner join) entre las hojas relacionadas
- Realiza un merge externo (outer join) para incluir todos los registros
- Realiza un merge por la izquierda (left join) usando una hoja como base
- Analiza las diferencias en los resultados obtenidos

Este ejercicio te ayudará a practicar merge con datos estructurados reales.

### Ejercicio 8.3: Join con múltiples condiciones

Crea DataFrames de pedidos y clientes, luego realiza joins considerando múltiples columnas:
- DataFrame de pedidos con fecha y cliente
- DataFrame de clientes con información detallada
- Realiza join por ID de cliente
- Realiza join por múltiples condiciones si es posible

# 9. Tablas de Frecuencia

## Concepto: Creación de tablas cruzadas y análisis de frecuencias

### Ejercicio 9.1: Tablas cruzadas básicas

Dado un DataFrame de preferencias de usuarios, crea tablas cruzadas:
- Tabla cruzada de género vs preferencia de producto
- Tabla cruzada de edad vs género
- Tabla cruzada con márgenes (totales)

```python
preferencias = {
    'usuario': ['U001', 'U002', 'U003', 'U004', 'U005', 'U006', 'U007', 'U008'],
    'genero': ['F', 'M', 'F', 'M', 'F', 'M', 'F', 'M'],
    'edad': [25, 30, 35, 28, 32, 27, 33, 29],
    'producto_pref': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B']
}
df_pref = pd.DataFrame(preferencias)
```

### Ejercicio 9.2: Tablas cruzadas con funciones de agregación

Usando el DataFrame de preferencias:
- Crea una tabla cruzada de género vs producto_pref mostrando la edad promedio
- Crea una tabla cruzada de género vs producto_pref mostrando la edad máxima
- Crea una tabla cruzada normalizada (porcentajes)

### Ejercicio 9.3: Análisis de frecuencias con grouping

Para el DataFrame de preferencias:
- Agrupa por género y cuenta las frecuencias
- Agrupa por producto preferido y calcula estadísticas de edad
- Crea grupos de edad (18-25, 26-30, 31-35) y analiza las preferencias por grupo

# 10. Reestructurar DataFrames

## Concepto: Transformación entre formatos ancho y largo, melt y pivot

### Ejercicio 10.1: Convertir de formato ancho a largo

Dado un DataFrame en formato ancho (ventas mensuales por producto), conviértelo a formato largo:
- DataFrame con productos como filas y meses como columnas
- Usar melt para convertir a formato largo
- Identificar las columnas que se mantienen fijas y las que se reestructuran

```python
ventas_ancho = {
    'producto': ['Producto_A', 'Producto_B', 'Producto_C'],
    'enero': [100, 150, 200],
    'febrero': [120, 180, 190],
    'marzo': [110, 160, 210],
    'abril': [130, 170, 220]
}
df_ancho = pd.DataFrame(ventas_ancho)
```

### Ejercicio 10.2: Convertir de formato largo a ancho

Usando el DataFrame en formato largo del ejercicio anterior:
- Conviértelo de vuelta a formato ancho usando pivot
- Verifica que los datos sean consistentes con el DataFrame original
- Experimenta con diferentes configuraciones de pivot

### Ejercicio 10.3: Reestructuración avanzada

Crea un DataFrame con múltiples variables que necesite reestructuración compleja:
- Incluye tanto datos cuantitativos como cualitativos
- Aplica melt con parámetros específicos
- Aplica pivot_table para agregar datos
- Compara los resultados obtenidos

## Resumen de Ejercicios

Has completado ejercicios sobre los siguientes conceptos de DataFrames:

1. **Creación de DataFrames**: Desde diferentes fuentes de datos
2. **Atributos de DataFrames**: Propiedades y características básicas
3. **Acceso a Elementos**: Indexación y filtrado
4. **Operaciones con Columnas**: Manipulación y análisis
5. **Operaciones con Filas**: Filtrado y manipulación
6. **Ordenar DataFrames**: Técnicas de ordenamiento
7. **Agrupación de DataFrames**: Groupby y agregación
8. **Combinar DataFrames**: Concatenación y merge
9. **Tablas de Frecuencia**: Tablas cruzadas
10. **Reestructurar DataFrames**: Transformación de formatos

Cada ejercicio está diseñado para practicar conceptos específicos usando datos simples y claros. ¡Sigue practicando para dominar las técnicas de Pandas con DataFrames!