# Introducción a Pandas: Estructuras de Datos y Operaciones Básicas

## ¿Qué es Pandas?

**Pandas** es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es una de las herramientas más importantes para el análisis de datos en Python.

## Principales Estructuras de Datos en Pandas

Pandas tiene dos estructuras de datos principales:

1. **Series**: Es como una columna de una tabla (array unidimensional con etiquetas)
2. **DataFrame**: Es como una tabla completa (estructura bidimensional con filas y columnas)

En este ejercicio aprenderemos a:
- Crear Series y DataFrames
- Acceder a los datos
- Realizar operaciones básicas
- Filtrar y manipular información

¡Comencemos con ejemplos prácticos usando datos de estudiantes! 📚

In [None]:
# Primero importamos pandas
import pandas as pd
import numpy as np

# Verificamos la versión de pandas
print(f"Versión de pandas: {pd.__version__}")
print("¡Pandas importado correctamente! 🐼")

## 1. Pandas Series - Como una columna de datos

Una **Series** es como una columna de una hoja de cálculo. Tiene:
- **Datos**: Los valores que contiene
- **Índice**: Las etiquetas para cada valor (por defecto son números)

Veamos ejemplos con calificaciones de estudiantes:

In [None]:
# Creamos una Series con calificaciones de matemáticas
calificaciones_matematicas = pd.Series([85, 92, 78, 96, 88])

print("🧮 Calificaciones de Matemáticas:")
print(calificaciones_matematicas)
print()

# Veamos qué tipo de objeto es
print(f"Tipo: {type(calificaciones_matematicas)}")
print(f"Forma: {calificaciones_matematicas.shape}")  # (número de elementos,)

In [None]:
# Ahora creamos una Series con índices personalizados (nombres de estudiantes)
nombres_estudiantes = ['Ana', 'Carlos', 'María', 'Pedro', 'Lucía']
calificaciones_con_nombres = pd.Series([85, 92, 78, 96, 88], index=nombres_estudiantes)

print("👨‍🎓 Calificaciones por estudiante:")
print(calificaciones_con_nombres)
print()

# Acceder a elementos específicos
print("📊 Operaciones básicas con Series:")
print(f"Calificación de María: {calificaciones_con_nombres['María']}")
print(f"Calificación más alta: {calificaciones_con_nombres.max()}")
print(f"Promedio: {calificaciones_con_nombres.mean():.1f}")
print(f"Estudiante con mejor calificación: {calificaciones_con_nombres.idxmax()}")

## 2. Pandas DataFrame - Como una tabla completa

Un **DataFrame** es como una hoja de cálculo o tabla de base de datos. Tiene:
- **Filas**: Cada fila representa un registro/observación
- **Columnas**: Cada columna representa una variable/característica
- **Índices**: Etiquetas para las filas (similar a Series)

Vamos a crear una tabla de información estudiantil completa:

In [None]:
# Método 1: Crear DataFrame desde un diccionario
datos_estudiantes = {
    'nombre': ['Ana', 'Carlos', 'María', 'Pedro', 'Lucía', 'David', 'Sofia'],
    'edad': [20, 19, 21, 20, 22, 19, 20],
    'carrera': ['Ingeniería', 'Psicología', 'Medicina', 'Ingeniería', 'Arte', 'Medicina', 'Psicología'],
    'matematicas': [85, 92, 78, 96, 88, 82, 90],
    'ciencias': [88, 85, 95, 89, 76, 91, 93],
    'idiomas': [92, 78, 88, 85, 94, 87, 96]
}

df_estudiantes = pd.DataFrame(datos_estudiantes)

print("🎓 Tabla de Estudiantes:")
print(df_estudiantes)
print()
print(f"Forma del DataFrame: {df_estudiantes.shape}")  # (filas, columnas)
print(f"Columnas: {list(df_estudiantes.columns)}")

In [None]:
# Información básica del DataFrame
print("📋 Información básica del DataFrame:")
print("\n1. Primeras 3 filas:")
print(df_estudiantes.head(3))

print("\n2. Últimas 3 filas:")
print(df_estudiantes.tail(3))

print("\n3. Información general:")
print(df_estudiantes.info())

print("\n4. Estadísticas descriptivas:")
print(df_estudiantes.describe())

## 3. Operaciones Básicas con DataFrames

Ahora veamos las operaciones más comunes que podemos hacer con nuestros datos:

In [None]:
# 3.1 SELECCIONAR COLUMNAS
print("🎯 Selección de Columnas:")
print("Solo nombres:")
print(df_estudiantes['nombre'])
print()

print("Múltiples columnas (nombre y edad):")
print(df_estudiantes[['nombre', 'edad']])
print()

# 3.2 SELECCIONAR FILAS POR ÍNDICE
print("📍 Selección de Filas:")
print("Primera fila (índice 0):")
print(df_estudiantes.iloc[0])  # iloc = por posición
print()

print("Filas 1 a 3:")
print(df_estudiantes.iloc[1:4])  # [inicio:fin] (fin no incluido)

In [None]:
# 3.3 FILTRAR DATOS (operaciones muy útiles!)
print("🔍 Filtrado de Datos:")

# Estudiantes mayores de 20 años
mayores_20 = df_estudiantes[df_estudiantes['edad'] > 20]
print("Estudiantes mayores de 20 años:")
print(mayores_20[['nombre', 'edad']])
print()

# Estudiantes de Ingeniería
ingenieros = df_estudiantes[df_estudiantes['carrera'] == 'Ingeniería']
print("Estudiantes de Ingeniería:")
print(ingenieros[['nombre', 'carrera']])
print()

# Estudiantes con calificación alta en matemáticas (>= 90)
matematicas_altas = df_estudiantes[df_estudiantes['matematicas'] >= 90]
print("Estudiantes con calificación alta en matemáticas (≥90):")
print(matematicas_altas[['nombre', 'matematicas']])

In [None]:
# 3.4 ESTADÍSTICAS Y AGREGACIONES
print("📊 Estadísticas por Materia:")
print(f"Promedio en Matemáticas: {df_estudiantes['matematicas'].mean():.1f}")
print(f"Promedio en Ciencias: {df_estudiantes['ciencias'].mean():.1f}")
print(f"Promedio en Idiomas: {df_estudiantes['idiomas'].mean():.1f}")
print()

print("Estadísticas por carrera:")
estadisticas_carrera = df_estudiantes.groupby('carrera')['matematicas'].agg(['count', 'mean', 'max'])
print(estadisticas_carrera)
print()

# 3.5 CREAR NUEVAS COLUMNAS
print("➕ Creando nueva columna (promedio general):")
df_estudiantes['promedio_general'] = (df_estudiantes['matematicas'] + 
                                     df_estudiantes['ciencias'] + 
                                     df_estudiantes['idiomas']) / 3

print(df_estudiantes[['nombre', 'promedio_general']].round(1))

In [None]:
# 3.6 ORDENAR DATOS
print("🔄 Ordenar por diferentes criterios:")

print("Por edad (menor a mayor):")
print(df_estudiantes[['nombre', 'edad']].sort_values('edad'))
print()

print("Por promedio general (mayor a menor):")
print(df_estudiantes[['nombre', 'promedio_general']].sort_values('promedio_general', ascending=False).round(1))
print()

# 3.7 FILTROS MÚLTIPLES
print("🎯 Filtros combinados:")
print("Estudiantes de Ingeniería con promedio >= 87:")
filtro_complejo = df_estudiantes[
    (df_estudiantes['carrera'] == 'Ingeniería') & 
    (df_estudiantes['promedio_general'] >= 87)
]
print(filtro_complejo[['nombre', 'carrera', 'promedio_general']].round(1))

## 4. ¡Tu turno! Ejercicios Prácticos 🚀

Ahora es momento de que practiques con los conceptos que acabamos de aprender. Aquí tienes algunos ejercicios:

In [None]:
# EJERCICIO 1: Crear tu propio DataFrame
# Crea un DataFrame con datos de tus películas favoritas
# Incluye: título, año, género, calificación (1-10)

# Tu código aquí:
peliculas = {
    'titulo': ['Matrix', 'Inception', 'Avengers', 'Titanic', 'Toy Story'],
    'año': [1999, 2010, 2012, 1997, 1995],
    'genero': ['Ciencia Ficción', 'Thriller', 'Acción', 'Drama', 'Animación'],
    'calificacion': [9, 9, 8, 7, 8]
}

df_peliculas = pd.DataFrame(peliculas)
print("🎬 Mis películas favoritas:")
print(df_peliculas)

In [None]:
# EJERCICIO 2: Filtros y estadísticas
print("📝 EJERCICIO 2 - Resuelve estas preguntas:")

# Pregunta A: ¿Cuál es la calificación promedio de las películas?
promedio_calif = df_peliculas['calificacion'].mean()
print(f"A) Calificación promedio: {promedio_calif}")

# Pregunta B: ¿Qué películas tienen calificación >= 8?
peliculas_altas = df_peliculas[df_peliculas['calificacion'] >= 8]
print(f"B) Películas con calificación ≥ 8:")
print(peliculas_altas[['titulo', 'calificacion']])

# Pregunta C: ¿Cuál es la película más antigua?
pelicula_antigua = df_peliculas.loc[df_peliculas['año'].idxmin()]
print(f"C) Película más antigua: {pelicula_antigua['titulo']} ({pelicula_antigua['año']})")

print()
print("💡 ¡Ahora inténtalo tú! Modifica el código para:")
print("   - Agregar más películas")
print("   - Encontrar películas por género")
print("   - Calcular el promedio por década")

In [None]:
# EJERCICIO 3: Espacio para tu práctica libre
print("🎯 EJERCICIO 3 - Espacio libre para practicar")
print("Usa este espacio para experimentar con los datos de estudiantes o películas")
print()

# Ejemplo de cosas que puedes probar:
print("Ideas para practicar:")
print("1. Agregar nuevos estudiantes al DataFrame")
print("2. Crear una columna que indique si el estudiante está 'aprobado' (promedio >= 70)")
print("3. Encontrar el estudiante más joven y más viejo")
print("4. Agrupar por carrera y ver estadísticas")
print("5. Filtrar estudiantes con múltiples condiciones")
print()

# Tu código de práctica aquí:
# (Descomenta y modifica las siguientes líneas como ejercicio)

# # Ejemplo: Estudiantes aprobados
# df_estudiantes['aprobado'] = df_estudiantes['promedio_general'] >= 70
# print(df_estudiantes[['nombre', 'promedio_general', 'aprobado']])

print("¡Adelante, experimenta!")