# 1.  **Título del Tema**


**Manejo de Datos en Python: Introducción a `Pandas`, `NumPy` y `openpyxl`**

# 2.  **Explicación Conceptual Detallada**


**¿Qué son y para qué se utilizan?**


**A. NumPy: La Base Numérica**

*   **Definición y Propósito:** NumPy es la librería fundamental para la computación científica en Python. Su objeto principal es el `ndarray` (N-dimensional array), una estructura de datos que almacena elementos del mismo tipo (generalmente números) en una cuadrícula de dimensiones variables.
*   **¿Por qué se utiliza?** Las listas de Python son flexibles pero lentas para operaciones matemáticas. Un `ndarray` de NumPy está implementado en C y almacena los datos en un bloque de memoria contiguo. Esto permite que las operaciones se realicen a nivel de "código compilado" (mucho más rápido) en lugar de interpretar cada operación en Python. A esto se le llama **vectorización**.
*   **Ventajas:**
    *   **Rendimiento:** Extremadamente rápido para operaciones matemáticas.
    *   **Eficiencia de Memoria:** Más compacto que las listas de Python para almacenar datos numéricos.
    *   **Funcionalidad:** Ofrece una vasta colección de funciones matemáticas de alto nivel.
*   **Buenas Prácticas:** Siempre que vayas a realizar operaciones matemáticas sobre una secuencia de números, usa un array de NumPy en lugar de una lista.

**B. Pandas: El Estándar para el Análisis de Datos**

*   **Definición y Propósito:** Pandas es una librería construida sobre NumPy, diseñada para trabajar con datos "tabulares" o "relacionales" de forma fácil e intuitiva. Proporciona estructuras de datos de alto nivel y herramientas para limpiar, transformar, analizar y visualizar datos.
*   **Conceptos Clave:**
    *   **`Series`:** Un array unidimensional etiquetado, similar a una columna en una hoja de cálculo. Cada elemento tiene un índice.
    *   **`DataFrame`:** Una estructura bidimensional, similar a una tabla de una base de datos o una hoja de Excel. Es la herramienta principal de Pandas. Consta de filas y columnas, donde cada columna es una `Series`.
*   **¿Pandas o Polars?**
    *   **Pandas** es el estándar de la industria, con una comunidad masiva y una integración perfecta con casi todas las demás librerías de datos de Python. Para aprender los fundamentos, **Pandas es la mejor opción pedagógica**.
    *   **Polars** es una alternativa más moderna y extremadamente rápida, escrita en Rust. Utiliza todos los núcleos de tu CPU por defecto. Es una excelente librería para aprender *después* de dominar Pandas, especialmente cuando trabajes con datasets muy grandes. Hoy nos centraremos en Pandas para construir una base sólida.
*   **Ventajas:**
    *   **Manejo de Datos Faltantes:** Herramientas robustas para encontrar y tratar valores `NaN` (Not a Number).
    *   **Carga y Escritura de Datos:** Lee y escribe fácilmente desde/hacia múltiples formatos (CSV, Excel, SQL, etc.).
    *   **Manipulación Potente:** Permite filtrar, agrupar (groupby), fusionar (merge), pivotar y remodelar datos con facilidad.
*   **Error Común:** Un error común es intentar iterar sobre un DataFrame fila por fila con un bucle `for`. Esto es muy ineficiente. La forma "pandástica" de pensar es usar operaciones vectorizadas, que se aplican a columnas enteras a la vez.

**C. Openpyxl: El Motor de Excel**

*   **Definición y Propósito:** Es una librería que permite a Python leer y escribir archivos de Excel 2010 (`.xlsx`).
*   **¿Cómo funciona?** Pandas la utiliza como un "motor" (engine). Cuando tú escribes `pd.read_excel('mi_archivo.xlsx')`, Pandas llama internamente a `openpyxl` para que haga el trabajo pesado de interpretar el archivo Excel y devolver los datos en un formato que Pandas entienda. No necesitas interactuar directamente con `openpyxl` para tareas básicas, pero sí **necesitas tenerla instalada**.

# 3.  **Sintaxis y Ejemplos Básicos**


In [6]:
# Primero, asegúrate de que las librerías están instaladas.
# Puedes ejecutar esto directamente en una celda de Jupyter.
# !pip install pandas numpy openpyxl

# Ahora, importemos las librerías con sus alias estándar.
import numpy as np
import pandas as pd

# --- NumPy Básico ---
# Crear un array de NumPy desde una lista de Python
lista_numeros = [1, 2, 3, 4, 5]
array_np = np.array(lista_numeros)
print("Array de NumPy:")
print(array_np)
# Realizar una operación vectorizada (multiplicar todo por 2)
print("\nArray multiplicado por 2:")
print(array_np * 2)

# --- Pandas Básico ---
# Crear una Serie de Pandas (una columna)
serie_pd = pd.Series(['a', 'b', 'c', 'd'], name='Letras')
print("\nSerie de Pandas:")
print(serie_pd)

# Crear un DataFrame de Pandas (una tabla) desde un diccionario
datos = {
    'Nombre': ['Ana', 'Luis', 'Marta', 'Juan'],
    'Edad': [28, 34, 29, 42],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Madrid']
}
df = pd.DataFrame(datos)
print("\nDataFrame de Pandas:")
print(df)

Array de NumPy:
[1 2 3 4 5]

Array multiplicado por 2:
[ 2  4  6  8 10]

Serie de Pandas:
0    a
1    b
2    c
3    d
Name: Letras, dtype: object

DataFrame de Pandas:
  Nombre  Edad     Ciudad
0    Ana    28     Madrid
1   Luis    34  Barcelona
2  Marta    29   Valencia
3   Juan    42     Madrid


# 4.  **Documentación y Recursos Clave**


*   **Documentación Oficial:**
    *   [Documentación de Pandas](https://pandas.pydata.org/docs/)
    *   [Documentación de NumPy](https://numpy.org/doc/stable/)
    *   [Documentación de openpyxl](https://openpyxl.readthedocs.io/en/stable/)

*   **Recursos Externos de Alta Calidad:**
    *   [**10 Minutes to pandas**](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html): El tutorial oficial de inicio rápido. ¡Muy recomendado!
    *   [**NumPy: The Absolute Basics for Beginners**](https://numpy.org/doc/stable/user_guide/absolute_beginners.html): Una guía muy amigable para empezar con NumPy.

# 5.  **Ejemplos de Código Prácticos**


#### **Ejemplo 1: Creación, Inspección y Selección Básica en un DataFrame**

In [8]:
import pandas as pd

# Datos de empleados
data = {
    'ID_Empleado': [101, 102, 103, 104, 105],
    'Nombre': ['Carlos', 'Sofia', 'Pedro', 'Laura', 'David'],
    'Departamento': ['Ventas', 'IT', 'Ventas', 'Marketing', 'IT'],
    'Salario': [50000, 75000, 52000, 60000, 80000],
    'Fecha_Contrato': pd.to_datetime(['2021-06-01', '2020-03-15', '2021-07-20', '2022-01-10', '2019-11-05'])
}
empleados_df = pd.DataFrame(data)

# --- Inspección del DataFrame ---
print("--- Primeras 3 filas del DataFrame ---")
print(empleados_df.head(3))

print("\n--- Información general del DataFrame ---")
empleados_df.info()

print("\n--- Estadísticas descriptivas de las columnas numéricas ---")
print(empleados_df.describe())

# --- Selección de Datos ---
print("\n--- Seleccionar solo la columna 'Nombre' ---")
nombres = empleados_df['Nombre']
print(nombres)

print("\n--- Seleccionar las columnas 'Nombre' y 'Salario' ---")
nombre_salario = empleados_df[['Nombre', 'Salario']]
print(nombre_salario)

print("\n--- Seleccionar empleados del departamento de 'IT' (filtrado booleano) ---")
empleados_it = empleados_df[empleados_df['Departamento'] == 'IT']
print(empleados_it)

--- Primeras 3 filas del DataFrame ---
   ID_Empleado  Nombre Departamento  Salario Fecha_Contrato
0          101  Carlos       Ventas    50000     2021-06-01
1          102   Sofia           IT    75000     2020-03-15
2          103   Pedro       Ventas    52000     2021-07-20

--- Información general del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   ID_Empleado     5 non-null      int64         
 1   Nombre          5 non-null      object        
 2   Departamento    5 non-null      object        
 3   Salario         5 non-null      int64         
 4   Fecha_Contrato  5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(2), object(2)
memory usage: 332.0+ bytes

--- Estadísticas descriptivas de las columnas numéricas ---
       ID_Empleado       Salario       Fecha_Contrato
count     5.000000      5

#### **Ejemplo 2: Creación de un Archivo Excel, Lectura y Análisis Básico**

In [9]:
# Celda 2: Crear y guardar el archivo Excel
import pandas as pd
import os

# Datos de ventas de productos
ventas_data = {
    'Producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Laptop', 'Mouse', 'Mouse'],
    'Cantidad': [5, 10, 8, 3, 3, 12, 5],
    'Precio_Unitario': [1200, 25, 75, 300, 1150, 27, 26]
}
ventas_df = pd.DataFrame(ventas_data)

# Nombre del archivo
nombre_archivo_excel = 'reporte_ventas.xlsx'

# Guardar el DataFrame en un archivo Excel
# engine='openpyxl' es necesario para el formato .xlsx
# index=False evita que Pandas guarde el índice del DataFrame como una columna en el Excel
ventas_df.to_excel(nombre_archivo_excel, sheet_name='Ventas_Enero', index=False, engine='openpyxl')

print(f"Archivo '{nombre_archivo_excel}' guardado con éxito.")

# Celda 3: Leer el archivo Excel y analizarlo
# Asegurarnos de que el archivo existe antes de leerlo
if os.path.exists(nombre_archivo_excel):
    # Leer los datos desde el archivo Excel
    df_leido = pd.read_excel(nombre_archivo_excel, engine='openpyxl')

    print("\n--- Contenido leído del archivo Excel ---")
    print(df_leido)

    # --- Análisis Básico ---
    # 1. Calcular una nueva columna 'Ingreso_Total'
    df_leido['Ingreso_Total'] = df_leido['Cantidad'] * df_leido['Precio_Unitario']
    print("\n--- DataFrame con la nueva columna 'Ingreso_Total' ---")
    print(df_leido)

    # 2. Calcular el total de unidades vendidas por producto (usando groupby)
    ventas_por_producto = df_leido.groupby('Producto')['Cantidad'].sum()
    print("\n--- Total de unidades vendidas por producto ---")
    print(ventas_por_producto)
else:
    print(f"El archivo '{nombre_archivo_excel}' no se encontró.")

Archivo 'reporte_ventas.xlsx' guardado con éxito.

--- Contenido leído del archivo Excel ---
  Producto  Cantidad  Precio_Unitario
0   Laptop         5             1200
1    Mouse        10               25
2  Teclado         8               75
3  Monitor         3              300
4   Laptop         3             1150
5    Mouse        12               27
6    Mouse         5               26

--- DataFrame con la nueva columna 'Ingreso_Total' ---
  Producto  Cantidad  Precio_Unitario  Ingreso_Total
0   Laptop         5             1200           6000
1    Mouse        10               25            250
2  Teclado         8               75            600
3  Monitor         3              300            900
4   Laptop         3             1150           3450
5    Mouse        12               27            324
6    Mouse         5               26            130

--- Total de unidades vendidas por producto ---
Producto
Laptop      8
Monitor     3
Mouse      27
Teclado     8
Name: Can

#### **Ejemplo 3: Integración de Pandas y NumPy**

In [None]:
import pandas as pd
import numpy as np

datos_financieros = {
    'Ticker': ['GOOGL', 'AAPL', 'MSFT', 'AMZN'],
    'Precio': [140.5, 175.2, 330.8, 135.4],
    'Volatilidad_Anual': [0.25, 0.22, 0.20, 0.30] # Desviación estándar de los retornos
}
df_acciones = pd.DataFrame(datos_financieros)

print("--- DataFrame Original ---")
print(df_acciones)

# Extraer la columna 'Precio' como un array de NumPy para cálculos eficientes
precios_np = df_acciones['Precio'].to_numpy()
print(f"\nTipo de 'precios_np': {type(precios_np)}")

# Usar una función de NumPy (logaritmo natural) sobre el array
log_precios = np.log(precios_np)
print("\nLogaritmo natural de los precios (calculado con NumPy):")
print(log_precios)

# Añadir este resultado de vuelta al DataFrame de Pandas
df_acciones['Log_Precio'] = log_precios

print("\n--- DataFrame actualizado con el cálculo de NumPy ---")
print(df_acciones)

--- DataFrame Original ---
  Ticker  Precio  Volatilidad_Anual
0  GOOGL   140.5               0.25
1   AAPL   175.2               0.22
2   MSFT   330.8               0.20
3   AMZN   135.4               0.30

Tipo de 'precios_np': <class 'numpy.ndarray'>

Logaritmo natural de los precios (calculado con NumPy):
[4.94520749 5.16592818 5.80151396 4.90823336]

--- DataFrame actualizado con el cálculo de NumPy ---
  Ticker  Precio  Volatilidad_Anual  Log_Precio
0  GOOGL   140.5               0.25    4.945207
1   AAPL   175.2               0.22    5.165928
2   MSFT   330.8               0.20    5.801514
3   AMZN   135.4               0.30    4.908233


In [11]:
import pandas as pd
import numpy as np

datos_financieros = {
    'Ticker': ['GOOGL', 'AAPL', 'MSFT', 'AMZN'],
    'Precio': [140.5, 175.2, 330.8, 135.4],
    'Volatilidad_Anual': [0.25, 0.22, 0.20, 0.30] # Desviación estándar de los retornos
}
df_acciones = pd.DataFrame(datos_financieros)

print("--- DataFrame Original ---")
print(df_acciones)

# Añadir este resultado de vuelta al DataFrame de Pandas
df_acciones['Log_Precio'] = np.log(df_acciones['Precio'].to_numpy())

print("\n--- DataFrame actualizado con el cálculo de NumPy ---")
print(df_acciones)

--- DataFrame Original ---
  Ticker  Precio  Volatilidad_Anual
0  GOOGL   140.5               0.25
1   AAPL   175.2               0.22
2   MSFT   330.8               0.20
3   AMZN   135.4               0.30

--- DataFrame actualizado con el cálculo de NumPy ---
  Ticker  Precio  Volatilidad_Anual  Log_Precio
0  GOOGL   140.5               0.25    4.945207
1   AAPL   175.2               0.22    5.165928
2   MSFT   330.8               0.20    5.801514
3   AMZN   135.4               0.30    4.908233


# 6.  **Ejercicio Práctico**


Imagina que eres un profesor y tienes las calificaciones de tus alumnos en un archivo Excel. Quieres realizar un análisis para determinar quiénes han aprobado y obtener un ranking de las mejores notas.

**Tu Tarea:**

1.  **Crear los Datos:** Ejecuta la celda de "Preparación" que te proporciono a continuación para generar el archivo `calificaciones_curso.xlsx`.
2.  **Cargar y Analizar:**
    *   Carga los datos del archivo `calificaciones_curso.xlsx` en un DataFrame de Pandas.
    *   La **"Nota Final"** se calcula como el 40% de la "Nota_Parcial" más el 60% de la "Nota_Examen". Crea una nueva columna llamada `"Nota_Final"` con este cálculo.
    *   Crea una columna booleana (True/False) llamada `"Aprobado"` que sea `True` si la `"Nota_Final"` es mayor o igual a 5.0, y `False` en caso contrario.
    *   Filtra el DataFrame para obtener un nuevo DataFrame llamado `aprobados_df` que contenga únicamente a los estudiantes que han aprobado.
    *   Ordena `aprobados_df` de mayor a menor según la `"Nota_Final"`.
    *   Guarda este DataFrame de aprobados y ordenado en un nuevo archivo Excel llamado `ranking_aprobados.xlsx`, sin incluir el índice.
3.  **Verificación:** Imprime por pantalla las primeras 5 filas del DataFrame de aprobados y ordenado.


In [12]:
# --- Celda de Preparación del Ejercicio ---
import pandas as pd

datos_estudiantes = {
    'ID_Estudiante': range(201, 216),
    'Nombre': ['Elena', 'Marcos', 'Beatriz', 'Daniel', 'Lucia', 'Hugo', 'Valeria', 'Pablo', 'Paula', 'Adrian', 'Jimena', 'Sergio', 'Carla', 'Diego', 'Alba'],
    'Nota_Parcial': [6.5, 4.0, 8.0, 9.5, 3.0, 7.5, 8.5, 2.5, 5.0, 6.0, 9.0, 4.5, 7.0, 8.0, 5.5],
    'Nota_Examen': [7.0, 5.5, 8.5, 9.0, 4.0, 6.0, 9.5, 3.0, 4.5, 7.5, 9.5, 5.0, 8.0, 7.5, 6.0]
}
df_calificaciones = pd.DataFrame(datos_estudiantes)
df_calificaciones.to_excel('calificaciones_curso.xlsx', index=False, engine='openpyxl')

print("Archivo 'calificaciones_curso.xlsx' creado. ¡Ya puedes empezar tu ejercicio!")

Archivo 'calificaciones_curso.xlsx' creado. ¡Ya puedes empezar tu ejercicio!


In [None]:
import pandas as pd
import numpy as np

# Leer el documento
try: 
    df_c = pd.read_excel("calificaciones_curso.xlsx",)
except FileNotFoundError:
    print("error al leer el archivo")

# print(df_c.head(5))
# Crear columna Nota final
df_c["Nota_Final"] = df_c["Nota_Parcial"]*0.4 + df_c["Nota_Examen"]*0.6

# print(df_c.head(5))
# Crear columna Aprobado
df_c["Aprobado"] = df_c["Nota_Final"] >= 5.0

# print(df_c.head(5))
# Filtrar solo los Aprobados
aprobados_df = df_c[df_c["Aprobado"]]

# print(aprobados_df.head(5))
# Ordernar segun la Nota final
aprobados_df = aprobados_df.sort_values(by = ["Nota_Final"], ascending=False)

print(aprobados_df.head(5))
# Exportar el documento
aprobados_df.to_excel("ranking_aprobados.xlsx", index=False)

    ID_Estudiante   Nombre  Nota_Parcial  Nota_Examen  Nota_Final  Aprobado
10            211   Jimena           9.0          9.5         9.3      True
3             204   Daniel           9.5          9.0         9.2      True
6             207  Valeria           8.5          9.5         9.1      True
2             203  Beatriz           8.0          8.5         8.3      True
13            214    Diego           8.0          7.5         7.7      True


# 7.  **Conexión con Otros Temas**


*   **Conceptos Previos:** Es fundamental tener una buena base de los tipos de datos de Python, especialmente **listas** y **diccionarios**, ya que son la forma más común de crear DataFrames manualmente.
*   **Temas Futuros:**
    *   **Visualización de Datos (`Matplotlib` y `Seaborn`):** Una vez que tienes tus datos limpios y analizados en Pandas, el siguiente paso lógico es crear gráficos (barras, líneas, histogramas) para comunicar tus hallazgos. Estas librerías se integran a la perfección con Pandas.
    *   **Machine Learning (`Scikit-learn`):** Los DataFrames de Pandas son el formato de entrada estándar para la mayoría de los modelos de machine learning. Preparar tus datos con Pandas es el 90% del trabajo en un proyecto de machine learning.

# 8.  **Aplicaciones en el Mundo Real**


1.  **Análisis de Negocio:** Una empresa de e-commerce utiliza Pandas para analizar millones de transacciones, agruparlas por categoría de producto, calcular la rentabilidad y encontrar los clientes más valiosos.
2.  **Investigación Científica:** Un biólogo podría registrar datos de un experimento en un archivo CSV o Excel. Luego, usaría Pandas para cargarlos, limpiar datos anómalos, calcular estadísticas y NumPy para aplicar transformaciones matemáticas complejas antes de publicar sus resultados.

# 9. **Cheat Sheet (Hoja de Trucos)**

#### **`NumPy`**
| Código | Descripción |
| :--- | :--- |
| `import numpy as np` | Importación estándar. |
| `np.array(lista)` | Crea un array de NumPy a partir de una lista. |
| `array.shape` | Devuelve una tupla con las dimensiones del array. |
| `array.dtype` | Devuelve el tipo de datos de los elementos del array. |
| `np.arange(inicio, fin)` | Crea un array con un rango de números. |
| `np.zeros(shape)` | Crea un array de ceros con la forma dada. |
| `np.ones(shape)` | Crea un array de unos con la forma dada. |
| `array * 2`, `array + 5` | Operaciones aritméticas vectorizadas. |
| `np.sqrt(array)` | Aplica la raíz cuadrada a cada elemento. |
| `np.log(array)` | Aplica el logaritmo natural a cada elemento. |

#### **`Pandas` (Creación e Inspección)**
| Código | Descripción |
| :--- | :--- |
| `import pandas as pd` | Importación estándar. |
| `pd.Series(datos)` | Crea un objeto Series (una columna). |
| `pd.DataFrame(diccionario)`| Crea un DataFrame a partir de un diccionario. |
| `df.head(n)` | Muestra las primeras `n` filas (5 por defecto). |
| `df.tail(n)` | Muestra las últimas `n` filas (5 por defecto). |
| `df.info()` | Muestra un resumen técnico del DataFrame. |
| `df.describe()` | Muestra estadísticas descriptivas para columnas numéricas. |
| `df.shape` | Devuelve una tupla `(filas, columnas)`. |
| `df.columns` | Devuelve los nombres de las columnas. |
| `df.dtypes` | Devuelve los tipos de datos de cada columna. |

#### **`Pandas` (Selección y Manipulación)**
| Código | Descripción |
| :--- | :--- |
| `df['columna']` | Selecciona una columna como una Serie. |
| `df[['col1', 'col2']]` | Selecciona múltiples columnas como un DataFrame. |
| `df.loc[fila, columna]` | Selección por etiqueta/nombre. |
| `df.iloc[fila_idx, col_idx]` | Selección por posición entera (índice). |
| `df[df['col'] > valor]` | Filtrado booleano. |
| `df.sort_values(by='col')`| Ordena el DataFrame por una columna. |
| `df.groupby('col').sum()`| Agrupa por una columna y aplica una función (ej. `sum`). |
| `df['nueva_col'] = ...` | Crea o modifica una columna. |
| `df.drop('col', axis=1)` | Elimina una columna. |
| `df.to_numpy()` | Convierte el DataFrame (o una Serie) a un array NumPy. |

#### **`Pandas` (Lectura y Escritura - I/O)**
| Código | Descripción |
| :--- | :--- |
| `pd.read_excel('f.xlsx')` | Lee datos de un archivo Excel. |
| `pd.read_csv('f.csv')` | Lee datos de un archivo CSV. |
| `df.to_excel('f.xlsx', index=False)` | Guarda en Excel sin el índice. |
| `df.to_csv('f.csv', index=False)` | Guarda en CSV sin el índice. |