# 📊 Agregar Nuevas Columnas a DataFrames 🐼

---

## 🎯 **Objetivo del Tutorial**
Aprender diferentes métodos para agregar nuevas columnas a un DataFrame de pandas, desde valores constantes hasta arrays complejos.

---

## 📋 **Índice de Contenidos**

1. [🚀 Configuración Inicial](#1-configuracion-inicial)
2. [📁 Carga de Datos](#2-carga-de-datos)
3. [➕ Agregar Columna con Valor Constante](#3-agregar-columna-con-valor-constante)
4. [🔢 Agregar Columna con Array Secuencial](#4-agregar-columna-con-array-secuencial)
5. [🎲 Agregar Columna con Números Aleatorios Enteros](#5-agregar-columna-con-numeros-aleatorios-enteros)
6. [🎯 Agregar Columna con Números Aleatorios Decimales](#6-agregar-columna-con-numeros-aleatorios-decimales)
7. [🧮 Agregar Columnas Calculadas](#7-agregar-columnas-calculadas)
8. [📈 Resumen y Mejores Prácticas](#8-resumen-y-mejores-practicas)

---

## 1. 🚀 Configuración Inicial {#1-configuracion-inicial}

Importamos las librerías necesarias para trabajar con DataFrames y generar datos.

In [None]:
# 📚 Importar librerías necesarias
import pandas as pd
import numpy as np

print("✅ Librerías importadas correctamente")
print(f"📊 Pandas versión: {pd.__version__}")
print(f"🔢 NumPy versión: {np.__version__}")

## 2. 📁 Carga de Datos {#2-carga-de-datos}

Cargamos nuestro dataset de rendimiento estudiantil para trabajar con datos reales.

In [None]:
# 📖 Leemos el archivo CSV
df_exams = pd.read_csv("StudentsPerformance.csv")

print(f"📊 Dataset cargado exitosamente")
print(f"📏 Dimensiones: {df_exams.shape[0]} filas x {df_exams.shape[1]} columnas")
print(f"\n🔍 Primeras 5 filas:")
df_exams.head()

In [None]:
# 📋 Información general del dataset
print("📊 Información del Dataset:")
print("=" * 40)
df_exams.info()

print("\n📈 Columnas actuales:")
for i, col in enumerate(df_exams.columns, 1):
    print(f"{i}. {col}")

## 3. ➕ Agregar Columna con Valor Constante {#3-agregar-columna-con-valor-constante}

La forma más simple de agregar una columna es asignar un valor constante a todos los registros.

In [None]:
# ➕ Agregar una nueva columna con valor constante
df_exams["language score"] = 70

print("✅ Columna 'language score' agregada con valor constante 70")
print(f"📏 Nuevas dimensiones: {df_exams.shape[0]} filas x {df_exams.shape[1]} columnas")
print("\n🔍 Verificando la nueva columna:")
df_exams[["gender", "language score"]].head()

## 4. 🔢 Agregar Columna con Array Secuencial {#4-agregar-columna-con-array-secuencial}

Podemos crear columnas con valores secuenciales usando NumPy. Esto es útil para crear IDs únicos o valores progresivos.

💡 **Nota importante:** El DataFrame tiene 1000 filas, por lo que necesitamos crear un array de exactamente 1000 elementos para evitar errores de dimensión.

In [None]:
# 🔢 Crear un array secuencial de 1000 elementos (0 a 999)
language_scores = np.arange(0, 1000)

print(f"📊 Array creado con {len(language_scores)} elementos")
print(f"🔢 Primeros 10 valores: {language_scores[:10]}")
print(f"🔢 Últimos 10 valores: {language_scores[-10:]}")

In [None]:
# ✅ Verificar el tamaño del array
print(f"📏 Tamaño del DataFrame: {len(df_exams)} filas")
print(f"📏 Tamaño del array: {len(language_scores)} elementos")
print(f"🎯 ¿Coinciden las dimensiones? {len(df_exams) == len(language_scores)}")

In [None]:
# ➕ Agregar la columna con el array secuencial
df_exams["language score"] = language_scores

print("✅ Columna 'language score' actualizada con valores secuenciales")
print("\n🔍 Verificando los primeros y últimos valores:")
print("Primeros 5 registros:")
print(df_exams[["gender", "language score"]].head())
print("\nÚltimos 5 registros:")
print(df_exams[["gender", "language score"]].tail())

## 5. 🎲 Agregar Columna con Números Aleatorios Enteros {#5-agregar-columna-con-numeros-aleatorios-enteros}

Para simular datos más realistas, podemos generar números aleatorios enteros dentro de un rango específico.

In [None]:
# 🎲 Crear números enteros aleatorios entre 1 y 100 (100 exclusivo)
int_language_score = np.random.randint(1, 100, size=1000)

print(f"🎲 Array de números aleatorios enteros creado")
print(f"📊 Tamaño: {len(int_language_score)} elementos")
print(f"🔢 Primeros 10 valores: {int_language_score[:10]}")

In [None]:
# 📊 Verificar el valor mínimo (el límite inferior es incluido)
min_value = min(int_language_score)
print(f"📉 Valor mínimo encontrado: {min_value}")
print(f"✅ El valor mínimo debería ser 1 (incluido)")

In [None]:
# 📊 Verificar el valor máximo (el límite superior es exclusivo)
max_value = max(int_language_score)
print(f"📈 Valor máximo encontrado: {max_value}")
print(f"✅ El valor máximo debería ser 99 (100 es exclusivo)")

In [None]:
# ➕ Actualizar la columna con números aleatorios enteros
df_exams["language score"] = int_language_score

print("✅ Columna 'language score' actualizada con números aleatorios enteros")
print("\n📊 Estadísticas de la nueva columna:")
print(df_exams["language score"].describe())

print("\n🔍 Muestra de datos:")
df_exams[["gender", "race/ethnicity", "language score"]].head(10)

## 6. 🎯 Agregar Columna con Números Aleatorios Decimales {#6-agregar-columna-con-numeros-aleatorios-decimales}

Para mayor precisión, podemos generar números decimales aleatorios usando distribución uniforme.

In [None]:
# 🎯 Crear números decimales aleatorios entre 1 y 100
float_language_score = np.random.uniform(1, 100, size=1000)

print(f"🎯 Array de números aleatorios decimales creado")
print(f"📊 Tamaño: {len(float_language_score)} elementos")
print(f"🔢 Primeros 5 valores: {float_language_score[:5]}")
print(f"📊 Estadísticas básicas:")
print(f"   📉 Mínimo: {float_language_score.min():.2f}")
print(f"   📈 Máximo: {float_language_score.max():.2f}")
print(f"   📊 Promedio: {float_language_score.mean():.2f}")

In [None]:
# ➕ Agregar nueva columna con números decimales (redondeados a 2 decimales)
df_exams["language score (decimal)"] = np.round(float_language_score, 2)

print("✅ Nueva columna 'language score (decimal)' agregada")
print("\n🔍 Comparación de columnas numéricas:")
df_exams[["math score", "language score", "language score (decimal)"]].head()

## 7. 🧮 Agregar Columnas Calculadas {#7-agregar-columnas-calculadas}

Una de las funcionalidades más poderosas es crear columnas basadas en cálculos de otras columnas existentes.

In [None]:
# 🧮 Calcular el promedio de todas las puntuaciones
df_exams["average score"] = (df_exams["math score"] + 
                             df_exams["reading score"] + 
                             df_exams["writing score"] + 
                             df_exams["language score"]) / 4

print("✅ Columna 'average score' calculada")
print("\n📊 Estadísticas del promedio:")
print(df_exams["average score"].describe())

In [None]:
# 🏆 Crear categorías de rendimiento basadas en el promedio
def categorize_performance(avg_score):
    if avg_score >= 80:
        return "🏆 Excelente"
    elif avg_score >= 70:
        return "🥈 Bueno"
    elif avg_score >= 60:
        return "🥉 Regular"
    else:
        return "📚 Necesita Mejora"

df_exams["performance category"] = df_exams["average score"].apply(categorize_performance)

print("✅ Columna 'performance category' creada")
print("\n📊 Distribución de categorías:")
print(df_exams["performance category"].value_counts())

In [None]:
# 🔍 Vista final del DataFrame con todas las nuevas columnas
print("📊 DataFrame Final:")
print("=" * 50)
print(f"📏 Dimensiones finales: {df_exams.shape[0]} filas x {df_exams.shape[1]} columnas")
print("\n📋 Todas las columnas:")
for i, col in enumerate(df_exams.columns, 1):
    print(f"{i:2d}. {col}")

print("\n🔍 Muestra de datos finales:")
df_exams[["gender", "math score", "language score", "average score", "performance category"]].head()

## 8. 📈 Resumen y Mejores Prácticas {#8-resumen-y-mejores-practicas}

### 🎯 **Métodos Aprendidos:**

1. **➕ Valor Constante:** `df['nueva_columna'] = valor`
2. **🔢 Array Secuencial:** `df['nueva_columna'] = np.arange(inicio, fin)`
3. **🎲 Números Aleatorios Enteros:** `df['nueva_columna'] = np.random.randint(min, max, size=n)`
4. **🎯 Números Aleatorios Decimales:** `df['nueva_columna'] = np.random.uniform(min, max, size=n)`
5. **🧮 Columnas Calculadas:** `df['nueva_columna'] = df['col1'] + df['col2']`
6. **🏷️ Columnas Categóricas:** `df['nueva_columna'] = df['columna'].apply(funcion)`

### 💡 **Mejores Prácticas:**

- ✅ **Verificar dimensiones:** Asegúrate de que el array tenga el mismo número de elementos que filas en el DataFrame
- ✅ **Nombres descriptivos:** Usa nombres de columnas claros y descriptivos
- ✅ **Validar datos:** Siempre verifica los valores mínimos y máximos de los datos generados
- ✅ **Documentar:** Comenta tu código para explicar qué hace cada operación
- ✅ **Estadísticas:** Usa `.describe()` para entender la distribución de tus nuevas columnas

### ⚠️ **Errores Comunes a Evitar:**

- ❌ **Dimensiones incorrectas:** Arrays con diferente número de elementos que filas
- ❌ **Sobrescribir sin querer:** Usar nombres de columnas existentes sin intención
- ❌ **No validar rangos:** No verificar que los valores aleatorios estén en el rango esperado

---

## 🎉 **¡Felicitaciones!**

Has aprendido múltiples formas de agregar columnas a un DataFrame de pandas. Estos conocimientos son fundamentales para la manipulación y enriquecimiento de datos en ciencia de datos.

### 🚀 **Próximos Pasos:**
- Experimenta con diferentes tipos de datos
- Prueba funciones más complejas para columnas calculadas
- Explora la creación de columnas condicionales con `np.where()`

---