# 📊 Selección de Columnas en DataFrames con Pandas

## 🎯 Objetivo del Tutorial
Aprender las diferentes formas de seleccionar una columna específica de un DataFrame de pandas, entender las diferencias entre los métodos y conocer las mejores prácticas.

---

## 📋 Índice de Contenidos

1. [🚀 Preparación del Entorno](#1-preparacion)
2. [📁 Carga de Datos](#2-carga-datos)
3. [🔍 Métodos de Selección de Columnas](#3-metodos-seleccion)
   - [3.1 📌 Método con Corchetes `[]`](#31-metodo-corchetes)
   - [3.2 📌 Método con Punto `.`](#32-metodo-punto)
4. [⚠️ Errores Comunes y Limitaciones](#4-errores-comunes)
5. [🔬 Explorando las Series de Pandas](#5-explorando-series)
6. [💡 Mejores Prácticas](#6-mejores-practicas)
7. [📝 Resumen y Conclusiones](#7-resumen)

---

## 1. 🚀 Preparación del Entorno {#1-preparacion}

Comenzamos importando la librería pandas, que es fundamental para el análisis de datos en Python.

In [None]:
# 📦 Importamos pandas para manipulación de datos
import pandas as pd

# 🎨 Configuramos pandas para mostrar más columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("✅ Pandas importado correctamente")
print(f"📊 Versión de pandas: {pd.__version__}")

## 2. 📁 Carga de Datos {#2-carga-datos}

Utilizaremos el dataset **StudentsPerformance.csv** que contiene información sobre el rendimiento académico de estudiantes. Este dataset incluye variables demográficas y puntuaciones en diferentes materias.

In [None]:
# 📖 Cargamos el dataset de rendimiento estudiantil
df_exams = pd.read_csv('StudentsPerformance.csv')

# 👀 Visualizamos el DataFrame completo
print("📊 Dataset de Rendimiento Estudiantil")
print("=" * 50)
df_exams

In [None]:
# 📈 Información básica del dataset
print("📋 Información del Dataset:")
print(f"   📏 Dimensiones: {df_exams.shape[0]} filas × {df_exams.shape[1]} columnas")
print(f"   📊 Columnas disponibles:")
for i, col in enumerate(df_exams.columns, 1):
    print(f"      {i}. {col}")

## 3. 🔍 Métodos de Selección de Columnas {#3-metodos-seleccion}

Pandas ofrece principalmente **dos métodos** para seleccionar una columna específica de un DataFrame. Cada método tiene sus ventajas y limitaciones.

### 3.1 📌 Método con Corchetes `[]` {#31-metodo-corchetes}

Este es el método **más recomendado** y versátil para seleccionar columnas. Funciona con cualquier nombre de columna, incluso si contiene espacios o caracteres especiales.

In [None]:
# 🎯 Seleccionamos la columna 'gender' usando corchetes
columna_gender = df_exams["gender"]

print("👥 Columna 'gender' seleccionada:")
print("=" * 35)
columna_gender

In [None]:
# 🔍 Verificamos el tipo de dato que obtenemos
tipo_columna = type(df_exams["gender"])

print(f"📊 Tipo de dato obtenido: {tipo_columna}")
print("💡 Al seleccionar una columna, obtenemos un objeto Series de pandas")

### 🔬 Explorando las Propiedades de una Series

In [None]:
# 🏷️ Exploramos el índice de la Series
indice_series = df_exams["gender"].index

print("🔢 Índice de la Series:")
print(indice_series)
print(f"\n📏 Longitud del índice: {len(indice_series)}")

In [None]:
# 👀 Visualizamos los primeros 5 elementos
print("🔝 Primeros 5 elementos de la columna 'gender':")
print("=" * 45)
df_exams["gender"].head()

In [None]:
# 🧮 Accedemos a los valores como array de NumPy
valores_array = df_exams["gender"].values

print("🔢 Valores de la columna como array de NumPy:")
print("=" * 45)
print(f"Tipo: {type(valores_array)}")
print(f"Primeros 10 valores: {valores_array[:10]}")
print(f"Forma del array: {valores_array.shape}")

In [None]:
# 🏷️ Verificamos el tipo de datos de la columna
tipo_datos = df_exams["gender"].dtype

print(f"📊 Tipo de datos de la columna 'gender': {tipo_datos}")
print("💡 'O' significa 'object', típicamente strings en pandas")

### 3.2 📌 Método con Punto `.` {#32-metodo-punto}

Este método es más **conciso** pero tiene limitaciones importantes. Solo funciona cuando el nombre de la columna:
- No contiene espacios
- No contiene caracteres especiales
- No coincide con métodos existentes de pandas

In [None]:
# ✅ Ejemplo exitoso: seleccionamos 'gender' con punto
columna_gender_punto = df_exams.gender

print("👥 Columna 'gender' seleccionada con punto:")
print("=" * 40)
columna_gender_punto

In [None]:
# 🔍 Comparamos ambos métodos
metodo_corchetes = df_exams["gender"]
metodo_punto = df_exams.gender

print("🆚 Comparación de métodos:")
print(f"   Método corchetes - Tipo: {type(metodo_corchetes)}")
print(f"   Método punto - Tipo: {type(metodo_punto)}")
print(f"   ¿Son iguales? {metodo_corchetes.equals(metodo_punto)}")

## 4. ⚠️ Errores Comunes y Limitaciones {#4-errores-comunes}

Es importante conocer las limitaciones del método con punto para evitar errores en nuestro código.

In [None]:
# ❌ Ejemplo de error: columna con espacios usando punto
print("⚠️ Intentando acceder a 'math score' con punto:")
print("Código: df_exams.math score")
print("❌ Esto generará un SyntaxError porque 'math score' contiene un espacio")

# Descomenta la siguiente línea para ver el error:
# df_exams.math score

In [None]:
# ✅ Solución correcta: usar corchetes para columnas con espacios
columna_math = df_exams["math score"]

print("✅ Acceso correcto a 'math score' con corchetes:")
print("=" * 45)
print(f"📊 Primeros 5 valores: {columna_math.head().tolist()}")
print(f"📈 Estadísticas básicas:")
print(f"   • Promedio: {columna_math.mean():.2f}")
print(f"   • Mínimo: {columna_math.min()}")
print(f"   • Máximo: {columna_math.max()}")

## 5. 🔬 Explorando las Series de Pandas {#5-explorando-series}

Una **Series** es una estructura de datos unidimensional de pandas. Veamos sus características principales:

In [None]:
# 📊 Análisis completo de una Series
serie_gender = df_exams["gender"]

print("🔍 Análisis de la Series 'gender':")
print("=" * 35)
print(f"📏 Longitud: {len(serie_gender)}")
print(f"🏷️ Nombre: {serie_gender.name}")
print(f"📊 Tipo de datos: {serie_gender.dtype}")
print(f"🔢 Valores únicos: {serie_gender.nunique()}")
print(f"📋 Lista de valores únicos: {serie_gender.unique().tolist()}")

print("\n📈 Conteo de valores:")
print(serie_gender.value_counts())

In [None]:
# 🧮 Análisis de una columna numérica
serie_math = df_exams["math score"]

print("🔢 Análisis de la Series 'math score':")
print("=" * 38)
print(f"📊 Estadísticas descriptivas:")
print(serie_math.describe())

print(f"\n🎯 Información adicional:")
print(f"   • Mediana: {serie_math.median()}")
print(f"   • Moda: {serie_math.mode().iloc[0]}")
print(f"   • Desviación estándar: {serie_math.std():.2f}")

## 6. 💡 Mejores Prácticas {#6-mejores-practicas}

### ✅ Recomendaciones:

1. **Usa siempre corchetes `[]`** para seleccionar columnas - es más seguro y consistente
2. **Verifica los nombres** de las columnas antes de seleccionarlas
3. **Maneja los espacios** en nombres de columnas apropiadamente
4. **Explora las Series** obtenidas para entender mejor tus datos

In [None]:
# 🎯 Ejemplo de buenas prácticas

# 1. Verificar columnas disponibles
print("📋 Columnas disponibles:")
print(df_exams.columns.tolist())

# 2. Seleccionar columna de forma segura
columna_deseada = "reading score"
if columna_deseada in df_exams.columns:
    serie_reading = df_exams[columna_deseada]
    print(f"\n✅ Columna '{columna_deseada}' seleccionada exitosamente")
    print(f"📊 Primeros 3 valores: {serie_reading.head(3).tolist()}")
else:
    print(f"❌ La columna '{columna_deseada}' no existe")

# 3. Exploración rápida
print(f"\n🔍 Exploración rápida:")
print(f"   • Tipo: {type(serie_reading)}")
print(f"   • Forma: {serie_reading.shape}")
print(f"   • Valores nulos: {serie_reading.isnull().sum()}")

## 7. 📝 Resumen y Conclusiones {#7-resumen}

### 🎯 Lo que hemos aprendido:

| Aspecto | Método `[]` | Método `.` |
|---------|-------------|------------|
| **Sintaxis** | `df["columna"]` | `df.columna` |
| **Espacios en nombres** | ✅ Funciona | ❌ No funciona |
| **Caracteres especiales** | ✅ Funciona | ❌ Limitado |
| **Consistencia** | ✅ Siempre funciona | ⚠️ Puede fallar |
| **Recomendación** | 🌟 **Preferido** | ⚠️ Usar con cuidado |

### 🔑 Puntos Clave:

1. **Series de pandas**: Al seleccionar una columna obtenemos un objeto Series
2. **Flexibilidad**: El método con corchetes es más versátil
3. **Exploración**: Las Series tienen muchos métodos útiles para análisis
4. **Buenas prácticas**: Siempre verificar y explorar los datos seleccionados

### 🚀 Próximos pasos:

- Selección de múltiples columnas
- Filtrado de datos
- Operaciones con Series
- Indexación avanzada

---

### 🎉 ¡Felicitaciones!

Has completado exitosamente el tutorial sobre selección de columnas en pandas. Ahora tienes las herramientas necesarias para trabajar con DataFrames de manera eficiente y segura.

**¡Sigue practicando y explorando el mundo del análisis de datos! 📊🚀**