# 📊 Visualización y Exploración de DataFrames en Pandas

---

## 🎯 Objetivo del Notebook
Aprender las diferentes formas de **mostrar y explorar** un DataFrame de Pandas, utilizando el dataset de **rendimiento estudiantil**.

---

## 📋 Índice de Contenidos

1. [🔧 Configuración Inicial](#configuracion)
2. [📁 Carga de Datos](#carga-datos)
3. [👀 Primeras Visualizaciones](#primeras-visualizaciones)
   - 3.1 [🔝 Primeras Filas](#primeras-filas)
   - 3.2 [🔚 Últimas Filas](#ultimas-filas)
4. [📏 Información del DataFrame](#informacion-dataframe)
   - 4.1 [📐 Dimensiones](#dimensiones)
   - 4.2 [🏷️ Nombres de Columnas](#nombres-columnas)
   - 4.3 [🔍 Información General](#info-general)
5. [⚙️ Configuración de Visualización](#config-visualizacion)
6. [📊 Visualización Completa](#visualizacion-completa)
7. [🎯 Resumen y Conclusiones](#resumen)

---

## 🔧 1. Configuración Inicial

Importamos las librerías necesarias para trabajar con datos:

In [32]:
# 📚 Importación de librerías
import pandas as pd
import numpy as np

# 🎨 Configuración para mejor visualización
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.width', None)        # Sin límite de ancho
pd.set_option('display.max_colwidth', 50)   # Ancho máximo de columna

print("✅ Librerías importadas correctamente")
print(f"📦 Versión de Pandas: {pd.__version__}")

✅ Librerías importadas correctamente
📦 Versión de Pandas: 2.3.1


## 📁 2. Carga de Datos

Cargamos el dataset de **rendimiento estudiantil** que contiene información sobre:
- 👥 **Género** de los estudiantes
- 🌍 **Grupo étnico/racial**
- 🎓 **Nivel educativo de los padres**
- 🍽️ **Tipo de almuerzo** (estándar o gratuito/reducido)
- 📚 **Curso de preparación** para exámenes
- 📊 **Puntuaciones** en matemáticas, lectura y escritura

In [33]:
# 📂 Cargando el archivo CSV
try:
    df_exams = pd.read_csv('StudentsPerformance.csv')
    print("✅ Datos cargados exitosamente")
    print(f"📊 Dataset cargado con {df_exams.shape[0]} filas y {df_exams.shape[1]} columnas")
except FileNotFoundError:
    print("❌ Error: No se encontró el archivo 'StudentsPerformance.csv'")
    print("📁 Asegúrate de que el archivo esté en el directorio correcto")

✅ Datos cargados exitosamente
📊 Dataset cargado con 1000 filas y 8 columnas


## 👀 3. Primeras Visualizaciones

Exploremos los datos para entender su estructura y contenido.

### 🔝 3.1 Primeras Filas del DataFrame

El método `head()` nos permite ver las **primeras filas** del DataFrame:

In [34]:
# 🔝 Mostrar las primeras 5 filas (por defecto)
print("🔝 PRIMERAS 5 FILAS DEL DATASET:")
print("=" * 50)
df_exams.head()

🔝 PRIMERAS 5 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [35]:
# 🔝 Mostrar las primeras 10 filas (personalizado)
print("🔝 PRIMERAS 10 FILAS DEL DATASET:")
print("=" * 50)
df_exams.head(10)

🔝 PRIMERAS 10 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


### 🔚 3.2 Últimas Filas del DataFrame

El método `tail()` nos permite ver las **últimas filas** del DataFrame:

In [36]:
# 🔚 Mostrar las últimas 5 filas (por defecto)
print("🔚 ÚLTIMAS 5 FILAS DEL DATASET:")
print("=" * 50)
df_exams.tail()

🔚 ÚLTIMAS 5 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


In [37]:
# 🔚 Mostrar las últimas 10 filas (personalizado)
print("🔚 ÚLTIMAS 10 FILAS DEL DATASET:")
print("=" * 50)
df_exams.tail(10)

🔚 ÚLTIMAS 10 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
990,male,group E,high school,free/reduced,completed,86,81,75
991,female,group B,some high school,standard,completed,65,82,78
992,female,group D,associate's degree,free/reduced,none,55,76,76
993,female,group D,bachelor's degree,free/reduced,none,62,72,74
994,male,group A,high school,standard,none,63,63,62
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


## 📏 4. Información del DataFrame

Obtengamos información detallada sobre nuestro DataFrame:

### 📐 4.1 Dimensiones del DataFrame

El atributo `shape` nos da las **dimensiones** (filas, columnas):

In [38]:
# 📐 Dimensiones del DataFrame
filas, columnas = df_exams.shape

print("📐 DIMENSIONES DEL DATASET:")
print("=" * 30)
print(f"📊 Forma del DataFrame: {df_exams.shape}")
print(f"📝 Número de filas (registros): {filas:,}")
print(f"📋 Número de columnas (variables): {columnas}")
print(f"🔢 Total de celdas: {filas * columnas:,}")

📐 DIMENSIONES DEL DATASET:
📊 Forma del DataFrame: (1000, 8)
📝 Número de filas (registros): 1,000
📋 Número de columnas (variables): 8
🔢 Total de celdas: 8,000


### 🏷️ 4.2 Nombres de las Columnas

Veamos qué variables tenemos en nuestro dataset:

In [39]:
# 🏷️ Nombres de las columnas
print("🏷️ COLUMNAS DEL DATASET:")
print("=" * 30)

for i, columna in enumerate(df_exams.columns, 1):
    print(f"{i:2d}. 📋 {columna}")

print(f"\n📊 Total de columnas: {len(df_exams.columns)}")

🏷️ COLUMNAS DEL DATASET:
 1. 📋 gender
 2. 📋 race/ethnicity
 3. 📋 parental level of education
 4. 📋 lunch
 5. 📋 test preparation course
 6. 📋 math score
 7. 📋 reading score
 8. 📋 writing score

📊 Total de columnas: 8


### 🔍 4.3 Información General del DataFrame

El método `info()` nos proporciona un **resumen completo** del DataFrame:

In [40]:
# 🔍 Información general del DataFrame
print("🔍 INFORMACIÓN GENERAL DEL DATASET:")
print("=" * 40)
df_exams.info()

🔍 INFORMACIÓN GENERAL DEL DATASET:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [41]:
# 🏷️ Tipos de datos por columna
print("🏷️ TIPOS DE DATOS POR COLUMNA:")
print("=" * 35)

tipos_datos = df_exams.dtypes
for columna, tipo in tipos_datos.items():
    emoji = "🔤" if tipo == 'object' else "🔢"
    print(f"{emoji} {columna:<30} → {tipo}")

🏷️ TIPOS DE DATOS POR COLUMNA:
🔤 gender                         → object
🔤 race/ethnicity                 → object
🔤 parental level of education    → object
🔤 lunch                          → object
🔤 test preparation course        → object
🔢 math score                     → int64
🔢 reading score                  → int64
🔢 writing score                  → int64


## ⚙️ 5. Configuración de Visualización

Pandas permite configurar cómo se muestran los DataFrames. Esto es útil para datasets grandes:

In [42]:
# ⚙️ Configuraciones de visualización disponibles
print("⚙️ CONFIGURACIONES DE VISUALIZACIÓN:")
print("=" * 40)

# Mostrar configuraciones actuales
opciones_importantes = [
    'display.max_rows',
    'display.max_columns', 
    'display.width',
    'display.max_colwidth'
]

for opcion in opciones_importantes:
    valor = pd.get_option(opcion)
    print(f"🔧 {opcion:<25} → {valor}")

⚙️ CONFIGURACIONES DE VISUALIZACIÓN:
🔧 display.max_rows          → 10
🔧 display.max_columns       → None
🔧 display.width             → None
🔧 display.max_colwidth      → 50


In [43]:
# 📊 Configurar para mostrar solo 10 filas máximo
pd.set_option('display.max_rows', 10)

print("✅ Configuración aplicada: máximo 10 filas")
print("📊 Ahora el DataFrame se mostrará truncado si tiene más de 10 filas")

✅ Configuración aplicada: máximo 10 filas
📊 Ahora el DataFrame se mostrará truncado si tiene más de 10 filas


## 📊 6. Visualización Completa del DataFrame

Veamos cómo se muestra el DataFrame completo con la configuración aplicada:

In [44]:
# 📊 Mostrar el DataFrame completo (truncado a 10 filas)
print("📊 DATASET COMPLETO (VISTA TRUNCADA):")
print("=" * 45)
print("💡 Nota: Solo se muestran las primeras y últimas filas debido a la configuración")
print()
df_exams

📊 DATASET COMPLETO (VISTA TRUNCADA):
💡 Nota: Solo se muestran las primeras y últimas filas debido a la configuración



Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


In [45]:
# 🎲 Muestra aleatoria de datos
print("🎲 MUESTRA ALEATORIA DE 8 REGISTROS:")
print("=" * 40)
print("💡 Esto nos ayuda a ver datos variados del dataset")
print()
df_exams.sample(8)

🎲 MUESTRA ALEATORIA DE 8 REGISTROS:
💡 Esto nos ayuda a ver datos variados del dataset



Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
387,female,group C,associate's degree,free/reduced,none,57,78,67
513,female,group B,some high school,standard,completed,54,61,62
715,female,group B,associate's degree,free/reduced,completed,76,94,87
506,male,group A,high school,standard,none,68,70,66
938,male,group D,some college,standard,completed,85,81,85
471,female,group C,high school,standard,none,63,69,74
50,male,group E,some college,standard,none,53,55,48
625,male,group D,some college,standard,completed,100,97,99


### 📈 6.1 Estadísticas Básicas

Obtengamos un resumen estadístico de las variables numéricas:

In [46]:
# 📈 Estadísticas descriptivas de las columnas numéricas
print("📈 ESTADÍSTICAS DESCRIPTIVAS - PUNTUACIONES:")
print("=" * 50)
df_exams.describe()

📈 ESTADÍSTICAS DESCRIPTIVAS - PUNTUACIONES:


Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


In [47]:
# 📊 Información sobre variables categóricas
print("📊 INFORMACIÓN DE VARIABLES CATEGÓRICAS:")
print("=" * 45)

columnas_categoricas = df_exams.select_dtypes(include=['object']).columns

for columna in columnas_categoricas:
    print(f"\n🏷️ {columna.upper()}:")
    print("-" * 30)
    valores_unicos = df_exams[columna].value_counts()
    for valor, cantidad in valores_unicos.items():
        porcentaje = (cantidad / len(df_exams)) * 100
        print(f"   📋 {valor:<25} → {cantidad:3d} ({porcentaje:.1f}%)")

📊 INFORMACIÓN DE VARIABLES CATEGÓRICAS:

🏷️ GENDER:
------------------------------
   📋 female                    → 518 (51.8%)
   📋 male                      → 482 (48.2%)

🏷️ RACE/ETHNICITY:
------------------------------
   📋 group C                   → 319 (31.9%)
   📋 group D                   → 262 (26.2%)
   📋 group B                   → 190 (19.0%)
   📋 group E                   → 140 (14.0%)
   📋 group A                   →  89 (8.9%)

🏷️ PARENTAL LEVEL OF EDUCATION:
------------------------------
   📋 some college              → 226 (22.6%)
   📋 associate's degree        → 222 (22.2%)
   📋 high school               → 196 (19.6%)
   📋 some high school          → 179 (17.9%)
   📋 bachelor's degree         → 118 (11.8%)
   📋 master's degree           →  59 (5.9%)

🏷️ LUNCH:
------------------------------
   📋 standard                  → 645 (64.5%)
   📋 free/reduced              → 355 (35.5%)

🏷️ TEST PREPARATION COURSE:
------------------------------
   📋 none                  

## 🎯 7. Resumen y Conclusiones

### 📚 Lo que hemos aprendido:

#### 🔍 **Métodos de Visualización:**
- 🔝 **`head(n)`**: Muestra las primeras `n` filas (por defecto 5)
- 🔚 **`tail(n)`**: Muestra las últimas `n` filas (por defecto 5)
- 🎲 **`sample(n)`**: Muestra `n` filas aleatorias
- 📊 **Mostrar DataFrame completo**: Simplemente escribir el nombre del DataFrame

#### 📏 **Información del DataFrame:**
- 📐 **`shape`**: Dimensiones (filas, columnas)
- 🏷️ **`columns`**: Nombres de las columnas
- 🔍 **`info()`**: Información general (tipos de datos, memoria, etc.)
- 📈 **`describe()`**: Estadísticas descriptivas de variables numéricas
- 🏷️ **`dtypes`**: Tipos de datos de cada columna

#### ⚙️ **Configuración de Visualización:**
- 📊 **`pd.set_option('display.max_rows', n)`**: Controla cuántas filas mostrar
- 📋 **`pd.set_option('display.max_columns', n)`**: Controla cuántas columnas mostrar
- 📏 **`pd.set_option('display.width', n)`**: Controla el ancho de la visualización

### 🎯 **Sobre nuestro Dataset:**
- 📊 **1,000 estudiantes** con **8 variables**
- 🏷️ **5 variables categóricas** (género, etnia, educación, almuerzo, preparación)
- 🔢 **3 variables numéricas** (puntuaciones en matemáticas, lectura y escritura)
- ✅ **Sin valores faltantes** en ninguna columna

### 💡 **Consejos Prácticos:**
1. 🔍 **Siempre explora** tus datos antes de analizarlos
2. ⚙️ **Configura la visualización** según el tamaño de tu dataset
3. 📊 **Usa `sample()`** para datasets muy grandes
4. 📈 **Combina métodos** para obtener una vista completa de los datos

---

### 🚀 **Próximos Pasos:**
- 🔍 **Análisis exploratorio** más profundo
- 📊 **Visualizaciones gráficas** con matplotlib/seaborn
- 🧹 **Limpieza y transformación** de datos
- 📈 **Análisis estadístico** avanzado

---

**¡Felicidades! 🎉 Has completado el tutorial de visualización de DataFrames en Pandas.**