# üìä Visualizaci√≥n y Exploraci√≥n de DataFrames en Pandas

---

## üéØ Objetivo del Notebook
Aprender las diferentes formas de **mostrar y explorar** un DataFrame de Pandas, utilizando el dataset de **rendimiento estudiantil**.

---

## üìã √çndice de Contenidos

1. [üîß Configuraci√≥n Inicial](#configuracion)
2. [üìÅ Carga de Datos](#carga-datos)
3. [üëÄ Primeras Visualizaciones](#primeras-visualizaciones)
   - 3.1 [üîù Primeras Filas](#primeras-filas)
   - 3.2 [üîö √öltimas Filas](#ultimas-filas)
4. [üìè Informaci√≥n del DataFrame](#informacion-dataframe)
   - 4.1 [üìê Dimensiones](#dimensiones)
   - 4.2 [üè∑Ô∏è Nombres de Columnas](#nombres-columnas)
   - 4.3 [üîç Informaci√≥n General](#info-general)
5. [‚öôÔ∏è Configuraci√≥n de Visualizaci√≥n](#config-visualizacion)
6. [üìä Visualizaci√≥n Completa](#visualizacion-completa)
7. [üéØ Resumen y Conclusiones](#resumen)

---

## üîß 1. Configuraci√≥n Inicial

Importamos las librer√≠as necesarias para trabajar con datos:

In [32]:
# üìö Importaci√≥n de librer√≠as
import pandas as pd
import numpy as np

# üé® Configuraci√≥n para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.width', None)        # Sin l√≠mite de ancho
pd.set_option('display.max_colwidth', 50)   # Ancho m√°ximo de columna

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üì¶ Versi√≥n de Pandas: {pd.__version__}")

‚úÖ Librer√≠as importadas correctamente
üì¶ Versi√≥n de Pandas: 2.3.1


## üìÅ 2. Carga de Datos

Cargamos el dataset de **rendimiento estudiantil** que contiene informaci√≥n sobre:
- üë• **G√©nero** de los estudiantes
- üåç **Grupo √©tnico/racial**
- üéì **Nivel educativo de los padres**
- üçΩÔ∏è **Tipo de almuerzo** (est√°ndar o gratuito/reducido)
- üìö **Curso de preparaci√≥n** para ex√°menes
- üìä **Puntuaciones** en matem√°ticas, lectura y escritura

In [33]:
# üìÇ Cargando el archivo CSV
try:
    df_exams = pd.read_csv('StudentsPerformance.csv')
    print("‚úÖ Datos cargados exitosamente")
    print(f"üìä Dataset cargado con {df_exams.shape[0]} filas y {df_exams.shape[1]} columnas")
except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo 'StudentsPerformance.csv'")
    print("üìÅ Aseg√∫rate de que el archivo est√© en el directorio correcto")

‚úÖ Datos cargados exitosamente
üìä Dataset cargado con 1000 filas y 8 columnas


## üëÄ 3. Primeras Visualizaciones

Exploremos los datos para entender su estructura y contenido.

### üîù 3.1 Primeras Filas del DataFrame

El m√©todo `head()` nos permite ver las **primeras filas** del DataFrame:

In [34]:
# üîù Mostrar las primeras 5 filas (por defecto)
print("üîù PRIMERAS 5 FILAS DEL DATASET:")
print("=" * 50)
df_exams.head()

üîù PRIMERAS 5 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [35]:
# üîù Mostrar las primeras 10 filas (personalizado)
print("üîù PRIMERAS 10 FILAS DEL DATASET:")
print("=" * 50)
df_exams.head(10)

üîù PRIMERAS 10 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


### üîö 3.2 √öltimas Filas del DataFrame

El m√©todo `tail()` nos permite ver las **√∫ltimas filas** del DataFrame:

In [36]:
# üîö Mostrar las √∫ltimas 5 filas (por defecto)
print("üîö √öLTIMAS 5 FILAS DEL DATASET:")
print("=" * 50)
df_exams.tail()

üîö √öLTIMAS 5 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


In [37]:
# üîö Mostrar las √∫ltimas 10 filas (personalizado)
print("üîö √öLTIMAS 10 FILAS DEL DATASET:")
print("=" * 50)
df_exams.tail(10)

üîö √öLTIMAS 10 FILAS DEL DATASET:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
990,male,group E,high school,free/reduced,completed,86,81,75
991,female,group B,some high school,standard,completed,65,82,78
992,female,group D,associate's degree,free/reduced,none,55,76,76
993,female,group D,bachelor's degree,free/reduced,none,62,72,74
994,male,group A,high school,standard,none,63,63,62
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


## üìè 4. Informaci√≥n del DataFrame

Obtengamos informaci√≥n detallada sobre nuestro DataFrame:

### üìê 4.1 Dimensiones del DataFrame

El atributo `shape` nos da las **dimensiones** (filas, columnas):

In [38]:
# üìê Dimensiones del DataFrame
filas, columnas = df_exams.shape

print("üìê DIMENSIONES DEL DATASET:")
print("=" * 30)
print(f"üìä Forma del DataFrame: {df_exams.shape}")
print(f"üìù N√∫mero de filas (registros): {filas:,}")
print(f"üìã N√∫mero de columnas (variables): {columnas}")
print(f"üî¢ Total de celdas: {filas * columnas:,}")

üìê DIMENSIONES DEL DATASET:
üìä Forma del DataFrame: (1000, 8)
üìù N√∫mero de filas (registros): 1,000
üìã N√∫mero de columnas (variables): 8
üî¢ Total de celdas: 8,000


### üè∑Ô∏è 4.2 Nombres de las Columnas

Veamos qu√© variables tenemos en nuestro dataset:

In [39]:
# üè∑Ô∏è Nombres de las columnas
print("üè∑Ô∏è COLUMNAS DEL DATASET:")
print("=" * 30)

for i, columna in enumerate(df_exams.columns, 1):
    print(f"{i:2d}. üìã {columna}")

print(f"\nüìä Total de columnas: {len(df_exams.columns)}")

üè∑Ô∏è COLUMNAS DEL DATASET:
 1. üìã gender
 2. üìã race/ethnicity
 3. üìã parental level of education
 4. üìã lunch
 5. üìã test preparation course
 6. üìã math score
 7. üìã reading score
 8. üìã writing score

üìä Total de columnas: 8


### üîç 4.3 Informaci√≥n General del DataFrame

El m√©todo `info()` nos proporciona un **resumen completo** del DataFrame:

In [40]:
# üîç Informaci√≥n general del DataFrame
print("üîç INFORMACI√ìN GENERAL DEL DATASET:")
print("=" * 40)
df_exams.info()

üîç INFORMACI√ìN GENERAL DEL DATASET:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [41]:
# üè∑Ô∏è Tipos de datos por columna
print("üè∑Ô∏è TIPOS DE DATOS POR COLUMNA:")
print("=" * 35)

tipos_datos = df_exams.dtypes
for columna, tipo in tipos_datos.items():
    emoji = "üî§" if tipo == 'object' else "üî¢"
    print(f"{emoji} {columna:<30} ‚Üí {tipo}")

üè∑Ô∏è TIPOS DE DATOS POR COLUMNA:
üî§ gender                         ‚Üí object
üî§ race/ethnicity                 ‚Üí object
üî§ parental level of education    ‚Üí object
üî§ lunch                          ‚Üí object
üî§ test preparation course        ‚Üí object
üî¢ math score                     ‚Üí int64
üî¢ reading score                  ‚Üí int64
üî¢ writing score                  ‚Üí int64


## ‚öôÔ∏è 5. Configuraci√≥n de Visualizaci√≥n

Pandas permite configurar c√≥mo se muestran los DataFrames. Esto es √∫til para datasets grandes:

In [42]:
# ‚öôÔ∏è Configuraciones de visualizaci√≥n disponibles
print("‚öôÔ∏è CONFIGURACIONES DE VISUALIZACI√ìN:")
print("=" * 40)

# Mostrar configuraciones actuales
opciones_importantes = [
    'display.max_rows',
    'display.max_columns', 
    'display.width',
    'display.max_colwidth'
]

for opcion in opciones_importantes:
    valor = pd.get_option(opcion)
    print(f"üîß {opcion:<25} ‚Üí {valor}")

‚öôÔ∏è CONFIGURACIONES DE VISUALIZACI√ìN:
üîß display.max_rows          ‚Üí 10
üîß display.max_columns       ‚Üí None
üîß display.width             ‚Üí None
üîß display.max_colwidth      ‚Üí 50


In [43]:
# üìä Configurar para mostrar solo 10 filas m√°ximo
pd.set_option('display.max_rows', 10)

print("‚úÖ Configuraci√≥n aplicada: m√°ximo 10 filas")
print("üìä Ahora el DataFrame se mostrar√° truncado si tiene m√°s de 10 filas")

‚úÖ Configuraci√≥n aplicada: m√°ximo 10 filas
üìä Ahora el DataFrame se mostrar√° truncado si tiene m√°s de 10 filas


## üìä 6. Visualizaci√≥n Completa del DataFrame

Veamos c√≥mo se muestra el DataFrame completo con la configuraci√≥n aplicada:

In [44]:
# üìä Mostrar el DataFrame completo (truncado a 10 filas)
print("üìä DATASET COMPLETO (VISTA TRUNCADA):")
print("=" * 45)
print("üí° Nota: Solo se muestran las primeras y √∫ltimas filas debido a la configuraci√≥n")
print()
df_exams

üìä DATASET COMPLETO (VISTA TRUNCADA):
üí° Nota: Solo se muestran las primeras y √∫ltimas filas debido a la configuraci√≥n



Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


In [45]:
# üé≤ Muestra aleatoria de datos
print("üé≤ MUESTRA ALEATORIA DE 8 REGISTROS:")
print("=" * 40)
print("üí° Esto nos ayuda a ver datos variados del dataset")
print()
df_exams.sample(8)

üé≤ MUESTRA ALEATORIA DE 8 REGISTROS:
üí° Esto nos ayuda a ver datos variados del dataset



Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
387,female,group C,associate's degree,free/reduced,none,57,78,67
513,female,group B,some high school,standard,completed,54,61,62
715,female,group B,associate's degree,free/reduced,completed,76,94,87
506,male,group A,high school,standard,none,68,70,66
938,male,group D,some college,standard,completed,85,81,85
471,female,group C,high school,standard,none,63,69,74
50,male,group E,some college,standard,none,53,55,48
625,male,group D,some college,standard,completed,100,97,99


### üìà 6.1 Estad√≠sticas B√°sicas

Obtengamos un resumen estad√≠stico de las variables num√©ricas:

In [46]:
# üìà Estad√≠sticas descriptivas de las columnas num√©ricas
print("üìà ESTAD√çSTICAS DESCRIPTIVAS - PUNTUACIONES:")
print("=" * 50)
df_exams.describe()

üìà ESTAD√çSTICAS DESCRIPTIVAS - PUNTUACIONES:


Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


In [47]:
# üìä Informaci√≥n sobre variables categ√≥ricas
print("üìä INFORMACI√ìN DE VARIABLES CATEG√ìRICAS:")
print("=" * 45)

columnas_categoricas = df_exams.select_dtypes(include=['object']).columns

for columna in columnas_categoricas:
    print(f"\nüè∑Ô∏è {columna.upper()}:")
    print("-" * 30)
    valores_unicos = df_exams[columna].value_counts()
    for valor, cantidad in valores_unicos.items():
        porcentaje = (cantidad / len(df_exams)) * 100
        print(f"   üìã {valor:<25} ‚Üí {cantidad:3d} ({porcentaje:.1f}%)")

üìä INFORMACI√ìN DE VARIABLES CATEG√ìRICAS:

üè∑Ô∏è GENDER:
------------------------------
   üìã female                    ‚Üí 518 (51.8%)
   üìã male                      ‚Üí 482 (48.2%)

üè∑Ô∏è RACE/ETHNICITY:
------------------------------
   üìã group C                   ‚Üí 319 (31.9%)
   üìã group D                   ‚Üí 262 (26.2%)
   üìã group B                   ‚Üí 190 (19.0%)
   üìã group E                   ‚Üí 140 (14.0%)
   üìã group A                   ‚Üí  89 (8.9%)

üè∑Ô∏è PARENTAL LEVEL OF EDUCATION:
------------------------------
   üìã some college              ‚Üí 226 (22.6%)
   üìã associate's degree        ‚Üí 222 (22.2%)
   üìã high school               ‚Üí 196 (19.6%)
   üìã some high school          ‚Üí 179 (17.9%)
   üìã bachelor's degree         ‚Üí 118 (11.8%)
   üìã master's degree           ‚Üí  59 (5.9%)

üè∑Ô∏è LUNCH:
------------------------------
   üìã standard                  ‚Üí 645 (64.5%)
   üìã free/reduced              ‚Üí

## üéØ 7. Resumen y Conclusiones

### üìö Lo que hemos aprendido:

#### üîç **M√©todos de Visualizaci√≥n:**
- üîù **`head(n)`**: Muestra las primeras `n` filas (por defecto 5)
- üîö **`tail(n)`**: Muestra las √∫ltimas `n` filas (por defecto 5)
- üé≤ **`sample(n)`**: Muestra `n` filas aleatorias
- üìä **Mostrar DataFrame completo**: Simplemente escribir el nombre del DataFrame

#### üìè **Informaci√≥n del DataFrame:**
- üìê **`shape`**: Dimensiones (filas, columnas)
- üè∑Ô∏è **`columns`**: Nombres de las columnas
- üîç **`info()`**: Informaci√≥n general (tipos de datos, memoria, etc.)
- üìà **`describe()`**: Estad√≠sticas descriptivas de variables num√©ricas
- üè∑Ô∏è **`dtypes`**: Tipos de datos de cada columna

#### ‚öôÔ∏è **Configuraci√≥n de Visualizaci√≥n:**
- üìä **`pd.set_option('display.max_rows', n)`**: Controla cu√°ntas filas mostrar
- üìã **`pd.set_option('display.max_columns', n)`**: Controla cu√°ntas columnas mostrar
- üìè **`pd.set_option('display.width', n)`**: Controla el ancho de la visualizaci√≥n

### üéØ **Sobre nuestro Dataset:**
- üìä **1,000 estudiantes** con **8 variables**
- üè∑Ô∏è **5 variables categ√≥ricas** (g√©nero, etnia, educaci√≥n, almuerzo, preparaci√≥n)
- üî¢ **3 variables num√©ricas** (puntuaciones en matem√°ticas, lectura y escritura)
- ‚úÖ **Sin valores faltantes** en ninguna columna

### üí° **Consejos Pr√°cticos:**
1. üîç **Siempre explora** tus datos antes de analizarlos
2. ‚öôÔ∏è **Configura la visualizaci√≥n** seg√∫n el tama√±o de tu dataset
3. üìä **Usa `sample()`** para datasets muy grandes
4. üìà **Combina m√©todos** para obtener una vista completa de los datos

---

### üöÄ **Pr√≥ximos Pasos:**
- üîç **An√°lisis exploratorio** m√°s profundo
- üìä **Visualizaciones gr√°ficas** con matplotlib/seaborn
- üßπ **Limpieza y transformaci√≥n** de datos
- üìà **An√°lisis estad√≠stico** avanzado

---

**¬°Felicidades! üéâ Has completado el tutorial de visualizaci√≥n de DataFrames en Pandas.**