# 📊 Método `value_counts()` en Pandas

---

## 🎯 **Objetivo del Tutorial**
Aprender a utilizar el método `value_counts()` para contar frecuencias de valores únicos en columnas categóricas y numéricas.

---

## 📋 **Índice de Contenidos**

1. [🔧 Configuración Inicial](#configuracion)
2. [📁 Carga de Datos](#carga-datos)
3. [🔍 Exploración Básica](#exploracion)
4. [📊 Método value_counts() Básico](#value-counts-basico)
5. [📈 Frecuencias Relativas](#frecuencias-relativas)
6. [🎨 Parámetros Avanzados](#parametros-avanzados)
7. [📊 Visualización de Resultados](#visualizacion)
8. [💡 Casos de Uso Prácticos](#casos-uso)
9. [📝 Resumen y Conclusiones](#resumen)

---

## 🔧 1. Configuración Inicial

Importamos las librerías necesarias para nuestro análisis:

In [None]:
# 📚 Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 🎨 Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ Librerías importadas correctamente")
print(f"📦 Pandas versión: {pd.__version__}")
print(f"🔢 NumPy versión: {np.__version__}")

## 📁 2. Carga de Datos

Trabajaremos con un dataset de rendimiento estudiantil que contiene información demográfica y calificaciones:

In [None]:
# 📖 Carga del dataset
try:
    df_exams = pd.read_csv("StudentsPerformance.csv")
    print("✅ Dataset cargado exitosamente")
    print(f"📊 Dimensiones: {df_exams.shape[0]} filas × {df_exams.shape[1]} columnas")
except FileNotFoundError:
    print("❌ Archivo no encontrado. Creando dataset de ejemplo...")
    # Crear dataset de ejemplo si no existe el archivo
    np.random.seed(42)
    df_exams = pd.DataFrame({
        'gender': np.random.choice(['female', 'male'], 1000, p=[0.52, 0.48]),
        'race/ethnicity': np.random.choice(['group A', 'group B', 'group C', 'group D', 'group E'], 1000),
        'parental level of education': np.random.choice([
            'some college', "associate's degree", 'high school', 
            'some high school', "bachelor's degree", "master's degree"
        ], 1000, p=[0.23, 0.22, 0.20, 0.18, 0.12, 0.05]),
        'lunch': np.random.choice(['standard', 'free/reduced'], 1000, p=[0.65, 0.35]),
        'test preparation course': np.random.choice(['none', 'completed'], 1000, p=[0.64, 0.36]),
        'math score': np.random.randint(0, 101, 1000),
        'reading score': np.random.randint(0, 101, 1000),
        'writing score': np.random.randint(0, 101, 1000)
    })
    print("✅ Dataset de ejemplo creado")

# 👀 Vista previa de los datos
df_exams.head()

## 🔍 3. Exploración Básica

Antes de usar `value_counts()`, exploremos la estructura de nuestros datos:

In [None]:
# 📋 Información general del dataset
print("📊 INFORMACIÓN GENERAL DEL DATASET")
print("=" * 40)
print(f"📏 Forma del DataFrame: {df_exams.shape}")
print(f"🔢 Total de registros: {len(df_exams)}")
print(f"📝 Columnas disponibles: {list(df_exams.columns)}")
print("\n📊 Tipos de datos:")
print(df_exams.dtypes)
print("\n🔍 Valores nulos por columna:")
print(df_exams.isnull().sum())

## 📊 4. Método value_counts() Básico

### 🎯 ¿Qué es `value_counts()`?

El método `value_counts()` es una herramienta fundamental en Pandas que nos permite:
- 🔢 **Contar** la frecuencia de cada valor único en una Serie
- 📈 **Ordenar** los resultados por frecuencia (descendente por defecto)
- 📊 **Analizar** la distribución de datos categóricos

### 🚀 Uso Básico

In [None]:
# 🔢 Contar total de elementos en la columna 'gender'
print("📊 CONTEO TOTAL DE ELEMENTOS")
print("=" * 30)
print(f"🔢 Total elementos con len(): {len(df_exams['gender'])}")
print(f"🔢 Total elementos con count(): {df_exams['gender'].count()}")
print(f"📝 Diferencia: len() incluye NaN, count() los excluye")

In [None]:
# 👥 Análisis de distribución por género
print("👥 DISTRIBUCIÓN POR GÉNERO")
print("=" * 25)
gender_counts = df_exams["gender"].value_counts()
print(gender_counts)

print("\n📊 Interpretación:")
for gender, count in gender_counts.items():
    percentage = (count / gender_counts.sum()) * 100
    print(f"  {gender.title()}: {count} estudiantes ({percentage:.1f}%)")

## 📈 5. Frecuencias Relativas

Las frecuencias relativas nos muestran la proporción de cada categoría respecto al total:

In [None]:
# 📊 Frecuencias relativas (proporciones)
print("📈 FRECUENCIAS RELATIVAS - GÉNERO")
print("=" * 35)

# Frecuencias relativas básicas
rel_freq = df_exams["gender"].value_counts(normalize=True)
print("🔢 Proporciones decimales:")
print(rel_freq)

# Frecuencias relativas redondeadas
print("\n📊 Proporciones redondeadas (2 decimales):")
rel_freq_rounded = df_exams["gender"].value_counts(normalize=True).round(2)
print(rel_freq_rounded)

# Convertir a porcentajes
print("\n📈 Porcentajes:")
percentages = (df_exams["gender"].value_counts(normalize=True) * 100).round(1)
for gender, pct in percentages.items():
    print(f"  {gender.title()}: {pct}%")

## 🎨 6. Parámetros Avanzados de value_counts()

Exploremos los parámetros más útiles del método `value_counts()`:

In [None]:
# 🎓 Análisis del nivel educativo de los padres
print("🎓 NIVEL EDUCATIVO DE LOS PADRES")
print("=" * 35)

education_counts = df_exams["parental level of education"].value_counts()
print("📊 Frecuencias absolutas:")
print(education_counts)

print("\n📈 Frecuencias relativas (porcentajes):")
education_pct = df_exams["parental level of education"].value_counts(normalize=True).round(2)
for edu, pct in education_pct.items():
    print(f"  {edu.title()}: {pct*100:.0f}%")

In [None]:
# 🔧 Parámetros avanzados de value_counts()
print("🔧 PARÁMETROS AVANZADOS")
print("=" * 25)

# 1. Ordenamiento ascendente
print("📈 1. Ordenamiento ascendente (ascending=True):")
print(df_exams["gender"].value_counts(ascending=True))

# 2. Incluir valores NaN (si los hubiera)
print("\n🔍 2. Incluir valores NaN (dropna=False):")
print(df_exams["gender"].value_counts(dropna=False))

# 3. Limitar resultados
print("\n🔝 3. Top 3 niveles educativos más comunes:")
top_education = df_exams["parental level of education"].value_counts().head(3)
print(top_education)

In [None]:
# 📊 value_counts() con datos numéricos (binning)
print("📊 VALUE_COUNTS CON DATOS NUMÉRICOS")
print("=" * 35)

# Crear bins para las calificaciones de matemáticas
print("🔢 Distribución de calificaciones de matemáticas por rangos:")
math_bins = pd.cut(df_exams['math score'], 
                   bins=[0, 50, 70, 85, 100], 
                   labels=['Bajo (0-50)', 'Medio (51-70)', 'Alto (71-85)', 'Excelente (86-100)'])

math_distribution = math_bins.value_counts()
print(math_distribution)

print("\n📈 Porcentajes por rango:")
math_pct = math_bins.value_counts(normalize=True) * 100
for range_name, pct in math_pct.items():
    print(f"  {range_name}: {pct:.1f}%")

## 📊 7. Visualización de Resultados

Complementemos nuestro análisis con visualizaciones atractivas:

In [None]:
# 📊 Visualización de los resultados de value_counts()
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('📊 Análisis de Distribuciones con value_counts()', fontsize=16, fontweight='bold')

# 1. Distribución por género
gender_counts = df_exams['gender'].value_counts()
axes[0,0].pie(gender_counts.values, labels=gender_counts.index, autopct='%1.1f%%', 
              colors=['#FF6B9D', '#4ECDC4'], startangle=90)
axes[0,0].set_title('👥 Distribución por Género', fontweight='bold')

# 2. Nivel educativo de padres
education_counts = df_exams['parental level of education'].value_counts()
axes[0,1].barh(education_counts.index, education_counts.values, color='skyblue')
axes[0,1].set_title('🎓 Nivel Educativo de Padres', fontweight='bold')
axes[0,1].set_xlabel('Número de Estudiantes')

# 3. Tipo de almuerzo
lunch_counts = df_exams['lunch'].value_counts()
axes[1,0].bar(lunch_counts.index, lunch_counts.values, color=['#95E1D3', '#F38BA8'])
axes[1,0].set_title('🍽️ Tipo de Almuerzo', fontweight='bold')
axes[1,0].set_ylabel('Número de Estudiantes')
axes[1,0].tick_params(axis='x', rotation=45)

# 4. Curso de preparación
prep_counts = df_exams['test preparation course'].value_counts()
axes[1,1].pie(prep_counts.values, labels=prep_counts.index, autopct='%1.1f%%',
              colors=['#FFB4B4', '#B4E7CE'], startangle=90)
axes[1,1].set_title('📚 Curso de Preparación', fontweight='bold')

plt.tight_layout()
plt.show()

## 💡 8. Casos de Uso Prácticos

Veamos algunos casos prácticos donde `value_counts()` es especialmente útil:

In [None]:
# 💡 Caso 1: Detección de valores atípicos o poco frecuentes
print("🔍 CASO 1: DETECCIÓN DE VALORES POCO FRECUENTES")
print("=" * 45)

race_counts = df_exams['race/ethnicity'].value_counts()
print("📊 Distribución por grupo étnico:")
print(race_counts)

# Identificar grupos minoritarios (menos del 15% del total)
total_students = len(df_exams)
minority_threshold = 0.15 * total_students

print(f"\n🎯 Grupos minoritarios (< {minority_threshold:.0f} estudiantes):")
minority_groups = race_counts[race_counts < minority_threshold]
if len(minority_groups) > 0:
    for group, count in minority_groups.items():
        pct = (count / total_students) * 100
        print(f"  {group}: {count} estudiantes ({pct:.1f}%)")
else:
    print("  No se encontraron grupos minoritarios")

In [None]:
# 💡 Caso 2: Control de calidad de datos
print("🔍 CASO 2: CONTROL DE CALIDAD DE DATOS")
print("=" * 35)

# Verificar valores únicos en cada columna categórica
categorical_columns = ['gender', 'race/ethnicity', 'parental level of education', 
                      'lunch', 'test preparation course']

for col in categorical_columns:
    unique_values = df_exams[col].value_counts()
    print(f"\n📋 {col.upper()}:")
    print(f"  🔢 Valores únicos: {len(unique_values)}")
    print(f"  📊 Distribución: {dict(unique_values)}")
    
    # Detectar posibles inconsistencias (valores con muy baja frecuencia)
    low_freq = unique_values[unique_values < 5]
    if len(low_freq) > 0:
        print(f"  ⚠️  Valores con baja frecuencia: {dict(low_freq)}")

In [None]:
# 💡 Caso 3: Análisis comparativo
print("📊 CASO 3: ANÁLISIS COMPARATIVO")
print("=" * 30)

# Comparar distribuciones entre diferentes grupos
print("🔄 Comparación: Curso de preparación vs Género")
print("=" * 45)

# Crear tabla cruzada
cross_tab = pd.crosstab(df_exams['gender'], df_exams['test preparation course'], 
                       margins=True, normalize='index')
print("📊 Proporciones por género:")
print(cross_tab.round(3))

# Análisis por separado
print("\n👥 Análisis detallado:")
for gender in df_exams['gender'].unique():
    gender_data = df_exams[df_exams['gender'] == gender]
    prep_dist = gender_data['test preparation course'].value_counts(normalize=True)
    print(f"\n  {gender.title()}:")
    for course, pct in prep_dist.items():
        print(f"    {course}: {pct:.1%}")

## 📝 9. Resumen y Conclusiones

### 🎯 **Puntos Clave del Método value_counts()**

| Aspecto | Descripción | Ejemplo |
|---------|-------------|----------|
| 🎯 **Propósito** | Contar frecuencias de valores únicos | `df['columna'].value_counts()` |
| 📊 **Ordenamiento** | Por defecto ordena descendente | `ascending=True` para ascendente |
| 📈 **Frecuencias Relativas** | Usar `normalize=True` | Obtiene proporciones del total |
| 🔍 **Valores Nulos** | Por defecto los excluye | `dropna=False` para incluirlos |
| 🎨 **Personalización** | Múltiples parámetros disponibles | `sort`, `bins`, etc. |

### 💡 **Casos de Uso Principales**

1. **📊 Análisis Exploratorio**: Entender la distribución de variables categóricas
2. **🔍 Control de Calidad**: Detectar valores atípicos o inconsistencias
3. **📈 Análisis de Frecuencias**: Calcular proporciones y porcentajes
4. **🎯 Segmentación**: Identificar grupos mayoritarios y minoritarios
5. **📋 Reportes**: Generar resúmenes estadísticos rápidos

### 🚀 **Mejores Prácticas**

- ✅ **Siempre verificar** el tipo de datos antes de aplicar `value_counts()`
- ✅ **Usar `normalize=True`** cuando necesites proporciones
- ✅ **Combinar con visualizaciones** para mejor comprensión
- ✅ **Considerar el contexto** al interpretar los resultados
- ✅ **Documentar hallazgos** importantes para futuros análisis

---

### 🎉 **¡Felicitaciones!**

Has completado el tutorial sobre el método `value_counts()` en Pandas. Ahora tienes las herramientas necesarias para:

- 🔢 Contar frecuencias de manera eficiente
- 📊 Analizar distribuciones de datos categóricos
- 📈 Calcular proporciones y porcentajes
- 🎨 Personalizar el análisis según tus necesidades
- 💡 Aplicar estos conocimientos en casos reales

---

**📚 Próximos pasos sugeridos:**
- Explorar métodos relacionados como `crosstab()` y `pivot_table()`
- Practicar con diferentes tipos de datasets
- Combinar `value_counts()` con técnicas de visualización avanzadas

---

*💡 **Tip**: Guarda este notebook como referencia para futuros proyectos de análisis de datos.*