# Identificación y Conteo de Elementos Únicos en NumPy

**Curso:** Python para Ciencia de Datos
**Tema:** Análisis de frecuencias y gestión de memoria (vistas vs copias)
**Fecha:** 06 de Octubre, 2025

---

## Introducción

Al analizar datos, frecuentemente necesitamos:
- Identificar valores únicos en un dataset
- Contar cuántas veces aparece cada valor
- Entender cómo NumPy maneja la memoria (vistas vs copias)

Estas operaciones son fundamentales para análisis exploratorio de datos (EDA) y procesamiento eficiente.

In [None]:
import numpy as np

---

## 1. Identificación de Elementos Únicos

### Caso de uso: Análisis de Opiniones de Clientes

Imagina que recolectaste respuestas de una encuesta de satisfacción. Necesitas saber qué categorías existen.

In [None]:
# Respuestas de los clientes al producto
survey_responses = np.array(["bueno", "excelente", "malo",
                              "bueno", "malo", "excelente",
                              "bueno", "bueno", "malo",
                              "excelente"])

print("Respuestas originales:")
print(survey_responses)
print("\nTotal de respuestas:", len(survey_responses))

### Método `np.unique()`

Identifica todos los valores únicos en un array.

In [None]:
# Obtener valores únicos
unique_elements = np.unique(survey_responses)
print("Categorías únicas encontradas:")
print(unique_elements)

---

## 2. Conteo de Frecuencias

Además de identificar valores únicos, necesitamos saber **cuántas veces** aparece cada uno.

### Parámetro `return_counts=True`

Retorna dos arrays: elementos únicos y sus frecuencias.

In [None]:
# Obtener valores únicos con conteos
unique_elements, counts = np.unique(survey_responses, return_counts=True)

print("Elementos únicos:")
print(unique_elements)
print("\nConteos:")
print(counts)

# Visualización más clara
print("\n--- Resumen de Frecuencias ---")
for elemento, conteo in zip(unique_elements, counts):
    print(f"{elemento}: {conteo} veces")

---

## 3. Vistas vs Copias en NumPy

**Concepto crítico:** NumPy puede crear "vistas" (referencias) o "copias" (duplicados) de arrays.

### ¿Qué es una Vista?

Una vista es una **referencia al mismo espacio de memoria**. Modificar la vista modifica el array original.

**Ventaja:** Ahorro de memoria
**Riesgo:** Modificaciones no intencionales

In [None]:
# Crear array original
array_x = np.arange(10)
print("Array original:")
print(array_x)

# Crear una VISTA (slicing)
vista_y = array_x[1:3]
print("\nVista (elementos 1-2):")
print(vista_y)

### Comportamiento de las Vistas

Observa qué pasa cuando modificamos el array original:

In [None]:
# Modificar el array original
array_x[1:3] = [10, 11]

print("Array original después de modificar:")
print(array_x)

print("\nVista (¡también cambió!):")
print(vista_y)

# IMPORTANTE: vista_y apunta a la misma memoria que array_x

**Explicación:** `vista_y` no es un array independiente, es una "ventana" al array original.

Memoria: \
array_x: [0, 10, 11, 3, 4, 5, 6, 7, 8, 9] \
↑   ↑ \
vista_y apunta aquí

---

## 4. Creación de Copias

Para evitar modificaciones no deseadas, creamos **copias independientes**.

### Método `.copy()`

Crea un duplicado en memoria diferente.

In [None]:
# Reiniciar array
array_x = np.arange(10)
print("Array original:")
print(array_x)

# Crear una COPIA (memoria independiente)
copy_x = array_x[1:3].copy()
print("\nCopia (elementos 1-2):")
print(copy_x)

In [None]:
# Modificar el array original
array_x[1:3] = [10, 11]

print("Array original después de modificar:")
print(array_x)

print("\nCopia (NO cambió):")
print(copy_x)

# IMPORTANTE: copy_x es independiente de array_x

---

## Comparación: Vistas vs Copias

| Aspecto | Vista | Copia |
|---------|-------|-------|
| Creación | `array[inicio:fin]` | `array[inicio:fin].copy()` |
| Memoria | Comparte con original | Independiente |
| Velocidad | Más rápida | Más lenta |
| Modificaciones | Afectan al original | No afectan al original |
| Uso | Cuando solo lees datos | Cuando modificarás sin afectar original |

### ¿Cuándo usar cada una?

**Usa vistas cuando:**
- Solo lees datos (sin modificar)
- Quieres ahorrar memoria
- Trabajas con arrays muy grandes

**Usa copias cuando:**
- Vas a modificar los datos
- Necesitas independencia total
- Quieres evitar efectos secundarios

---

## Indexación Avanzada: Siempre Copia

**Importante:** Indexar con listas o arrays SIEMPRE crea una copia, no una vista.

In [None]:
array_x = np.arange(10)

# Indexación con lista (crea copia automáticamente)
copy_x = array_x[[1, 2]]  # Nota los dobles corchetes
print("Original:")
print(array_x)
print("\nIndexación con lista:")
print(copy_x)

# Modificar original
array_x[1:3] = [10, 11]

print("\nOriginal modificado:")
print(array_x)
print("\nIndexación con lista (NO cambió):")
print(copy_x)  # Es independiente porque indexar con lista siempre copia

---

## Resumen

### Elementos Únicos y Conteos
- `np.unique(array)` → Valores únicos
- `np.unique(array, return_counts=True)` → Valores únicos + frecuencias

### Vistas vs Copias
- **Slicing (`[:]`)** → Vista (comparte memoria)
- **`.copy()`** → Copia independiente
- **Indexación con lista (`[[]]`)** → Siempre copia

### Regla de Oro
*"Si vas a modificar, haz una copia. Si solo lees, usa vistas."*

---

## Aplicaciones en Ciencia de Datos

### Ejemplo 1: Análisis de Satisfacción del Cliente

Calcular porcentajes y detectar categoría dominante.

In [None]:
# Datos de ejemplo
respuestas = np.array(["bueno", "excelente", "malo",
                       "bueno", "malo", "excelente",
                       "bueno", "bueno", "malo",
                       "excelente", "excelente", "bueno"])

# Análisis completo
categorias, frecuencias = np.unique(respuestas, return_counts=True)
total = len(respuestas)

print("=== Análisis de Satisfacción ===")
for cat, freq in zip(categorias, frecuencias):
    porcentaje = (freq / total) * 100
    print(f"{cat.capitalize()}: {freq} ({porcentaje:.1f}%)")

# Categoría más común
indice_max = np.argmax(frecuencias)
print(f"\nCategoría dominante: {categorias[indice_max]} ({frecuencias[indice_max]} votos)")

### Ejemplo 2: Limpieza de Datos con Vistas

Filtrar datos sin copiar (eficiente para datasets grandes).

In [None]:
# Dataset de edades
edades = np.array([25, 30, -5, 45, 120, 18, 22, 35, 40])

# Crear vista booleana (NO copia datos)
edades_validas_mask = (edades >= 0) & (edades <= 100)

# Filtrar usando la vista
edades_limpias = edades[edades_validas_mask]

print("Edades originales:", edades)
print("Máscara de validez:", edades_validas_mask)
print("Edades válidas:", edades_limpias)
print("\nNota: Si el dataset fuera de 1 millón de filas,")
print("este enfoque ahorra mucha memoria.")

---

## Ejercicios de Práctica

In [None]:
# EJERCICIO 1: Análisis de Productos Vendidos
# Tienes un array con nombres de productos vendidos en un día:
productos = np.array(["manzana", "naranja", "manzana", "plátano",
                      "naranja", "manzana", "plátano", "manzana"])

# a) Identifica qué productos se vendieron
# b) Cuenta cuántas unidades de cada producto
# c) ¿Cuál es el producto más vendido?

# Tu código aquí:

producto, cantidades = np.unique(productos, return_counts=True)
total_productos = len(productos)

print("=== Productos Vendidos ===")
for prod, cant in zip(producto, cantidades):
    print(f"Producto {prod}: {cant} unidades")

index_max = np.argmax(cantidades)

print(f"El producto mas vendido fue {producto[index_max].capitalize()} con {cantidades[index_max]} unidades")


In [None]:
# EJERCICIO 2: Vista vs Copia
# Crea un array de 1 a 10
# a) Crea una vista de los elementos del 3 al 7
# b) Modifica la vista sumándole 100 a cada elemento
# c) Imprime el array original. ¿Qué pasó?
# d) Ahora crea una COPIA de los elementos 3 al 7
# e) Modifica la copia y verifica que el original no cambió

# Tu código aquí:

array_a = np.arange(1, 11)
print(array)
print('-' * 200)

view_a = array_a[3:7]
print("Vista (elementos 3-6):")
print(view_a)
print('-' * 200)

# view_a += 100
# print(array_a)

copy_a = array_a[3:7].copy()
copy_a += 100
print(array_a)
print('-' * 200)
print(copy_a)


In [46]:
# EJERCICIO 3: Categorización de Notas
# Tienes calificaciones de 20 estudiantes (genera con randint entre 0-100)
# a) Clasifica en categorías: "Bajo" (<60), "Medio" (60-80), "Alto" (>80)
# b) Cuenta cuántos estudiantes hay en cada categoría
# c) ¿Qué porcentaje de estudiantes aprobó (>=60)?

# Pista: usa np.where() o indexación booleana para categorizar

# Tu código aquí:

np.random.seed(123)
calificaciones_est = np.random.randint(0, 100, size=20)
total_estudiantes = len(calificaciones_est)
print(calificaciones_est)
print(total_estudiantes)


cat_baja = calificaciones_est < 60
cat_medio = (calificaciones_est >= 60) & (calificaciones_est < 80)
cat_alto = calificaciones_est >= 80

print(f"Estudiantes Bajo: {calificaciones_est[cat_baja].size}")
print(f"Estudiantes Medio: {calificaciones_est[cat_medio].size}")
print(f"Estudiantes Alto: {calificaciones_est[cat_alto].size}")

estudiantes_aprobados = len(calificaciones_est[cat_medio]) + len(calificaciones_est[cat_alto])
print(f"Los estudiantes que pasaron la matería fueron: {estudiantes_aprobados}")
porcentaje_aprobacion = estudiantes_aprobados / total_estudiantes
print(f"El porcentaje de los estudiantes aprobados es de: {porcentaje_aprobacion:.2f}")


[66 92 98 17 83 57 86 97 96 47 73 32 46 96 25 83 78 36 96 80]
20
Estudiantes Bajo: 7
Estudiantes Medio: 3
Estudiantes Alto: 10
Los estudiantes que pasaron la matería fueron: 13
El porcentaje de los estudiantes aprobados es de: 0.65


In [53]:
# EJERCICIO 4: Optimización de Memoria
# Crea un array gigante simulado de 100 elementos
np.random.seed(123)
datos = np.random.randint(1, 10, size=100)

# a) Extrae solo los números pares usando una VISTA (mask booleana)
# b) Calcula la suma de los pares SIN crear una copia
# c) Verifica que no creaste copias innecesarias

# Tu código aquí:

# Archivo original
print(datos)
print('-' * 200)

mask_bool = datos %2 == 0
datos_v2 = np.sum(datos[mask_bool])
print(datos_v2)
print('-' * 200)
# Verificando que no tenga copias innecesarias
print(datos)

[3 3 7 2 4 7 2 1 2 1 1 4 5 1 1 5 2 8 4 3 5 8 3 5 9 1 8 4 5 7 2 6 7 3 2 9 4
 6 1 3 7 3 5 5 7 4 1 7 5 8 7 8 2 6 8 3 5 9 2 3 2 2 4 6 1 9 2 7 4 4 6 8 3 4
 4 4 9 7 8 7 4 7 7 7 2 4 5 4 2 1 6 9 7 9 2 1 4 2 4 5]
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
198
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
[3 3 7 2 4 7 2 1 2 1 1 4 5 1 1 5 2 8 4 3 5 8 3 5 9 1 8 4 5 7 2 6 7 3 2 9 4
 6 1 3 7 3 5 5 7 4 1 7 5 8 7 8 2 6 8 3 5 9 2 3 2 2 4 6 1 9 2 7 4 4 6 8 3 4
 4 4 9 7 8 7 4 7 7 7 2 4 5 4 2 1 6 9 7 9 2 1 4 2 4 5]


In [70]:
# EJERCICIO 5: Pipeline Completo de Análisis
# Simula respuestas de encuesta de 50 personas con 3 opciones: A, B, C
# (Usa np.random.choice(['A', 'B', 'C'], size=50))
#
# a) Identifica opciones únicas y sus frecuencias
# b) Calcula el porcentaje de cada opción
# c) Crea un array booleano que indique si ganó la opción mayoritaria
# d) Extrae las respuestas minoritarias (las que NO son la más votada)

# Tu código aquí:


np.random.seed(123)
respuestas_encuesta = np.random.choice(['A', 'B', 'C'], size=50)
print(respuestas_encuesta)

resp, frecu = np.unique(respuestas_encuesta, return_counts=True)
total = len(respuestas_encuesta)

print("=== Productos Vendidos ===")
for respuestas, cantidades in zip(resp, frecu):
    porcentaje = (cantidades / total) * 100
    print(f"Respuesta {respuestas}: {cantidades} votos, con un porcentaje de {porcentaje:.2f}%")

print('-' * 200)
# respuesta más votada
max_respuesta = np.argmax(frecu)
respuesta_ganadora = resp[max_respuesta]
cantidad_ganadora = frecu[max_respuesta]

# c) Array booleano indicando si cada respuesta es la ganadora
es_ganadora = respuestas_encuesta == respuesta_ganadora
print("\nArray booleano (True = ganadora):")
print(es_ganadora)

# d) Extraer respuestas minoritarias (las que NO son la ganadora)
respuestas_minoritarias = respuestas_encuesta[~es_ganadora]
print("\nRespuestas minoritarias:")
print(respuestas_minoritarias)
print(f"Total de respuestas no ganadoras: {len(respuestas_minoritarias)}")

# Extra: Detalle de minoritarias
minoritarias_unicas, minoritarias_conteo = np.unique(respuestas_minoritarias, return_counts=True)
print("\nDistribución de respuestas minoritarias:")
for resp, cant in zip(minoritarias_unicas, minoritarias_conteo):
    print(f"{resp}: {cant} votos")

['C' 'B' 'C' 'C' 'A' 'C' 'C' 'B' 'C' 'B' 'C' 'B' 'A' 'B' 'C' 'B' 'A' 'C'
 'A' 'B' 'C' 'B' 'A' 'A' 'A' 'A' 'B' 'C' 'A' 'C' 'A' 'A' 'B' 'A' 'B' 'A'
 'A' 'A' 'C' 'B' 'B' 'C' 'C' 'C' 'B' 'A' 'A' 'C' 'B' 'A']
=== Productos Vendidos ===
Respuesta A: 18 votos, con un porcentaje de 36.00%
Respuesta B: 15 votos, con un porcentaje de 30.00%
Respuesta C: 17 votos, con un porcentaje de 34.00%
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Array booleano (True = ganadora):
[False False False False  True False False False False False False False
  True False False False  True False  True False False False  True  True
  True  True False False  True False  True  True False  True False  True
  True  True False False False False False False False  True  True False
 False  True]

Respuestas minoritarias:
['C' 'B' 'C' 'C' 'C' 'C' 'B' 'C' 'B' 'C' 'B' 'B'