![Redes Sociales](../redes_sociales_pythonperu.png)

# **Introducción a NumPy para Manipulación de Datos Numéricos**

[Grabación de clase](https://www.youtube.com/watch?v=crkYQ6NIruM)

🧠 ¿Qué es NumPy?
- NumPy (Numerical Python) es una biblioteca de Python especializada en operaciones con arrays multidimensionales y en cálculos numéricos de alto rendimiento.

 🧠 ¿Para qué sirve?
- Crear arrays y matrices.

- Realizar operaciones vectorizadas (más rápidas que las listas).

- Funciones estadísticas (media, desviación, etc).

- Lectura de datos numéricos.

- Filtración de datos.

- Ideal para análisis de datos, machine learning, ciencia e ingeniería.

🔧 Instalación (si es necesario)

In [18]:
! pip install numpy



In [None]:
# importación de la librería
import numpy as np

🔹 ¿Qué es un vector?
- Un vector en NumPy es un array unidimensional.

🔸¿Para qué sirve un vector?
- Un vector (array 1D) es útil cuando necesitas representar:

    - Una serie de valores en una sola dimensión (como una columna de Excel).

    - Datos lineales, como:

        - Temperaturas diarias: [21, 23, 20, 22, 24]

        - Puntuaciones de un estudiante: [17, 19, 20]

        - Ventas de una tienda por día: [100, 120, 90]


In [None]:
ventas = np.array([100, 120, 90]) # 1 Dimension
print(ventas)

[100 120  90]


In [21]:
# Sumar el 18% de IGV a cada elemento
ventas_IGV = ventas * 1.18
print(ventas_IGV)

[118.  141.6 106.2]


🔹 ¿Qué es una matriz?
- Una matriz es un array bidimensional (2D), como una tabla de filas y columnas.

🔸 ¿Para qué sirve una matriz?
- Una matriz (array 2D) te sirve para:

    - Representar datos tabulares, como una tabla de Excel o DataFrame.

    - Trabajar con datos multivariables.

In [None]:
# Datos de 3 estudiantes: [Matematicas, Ciencia, Historia]
notas = np.array([
    [15, 18, 19],
    [12, 16, 13],
    [17, 19, 20]
])

print(notas)

[[15 18 19]
 [12 16 13]
 [17 19 20]]


In [26]:
# axis es un eje
notas.mean(axis = 0) # promedio por columna(curso)

array([14.66666667, 17.66666667, 17.33333333])

In [27]:
notas.mean(axis = 1) # promedio por fila(estudiante)

array([17.33333333, 13.66666667, 18.66666667])

✅ Crear vectores y matrices desde diferentes estructuras de datos

📌 Desde listas

In [28]:
lista = [23, 24, 25, 22, 21, 20]

arr1 = np.array(lista)

print(arr1)

[23 24 25 22 21 20]


📌 Desde tuplas

In [30]:
tupla = (19, 18, 17, 16, 18, 19)

arr2 = np.array(tupla)

print(arr2)

[19 18 17 16 18 19]


⏱ Comparación: lista vs array

- CPU time: Tiempo total que el procesador (CPU) estuvo trabajando para ejecutar el código.
- Wall time: Tiempo real que pasó desde que comenzó hasta que terminó el código (como si usaras un cronómetro). Incluye tiempos de espera, entrada/salida, multitarea, etc.

In [None]:
%%time
# Lista con 10_000_000 de datos
lista = list(range(1,10_000_001))
# Crear una lista de comprensión
resultado = [x ** 2 for x in lista]


CPU times: total: 688 ms
Wall time: 696 ms


In [None]:
%%time
# Array con 10_000_000 de datos
arr1 = np.arange(1, 10_000_001)
resultado_arr = arr1 ** 2

CPU times: total: 46.9 ms
Wall time: 32.5 ms


In [None]:
%%time
# Promedio con listas
promedio = sum(lista) / len(lista)

CPU times: total: 46.9 ms
Wall time: 53.6 ms


In [None]:
%%time
# Promedio con arrays
promedio = arr1.mean()

CPU times: total: 0 ns
Wall time: 7.71 ms


In [41]:
import math

In [42]:
%%time

# Calcular el seno con una lista
resultado = [math.sin(x) for x in lista]

CPU times: total: 922 ms
Wall time: 971 ms


In [43]:
%%time

# Calcular el seno con un array
resultado_arr = np.sin(arr1)

CPU times: total: 62.5 ms
Wall time: 65.9 ms


🎯 Indexación y slicing

In [None]:
# Vectores 1D
array1 = np.array([10, 20, 30, 40, 50])
print(array1)

[10 20 30 40 50]


In [None]:
# Indexación
# Sintaxis: array[indice]
array1[0]

np.int64(10)

In [57]:
array1[-5]

np.int64(10)

In [55]:
array1[4]

np.int64(50)

In [56]:
array1[-1]

np.int64(50)

In [58]:
ultimo_numero = array1[-1]
print(ultimo_numero)

50


In [53]:
# Matrices 2D
matriz1 = np.array(
    [[1, 2, 3],
    [4, 5, 6]]
)
print(matriz1)

[[1 2 3]
 [4 5 6]]


In [60]:
# Indexacion
# Sintaxis: matriz[filas][columnas]
matriz1[0][1]

np.int64(2)

In [61]:
matriz1[-1][-1]

np.int64(6)

In [None]:
matriz1[-1][1]

np.int64(5)

In [63]:
matriz1[1][1]

np.int64(5)

📊 Funciones estadísticas

In [65]:
# array.max(): valor maximo
array1.max()

np.int64(50)

In [66]:
# array.min(): valor minimo
array1.min()

np.int64(10)

In [67]:
# array.argmax(): indice del valor maximo
array1.argmax()

np.int64(4)

In [68]:
# array.argmin(): indice del valor minimo
array1.argmin()

np.int64(0)

In [69]:
# array.mean(): promedio
array1.mean()

np.float64(30.0)

In [70]:
# array.std(): desviación estándar
array1.std()

np.float64(14.142135623730951)

In [71]:
# array.sum(): suma total
array1.sum()

np.int64(150)

🔍 Filtrado de arrays

In [72]:
edades = np.array([12, 15, 17, 28, 18, 20, 25, 30])

Ejercicio: 
- Filtrar las edades de personas aptas para votar (mayores o iguales a 18 años).

In [73]:
mayores_edad = edades[edades >= 18]
print(mayores_edad)

[28 18 20 25 30]


📄 Lectura de dataset con NumPy

In [81]:
censo = np.loadtxt('censo.csv', delimiter=',', skiprows=1, dtype=np.int32)
# Mostrar las primeras 20 filas
print(censo[:20]) 

[[  19  900]
 [  24 1500]
 [  37 2100]
 [  44 2450]
 [  53 2300]
 [  59 1600]
 [  41 2250]
 [  26 1580]
 [  30 1800]
 [  34 1950]
 [  46 2500]
 [  39 2150]
 [  28 1700]
 [  31 1820]
 [  33 1890]
 [  35 2000]
 [  23 1300]
 [  29 1750]
 [  32 1870]
 [  40 2200]]


In [None]:
# primera columna: edad
# sintaxis: array[filas,columnas]
censo[:,0]

array([19, 24, 37, 44, 53, 59, 41, 26, 30, 34, 46, 39, 28, 31, 33, 35, 23,
       29, 32, 40, 43, 47, 49, 51, 57, 60, 22, 27, 25, 36, 38, 45, 50, 21,
       20, 18, 56, 52, 55, 58, 42, 48, 19, 26, 44, 29, 34, 30, 24, 27],
      dtype=int32)

In [None]:
# segunda columna: salarios
censo[:,1]

array([ 900, 1500, 2100, 2450, 2300, 1600, 2250, 1580, 1800, 1950, 2500,
       2150, 1700, 1820, 1890, 2000, 1300, 1750, 1870, 2200, 2400, 2520,
       2450, 2350, 1700, 1550, 1200, 1600, 1550, 2050, 2090, 2480, 2380,
       1150,  980,  850, 1650, 2330, 2250, 1580, 2300, 2500,  920, 1590,
       2430, 1720, 1980, 1830, 1450, 1620], dtype=int32)

🧪 Miniproyecto: "Análisis de sueldos"
- Una empresa tiene un archivo con edades y sueldos. Queremos responder:

    - ¿Cuál es la edad promedio?

    - ¿Cuál es el sueldo promedio?

    - ¿Cuántas personas ganan más de 2000?

    - ¿Qué edad tiene la persona con el sueldo más alto?

In [84]:
# array de edades
edad = censo[:,0]
# array de salarios
salario = censo[:,1]

In [85]:
# ¿Cuál es la edad promedio?
edad_promedio = edad.mean()
print(f'Edad promedio: {edad_promedio}')

Edad promedio: 37.12


In [86]:
# ¿Cuál es el salario promedio?
salario_promedio = salario.mean()
print(f'Salario promedio: {salario_promedio}')

Salario promedio: 1861.2


In [87]:
# ¿Cuántas personas ganan más de 2000?
altos = salario > 2000
print(f'Cantidad de personas que ganan más de 2000: {altos.sum()}')

Cantidad de personas que ganan más de 2000: 20


In [88]:
# Si quiero ver las cantidades mayores a 2000
salario[salario > 2000]

array([2100, 2450, 2300, 2250, 2500, 2150, 2200, 2400, 2520, 2450, 2350,
       2050, 2090, 2480, 2380, 2330, 2250, 2300, 2500, 2430], dtype=int32)

In [92]:
# ¿Qué edad tiene la persona con el sueldo más alto?
indice_max = salario.argmax()
edad_max = edad[indice_max]

print(f'Edad de la persona que gana más: {edad_max} años')

Edad de la persona que gana más: 47 años


🧩 Ejercicios con contexto real

Ejercicio 1: 🏫 Edad de alumnos
- Tienes la edad de 10 estudiantes. Filtra los mayores de 18 años.

In [93]:
edades = np.array([16, 17, 19, 18, 21, 22, 15, 14, 23, 20])

In [94]:
edades[edades >= 18]

array([19, 18, 21, 22, 23, 20])

Ejercicio 2: 📈 Análisis de ventas
- Datos de ventas diarias (en soles). Calcular la venta máxima, mínima y promedio.

In [95]:
ventas = np.array([120, 150, 180, 90, 210, 300, 110])

In [99]:
venta_max = ventas.max()
venta_min = ventas.min()
venta_prom = ventas.mean()

print(f'Maximo: {venta_max} soles\nMinimo: {venta_min} soles\nPromedio: {round(venta_prom, 2)} soles')

Maximo: 300 soles
Minimo: 90 soles
Promedio: 165.71 soles


Ejercicio 3: 🚌 Transporte
- Tiempos (en minutos) que tarda un bus en llegar a destino. ¿Cuántos viajes duran menos de 15 min?

In [100]:
lista = [12, 14, 16, 13, 19, 20, 10]
tiempos = np.array(lista)

filtro = tiempos < 15

print(f'Viajes < 15 min: {filtro.sum()}')

Viajes < 15 min: 4


Ejercicio 4: 🏋️‍♂️ Control de peso
- Lista de pesos de personas. ¿Qué persona tiene el mayor peso y cuánto?



In [101]:
pesos = np.array([70, 65, 80, 60, 90, 85])

print(f'Indice del mayor peso: {pesos.argmax()}')
print(f'Peso maximo: {pesos.max()}')

Indice del mayor peso: 4
Peso maximo: 90


Ejercicio 5: 📊 Mini análisis de temperatura
- Registros de temperatura en °C durante la semana. ¿Días con más de 28°C?

In [104]:
tupla_temp = (25, 27, 30, 32, 28, 29, 26)
temperaturas = np.array(tupla_temp)

temp_mayor_28 = temperaturas[temperaturas > 28]
altas_temperaturas = temperaturas > 28

print(f'Temperaturas > 28: {temp_mayor_28}')
print(f'Dias con mayor temperatura a 28: {altas_temperaturas.sum()}')

Temperaturas > 28: [30 32 29]
Dias con mayor temperatura a 28: 3


Ejercicio 6: 🧩Análisis de consumo de energía eléctrica


Medición de consumo
- Una empresa proveedora de electricidad registró el consumo mensual (en kWh) y el monto facturado (en soles) de varios hogares durante el último mes. El archivo consumo_energia.csv contiene estos datos:

1. Leer los datos del archivo.

2. Calcular:

    - Promedio de consumo en kWh.

    - Promedio del monto facturado.

    - ¿Cuántos hogares consumieron más de 200 kWh?

    - ¿Cuál fue el consumo del hogar que pagó más?



In [105]:
# Leer los datos
data = np.loadtxt('consumo_energia.csv', delimiter=',', skiprows=1)

In [106]:
# Separar por columnas
# consumo
consumo = data[:,0]
# monto
monto = data[:,1]

In [107]:
# Calculos
consumo_prom = consumo.mean()
monto_prom = monto.mean()
hogares_alto_consumo = np.sum(consumo > 200)
indice_max_pago = monto.argmax()
consumo_max_pago = consumo[indice_max_pago]

In [108]:
# Promedio de consumo en kWh.
print(f'Consumo promedio: {consumo_prom}')

Consumo promedio: 214.28571428571428


In [109]:
# Promedio del monto facturado.
print(f'Monto promedio: {monto_prom}')

Monto promedio: 156.57142857142858


In [110]:
# ¿Cuántos hogares consumieron más de 200 kWh?
print(f'Hogares con consumo > 200 kWh: {hogares_alto_consumo}')

Hogares con consumo > 200 kWh: 3


In [112]:
# ¿Cuál fue el consumo del hogar que pagó más?
print(f'Consumo del hogar que más pago: {consumo_max_pago} kWh')

Consumo del hogar que más pago: 400.0 kWh


🎓 Conclusión
- NumPy es una herramienta poderosa para comenzar con el análisis de datos de forma rápida y eficiente. Dominar arrays, funciones estadísticas y filtrado te prepara para avanzar a herramientas más complejas como Pandas y Scikit-Learn.

