# Preprocesamiento de Datos con NumPy - Semana 6

### Introducción
En este notebook, exploraremos la **indexación y segmentación** de arreglos usando NumPy, con aplicaciones prácticas para ciencia de datos e inteligencia artificial. Los estudiantes aprenderán sobre indexación básica, avanzada y condicional, además de cómo aplicar estas técnicas en el contexto de la limpieza de datos y análisis.

In [None]:
# Importar la librería NumPy
import numpy as np

### Creación de Arreglo Unidimensional
Primero, vamos a crear un arreglo simple para aprender las técnicas de indexación básica.

In [None]:
arreglo_1d = np.array([10, 20, 30, 40, 50])
print("Arreglo Unidimensional:", arreglo_1d)

type(arreglo_1d)

In [None]:

a=[10, 20, 30, 40, 50]
type(a)

### 2. Indexación Básica
Accedemos a elementos específicos del arreglo usando índices positivos y negativos.


In [None]:
print("Primer elemento:", arreglo_1d[0])  # Índice 0
print("Penúltimo elemento:", arreglo_1d[-2])  # Índice -1

In [None]:
print("Último elemento:", arreglo_1d[-1]) 

### 3. Slicing de Arreglos
Utilizamos la técnica de slicing para obtener subconjuntos de datos del arreglo.

In [None]:
sub_arreglo = arreglo_1d[1:4] #Todo [m: n-1] las posiciones que toman en cuenta
print("Segmento del arreglo (índices 1 a 3):", sub_arreglo)

In [None]:
sub_arreglo = arreglo_1d[1:3]

### 4. Creación de un Arreglo Multidimensional
Ahora, vamos a crear un arreglo bidimensional para aprender sobre indexación de matrices.

In [None]:
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Matriz:")
print(matriz)

In [None]:
m1=[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
print(m1)


### 5. Indexación en Arreglos Multidimensionales
Accedemos a elementos específicos usando `[fila, columna]`.

In [None]:
print("Elemento en la fila 1, columna 2:", matriz[1, 2])
print("Toda la columna 1:", matriz[:, 1])

### 6. Slicing en Matrices
Podemos extraer una submatriz de una matriz original usando slicing.

In [None]:
print(matriz)



In [None]:
sub_matriz = matriz[0:2, 1:3]
print("Submatriz (filas 0 a 1, columnas 1 a 2):")
print(sub_matriz)

### 7. Indexación Booleana
Filtramos valores en la matriz que cumplan ciertas condiciones.

In [None]:
mayores_a_5 = matriz[matriz >= 5]

print("Elementos mayores a 5:", mayores_a_5)

In [None]:
menores_a_5 = matriz[matriz <= 5]
print("Elementos menores a 5:", menores_a_5)

type(menores_a_5)

### 8. Indexación Avanzada con Listas de Índices
Podemos usar listas de índices para acceder a múltiples elementos específicos.

In [None]:
print(arreglo_1d)

In [None]:
indices = [0, 2, -1]
seleccion = arreglo_1d[indices]
print(arreglo_1d)
print("Elementos en los índices [0, 2, 4]:", seleccion)

type(indices)



In [None]:
indices_1 = [-1, -3, -5]
seleccion_1 = arreglo_1d[indices_1]

print("Elementos en los índices [-1, -3, -4]:", seleccion_1)

### 9. Broadcasting en Matrices
Aplicamos una operación a toda la matriz utilizando broadcasting.

In [None]:
print(matriz)

In [None]:
vector = np.array([1, 2, 3])
matriz_suma = matriz + vector
print("Resultado del broadcasting:")
print(matriz_suma)

In [None]:
vector = np.array([1, 2, 3])
matriz_mul = matriz * vector
print("Resultado del broadcasting:")
print(matriz_mul)





In [None]:
vector_t=[[1, 2, 3],[1, 2, 3],[1, 2, 3]]

In [None]:
print(matriz)

### 10. Máscaras Complejas y Filtrado Condicional Avanzado
Aplicamos técnicas avanzadas de filtrado condicional utilizando máscaras booleanas complejas para filtrar datos según múltiples condiciones.

In [None]:
print(matriz)

In [None]:
condicion = (matriz >= 5) & (matriz <= 7)
elementos_filtrados = matriz[condicion]
print("Elementos entre 5 y 9:", elementos_filtrados)

### 11. Uso de np.where() para Transformación de Datos
Utilizamos `np.where()` para modificar los datos de la matriz según condiciones específicas.

In [None]:
media=matriz.mean()
matriz_modificada = np.where(matriz > 5, media, matriz)
print("Matriz modificada (valores menores a 5 reemplazados por 0):")
print(matriz_modificada)

### 12. Detección de Outliers
Identificamos y reemplazamos valores atípicos (outliers) en la matriz utilizando la media.

In [None]:
media_matriz = np.mean(matriz)
matriz_sin_outliers = np.where(matriz > 7, media_matriz, matriz)
print("Matriz sin outliers (valores mayores a 7 reemplazados por la media):")
print(matriz_sin_outliers)

### 13. Ejercicio Práctico
1. Crear un arreglo multidimensional (3x5) con valores aleatorios entre 1 y 20 usando `np.random.randint()`.
2. Extraer una submatriz del arreglo usando **slicing**.
3. Filtrar los valores mayores a 10 del arreglo.
4. Aplicar **broadcasting** sumando un vector a cada fila del arreglo.
5. Utilizar `np.where()` para modificar los valores menores a 5 por 0.

In [38]:
# Crear un arreglo multidimensional (3x5) con valores aleatorios entre 1 y 20
arr = np.random.randint(1, 21, size=(3, 5))

# Mostrar el arreglo generado
print("Arreglo original:")
print(arr)

# Extraer una submatriz usando slicing (por ejemplo, las dos primeras filas y las tres primeras columnas)
submatriz = arr[:2, :3]

# Mostrar la submatriz
print("\nSubmatriz extraída (filas 0-1, columnas 0-2):")
print(submatriz)

# Filtrar los valores mayores a 10 del arreglo
valoresMayores10 = arr[arr > 10]

# Mostrar los valores mayores a 10
print("\nValores mayores a 10:")
print(valoresMayores10)

# Aplicar broadcasting sumando un vector a cada fila del arreglo
# Creamos un vector con 5 valores (uno para cada columna)
vector = np.array([1, 2, 3, 4, 5])
arrBroadcasted = arr + vector

# Mostrar el arreglo después del broadcasting
print("\nArreglo después de aplicar broadcasting:")
print(arrBroadcasted)

# Utilizar np.where() para modificar los valores menores a 5 por 0
arrModificado = np.where(arr < 5, 0, arr)

# Mostrar el arreglo modificado
print("\nArreglo después de aplicar np.where() (valores menores a 5 son 0):")
print(arrModificado)


Arreglo original:
[[12 20 17 10  9]
 [ 2 19  3  2  8]
 [ 9  2 17 13 15]]

Submatriz extraída (filas 0-1, columnas 0-2):
[[12 20 17]
 [ 2 19  3]]

Valores mayores a 10:
[12 20 17 19 17 13 15]

Arreglo después de aplicar broadcasting:
[[13 22 20 14 14]
 [ 3 21  6  6 13]
 [10  4 20 17 20]]

Arreglo después de aplicar np.where() (valores menores a 5 son 0):
[[12 20 17 10  9]
 [ 0 19  0  0  8]
 [ 9  0 17 13 15]]


In [43]:
random_matrix=np.random.randint(1,21,(3,5))
print(random_matrix)

[[10  4 17 17  3]
 [11 13 13 16  8]
 [19  6  5  4  5]]


In [None]:
import numpy as np
import random
# 1. Crear un arreglo multidimensional (3x5) con valores aleatorios entre 1 y 20
arreglo = np.array([[random.randint(1, 20) for _ in range(5)] for _ in range(3)])
print("Arreglo original (3x5):\n", arreglo)
# 2. Extraer una submatriz del arreglo usando slicing (ejemplo de selección de las primeras dos filas y tres primeras columnas)
submatriz = arreglo[:2, :3]
print("\nSubmatriz (2x3):\n", submatriz)
# 3. Filtrar los valores mayores a 10 del arreglo
filtro_mayor_10 = arreglo[arreglo > 10]
print("\nValores mayores a 10:\n", filtro_mayor_10)
# 4. Aplicar broadcasting sumando un vector a cada fila del arreglo
vector = np.array([1, 2, 3, 4, 5])
arreglo_sumado = arreglo + vector
print("\nArreglo con broadcasting:\n", arreglo_sumado)
# 5. Utilizar np.where() para modificar los valores menores a 5 por 0
arreglo_modificado = np.where(arreglo < 5, 0, arreglo)
print("\nArreglo con valores menores a 5 reemplazados por 0:\n", arreglo_modificado)

In [45]:
import time
import random

In [46]:
start_time = time.time()

arreglo = np.array([[random.randint(100, 1000) for _ in range(1000)] for _ in range(10000)])

end_time = time.time()

elapsed_time = end_time - start_time
print(f"Tiempo de cómputo: {elapsed_time} segundos")

Tiempo de cómputo: 4.496145486831665 segundos


In [47]:
start_time = time.time()

random_matrix=np.random.randint(100,1001,(10000,1000))

end_time = time.time()

elapsed_time = end_time - start_time
print(f"Tiempo de cómputo: {elapsed_time} segundos")

Tiempo de cómputo: 0.044805288314819336 segundos


In [48]:
import numpy as np
matriz = np.random.randint(1, 51, size=(3, 5))
print("Matriz original:\n", matriz)
submatriz = matriz[:2, :3]
print("\nSubmatriz extraída:\n", submatriz)

filtro_mayor_10 = matriz[matriz > 10]
print("\nValores mayores a 10:\n", filtro_mayor_10)

vector = np.array([1, 2, 3, 4, 5])  
matriz_broadcast = matriz + vector
print("\nMatriz después de aplicar broadcasting (suma del vector a cada fila):\n", matriz_broadcast)

matriz_modificada = np.where(matriz < 5, 0, matriz)
print("\nMatriz con valores menores a 5 cambiados por 0:\n", matriz_modificada)

Matriz original:
 [[38 35 16 35 21]
 [39  5 50 49  7]
 [50 36  1 12 40]]

Submatriz extraída:
 [[38 35 16]
 [39  5 50]]

Valores mayores a 10:
 [38 35 16 35 21 39 50 49 50 36 12 40]

Matriz después de aplicar broadcasting (suma del vector a cada fila):
 [[39 37 19 39 26]
 [40  7 53 53 12]
 [51 38  4 16 45]]

Matriz con valores menores a 5 cambiados por 0:
 [[38 35 16 35 21]
 [39  5 50 49  7]
 [50 36  0 12 40]]


In [49]:
# 1. Generar una matriz de 3x5 con números aleatorios entre 1 y 20
arreglo = np.random.randint(1, 21, (3, 5))
print("Matriz original:\n", arreglo)

# 2. Seleccionar una porción de la matriz usando slicing
submatriz = arreglo[:, :3]
print("\nPorción de la matriz (primeras tres columnas):\n", submatriz)

# 3. Identificar los elementos del arreglo que son mayores a 10
filtro_mayores_10 = arreglo[arreglo > 10]
print("\nElementos mayores a 10:\n", filtro_mayores_10)

# 4. Usar broadcasting para sumar un vector a cada fila de la matriz
vector = np.array([1, 2, 3, 4, 5])
arreglo_broadcast = arreglo + vector
print("\nMatriz después de aplicar el broadcasting:\n", arreglo_broadcast)

# 5. Emplear np.where() para reemplazar los valores menores a 5 con 0
arreglo_modificado = np.where(arreglo < 5, 0, arreglo)
print("\nMatriz con valores menores a 5 cambiados a 0:\n", arreglo_modificado)


Matriz original:
 [[20  7  2  9  8]
 [11  3 18 19  6]
 [ 1  4 10 19  5]]

Porción de la matriz (primeras tres columnas):
 [[20  7  2]
 [11  3 18]
 [ 1  4 10]]

Elementos mayores a 10:
 [20 11 18 19 19]

Matriz después de aplicar el broadcasting:
 [[21  9  5 13 13]
 [12  5 21 23 11]
 [ 2  6 13 23 10]]

Matriz con valores menores a 5 cambiados a 0:
 [[20  7  0  9  8]
 [11  0 18 19  6]
 [ 0  0 10 19  5]]
