<a href="https://colab.research.google.com/github/peraltarh/VIUMasterInAI/blob/main/2.Python%20para%20la%20inteligencia%20artificial/Paper/Whitepaper_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Github: https://github.com/peraltarh/VIUMasterInAI/tree/main/2.Python%20para%20la%20inteligencia%20artificial/Paper

# Introduccion

El artículo analizado, “Exploring Indexing and Slicing in NumPy Arrays”, presenta una comparativa de las diferencias conceptuales y prácticas entre dos mecanismos fundamentales del uso de arrays en NumPy, la indexación (indexing) y el corte (slicing).
Estos métodos son esenciales en la computación científica y el análisis de datos con Python, especialmente en el campo del aprendizaje automático, donde la eficiencia en el manejo de datos es clave.
El estudio se centra en cómo estas técnicas afectan la memoria, cómo se comportan al modificar arrays, y en qué contextos es preferible utilizar cada una.

A continuacion se presentara un analysis detallado del ariculo y una opinion personal tanto de sus concluciones como mi experiencia personal al analizarlo.

# Analysis detallado


## Introduccion de NumPy y contexto
El artículo inicia con una contextualización sobre el papel de NumPy como biblioteca fundamental en Python para computación científica. Explica que las operaciones de indexación y slicing, aunque similares en sintaxis, pueden producir resultados radicalmente distintos, especialmente en términos de mutabilidad y memoria.

Luego explica los diferentes differentes temas listados a continuacion

## Copias: superficiales y profundas
Shallow copy: comparte la dirección de memoria con el array original, lo cual significa que cualquier modificación afecta a ambos.
Deep copy: genera un nuevo bloque de memoria, de modo que los cambios en la copia no alteran el array original.

## Copias vs vistas
Las copias se obtienen generalmente al usar técnicas de indexación; crean una réplica independiente de los datos.
Las vistas se obtienen mediante slicing y comparten la memoria con el array original.

## Indexación
Se describen tres tipos:
Indexación entera (integer indexing): accede a elementos mediante enteros o pares de enteros en arrays 1D o 2D.
Indexación booleana: selecciona elementos basándose en condiciones lógicas.
Indexación avanzada (fancy indexing): utiliza listas o arrays de enteros como índices.

Explica que todas las formas de indexación generan copias de los datos seleccionados, es decir, los cambios no afectan el array original.

## Slicing de arrays
Describe el uso del operador : para definir rangos dentro del array. Se dan ejemplos prácticos de slicing en arrays unidimensionales y bidimensionales, resaltando que los slices son vistas, por lo que cualquier modificación a ellos se refleja en el array original.

Además, explica el uso de slicing implícito (como Y[0]) y explícito (como Y[:,1:4]), junto con funciones como slice() para generar cortes más complejos.

## Comparación entre indexación y slicing
Se enumeran claramente las diferencias:
Tipo de retorno: la indexación retorna copias, el slicing retorna vistas.
Compartición de datos: el slicing comparte memoria; la indexación no.
Uso: la indexación es útil para acceder a elementos específicos; el slicing, para obtener subarrays estructurados.

## Conclusion
El artículo concluye que dominar estas herramientas permite una manipulación más eficiente de datos en NumPy, y proporciona una regla bastante útil:

Si hay un :, se trata de un slice (vista).
Si no hay :, es una indexación (copia).

In [None]:
#Analsis del codigo propuesto y desarrollo personal
import numpy as np

# Indexado de Arrays

# Indexado de enteros
X = [3,1,4,1,5,9,2,6]
print(X[-2]) # Al introducir un numero negativo, se cuenta desde el final de la lista
print(X[3])

Y = [[3,1,4,1],[5,9,2,6]]
print(Y[0][2])
print(Y[-1][2]) # Nuevamente, al introducir un numero negativo, se cuenta desde el final de la lista

# Indexado de Booleans

Y_np = np.array(Y)
y1 = Y_np > 3
print(y1) # Devuelve un array de booleanos, donde True indica que el elemento es mayor que 3
print(Y_np[y1]) # Devuelve los elementos de Y que son mayores que 3

# Indexado Sofisticado
X_np = np.array(X)
x1 = X_np[[0, 3, 4]] # Devuelve un nuevo array con los elementos en las posiciones 0, 3 y 4 de X_np
print(x1)
print(X_np[[1, 1]])
print(X_np[[2, 3]]) # Devuelve un nuevo array con los elementos en las posiciones 2 y 3 de X_np])

# x2 = X[np.array([1,1],[2,3])] # Esta línea no es válida, ya que np.array espera un array de una sola dimensión o una lista de listas
x2 = np.array([[X[1], X[1]], [X[2], X[3]]])
print(x2)

# Indexado de Arrays con múltiples dimensiones
#print (Y[np.array([0,-1]), np.array([1,2])]) # No es valido
y2 = np.array([Y[0][-1], Y[1][2]])
print(y2) 

# Relacion entre Indexado y copias
x3 = X.copy() #En este caso esto equivale a deep copy, creando una copia independiente de X

# Analisis de como la copia afecta el indexado 
print(x3 is X) # Output: False
print(id(X)) 
print(id(x3)) # Son diferentes objetos en memoria
print(X)
print(x3)

X[0]=6 # Modificando X no afecta a x3
print(X)
print(x3)

y2=[Y[0][-1],Y[1][2]] # En el papar pone Y[[0,-1],[1,2]] pero no finciona.
y2[1]=666 # Modificando y2 no afecta a Y
print(y2)
print(Y)

# Array Slicing

# Implicito vs Explícito
implicit_slice = Y_np[0]
print(implicit_slice)

explicit_slice = Y_np[:,1:4] # Selecciona todas las filas y columnas de la 1 a la 3 (sin incluir la 4)
print(explicit_slice)

# Slicing y vistas

x4=X #shallow copy
print(x4 is X)

print(id(X))
print(id(x4)) # ouput iguales, son el mismo objeto en memoria

X_np[2]=123
print(X) #Output: [3,1,123,1,5,9,2,6]
print(x4) #Output: [3,1,123,1,5,9,2,6]

x5=X_np.view() #X "compoarte la vista" con x5
x5.shape=(2,4)
X_np[1]=0
print(X) #Output: [3 0 4 1 5 9 2 6]
print(x5) #Output: [[3 0][4 1][5 9][2 6]]
y3=Y_np[0:2,1:2] #slice Output: array([[1],[9]])
y3[[0]]=888
print(y3) #Output: array([[888],[9]])
print(Y) #Output: array([[3,888,4,1],[5,9,2,6]])


In [None]:
# Hasta aqui llegan los ejemplos del papaer.
# A partir de aqui, algo de desarrollo personal probando otras funciones de indexado y slicing.
# np.where(), np.take(), loc(), iloc(), at[] y iat[]

# np.where() - Devuelve los indices donde se cumple una condicion
X_np = np.array(X)
print("Indices donde X_np > 4 les sumo 5:", np.where(X_np > 4, X_np, X_np+5))  # Devuelve los indices con la condicion aplicada

# np.take() - Toma elementos de un array en las posiciones especificadas
print("Elementos en las posiciones 0, 2 y 4:", np.take(X_np, [0, 2, 4]))  # Devuelve un nuevo array con los elementos en las posiciones especificadas

# loc[] - Acceso a filas y columnas por etiquetas (en DataFrames de pandas)
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print("Acceso a la columna 'A':", df.loc[:, 'A'])  # Accede a la columna 'A' del DataFrame

# iloc[] - Acceso a filas y columnas por posiciones (en DataFrames de pandas)
print("Acceso a la fila 1 y columna 0:", df.iloc[1, 0])  # Accede a la fila 1 y columna 0 del DataFrame

# at[] - Acceso a un único valor por etiqueta (en DataFrames de pandas)
print("Acceso al valor en fila 1, columna 'B':", df.at[1, 'B'])  # Accede al valor en la fila 1 y columna 'B'

# iat[] - Acceso a un único valor por posición (en DataFrames de pandas)
print("Acceso al valor en fila 1, columna 0:", df.iat[1, 0])  # Accede al valor en la fila 1 y columna 0

Indices donde X_np > 4: [6 6 9 6 5 9 7 6]
Elementos en las posiciones 0, 2 y 4: [6 4 5]
Acceso a la columna 'A': 0    1
1    2
2    3
Name: A, dtype: int64
Acceso a la fila 1 y columna 0: 2
Acceso al valor en fila 1, columna 'B': 5
Acceso al valor en fila 1, columna 0: 2


# Opinion personal del articulo

El artículo está bien estructurado, con explicaciones claras y numerosos ejemplos prácticos que facilitan la comprensión.
El enfoque en las diferencias entre copias y vistas es particularmente útil para evitar errores comunes al trabajar con arrays en NumPy.

Puntos fuertes:
+ Buena explicacion de los tipos de indexación y slicing.
+ Explicaciones concisas acompañadas de ejemplos de código.
+ Clarificación de los efectos sobre la memoria y la mutabilidad.

Aspectos mejorables:
- El artículo podría profundizar más en arrays de mayor dimensionalidad (más de 2D).
- Sería útil incluir mas ejemplos visuales para reforzar las diferencias entre copia y vista.
- No se mencionan herramientas complementarias de NumPy como np.where() o np.take(), que también influyen en el acceso a datos. He agregado esto como ejemplo de codigo mas arriba.
- Al tratar de realizar las prubas listadas en el papar me encontre con varios problemas que tuve que resolver cambiando partes del codigo. Seria mucho mas sencillo y entendible si el codigo ejemplo estuviese listo pensado para ejecutarse, esto lo he correjido e implementado correctamente.

## Conclusión personal:
Es un artículo excelente como introducción para estudiantes y desarrolladores que buscan un dominio más técnico del manejo de arrays con NumPy. Puede ser especialmente útil en entornos de aprendizaje automático donde el rendimiento y la manipulación precisa de los datos son esenciales. Algunas mejoras posibles con mas ejemplos, imagenes y codigo mas claro haria su lectura las amigable. Debajo dejo algunos ejemplos practicos de esto.

In [None]:
# Otros topics que se podrian haber abarcado en el paper

import numpy as np

#El uso de la indexacion booleana es fundamental para el filtrado de datos y la manipulación eficiente de grandes conjuntos de información.
#En análisis de datos, esto permite extraer subconjuntos relevantes sin necesidad de bucles explícitos, mejorando la legibilidad y el rendimiento.

# Ejemplo
arr = np.array([1, 2, 3, 4, 5, 6])
# Seleccionar solo los elementos mayores que 3
filtered = arr[arr > 3]
print(filtered)  # Salida: [4 5 6]

#El slicing no solo permite seleccionar rangos, sino también invertir arrays o seleccionar elementos en pasos específicos, incluso en múltiples dimensiones.
#Esto es útil en procesamiento de imágenes (por ejemplo, invertir imágenes o extraer canales de color) y en manipulación de datos tabulares.

mat = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# Invertir filas
print(mat[::-1])
# Seleccionar la segunda columna de todas las filas
print(mat[:, 1])

#En indexacion mas compleja NumPy permite seleccionar elementos específicos usando arrays de índices, lo que facilita operaciones complejas como la extracción 
# de patrones o la reorganización de datos.
#Esto es útil para seleccionar subconjuntos de datos de entrenamiento o testeo de manera eficiente.

arr = np.array([10, 20, 30, 40, 50])
indices = [0, 2, 4]
selected = arr[indices]
print(selected)  # Salida: [10 30 50]

#La combinacion de broadcasting y slicing permite realizar operaciones vectorizadas muy potentes.
#Esto es esencial en la normalización de datos por columnas o filas, o en la aplicación de máscaras sobre subconjuntos de datos.

mat = np.ones((3, 3))
mat[:, 1] = [2, 3, 4]  # Asignar valores a la segunda columna
print(mat)

#El uso adecuado de indexación y slicing evita copias innecesarias de datos y aprovecha la eficiencia interna de NumPy. Sin embargo, es importante conocer 
# cuándo se crean vistas y cuándo copias, para evitar errores sutiles.
#En procesamiento de grandes volúmenes de datos, esto puede marcar la diferencia entre un código eficiente y uno lento o con errores inesperados.
a = np.array([1, 2, 3, 4])
b = a[1:3]
b[0] = 99
print(a)  # Salida: [ 1 99  3  4] ya que b es una vista, no una copia

#Con esto he profundizado en técnicas mas avanzadas de indexación y slicing, su impacto en el rendimiento, y su aplicación en problemas reales de ciencia de datos,
#  machine learning y procesamiento de imágenes. Dominar estos conceptos permite escribir código más eficiente, legible y potente en Python con NumPy.


[4 5 6]
[[7 8 9]
 [4 5 6]
 [1 2 3]]
[2 5 8]
[10 30 50]
[[1. 2. 1.]
 [1. 3. 1.]
 [1. 4. 1.]]
[ 1 99  3  4]


# Referencias

[1]Yangyang Li, Yue Shao and Chunlong Fu, “Exploring Indexing and Slicing in NumPy Arrays,” Journal of Physics: Conference Series, vol. 2832, no. 1, p. 012019, Aug. 2024, doi: https://doi.org/10.1088/1742-6596/2832/1/012019.