# Numpy Avanzado

![pregunta](./img/pixel.png)

**¿Veradero o Falso?**

**¡Exploremos el porqué!**

Hemos hasta este punto revisado alguno de los métodos y propiedades básicas de objetos de Numpy. Veamos ahora algunas cosas más interesantes y más “reales”.

# Filtrado
En la lección anterior aprendeimos acerca de boolean indexing, proceso medianet el cual podemos obtener un numpy array que contiene únicamente True o False a partir de aplicar una comparación u operador lógico a un arreglo de Numpy. Veamos otras formas de filtrar datos.

## `np.where`
Hemos trabajado con indexación booleana, sin embargo, a veces será útil obtener los índices de elementos que cumplan con alguna condición.

La función `np.where` ubica las posiciones de un arreglo en donde la condición es verdadera. Veamos

In [4]:
import numpy as np

In [15]:
arr_rand = np.array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
print("Arreglo: ", arr_rand)

Arreglo:  [8 8 3 7 7 0 4 2 5 2]


Con la función where de numpy podemos obtener los índices (posiciones) de los elementos de un arreglo que satisfagan una condición:

In [17]:
# Obtener índices (posiciones) en los que el valor sea > 5
indices_mayores_5 = np.where(arr_rand > 5)
print("Posiciones en donde el valor > 5:",indices_mayores_5)

Posiciones en donde el valor > 5: (array([0, 1, 3, 4]),)


Ya que tenemos los índices, podemos extraer los elementos usando `take`

In [18]:
arr_rand.take(indices_mayores_5)

array([[8, 8, 7, 7]])

O bien, usamos el vector `indices_mayores_5` para indexar el arreglo

In [19]:
arr_rand[indices_mayores_5]

array([8, 8, 7, 7])

Obtengamos las posiciones de los valores máximo y mínimo dell arreglo

In [20]:
print("Posición del elemento más grande (max):", np.argmax(arr_rand))
print("Posición del elemento más chico  (min):", np.argmin(arr_rand))

Posición del elemento más grande (max): 0
Posición del elemento más chico  (min): 5


**El concepto de índice es de suma importancia en NumPy. Podemos observar que la función where por defecto nos devuelve los índices en lugar de los elementos en sí. Esto podría parecer contraintuitivo a lo que esperaríamos como seres humanos, ya que usualmente buscamos los valores directamente. Sin embargo, la razón de usar índices es que permite una manipulación y acceso eficiente a los elementos en estructuras de datos grandes. Al trabajar con índices, podemos seleccionar, modificar o analizar subconjuntos específicos de datos sin necesidad de recorrer todo el array, lo que optimiza el rendimiento y hace que las operaciones sean más rápidas y flexibles. Además, los índices nos permiten realizar operaciones avanzadas, como seleccionar elementos en múltiples dimensiones o aplicar condiciones complejas de manera precisa y eficiente.**


---

# Archivos CSV
## Importar y exportar datos de archivos CSV
Una manera muy habitual de importar conjuntos de datos (les llamaremos **datasets** a partir de ahora) es usando ~~la función~~ el método `np.genfromtxt`. Con este método podemos importar datos de URL's de internet o archivos en nuestra computadora, gestionar los valores faltantes, especificar cómo están delimitados los datos, entre otros.

Una versión menos moldeable de esta función es `np.loadtxt`, la cual asume que no hay valores faltantes en el dataset.

Descarguemos un archivo csv a un numpy array.

In [21]:
#apagar la notación científica
np.set_printoptions(suppress=True)
ruta_url = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(ruta_url, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
data[:3]

array([[  18. ,    8. ,  307. ,  130. , 3504. ,   12. ,   70. ,    1. ,
        -999. ],
       [  15. ,    8. ,  350. ,  165. , 3693. ,   11.5,   70. ,    1. ,
        -999. ],
       [  18. ,    8. ,  318. ,  150. , 3436. ,   11. ,   70. ,    1. ,
        -999. ]])

**Nota: Recordemos que todos los valores de un numpy array deben ser del mismo tipo de dato. Si vemos el archivo Auto.csv en el navegador, veremos que la última columna (name) es de tipo string, y por lo tanto, numpy iba a imporar este valor como np.nan por defecto. Para evitar esto, utilizamos el parámetro `fillin_values` y le asignamos el valor -999 para que coloque un -999 en todos los valores en los que hubiera colocado nan**

¿Cómo hacemos cuando queremos que nuestro arreglo contenga números y texto?
En este caso, debemos especificar que el tipo de dato es `object` o `None`

In [22]:
data2 = np.genfromtxt(ruta_url, delimiter=',', skip_header=1, dtype=None, encoding=None)
data2[:3]

array([(18., 8, 307., 130, 3504, 12. , 70, 1, '"chevrolet chevelle malibu"'),
       (15., 8, 350., 165, 3693, 11.5, 70, 1, '"buick skylark 320"'),
       (18., 8, 318., 150, 3436, 11. , 70, 1, '"plymouth satellite"')],
      dtype=[('f0', '<f8'), ('f1', '<i8'), ('f2', '<f8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<f8'), ('f6', '<i8'), ('f7', '<i8'), ('f8', '<U38')])

In [23]:
data3 = np.genfromtxt("raw.githubusercontent.com\selva86\datasets\master\Auto.csv", delimiter=',', skip_header=1, dtype=float, filling_values=-999)
data3[:3]

  data3 = np.genfromtxt("raw.githubusercontent.com\selva86\datasets\master\Auto.csv", delimiter=',', skip_header=1, dtype=float, filling_values=-999)


array([[  18. ,    8. ,  307. ,  130. , 3504. ,   12. ,   70. ,    1. ,
        -999. ],
       [  15. ,    8. ,  350. ,  165. , 3693. ,   11.5,   70. ,    1. ,
        -999. ],
       [  18. ,    8. ,  318. ,  150. , 3436. ,   11. ,   70. ,    1. ,
        -999. ]])

Súper. Ahora podemos exportar este array a un archivo csv.

**¡Ojo con la ruta en la que guardas tu archivo!**

In [24]:
np.savetxt("out.csv", data3, delimiter=",")

--- 

## Lectura de imágenes

![trip](./img/trip.gif)

Una imagen es, a fien de cuentas, una matriz de pixeles. Podemos utilizar numpy para leer y transformar los valores de esta matriz. 

Para visualizar y manipular estas imágenes de manera efectiva, utilizaremos un paquete adicional llamado `Matplotlib`, el cual nos sirve para mostrar las imágenes, crear gráficos, y realizar un análisis visual de los datos. Con Matplotlib, podemos ver el resultado de nuestras transformaciones en tiempo real, lo que facilita la comprensión de cómo las operaciones en la matriz de píxeles afectan la imagen final.

In [25]:
import matplotlib.pyplot as plt 

In [26]:
img = plt.imread('img/beagle.jpg')

In [27]:
img.shape

(1200, 1106, 3)

¡Ah caray! ¿Cómo que 3 dimensiones? Se supone que una imagen es una matriz de pixeles, y por lo tanto esperaríamos ver dos dimensiones nada más (filas y columnas), pero vemos que esta imagen tiene 3 dimensiones.

Abramos la imagen ./img/beagle.jpg:

![beagle](./img/beagle.jpg)

Si seleccionamos una sola fila de esta imagen, seleccionariamos un conjunto de pixeles:

![beagle](./img/beagle_row.png)

Lo mismo para una columna:
![beagle](./img/beagle_col.png)

Un pixel no es más que un cuadrado muy muy pequeño de un solo color. Por lo tanto, si hacemos zoom lo más que podamos, llegaremos a un punto en el que tendremos un solo color en la pantalla:

![beagle](./img/beagle_zoom.gif)

**Observa cómo al final se alcanzan a distinguir pequeñísimos cuadrados de un solo color**

---

Esto aún no contesta la pregunta de las 3 dimensiones… filas y columnas son nada más 2 dimensiones. Una tercera dimensión significaría que cada elemento individual de fila o columna no es un elemento simple.

Inspeccionemos el array `img`

In [28]:
img.ndim

3

Veamos lo que hay en la posición 0,0, o sea, primera fila y primera columna:

In [29]:
img[0,0]

array([255, 255, 157], dtype=uint8)

![batman](./img/batman.gif)

Cuando tenemos una imagen a color, entonces necesitamos saber de qué color será cada pixel. Aquí es en donde entra en juego el estándar RGB (Red, Green, Blue), el cual dicta que por cada pixel se necesita una combinación de 3 números con valores entre 0 y 255. 

Cada uno de estos tres números indica la intensidad de cada color rojo, verde o azul:

![](./img/rgb.webp)

---

Entonces veamos nuevamente cuál es el primer pixel de nuestar imagen `beagle.jpg`

img[0,0]

In [30]:
img[0,0]

array([255, 255, 157], dtype=uint8)

Tenemos los valores:

| Color   | RGB  | Valor |
| ------- | ---- | ----- |
| Rojo    | R    | 255   |
| Verde   | G    | 255   |
| Azul    | B    | 157   |

**¡Compruébalo con el color picker de Google!**

Justo de esto trataba la imagen que aparece al principio de la lección:
![pixel](./img/pixel.png)

Veamos otra imagen

In [31]:
img2=plt.imread('img/salchicha.jpg')

In [32]:
img2.shape

(1414, 2121, 3)

In [None]:
img2[0,0]


array([[[ 51, 114,   7],
        [ 49, 112,   5],
        [ 47, 110,   3],
        ...,
        [112, 172,  84],
        [109, 169,  79],
        [ 97, 161,  67]],

       [[ 50, 113,   6],
        [ 49, 112,   5],
        [ 48, 111,   4],
        ...,
        [114, 174,  86],
        [109, 172,  81],
        [ 96, 159,  68]],

       [[ 46, 110,   0],
        [ 48, 112,   2],
        [ 48, 112,   2],
        ...,
        [118, 178,  92],
        [114, 177,  88],
        [100, 163,  72]],

       ...,

       [[ 17,  58,   0],
        [ 19,  61,   0],
        [ 28,  76,   0],
        ...,
        [ 85, 153,  68],
        [ 88, 150,  65],
        [ 90, 144,  60]],

       [[ 19,  60,   2],
        [ 19,  61,   0],
        [ 28,  76,   0],
        ...,
        [ 88, 156,  71],
        [ 90, 152,  67],
        [ 94, 147,  65]],

       [[ 21,  62,   4],
        [ 20,  63,   0],
        [ 28,  76,   0],
        ...,
        [ 90, 155,  71],
        [ 92, 151,  69],
        [ 94, 147,  65]]

In [35]:
img2 

array([[[ 51, 114,   7],
        [ 49, 112,   5],
        [ 47, 110,   3],
        ...,
        [112, 172,  84],
        [109, 169,  79],
        [ 97, 161,  67]],

       [[ 50, 113,   6],
        [ 49, 112,   5],
        [ 48, 111,   4],
        ...,
        [114, 174,  86],
        [109, 172,  81],
        [ 96, 159,  68]],

       [[ 46, 110,   0],
        [ 48, 112,   2],
        [ 48, 112,   2],
        ...,
        [118, 178,  92],
        [114, 177,  88],
        [100, 163,  72]],

       ...,

       [[ 17,  58,   0],
        [ 19,  61,   0],
        [ 28,  76,   0],
        ...,
        [ 85, 153,  68],
        [ 88, 150,  65],
        [ 90, 144,  60]],

       [[ 19,  60,   2],
        [ 19,  61,   0],
        [ 28,  76,   0],
        ...,
        [ 88, 156,  71],
        [ 90, 152,  67],
        [ 94, 147,  65]],

       [[ 21,  62,   4],
        [ 20,  63,   0],
        [ 28,  76,   0],
        ...,
        [ 90, 155,  71],
        [ 92, 151,  69],
        [ 94, 147,  65]]