# Numpy Avanzado

## Obtener los índices de los elementos que satisfagan una condición
Hemos trabajado con indexación booleana, sin embargo, a veces será útil obtener los índices de elementos que cumplan con alguna condición.

La función `np.where` ubica las posiciones de un arreglo en donde la condición es verdadera. Veamos

In [1]:
import numpy as np

In [2]:
arr_rand = np.array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
print("Arreglo: ", arr_rand)

Arreglo:  [8 8 3 7 7 0 4 2 5 2]


In [5]:
# Obtener índices (posiciones) en los que el valor sea > 5
indices_mayores_5 = np.where(arr_rand > 5)
print("Posiciones en donde el valor > 5:",indices_mayores_5)

Posiciones en donde el valor > 5: (array([0, 1, 3, 4]),)


Ya que tenemos los índices, podemos extraer los elementos usando `take`

In [7]:
arr_rand.take(indices_mayores_5)

array([[8, 8, 7, 7]])

O bien, usamos el vector `indices_mayores_5` para indexar el arreglo

In [8]:
arr_rand[indices_mayores_5]

array([8, 8, 7, 7])

Obtengamos las posiciones de los valores máximo y mínimo dell arreglo

In [10]:
print("Posición del elemento más grande (max):", np.argmax(arr_rand))
print("Posición del elemento más chico  (min):", np.argmin(arr_rand))

Posición del elemento más grande (max): 0
Posición del elemento más chico  (min): 5



---


## Importar y exportar datos de archivos CSV
Una manera muy habitual de importar conjuntos de datos (les llamaremos **datasets** a partir de ahora) es usando la función `np.genfromtxt`. Con esta función podemos importar datos de URL's de internet o archivos en nuestra computadora, gestionar los valores faltantes, especificar cómo están delimitados los datos, entre otros.

Una versión menos moldeable de esta función es `np.loadtxt`, la cual asume que no hay valores faltantes en el dataset.

Descarguemos un archivo csv a un numpy array.

In [13]:
ruta_url = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(ruta_url, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
data[:3]

array([[ 1.800e+01,  8.000e+00,  3.070e+02,  1.300e+02,  3.504e+03,
         1.200e+01,  7.000e+01,  1.000e+00, -9.990e+02],
       [ 1.500e+01,  8.000e+00,  3.500e+02,  1.650e+02,  3.693e+03,
         1.150e+01,  7.000e+01,  1.000e+00, -9.990e+02],
       [ 1.800e+01,  8.000e+00,  3.180e+02,  1.500e+02,  3.436e+03,
         1.100e+01,  7.000e+01,  1.000e+00, -9.990e+02]])

In [15]:
#apagar la notación científica
np.set_printoptions(suppress=True)
ruta_url = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(ruta_url, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
data[:3]

array([[  18. ,    8. ,  307. ,  130. , 3504. ,   12. ,   70. ,    1. ,
        -999. ],
       [  15. ,    8. ,  350. ,  165. , 3693. ,   11.5,   70. ,    1. ,
        -999. ],
       [  18. ,    8. ,  318. ,  150. , 3436. ,   11. ,   70. ,    1. ,
        -999. ]])

**Nota: Recordemos que todos los valores de un numpy array deben ser del mismo tipo de dato. Si vemos el archivo Auto.csv en el navegador, veremos que la última columna (name) es de tipo string, y por lo tanto, numpy iba a imporar este valor como np.nan por defecto. Para evitar esto, utilizamos el parámetro `fillin_values` y le asignamos el valor -999 para que coloque un -999 en todos los valores en los que hubiera colocado nan**

¿Cómo hacemos cuando queremos que nuestro arreglo contenga números y texto?
En este caso, debemos especificar que el tipo de dato es `object` o `None`

In [18]:
# data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype='object')
data2 = np.genfromtxt(ruta_url, delimiter=',', skip_header=1, dtype=None, encoding=None)
data2[:3]

array([(18., 8, 307., 130, 3504, 12. , 70, 1, '"chevrolet chevelle malibu"'),
       (15., 8, 350., 165, 3693, 11.5, 70, 1, '"buick skylark 320"'),
       (18., 8, 318., 150, 3436, 11. , 70, 1, '"plymouth satellite"')],
      dtype=[('f0', '<f8'), ('f1', '<i8'), ('f2', '<f8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<f8'), ('f6', '<i8'), ('f7', '<i8'), ('f8', '<U38')])

Súper. Ahora podemos exportar este array a un archivo csv.

In [19]:
np.savetxt("out.csv", data, delimiter=",")

--- 

## Lectura de imágenes

Una imagen es, a fien de cuentas, una matriz de pixeles. Podemos utilizar numpy para leer y transformar los valores de esta matriz

In [1]:
import matplotlib.pyplot as plt 

In [3]:
img=plt.imread('beagle.png')

In [4]:
img

array([[[0.33333334, 0.5372549 , 0.24313726, 1.        ],
        [0.3372549 , 0.5372549 , 0.24313726, 1.        ],
        [0.35686275, 0.5372549 , 0.24313726, 1.        ],
        ...,
        [0.35686275, 0.56078434, 0.23529412, 1.        ],
        [0.3647059 , 0.5686275 , 0.24705882, 1.        ],
        [0.36862746, 0.5686275 , 0.25882354, 1.        ]],

       [[0.34509805, 0.54901963, 0.25490198, 1.        ],
        [0.3647059 , 0.5529412 , 0.25490198, 1.        ],
        [0.37254903, 0.5529412 , 0.25882354, 1.        ],
        ...,
        [0.35686275, 0.56078434, 0.22745098, 1.        ],
        [0.36078432, 0.5647059 , 0.23137255, 1.        ],
        [0.36078432, 0.5647059 , 0.23921569, 1.        ]],

       [[0.35686275, 0.5568628 , 0.2627451 , 1.        ],
        [0.3764706 , 0.5647059 , 0.26666668, 1.        ],
        [0.39607844, 0.5686275 , 0.26666668, 1.        ],
        ...,
        [0.34901962, 0.5568628 , 0.20392157, 1.        ],
        [0.34901962, 0.556862

In [5]:
img.shape

(562, 556, 4)

In [27]:
img[0]

array([[0.33333334, 0.5372549 , 0.24313726, 1.        ],
       [0.3372549 , 0.5372549 , 0.24313726, 1.        ],
       [0.35686275, 0.5372549 , 0.24313726, 1.        ],
       ...,
       [0.35686275, 0.56078434, 0.23529412, 1.        ],
       [0.3647059 , 0.5686275 , 0.24705882, 1.        ],
       [0.36862746, 0.5686275 , 0.25882354, 1.        ]], dtype=float32)