<a href="https://colab.research.google.com/github/RafaelCaballero/Julio24/blob/main/code/03numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la ciencia de datos con Python
###  Rafa Caballero

<img src="https://numpy.org/doc/stable/_static/numpylogo.svg"/>

### Introducción
Numpy representa vectores y matrices de forma más eficiente; va a ser el soporte de los dataframes en Pandas.

In [None]:
una_lista = [10,20,30,70]  # en Python

import numpy as np
una_lista_np = np.array(una_lista)

print(una_lista)
print(una_lista_np)

Parece la misma información ¿hay alguna razón para usar numpy?



1.   La velocidad
2.   La comodidad: más funciones, vectorización, broadcasting, índices booleanos



### La velocidad: una razón para usar numpy


Veamos distintas formas de encontrar el máximo de un vector.

Primero generamos el vector

In [None]:
%%time
import random
cuantos = 10000000
l = [random.randint(1,100) for n in range(cuantos)]

Ahora buscamos el máximo de 2 formas en Python, con un bucle y con la función max

In [None]:
%%time
maximo = 0
for x in l:
    if x>maximo:
        maximo=x
print(maximo)



In [None]:
%%time
max(l)

Ahora con numpy

In [None]:
%%time
import numpy as np
l =  np.random.randint(1, 100, cuantos)

In [None]:
%%time
import numpy as np
l.max()

### Creación de ndarrays

A los arrays en numpy se les llama ndarrays (de n-dimensional arrays)

#### Creación desde arrays Python

In [None]:
import numpy as np
v = [10,20,30,40]
a1  = np.array(v)

print(a1, a1.shape, a1.dtype)

In [None]:
v = [10,20,30,40,"hola"]
a1  = np.array(v)

print(a1, a1.shape, a1.dtype)

En https://numpy.org/doc/stable/reference/arrays.dtypes.html hay algunas explicaciones sobre los tipos de datos de numpy

In [None]:
d = [[1, 2, 3, 4], [5, 6, 7, 8.2]]

a2 = np.array(d)
print(a2, a2.shape, a2.dtype)

Es importante notar que *array* crea una copia, esto es, reserva memoria nueva para el resultado.
La variante *asarray* no crea una copia si el parámetro ya es un *ndarray*

In [None]:
#                             *
d = [[1, 2, 3, 4], [5, 6, 7, 8.2]]

a2 = np.array(d)
a3 = np.array(a2)
a4 = np.asarray(a2)

print(a2)
a3[0,1] = 0
print(a2)
a4[1,3] = 0
print(a2)

#### Crear arrays en numpy repitiendo valores

Aparte de *np.array* tenemos:

- *np.zeros(s)*: crea un array con 0s (float) con el *shape* indicado<br>

- *np.zeros_like(a)*: crea un array con 0s (float) con el mismo *shape* que el del array *a*<br>

- *np.ones(s)*: crea un array con 1s (float) con el *shape* indicado<br>

- *np.ones_like(a)*: crea un array con 1s (float) con el mismo *shape* que el del array *a*<br>

- *np.empty(s)*: crea un array con el *shape* indicado sin inicializar<br>

- *np.empty_like(a)*: crea un array con el *shape* de *a* sin inicializar<br>

- *np.arange(n)*: la versión np de *range*

- *np.eye(n)*, *np.identity(n)*: matriz diagonal de nxn

In [None]:
np.zeros((2,3,4))

#### Crear arrays en numpy mediante números aleatorios

numpy dispone de un paquete `numpy.random` que se encarga de generar números aleatrorios. Python también dispone de dicho paquete. La diferencia es que el módulo de numpy puede generar muchos valores diferentes con una sola llamada y de muy diversas funciones de probabilidad.

Las funciones incluídas en este paquete son:

    seed: semilla del generador de números aleatorios
    permutation: permutación al azar de una secuencia
    shuffle: permuta una secuencia in-place (no devuelve copia)
    rand: devuelve números aleatorios de una función uniforme
    randint: Valores enteros distribuidos uniformemente
    randn: valores de una N(0,1)
    binomial: ejemplo de una binomial
    normal: valores de una gaussiana cuyos parámetros se le pasan
    beta: valores aleatorios de una distribución beta
    chisquare: valores aleatorios de una chi-cuadrado
    gamma: valores de una gamma
    uniform: valores de una uniforme (0,1)
    
Vamos a comparar en velocidad con la generación mediante números aleatorios de Python

In [None]:
from random import normalvariate
N = 1000000
%timeit [normalvariate(0,1) for _ in range(N)]

In [None]:
import numpy as np
%timeit np.random.normal(size=N)

Al usar timeit se puede especificar el número de repeticiones (r) y de iteraciones (n)

In [None]:
%timeit -n 100 -r 5 np.random.normal(size=N)

### Vectorización

Aparte de la velocidad y de la gran cantidad de funciones que contiene, la *vectorización* es otra razón importante para utilizar numpy. La idea es sí es muy sencilla:



Vectorización *Toda operación que se pueda aplicar a un elemento de un tipo básico (ej. int) se extiende forma natural a ndarrays*

In [None]:
a = 20
b = 30
a+b   # python puro

In [None]:
import numpy as np

a  = np.array([10,20,30,40])
b  = np.array([100,200,300,400])

a+b # numpy

In [None]:
a*b

In [None]:
(a+b)/2

### Broadcasting

Para poder operar entre dos vectores éstos tienen que ser en principio de la misma longitud. Sin embargo, siempre que pueda, al detectar diferencias de tamaño numpy "repetirá" elementos para lograr que encajen ambos operandos. Esto se conoce como "broadcasting"

In [None]:
m = np.zeros((10,10),dtype=np.int32)
m

In [None]:
m[3:7,3:7]=1
m

In [None]:
m + 2

## Índices booleanos

Todavía una razón más; utilizar arrays de booleanos como índices; esto va a ser una herramienta muy poderosa para filtrar datos

In [None]:
a = np.arange(1,11)
a

In [None]:
a[ [True,False,False,True,False,False,True,False,False,False]]

Esto, que parece no tener importancia, muestra su potencia al combinarlo con la vectorización, y da lugar a todo un estilo de programación

In [None]:
a % 2 == 0

In [None]:
filtro = a % 2 == 0
a[filtro]

In [None]:
a[ a % 2 == 0]

**Ejemplo**
Queremos quedarnos solo con los elementos positivos del array a

In [None]:
a = np.random.randint(-100,100,50)
a

In [None]:
# solución


Se pueden combinar dos arrays

In [None]:
nombre = np.array(["Bertoldo","Herminia","Calixto","Melibea","Aniceto"])
ingresos = np.array([1200,800,1500,2300,940])

nombre, ingresos

In [None]:
# Nombre de los que ganan más de 1000 euros
filtro = ingresos>1000
nombre[filtro]

**Ejercicio** A partir de la listas `edades` y `nombres` queremos crear 4 listas: `edades20`, `nombres20` con las edades menores o iguales a 20 y sus nombres, y `edadesMasDe20`, `nombresMasDe20` con las edades y nombres de los que tienen más de 20 años

In [None]:
nombres = np.array(["Melibea", "Bertoldo", "Herminia", "Calixto", "Aniceto"])
edades = np.array([18,20,23,18,21])

In [None]:
filtro1 = edades>20
filtro2 = edades<=20

edades20, nombres20  = edades[filtro2], nombres[filtro2]

edadesMasDe20, nombresMasDe20 = edades[filtro1], nombres[filtro1]

print(edades20, nombres20)
print(edadesMasDe20, nombresMasDe20 )

Sobre los arrays booleanos se pueden hacer operaciones and (se escribe &), or (|) y not (~)

In [None]:
filtro1

In [None]:
~filtro1

In [None]:
filtro = edades>20


edades20, nombres20  = edades[~filtro], nombres[~filtro]

edadesMasDe20, nombresMasDe20 = edades[filtro], nombres[filtro]

print(edades20, nombres20)
print(edadesMasDe20, nombresMasDe20 )

*En general en ciencia de datos en Python evitaremos los bucles `for` siempre que sea posible, las bibliotecas como numpy ofrecen alternativas más elegantes y mucho más rápidas*

### Para saber más (en inglés)

  
1.   Comparativa entre arrays en Python y en Numpy, una buena introducción: https://www.youtube.com/FQbbkCFWNjY

2.   Mini-curso muy completo sobre *numpy*, para aprendizaje avanzado: https://youtu.be/V0D2mhVt7NE (excesivo para este curso, solo si alguien de verdad quiere profundizar mucho en esta librería...casi 3 horas de video)

