# **Curso** : Python para Data Science

**Sesión 02.1**
Programación con Numpy y Pandas

**Profesor**:
* Ing. Cristhian Castro Chávez
* castro.ca@pucp.pe

In [None]:
# El primer paso es importar numpy y colocar un alias. Usaremos np
import numpy as np

### Ventajas de Usar Numpy

Primero comprobaremos que al usar Numpy estamos acortando los tiempos de ejecución y haciendo más eficiente el uso de los recursos

In [None]:
import time
# Crear una lista de Python con un millón de elementos
lista_python = list(range(10000000))

# Crear un arreglo de NumPy con los mismos elementos
arreglo_numpy = np.array(lista_python)

# Medir el tiempo de ejecución para sumar todos los elementos en la lista de Python
inicio = time.time()
suma_lista = sum(lista_python)
tiempo_lista = time.time() - inicio

# Medir el tiempo de ejecución para sumar todos los elementos en el arreglo de NumPy
inicio = time.time()
suma_numpy = np.sum(arreglo_numpy)
tiempo_numpy = time.time() - inicio

print("Tiempo de ejecución para lista de Python:", tiempo_lista)
print("Tiempo de ejecución para arreglo de NumPy:", tiempo_numpy)
print("Tiempo de ejecución de la lista es {:.2f} veces más usando listas".format(tiempo_lista/tiempo_numpy))

* **Vectorización**
  * Vamos a crear 2 listas, cada una de 10,000 elementos y luego sumar elemento a elemento. Veremos que Numpy es mucho más eficiente.

In [None]:
# Crear dos arreglos NumPy
a = np.array(range(10000))
b = np.array(range(10000, 20000))

# Medir el tiempo de inicio
inicio = time.time()

# Realizar la suma de vectores usando vectorización
resultado = a + b

# Medir el tiempo de finalización
fin = time.time()

print("Tiempo de ejecución con NumPy: {:.6f} segundos".format(fin - inicio))

In [None]:
# Crear dos listas de Python
a = list(range(10000))
b = list(range(10000, 20000))

# Medir el tiempo de inicio
inicio = time.time()

# Inicializar una lista vacía para el resultado
resultado = []

# Realizar la suma de listas sin NumPy utilizando bucles for
for i in range(len(a)):
    suma = a[i] + b[i]
    resultado.append(suma)

# Medir el tiempo de finalización
fin = time.time()

print("Tiempo de ejecución sin NumPy: {:.6f} segundos".format(fin - inicio))

In [None]:
0.001412/0.000092

In [None]:
# Ejemplo de Broadcasting
import numpy as np
import time

# Crear un vector NumPy
vector = np.array([1, 2, 3])

# Crear una matriz NumPy
matriz = np.array([[10, 20, 30],
                  [40, 50, 60],
                  [70, 80, 90]])

# Medir el tiempo de inicio
inicio = time.time()

# Realizar la operación de suma con broadcasting
resultado = vector + matriz

# Medir el tiempo de finalización
fin = time.time()

print("Resultado de la operación con broadcasting en NumPy:")
print(resultado)



In [None]:
# Crear un vector como una lista de Python
vector = [1, 2, 3]

# Crear una matriz como una lista de listas en Python
matriz = [[10, 20, 30],
          [40, 50, 60],
          [70, 80, 90]]

# Inicializar una lista vacía para el resultado
resultado = []

# Realizar la operación de suma sin broadcasting
for i in range(len(matriz)):
    fila_resultado = []
    for j in range(len(matriz[i])):
        suma = vector[j] + matriz[i][j]
        fila_resultado.append(suma)
    resultado.append(fila_resultado)

print("Resultado de la operación sin broadcasting (sin NumPy):")
for fila in resultado:
    print(fila)



### 2.1 NumPy Arrays y matrices

**NumPy Array**
* Un arreglo es una estructura de datos que almacena valores del mismo tipo de datos.
* Mientras que las listas en Python pueden contener valores correspondientes a diferentes tipos de datos, los arreglos en Python solo pueden contener valores del mismo tipo de datos.
* Sin embargo, las listas de Python no logran ofrecer el rendimiento necesario al realizar cálculos con conjuntos de datos numéricos grandes. Para resolver este problema, utilizamos arreglos de NumPy.
* Podemos crear arreglos de NumPy convirtiendo una lista en un arreglo.


In [None]:
# Definimos una lista de strings y una lista de números
arr_str = ['Mercedes', 'BMW', 'Audi', 'Ferrari', 'Tesla']

arr_num = [5, 4, 6, 7, 3]

In [None]:
# Ahora convertimos cada una de las listas a un arregle de Numpy
np_arr_str = np.array(arr_str)
np_arr_num = np.array(arr_num)

# Verificamos las salidas
print('Numpy Array (arr_str): ',np_arr_str)
print('Numpy Array (arr_num): ',np_arr_num)

Los resultados se ven similares a una lista, pero arr_str y arr_num se han convertido en arreglos de NumPy. Verifiquemos el tipo de datos para confirmarlo.

In [None]:
# Imprimiendo el tipo de datos de las listas
print('Data type of arr_str: ',type(arr_str))
print('Data type of arr_num: ',type(arr_num))

# Imprimiendo el tipo de datos de los arreglos numpy
print('Data type of np_arr_str: ',type(np_arr_str))
print('Data type of np_arr_num: ',type(np_arr_num))

In [None]:
# Algunas funciones básicas de arreglos
np_arr_str

In [None]:
len(np_arr_str)

In [None]:
np_arr_str.shape

**NumPy Matrix**

* Una matriz es una estructura de datos bidimensional en la que los elementos se organizan en filas y columnas.
* Una matriz se puede crear utilizando una lista de listas.

In [None]:
# Digamos que tenemos información sobre diferentes números de cilindros en varios coches y queremos mostrarlos en un formato de matriz. 
matrix = np.array([[1,2,1],[4,5,9],[1,8,9]])
print(matrix)

In [None]:
print('Tipo de Dato de la matriz: ',type(matrix))

* Observamos que todos los objetos de NumPy tienen el tipo de dato "ndarray".

### 2.2 NumPy Functions

**Hay diferentes formas de crear arreglos de NumPy utilizando las funciones disponibles en la biblioteca NumPy.**

**Usando np.arange() function**
* La función np.arange() devuelve un arreglo con elementos espaciados de manera uniforme según el intervalo. El intervalo mencionado es semiacotado, es decir, el inicio está incluido, pero el final está excluido.
* Tiene los siguientes parámetros:
    * start: inicio del intervalo. Por defecto, start = 0.
    * stop: final del intervalo.
    * step: tamaño del paso del intervalo. Por defecto, el tamaño del paso es 1.

In [None]:
arr2  = np.arange(start = 0, stop = 10) # 10 no se considera
print(arr2)

# o

arr2  = np.arange(0,10) 
print(arr2)

In [None]:
# Agregando un tamaño de paso de 5 para crear un arreglo usando np.arrange
arr3  = np.arange(start = 0, stop = 20, step = 5)
arr3

**Usando np.linspace()**
* La función np.linspace() devuelve números que están distribuidos de manera uniforme con respecto al intervalo. En este caso, tanto el inicio como el final están incluidos.
* Tiene los siguientes parámetros:
    * start: inicio del intervalo. Por defecto, start = 0.
    * stop: final del intervalo.
    * num: número de muestras a generar. Por defecto, num = 50.

In [None]:
matrix2 = np.linspace(0,5) # Por defecto divide los datos en 50
matrix2

In [None]:
#  Generando 10 valores equidistantes entre 10 y 20.
matrix3 = np.linspace(10,20,10)
matrix3

**De manera similar, podemos crear matrices utilizando las funciones disponibles en la biblioteca NumPy.**

**Usando np.zeros()**

* La función np.zeros() se utiliza para crear una matriz y realizar operaciones de matriz en NumPy.
* Devuelve una matriz rellena con ceros del tamaño especificado.
* Tiene los siguientes parámetros:
  * shape: Número de filas y columnas en la matriz de salida.
  * dtype: tipo de datos de los elementos en la matriz, de forma predeterminada el valor se establece en float (flotante).

In [None]:
matrix4 = np.zeros([3,5])
matrix4

**Usando np.ones()**

* La función np.ones() es otra función para crear una matriz y realizar operaciones de matriz en NumPy.
* Devuelve una matriz del tamaño y tipo especificados, rellena con unos.
* Tiene los siguientes parámetros:
  * shape: Número de filas y columnas en la matriz de salida.
  * dtype: tipo de datos de los elementos en la matriz, de forma predeterminada el valor se establece en `float` (flotante).

In [None]:
matrix5 = np.ones([3,5])
matrix5

**Usando np.eye()**
* La función np.eye() se utiliza para crear una matriz y realizar operaciones de matriz en NumPy.
* Devuelve una matriz con unos en la diagonal y ceros en las demás posiciones.
* Tiene los siguientes parámetros:
  * n: Número de filas y columnas en la matriz de salida.
  * dtype: tipo de datos de los elementos en la matriz, de forma predeterminada el valor se establece en `float` (flotante).

In [None]:
matrix6 = np.eye(5)
matrix6

**También podemos convertir un arreglo unidimensional en una matriz. Esto se puede hacer utilizando la función np.reshape()**

* La forma de un arreglo básicamente indica el número de elementos y las dimensiones del arreglo. Cambiar la forma de un arreglo de NumPy significa simplemente cambiar la forma del arreglo dado.
* Al cambiar la forma de un arreglo, podemos agregar o eliminar dimensiones o cambiar el número de elementos en cada dimensión.
* Para cambiar la forma de un arreglo de NumPy, utilizamos el método `reshape` con el arreglo dado.
* **Sintaxis:** array.reshape(shape)
  * shape: una tupla proporcionada como entrada, los valores en la tupla serán la nueva forma del arreglo.

In [None]:
# Definimos un arreglo del 0 al 9
arr4 = np.arange(0,10) 
arr4

In [None]:
# Cambiando la forma del arreglo arr4 a una matriz de 2 x 5.
arr4_reshaped = arr4.reshape((2,5))
arr4_reshaped

In [None]:
arr4

In [None]:
# y a una matriz de 2x6?
arr4.reshape((2,6))

* Esto no funcionó porque tenemos 10 elementos que estamos intentando ajustar en una forma de 2 x 6, lo cual requeriría 12 elementos.

**NumPy también puede realizar una gran cantidad de operaciones matemáticas diferentes y proporciona diferentes funciones para hacerlo.**

NumPy proporciona:

1. Funciones trigonométricas.
2. Funciones exponenciales y logarítmicas.
3. Funciones para operaciones aritméticas entre arreglos y matrices.

**Trigonometric functions**

In [None]:
print('Sine Function:',np.sin(4))
print('Cosine Function:',np.cos(4))
print('Tan Function',np.tan(4))

**Exponentes y Logaritmos**

In [None]:
np.exp(2)

In [None]:
arr5 = np.array([2,4,6])
np.exp(arr5)

In [None]:
# Por default toma el logaritmo base e
np.log(2)

In [None]:
np.log(arr5)

In [None]:
## Para logaritmo con base 10 usar log10
np.log10(8) 

**Operaciones Aritméticas con Arreglos**

In [None]:
# Usando listas

l1 = [1,2,3]
l2 = [4,5,6]
print(l1+l2)
# Está correcto?


In [None]:
# Definimos 2 arreglos numpy

arr7 = np.arange(1,6)
print('arr7:', arr7)

arr8 = np.arange(3,8)
print('arr8:', arr8)

In [None]:
print('Addition: ',arr7+arr8)
print('Subtraction: ',arr8-arr7)
print('Multiplication:' , arr7*arr8)
print('Division:', arr7/arr8)
print('Inverse:', 1/arr7)
print('Powers:', arr7**arr8) # in python, powers are achieved using **, NOT ^!!! ^ does something completely different!

**Operaciones con Matrices**

In [None]:
matrix7 = np.arange(1,10).reshape(3,3)
print(matrix7)

matrix8 = np.eye(3)
print(matrix8)

In [None]:
print('Addition: \n', matrix7+matrix8)
print('Subtraction: \n ', matrix7-matrix8)
print('Multiplication: \n', matrix7*matrix8)
print('Division: \n', matrix7/matrix8)

* RuntimeWarning: Los errores que ocurren durante la ejecución del programa (tiempo de ejecución) después de una compilación exitosa se llaman errores de tiempo de ejecución.
* Uno de los errores de tiempo de ejecución más comunes es la división por cero, también conocida como error de división.
* Debido al error de división por cero, obtenemos valores "inf" (infinito) porque 1/0 no es una operación definida.

**Algebra Lineal: Multiplicación de matrices**

In [None]:
matrix9 = np.arange(1,10).reshape(3,3)
print('First Matrix: \n',matrix9)

matrix10 = np.arange(11,20).reshape(3,3)
print('Second Matrix: \n',matrix10)
print('')
# Realizando la multiplicación de matrices en álgebra lineal (algunos pueden haberlo escuchado como el producto punto).
print('Multiplication: \n', matrix9 @ matrix10)

**Transpuesta de una matriz**

In [None]:
print(matrix9)

In [None]:
# Transpuesta de una matriz
np.transpose(matrix9)

In [None]:
# Otra forma de calcular la transpuesta
matrix9.T

**Función para encontrar los valores mínimo y máximo.**

In [None]:
print(matrix9)

In [None]:
print('Minimum value: ',np.min(matrix9))

In [None]:
print('Maximum value: ',np.max(matrix9))

**Función para generar números aleatorios**

**Uso de la función np.random.rand**

* La función `np.random.rand` devuelve un array NumPy aleatorio cuyos elementos se eligen al azar de la distribución uniforme en el intervalo [0, 1) (incluyendo 0 pero excluyendo 1).
* **Sintaxis** - `np.random.rand(d0, d1)`
  * `d0, d1` - Representan las dimensiones del array requerido, proporcionadas como enteros, donde `d1` es opcional.

In [None]:
# Generando números aleatorios en un array
rand_mat = np.random.rand(5)
print(rand_mat)

In [None]:
# * Generando números aleatorios en una matriz
rand_mat = np.random.rand(5,5) # uniform random variable
print(rand_mat)

**Uso de la función np.random.randn**

* La función `np.random.randn` devuelve un array NumPy aleatorio cuyas muestras se seleccionan al azar de la distribución normal estándar (con media 0 y desviación estándar 1).

* **Sintaxis** - `np.random.randn(d0, d1)`
  * `d0, d1` - Representan las dimensiones de la salida, donde `d1` es opcional.

In [None]:
# Generando números aleatorios en un array
rand_mat2 = np.random.randn(5) 
print(rand_mat2)

In [None]:
# Generando números aleatorios en una matriz
rand_mat2 = np.random.randn(5,5) 
print(rand_mat2)

In [None]:
# Revisemos el promedio y std
print('Mean:',np.mean(rand_mat2))
print('Standard Deviation:',np.std(rand_mat2))

*  Observamos que la media es muy cercana a 0 y la desviación estándar es muy cercana a 1.

**Uso de la función np.random.randint**

* La función `np.random.randint` devuelve un array NumPy aleatorio cuyos elementos se eligen al azar desde el límite inferior (inclusive) hasta el límite superior (exclusivo).

* **Sintaxis** - `np.random.randint(low, high, size)`
  * `low` - Representa el límite inferior inclusivo de la distribución desde donde se pueden extraer las muestras.
  * `high` - Representa el límite superior exclusivo de la distribución desde donde se pueden extraer las muestras.
  * `size` - Representa la forma de la salida.

In [None]:

rand_mat3 = np.random.randint(1,5,10)
print(rand_mat3)

In [None]:

rand_mat3 = np.random.randint(1,10,[5,5])
print(rand_mat3)

### 2.3 Accediento a elementos de una matriz

In [None]:
# Generemos una matriz con 10 valores aleatorios
rand_arr = np.random.randn(10)
print(rand_arr)

* Accedemos a 1 elemento

In [None]:

print(rand_arr[6])

* Accedemos a múltiples elementos

In [None]:

print(rand_arr[4:9])

In [None]:
# Accedemos a posiciones no consecutivas
print('Index de los valores a acceder: ',np.arange(3,10,3))
print(rand_arr[np.arange(3,10,3)])

**Accedemos usando operaciones lógicas**

In [None]:
print(rand_arr)

In [None]:
rand_arr>0

In [None]:
# Accedemos a todos los valores > 0
print('Valores mayores a 0: ',rand_arr[rand_arr>0])

# y a los < 0
print('Valores menores a 0: ',rand_arr[rand_arr<0])

**Accessing the entries of a Matrix**

In [None]:
# Generemos una matriz con números aleatorios
rand_mat = np.random.randn(5,5)
print(rand_mat)

In [None]:
# Accedemos a la segunda fila de la matriz
rand_mat[1]

In [None]:
# Accedemos al tercer elemento del vector
print(rand_mat[1][2])

#o también

print(rand_mat[1,2])

In [None]:
# Accedemos a las primeras 2 filas y las columnas 1 y 2
print(rand_mat[0:2,1:3])

**Accediento matrices usando operaciones lógicas**

In [None]:
print(rand_mat)

In [None]:
# Todos los valores >0
print('Valores mayores a 0: \n ',rand_mat[rand_mat>0])

print('--------------------')
# Todos los valores < 0
print('Valores menores a 0: \n',rand_mat[rand_mat<0])

In [None]:
rand_mat[rand_mat>0]

**Modificando elementos de un array**

In [None]:
print(rand_arr)

In [None]:
# Cambiemos algunos valores!
rand_arr[3:5] = 5
print(rand_arr)

In [None]:
# Cambiamos los elementos de índice 0 a 2 y 3 respectivamente
rand_arr[0:2] = [2,3]
print(rand_arr)

In [None]:
# Modificamos valores usando operaciones lógicas
rand_arr[rand_arr>0] = 65
rand_arr

**Modificamos elementos de una matriz**

In [None]:
print(rand_mat3)

In [None]:
print('Matriz antes de la modificación: \n',rand_mat3)
rand_mat3[1:3,3:5] = 0
print('Matriz luego de la modificación: \n',rand_mat3)

In [None]:
# Extrayendo las 2 primeras filas y 3 primeros columnas de la matriz
sub_mat = rand_mat3[0:2,0:3]
print(sub_mat)

In [None]:
# Cambiamos todos los valores de sub_mat a 3
sub_mat[:] = 3
print(sub_mat)

In [None]:
# ¿Qué pasó con la matriz original luego que modificamos sub_mat?
rand_mat3

In [None]:
#Para prevenir este comportamiento, debemos usar el método `.copy()` al asignar `sub_mat`.
rand_mat = np.random.randn(5,5)
print(rand_mat)
print('----------------------')
sub_mat = rand_mat[0:2,0:3].copy()
sub_mat[:] = 3
print(sub_mat)
print('----------------------')
print(rand_mat)

* Referencias
    * Practical Machine Learning Class  
    * https://nbviewer.org/github/albahnsen/PracticalMachineLearningClass/blob/master/notebooks/02-IntroPython_Numpy_Scypy_Pandas.ipynb

    * Data Science and Machine Learning: Making Data-Driven Decisions| MIT IDSS

    * Numpy: Official Documentation
    * https://numpy.org/