**Fuente : Adrián Soto IIC2413 - Minería de datos**

# Inducción a Minería de Datos 

# Análisis de datos con Python

En esta clase veremos la herramienta de análisis de datos `pandas`. Esta herramienta es una librería que permite hacer análisis y limpieza de datos en Python. Está diseñada para trabajar con datos tabulares y heterogéneos. También es utilizada en conjunto con otras herramientas para hacer _Data Science_ como `NumPy`, `SciPy`, `matplotlib` y `scikit-learn`. El objetivo de esta clase/tutorial es tener nociones básicas de la librería `pandas` y conocer cómo esta puede hacer uso de un motor SQL.

### Outline

En esta clase vamos a ver:

- Una introducción a la librería `NumPy`.
- Tópicos básicos de la librería `Pandas`:
 - El tipo `Series`
 - El tipo `DataFrame`
 - Proyecciones y filtros en un `DataFrame`
 - Resumen de los datos
 - Manejar nulos
 - Agregación
 - Índices jerárquicos
 - Joins
- Visualización rápida con `matplotlib`
- Una introducción a la librería `Scipy`
- Consejos de eficiencia 

### Requisitos

Para esta clase vamos a utilizar Python3 y algunas librerías externas. Las vamos a instalar utilizando pip:

```
pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn time seaborn
```

## Numpy

`NumPy` es una librería para hacer computos numéricos en Python. Es la base de muchas otras librerías científicas. Entre otras cosas, nos permite:

- Utilizar arreglos multidimensionales.
- Utilizar funciones matemáticas.
- Utilizar herramientas de álgebra lineal.

Necesitamos conocer esta librería (en concreto, el manejo de arreglos) para poder entender el funcionamiento de `pandas`. Para comenzar a trabajar vamos a importar la librería y crear un pequeño arreglo de elementos aleatorios.

## Datos aleatorios

In [None]:
import numpy as np

data = np.random.randn(2,4)
data

###  Ponderar por un escalar
A diferencia de una lista, podemos hacer operaciones matriciales, como multiplicar el arreglo `data` por un escalar:

In [None]:
data * 10

In [None]:
np.multiply(data, 10)

### Suma
o sumarle una matriz:

In [None]:
data + data

### Crear arreglos

Podemos crear arreglos a partir de una lista:

In [None]:
data1 = [1, 1, 2, 3, 5]
arr1 = np.array(data1)
arr1

In [None]:
data2 = [[1, 1, 2, 3], [5, 8, 13, 21]]
arr2 =np.array(data2)
arr2

Para preguntar el número de dimensiones utilizamos `ndim`. Para preguntar las dimensiones utilizamos `shape`.

In [None]:
arr2.ndim

In [None]:
arr2.shape

### Matrices 
- Invertir 
- Trasponer

In [None]:
mat1 = np.matrix(arr2)
mat1

In [None]:
mat1.I

In [None]:
mat1.T

### Accediendo a elementos

Para obtener un elemento:

In [None]:
arr2

In [None]:
arr2[1][2]

In [None]:
# Podemos acceder de esta forma también.
arr2[1, 2]

In [None]:
# Podemos acceder de esta forma también.
arr2[1, 2:]

Los arreglos son mutables:

In [None]:
arr1[3] = 300
arr1

In [None]:
arr2[1, 2] = 100
arr2

### Arange

También tenemos un equivalente a `range` llamado `arange`, pero que genera un arreglo.

In [None]:
np.arange(11)

### Operaciones sobre arreglos

Algunas operaciones que se pueden hacer sobre un arreglo son:

In [None]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
arr


### Elevar elementos de un arreglo

In [None]:
# Elevar al cuadrado

arr * arr

In [None]:
# Elevar al cuadrado

np.power(arr, 2)

## Operaciones

In [None]:
arr + 1

In [None]:
(arr + 1) - arr

In [None]:
1 / arr

In [None]:
arr ** 0.5

## Funciones numéricas

In [None]:
def norm(x):
    return stt.norm.pdf(x, (0.5))

norm(1)

Apliquemos la funcion norm a cada elemento del arreglo


In [None]:
arr =  np.random.randn(10000)

In [None]:
l = []

for x in arr:
    l.append(norm(x))
    
l = np.array(l)
l

In [None]:
norm(arr)

### _Slices_

Podemos extraer partes de un arreglo tal como en las listas. También podemos usar esto para cambiar los valores de dichos elementos.

In [None]:
arr = np.arange(3,15)
arr

In [None]:
arr[3:6]

In [None]:
arr[3:6] = ':)'
arr

### Indexando con booleanos

Podemos utilizar comparaciones booleanas con los arreglos:

In [None]:
arr = np.array([0, 0, 1, 1, 2, 2])
arr == 1

Y usarlo para acceder a valores en otros arreglos. Vamos a crear un arreglo multidimensional e ingresar el arreglo anterior como índice:

In [None]:
arr2 = np.random.randn(6, 3)
arr2

In [None]:
# Con ello dejamos las filas en donde su número es igual al valor 1 en el arreglo arr

arr2[arr == 1]

Y también podemos negar la condición:

In [None]:
arr2[~(arr == 1)]

### Transponer un arreglo

Es posible obtener la transpuesta de un arreglo rápidamente.

In [None]:
arr = np.random.randn(5, 3)
arr

In [None]:
arr.T

### Otras funciones estadisticas básicas

Tenemos acceso a algunas funciones de estadística básicas. Por ejemplo `sum`, `mean` y `std` nos permiten respectivamente sacar la suma, el promedio y la desviación estándar de un arreglo.

In [None]:
arr = np.random.randn(10000)
arr

In [None]:
arr.sum()

In [None]:
arr.mean()

In [None]:
arr.std()

También podemos ordenar:

In [None]:
arr.sort()
arr

Y pedir elementos distintos: (set)

In [None]:
arr = np.array([0, 0, 1, 1, 2, 2])
np.unique(arr)

## Pandas

Para comenzar con `pandas` estudiaremos los tipos `Series` y `DataFrame`. Partimos importando la librería:

In [None]:
import pandas as pd

### Series

Vamos a partir instanciando objetos de tipo `Series`. Estos objetos son como arreglos unidimensionales.

In [None]:
obj = pd.Series([1, 3, -4, 7])
obj

In [None]:
obj.describe()

Para un objeto de tipo `Series` podemos agregar un label a sus índices.

In [None]:
obj = pd.Series([1, 3, -4, 7], index=['d', 'c', 'b', 'a'])
obj

In [None]:
obj['c']

Podemos seleccionar varios elementos según el label de su índice.

In [None]:
obj[['c', 'a']]

In [None]:
obj[[0, 2]]

Podemos hacer filtros pasando un arreglo de _booleanos_:

In [None]:
obj[obj > 2]

Recordemos lo que significaba la comparación `obj > 2` en `NumPy`. Esta comparación era una arreglo con el mismo largo que `obj` que tenía el valor `True` en todas las posiciones con valor mayor a 2.

In [None]:
obj > 2

Por lo que en `obj[obj > 2]` se muestran sólo las filas en la que el arreglo anterior era `True`.

Finalmente, podemos crear un objeto `Series` a partir de un diccionario. Supongamos el siguiente diccionario de personas junto a su edad.

In [None]:
people = {'Alice': 20, 'Bob': 17, 'Charles': 23, 'Dino': 50}
people_series = pd.Series(people)
people_series

### DataFrame

Un objeto de tipo `DataFrame` representa una tabla, en que cada una de sus columnas representa un tipo. Vamos a construir una tabla a partir de un diccionario.

In [None]:
reg_chile = {'name': ['Metropolitana', 'Valparaiso', 'Biobío', 'Maule', 'Araucanía', 'O\'Higgins'],
             'pop': [7112808, 1815902, 1538194, 1044950, 957224, 914555],
             'pib': [24850, 14510, 13281, 12695, 11064, 14840]}
frame = pd.DataFrame(reg_chile)
frame

Podemos usar la función `head` para tener sólo las 5 primeras columnas del Data Frame. En este caso no es mucho aporte, pero para un Data Frame más grande no puede servir para ver cómo vienen los datos.

In [None]:
frame.head()

Podemos proyectar valores pasando el nombre de las columnas que deseamos dejar.

In [None]:
frame['name']

In [None]:
frame[['name', 'pop']]

Podemos seleccionar una determinada fila con la función `iloc`.

In [None]:
frame.iloc[3]

Podemos utilizar la misma idea de filtros vista anteriormente. Por ejemplo, vamos a dejar sólamente las columnas con población mayor a 1.000.000.

In [None]:
frame[frame['pop'] > 1000000]

Podemos hacer filtros con `&` para hacer un `AND`:

In [None]:
frame[(frame['pop'] > 1000000) & (frame['pib'] < 20000)]

Y podemos usar `|` para hacer un `OR`:

In [None]:
frame[(frame['name'] == 'Metropolitana') | (frame['name'] == 'Valparaiso')]

Existen muchas formas de crear y operar sobre un `DataFrame`. Puedes revisar la documentación para encontrar más.

### Orden sobre un Data Frame

Para ordenar un objeto `DataFrame` usamos la función `sort_values`:

In [None]:
frame.sort_values(by=['pib'])

Si necesitamos ordenar por más de una columna, podemos pasar un arreglo al argumento `by`.

In [None]:
df = {'name': ['Metropolitana', 'Valparaiso', 'Biobío', 'Maule', 'Araucanía', 'O\'Higgins'],
             'col1': [1, 1, 2, 3, 2, 3],
             'col2': [24850, 14510, 13281, 12695, 11064, 14840]}
df = pd.DataFrame(df)
df

In [None]:
df.sort_values(by=['col1', 'col2'])

### Describiendo los datos

La librería `pandas` tiene varias funciones que nos permiten obtener descripciones y resúmenes de los datos. Vamos a ver algunos ejemplos.

In [None]:
frame.describe()

In [None]:
frame.mean()

In [None]:
frame.sum()

### Utilizando datos externos

En `pandas` es posible importar datos en formato `.csv`, `.xlsx` entre otros. 

### Versión alternativa: Abrir un archivo csv en nuestro computador:

Necesitaremos tener alojado el archivo de la base de datos en la misma carpeta donde se encuntra corriendo el archivo de jupyter.

In [None]:
com_frame = pd.read_csv("comunas.csv", names=["cod", "nombre", "provincia", "region", "superficie",
                                               "poblacion", "densidad", "idh"])

In [None]:
com_frame.head()

In [None]:
com_frame.describe()

En esta tabla tenemos valores nulos. Vamos a buscarlos. Primero vamos a encontrar todas las filas que contengan algún nulo, para luego filtrar por ese arreglo.

In [None]:
com_frame.isnull().any(axis=1)

In [None]:
com_frame[com_frame.isnull().any(axis=1)]

`pandas` tiene métodos auxiliares para lidiar con datos faltantes. Uno es eliminar aquellas filas con la función `dropna()`

In [None]:
com_cleaned = com_frame.dropna()
com_cleaned

O podemos tomar una opción menos radical, que es reemplazar los nulos por un valor en particular.

In [None]:
com_frame = com_frame.fillna(0)
com_frame

In [None]:
com_frame = pd.read_csv("comunas.csv", names=["cod", "nombre", "provincia", "region", "superficie",
                                               "poblacion", "densidad", "idh"])
for col in ['cod', 'superficie', 'poblacion', 'densidad', 'idh']:
    com_frame[col] = com_frame[col].fillna(com_frame[col].mean())

com_frame

Existen muchas otras opciones para limpiar los datos, pero no los veremos en este tutorial.

### Agregación

Vamos a ver unos ejemplos para agregar datos utilizando `pandas`. Lo primero que haremos será agregar el nombre de las columnas al Data Frame.

In [None]:
com_frame.columns = ['cod', 'nombre', 'prov', 'reg', 'sup', 'pobl', 'dens', 'idh']
com_frame

Ahora vamos a obtener la cantidad de habitantes por región.

In [None]:
com_frame['pobl'].groupby(com_frame['reg']).sum() # Ojo! esto retorna un objeto Series

Podemos preguntar cuantos elementos hay por grupo. En este caso obtendríamos el número de comunas por región.

In [None]:
com_frame['pobl'].groupby(com_frame['reg']).size() # Ojo! esto retorna un objeto Series

In [None]:
com_frame['pobl'].groupby([com_frame['prov'], com_frame['reg']]).sum() # Ojo! esto retorna un objeto Series

En `pandas` se pueden hacer operaciones mucho más complejas, pero no veremos nada avanzado en esta ocasión. Puedes revisar la documentación para ver que más puedes hacer.

### Graficando los datos

Una de las ventajas de trabajar con `pandas` es que tenemos acceso rápido a herramientas de visualización. Una de ellas es la librería `matplotlib`. Vamos a ver un ejemplo rápido, haciendo un gráfico de barras de los habitantes por región.

In [None]:
import matplotlib.pyplot as plt

# Ajustamos el tamaño del gráfico
plt.rcParams['figure.figsize'] = [10, 5]

plt.title('Población por región')
pop_by_comune = com_frame['pobl'].groupby(com_frame['reg']).sum()
plt.bar(pop_by_comune.keys(), pop_by_comune)

# Ajustamos la rotación de los labels
plt.xticks(rotation=90)

plt.show()

### Índices jerárquicos

Podemos instanciar objetos de la clase `DataFrame` en que los índices son jerárquicos. Veamos un ejemplo.

In [None]:
data_multindex = pd.DataFrame(np.arange(12).reshape(4, 3), 
                    index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                    columns=['c1', 'c2', 'c3']) 

# La función reshape en este 
# caso distribuye los doce elementos 
# en una tabla de 4 filas y tres columnas

data_multindex

In [None]:
data_multindex.iloc[0] # Esto nos arroja la primera fila.

Si queremos localizar por índice, usamos la función `loc`:

In [None]:
data_multindex.loc['a']

In [None]:
data_multindex.loc['a'].loc[2] # La función loc accede según el label del índice, no la posición

### Joins

Podemos hacer _joins_ sobre los Data Frames. Partamos con un ejemplo sencillo de dos objetos de tipo `DataFrame` que comparten el nombre de un atributo en el que se desea hacer _join_:

In [None]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': np.arange(7)})

df2 = pd.DataFrame({'key': ['a', 'b'],
                    'data2': np.arange(8, 10)})


In [None]:
df1

In [None]:
df2

In [None]:
pd.merge(df1, df2)

En la operación anterior, omitimos indicar explícitamente el atributo sobre el que estamos haciendo join. Para indicarlo hacemos lo siguiente:

In [None]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': np.arange(7)})

df2 = pd.DataFrame({'key': ['a', 'b', 'd', 'a'],
                    'data2': np.arange(8, 12)})

pd.merge(df1, df2, on='key')

En el caso de que los atributos se llamen de distinta forma:

In [None]:
df1 = pd.DataFrame({'key1': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': np.arange(7)})
df2 = pd.DataFrame({'key2': ['a', 'b', 'd', 'a'],
                    'data2': np.arange(8, 12)})

pd.merge(df1, df2, left_on='key1', right_on='key2')

En el caso de necesitar un _Outer Join_, podemos indicarlo con el argumento `how`. Puede ser `'left'`, `'right'` o `'outer'`. Veamos un ejemplo de _Left Outer Join_:

In [None]:
df1 = pd.DataFrame({'key1': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': np.arange(7)})
df2 = pd.DataFrame({'key2': ['a', 'b', 'd', 'a'],
                    'data2': np.arange(8, 12)})

pd.merge(df1, df2, left_on='key1', right_on='key2', how='left')

En el caso de querer un _join_ por más de un argumento, puedo indicar una lista de atributos. También puedes renombrar atributos en el caso de que su nombre sea igual en ambos Data Frame y no quieras generar conflictos. Esto lo puedes hacer mediante el argumento `suffixes`. Para ver más puedes consultar la documentación.

Lo último que veremos es cómo hacer un _join_ utilizando una de los índices.

In [None]:
df1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'],
                    'value': np.arange(6)})

df2 = pd.DataFrame({'dvalue': [10, 20]}, index=['a', 'b'])

In [None]:
df1

In [None]:
df2

In [None]:
pd.merge(df1, df2, left_on='key', right_index=True)

También puedes utilizar `merge` con índices jerárquicos. Puedes buscar más información en la documentación de `pandas`.

In [None]:
import re

datos = pd.read_csv("Data_Ayudantia_1", sep=",")

In [None]:
datos.keys()

In [None]:
datos.head()

In [None]:
# Como saber cuantos datos nulos hay?
datos.isnull().sum()

In [None]:
# Datos sin duplicados
def get_values(df, X):
    print("{}".format(X))
    values = df[X].drop_duplicates().values
    print(values,'\n')
    return values


In [None]:
alto_plataforma = get_values(datos, 'alto_plataforma')

In [None]:
# obtener solo los valores numéricos
def get_numbers(candidates):
    values = np.array(list(set(['.'.join(re.findall(r'\d+',str(value))) for value in candidates])))
    values = np.array([value for value in values if len(value)>0]).astype(float).round(1)
    values.sort()
    return values

In [None]:
get_numbers(alto_plataforma)

In [None]:
alto_plataforma

In [None]:
# Hay nunmeros en el elemento?
def num_there(s):
    return any(i.isdigit() for i in str(s))

#obtener string dentro del arreglo
def get_strings(candidates):
    values = np.array(list(set([str(value).strip().lower() for value in candidates if not num_there(value)])))
    values.sort()
    return values

In [None]:
get_strings(alto_plataforma)

In [None]:
num_there(alto_plataforma)

# Scipy

`Scipy` es una librería complementaria a `numpy`, la cual contiene una serie de algoritmos matemáticos para manipular y visualizar datos. Sus principales utilidades son: 

    - Optimización
    - Manejo de distribuciones de probabilidad 
    - Algoritmos de clustering
    - Solvers de cálculo
    
En este curso, utilizaremos esta herramienta para todas las áreas mencionadas anteriormente. 

### Distribuciones de probabilidad

En este caso trabajaremos con datos generados a través de una `distribución normal``

In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import scipy.stats as stt

# Generamos los datos 

data = stt.norm.rvs(loc=0, scale=1, size=10000, random_state=None)

Con la ayuda de la librería `matplotlib` podemos ratificar que los datos son normales haciéndo un histograma

In [None]:
plt.hist(data, density=True, histtype='stepfilled', alpha=0.2)

Otra librería muy útil para hacer visualizaciones es `seaborn`. Esta herramienta permite hacer gráficos más estilizados. 

In [None]:
import seaborn as sns

sns.distplot(data)

Dado un set de puntos, también es posible evaluarlos bajo una distribución en particular con `scipy`. Esto se hace mediante la función cdf. Es importante mencionar que esta librería (al igual que otras como `sklearn`) son capaces de trabajar con `arrays` y no solo un datos en particular. Es decir, podemos entregar arreglos de datos como input a la hora de querer evaluar muchos datos en una distribución en particular. 

In [None]:
# Generamos puntos entre -30 y 50 con una densidad de 0.01

x = np.arange(-30, 50, 0.01)

In [None]:
# Evaluamos los valores de los puntos en las distintas distribuciones 

gamma = stt.gamma(6, 0, 2).pdf(x)
laplace = stt.laplace(10, 5.8).pdf(x)
normal = 3*stt.norm(10, 15).pdf(x)

In [None]:
# Graficar los puntos 

plt.title('Gráfico ejemplo')
plt.plot(x, laplace, label='Lapalce')
plt.plot(x, gamma, label='Gamma')
plt.plot(x, normal, label='Normal')
plt.xlabel('eje x')
plt.ylabel('eje y')
plt.legend()

plt.show()

### Plot  Multivariate Norm

In [None]:
import matplotlib.pyplot as plt
from matplotlib.pyplot import ion, figure, scatter, draw
from matplotlib.patches import Ellipse

def plot_point_cov(points, nstd=2, ax=None, **kwargs):
    """
    Plots an `nstd` sigma ellipse based on the mean and covariance of a point
    "cloud" (points, an Nx2 array).

    Parameters
    ----------
        points : An Nx2 array of the data points.
        nstd : The radius of the ellipse in numbers of standard deviations.
            Defaults to 2 standard deviations.
        ax : The axis that the ellipse will be plotted on. Defaults to the 
            current axis.
        Additional keyword arguments are pass on to the ellipse patch.

    Returns
    -------
        A matplotlib ellipse artist
    """
    pos = points.mean(axis=0)
    cov = np.cov(points, rowvar=False)
    return plot_cov_ellipse(cov, pos, nstd, ax, **kwargs)

def plot_cov_ellipse(cov, pos, nstd=2, ax=None, **kwargs):
    """
    Plots an `nstd` sigma error ellipse based on the specified covariance
    matrix (`cov`). Additional keyword arguments are passed on to the 
    ellipse patch artist.

    Parameters
    ----------
        cov : The 2x2 covariance matrix to base the ellipse on
        pos : The location of the center of the ellipse. Expects a 2-element
            sequence of [x0, y0].
        nstd : The radius of the ellipse in numbers of standard deviations.
            Defaults to 2 standard deviations.
        ax : The axis that the ellipse will be plotted on. Defaults to the 
            current axis.
        Additional keyword arguments are pass on to the ellipse patch.

    Returns
    -------
        A matplotlib ellipse artist
    """
    def eigsorted(cov):
        vals, vecs = np.linalg.eigh(cov)
        order = vals.argsort()[::-1]
        return vals[order], vecs[:,order]

    if ax is None:
        ax = plt.gca()

    vals, vecs = eigsorted(cov)
    theta = np.degrees(np.arctan2(*vecs[:,0][::-1]))

    # Width and height are "full" widths, not radius
    
    width, height = 2 * nstd * np.sqrt(vals)
    ellip = Ellipse(xy=pos, width=width, height=height, angle=theta, **kwargs)

    ax.add_artist(ellip)
    return ellip

In [None]:
m = [(-2, -1), (1, 7), (4, 0), (5, 5)]
fig, ax = plt.subplots(figsize = (10, 7))

plt.xlim(-5, 10)
plt.ylim(-5, 10)

plt.title('Proyection Multivariate Normal')

for k in range(4):
    # samplear datos para visualizar cada elipse 
    points = np.random.multivariate_normal(mean=m[k], cov=[[1,0], [0,1]], size=500)

    # definir elipse
    plot_point_cov(points, nstd=2, alpha=0.3, color='r') #np.random.rand(3))
        
    plt.scatter(points[:, 0], points[:, 1])

    plt.scatter(*m[k], color='black')


## Generar datos

In [None]:
datos_normales = stt.norm.rvs(loc=0, scale=1, size=10000, random_state=None)

datos_uniformes = stt.uniform.rvs(size=10000)

datos_binom = stt.binom.rvs(1, 0.5, size=10000)

In [None]:
plt.hist(datos_normales, bins='auto')

plt.show()

In [None]:
plt.hist(datos_binom, bins='auto')
plt.show()

In [None]:
plt.hist(datos_uniformes, bins='auto')
plt.show()

# Consejos finales de eficiencia 

### Eficiencia en operaciones aritméticas 

En este curso una de las mayores dificultades será el optimizar procesos. Al trabajar con grandes cantidades de datos, los '_doble for_' y las listas por comprensión son muy ineficientes. Es por esta razón que para todas las operaciones que involucren recorrer toda la base de datos o realizar operaciones repetitivas, se deben usar `operaciones vectoriales`. Ellas están implementadas por _default_ en `numpy`. 


Por ejemplo, si se tiene una sumatoria de productos entre dos `arrays`, la lógica de intro/programación avanzada, nos dice que podríamos hacerlo con la ayuda de un `for`. 

In [None]:
lista1 = np.random.rand(3)
lista2 = np.random.rand(3)

suma = 0 
for i in range(3):
    suma += lista1[i] * lista2[i] 

print(suma)

In [None]:
lista1

Funaciona bien! No obstante, debemos recordar que estamos trabajando con 3 datos :( En el caso de tener una base de datos más grande, digamos 1.000.000 datos, el panorama cambia. 

In [None]:
lista1 = np.random.rand(1000000)
lista2 = np.random.rand(1000000)

In [None]:
%%timeit

suma = 0 
for i in range(1000000):
    suma += lista1[i] * lista2[i] 


En cambio, si llevamos esta operación a una vectorizada:

In [None]:
%%timeit
np.dot(lista1, lista2)

In [None]:
def foo1(x):
    return (100 * x)**2 // 3


def foo2(x):
    

In [None]:
suma1 = 0
for i in range(1000000):
    suma1 += foo1(lista1[i])

In [None]:
suma2 = foo1(lista1).sum()

In [None]:
suma1 == suma2

In [None]:
mu = [0.5, 1.6]
cov_ = [[1,0], [0,1]]
var = stt.multivariate_normal(mean=mu, cov=cov_)

x = np.arange(-2, 4, 0.05)
y = np.arange(-1, 6, 0.05)
X, Y = np.meshgrid(x, y)

@np.vectorize
def foo2(X_,Y_):
    return var.pdf([X_,Y_])

@np.vectorize
def foo3(X_,Y_):
    return stt.multivariate_normal(mean=mu, cov=cov_).pdf([X_,Y_])


In [None]:
%%timeit
foo2(X, Y)

In [None]:
%%timeit
foo3(X, Y)

In [None]:
X.shape

Es fácil darse cuenta que el tiempo de ejecución en operaciones vectoriales es mucho menor. Es por ello que siempre que se está armando un algoritmo es recomendable primero armarlo con funciones familiares y nativas de `python` como `for` o `while`, pero luego, cuando el programa ya funcione correctamente, ir cambiado las operaciones a otras que involucren productos cruz, punto, inversiones, transposiciones, entre otras. 

### Eficiencia en manejos de Dataframes en Pandas 

Muchas veces tendremos que sumar, multiplicar, mover o cambiar un caracter en los elementos de entre las filas de un `Dataframe` de `Pandas`. Para ello, nos veremos tentados a usar el método `iterrows`. Mala idea. Este método trabaja igual que un `for` built-in. Como podemos intuir, para bases pequeñas funciona bien. Pero cuando tenemos bases más apegadas a la realidad, nuestro `iterrows` podría tardar meses. Es por esto que es altamente recomendado usar los métodos que nos ofrece `pandas` para manipular los `Dataframes`. Algunos ejemplos son: 

    - DataFrame.add (Suma un float a un dataframe o a cierta parte de éste) 
    - DataFrame.mul (Multiplica por un float)
    - DataFrame.pow (Eleva el Dataframe) 
    

    

# Consejos finales de eficiencia 

### Eficiencia en operaciones aritméticas 

En este curso una de las mayores dificultades será el optimizar procesos. Al trabajar con grandes cantidades de datos, los '_doble for_' y las listas por comprensión son muy ineficientes. Es por esta razón que para todas las operaciones que involucren recorrer toda la base de datos o realizar operaciones repetitivas, se deben usar `operaciones vectoriales`. Ellas están implementadas por _default_ en `numpy`. 


Por ejemplo, si se tiene una sumatoria de productos entre dos `arrays`, la lógica de intro/programación avanzada, nos dice que podríamos hacerlo con la ayuda de un `for`. 

In [9]:
lista1 = np.random.rand(3)
lista2 = np.random.rand(3)

suma = 0 
for i in range(3):
    suma += lista1[i] * lista2[i] 

print(suma)

0.43897836296999826


In [10]:
lista1

array([0.57848026, 0.35974705, 0.05163512])

Funaciona bien! No obstante, debemos recordar que estamos trabajando con 3 datos :( En el caso de tener una base de datos más grande, digamos 1.000.000 datos, el panorama cambia. 

In [11]:
%%timeit

lista1 = np.random.rand(1000000)
lista2 = np.random.rand(1000000)

suma = 0 
for i in range(3):
    suma += lista1[i] * lista2[i] 


15.2 ms ± 416 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


En cambio, si llevamos esta operación a una vectorizada:

In [13]:
%%timeit
np.dot(lista1, lista2)

432 ns ± 68.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Es fácil darse cuenta que el tiempo de ejecución en operaciones vectoriales es mucho menor. Es por ello que siempre que se está armando un algoritmo es recomendable primero armarlo con funciones familiares y nativas de `python` como `for` o `while`, pero luego, cuando el programa ya funcione correctamente, ir cambiado las operaciones a otras que involucren productos cruz, punto, inversiones, transposiciones, entre otras. 

### Eficiencia en manejos de Dataframes en Pandas 

Muchas veces tendremos que sumar, multiplicar, mover o cambiar un caracter en los elementos de entre las filas de un `Dataframe` de `Pandas`. Para ello, nos veremos tentados a usar el método `iterrows`. Mala idea. Este método trabaja igual que un `for` built-in. Como podemos intuir, para bases pequeñas funciona bien. Pero cuando tenemos bases más apegadas a la realidad, nuestro `iterrows` podría tardar meses. Es por esto que es altamente recomendado usar los métodos que nos ofrece `pandas` para manipular los `Dataframes`. Algunos ejemplos son: 

    - DataFrame.add (Suma un float a un dataframe o a cierta parte de éste) 
    - DataFrame.mul (Multiplica por un float)
    - DataFrame.pow (Eleva el Dataframe) 
    

    

In [9]:
suma1 == suma2

True