<a href="https://colab.research.google.com/github/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/blob/main/07_Modulos_Basicos_DS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%matplotlib inline
import matplotlib
import seaborn as sns
matplotlib.rcParams['savefig.dpi'] = 144

In [None]:
%%capture
!pip install expectexception
import expectexception

# Herramientas de datos básicas: NumPy, Matplotlib, Pandas

Python es un lenguaje de programación potente y flexible, pero no tiene herramientas integradas para análisis matemático o visualización de datos. Para la mayoría de los análisis de datos, confiaremos en algunas bibliotecas útiles. Exploraremos tres bibliotecas que son muy comunes para el análisis y la visualización de datos.

## NumPy

El primero de ellos es NumPy. Las características principales de NumPy son tres: sus funciones matemáticas (por ejemplo, `sin`, `log`, `floor`), su submódulo `random` (útil para muestreo aleatorio) y el objeto NumPy `ndarray`.

Una matriz NumPy es similar a una matriz matemática de n dimensiones. Por ejemplo,

$$\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{d1} & x_{d2} & x_{d3} & \dots  & x_{dn}
\end{bmatrix}$$

Una matriz NumPy podría ser unidimensional (por ejemplo, [1, 5, 20, 34, ...]), bidimensional (como arriba) o muchas dimensiones. Es importante tener en cuenta que todas las filas y columnas de la matriz bidimensional tienen la misma longitud. Esto será válido para todas las dimensiones de las matrices.

Comparemos esto con las listas.

In [None]:
# to access NumPy, we have to import it
import numpy as np

In [None]:
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
print(list_of_lists)

In [None]:
an_array = np.array(list_of_lists)
print(an_array)

In [None]:
non_rectangular = [[1, 2], [3, 4, 5], [6, 7, 8, 9]]
print(non_rectangular)

In [None]:
non_rectangular_array = np.array(non_rectangular, dtype=object)
print(non_rectangular_array)


¿Por qué se imprimieron de manera diferente? Investiguemos su _forma_ y _tipo de datos_ (`dtype`).

In [None]:
print(an_array.shape, an_array.dtype)
print(non_rectangular_array.shape, non_rectangular_array.dtype)

El primer caso, `an_array`, es una matriz bidimensional de 3x3 (de números enteros). Por el contrario, `non_rectangular_array` es una matriz unidimensional de longitud 3 (de _objetos_, es decir, objetos de `lista`).

También podemos crear una variedad de matrices con las funciones convenientes de NumPy.

In [None]:
np.linspace(1, 10, 10)

In [None]:
np.arange(1, 10, 1)

In [None]:
np.logspace(1, 10, 10)

In [None]:
np.zeros(10)

In [None]:
np.diag([1,2,3,4])

In [None]:
np.eye(5)

También podemos convertir el `dtype` de una matriz después de su creación.

In [None]:
print(np.logspace(1, 10, 10).dtype)
print(np.logspace(1, 10, 10).astype(int).dtype)

¿Por qué importa todo esto?

Las matrices suelen ser más eficientes en términos de código y recursos computacionales para ciertos cálculos. Computacionalmente, esta eficiencia proviene del hecho de que preasignamos un bloque de memoria contiguo para los resultados de nuestro cálculo.

Para explorar las ventajas del código, intentemos hacer algunos cálculos con estos números.

Primero, simplemente calculemos la suma de todos los números y observemos las diferencias en el código necesario para `list_of_lists`, `an_array` y `non_rectangular_array`.

In [None]:
print(sum([sum(inner_list) for inner_list in list_of_lists]))
print(an_array.sum())

Sumar los números en una matriz es mucho más fácil que en una lista de listas. No tenemos que profundizar en una jerarquía de listas, simplemente usamos el método "suma" de "ndarray". ¿Esto todavía funciona para `non_rectangular_array`?

In [None]:
# what happens here?
print(non_rectangular_array.sum())

Recuerde que `non_rectangular_array` es una matriz unidimensional de objetos de `lista`. El método `suma` intenta sumarlos: primera lista + segunda lista + tercera lista. La adición de listas da como resultado una _concatenación_.

In [None]:
# concatenate three lists
print([1, 2] + [3, 4, 5] + [6, 7, 8, 9])

El contraste se vuelve aún más claro cuando intentamos sumar filas o columnas individualmente.

In [None]:
print('Array row sums: ', an_array.sum(axis=1))
print('Array column sums: ', an_array.sum(axis=0))

In [None]:
print('List of list row sums: ', [sum(inner_list) for inner_list in list_of_lists])

def column_sum(list_of_lists):
    running_sums = [0] * len(list_of_lists[0])
    for inner_list in list_of_lists:
        for i, number in enumerate(inner_list):
            running_sums[i] += number

    return running_sums

print('List of list column sums: ', column_sum(list_of_lists))

Generalmente es mucho más natural hacer operaciones matemáticas con matrices que con listas.

In [None]:
a = np.array([1, 2, 3, 4, 5])
print(a + 5) # add a scalar
print(a * 5) # multiply by a scalar
print(a / 5.) # divide by a scalar (note the float!)

In [None]:
b = a + 1
print(a + b) # add together two arrays
print(a * b) # multiply two arrays (element-wise)
print(a / b.astype(float)) # divide two arrays (element-wise)

Las matrices también se pueden utilizar para álgebra lineal, actuando como vectores, matrices, tensores, etc.

In [None]:
print(np.dot(a, b)) # inner product of two arrays
print(np.outer(a, b)) # outer product of two arrays

Los arrays tienen mucho que ofrecernos en términos de representación y análisis de datos, ya que podemos aplicar fácilmente funciones matemáticas a conjuntos de datos o secciones de conjuntos de datos. La mayoría de las veces no tendremos ningún problema al usar matrices, pero es bueno tener en cuenta las restricciones en torno a la forma y el tipo de datos.

Estas restricciones en torno a `shape` y `dtype` permiten que los objetos `ndarray` tengan un rendimiento mucho mayor en comparación con una `list` general de Python.  Hay algunas razones para esto, pero las dos principales resultan de la naturaleza escrita de `ndarray`, ya que esto permite el almacenamiento de memoria contigua y la búsqueda de funciones consistente.  Cuando se suma una "lista" de Python, Python necesita descubrir en tiempo de ejecución la forma correcta de agregar cada elemento de la lista.  Cuando se suma un `ndarray`, `NumPy` ya conoce el tipo de cada elemento (y son consistentes), por lo que puede sumarlos sin verificar la función de suma correcta para cada elemento.

Veamos esto en acción haciendo algunos perfiles básicos.  Primero crearemos una lista de 100000 elementos aleatorios y luego cronometramos la función de suma.

In [None]:
time_list = [np.random.random() for _ in range(100000)]
time_arr = np.array(time_list)

In [None]:
%%timeit
sum(time_list)

In [None]:
%%timeit
np.sum(time_arr)

### Agregación de datos básicos

Exploremos algunos ejemplos más del uso de matrices, esta vez usando el submódulo "aleatorio" de NumPy para crear algunos "datos falsos".

In [None]:
jan_coffee_sales = np.random.randint(25, 200, size=(4, 7))
print(jan_coffee_sales)

In [None]:
# mean sales
print('Mean coffees sold per day in January: %d' % jan_coffee_sales.mean())

In [None]:
# mean sales for Monday
print('Mean coffees sold on Monday in January: %d' % jan_coffee_sales[:, 1].mean())

In [None]:
# day with most sales
# remember we count dates from 1, not 0!
print('Day with highest sales was January %d' % (jan_coffee_sales.argmax() + 1))

In [None]:
# is there a weekly periodicity?
normalized_sales = (jan_coffee_sales - jan_coffee_sales.mean()) / abs(jan_coffee_sales - jan_coffee_sales.mean()).max()
print(np.mean(np.arccos(normalized_sales) / (2 * np.pi) * 7, axis=0))

Algunas de las funciones (`arccos` y `argmax`) que usamos anteriormente no existen en Python estándar y nos las proporciona NumPy. Además, vemos que podemos usar la forma de una matriz para ayudarnos a calcular estadísticas sobre un subconjunto de nuestros datos (por ejemplo, la cantidad media de cafés vendidos los lunes). Pero una de las cosas más poderosas que podemos hacer para explorar datos es simplemente visualizarlos.

### Cambiando de forma

A menudo querremos tomar matrices que tengan una forma y transformarlas en una forma diferente que sea más adecuada para una operación específica.

In [None]:
mat = np.random.rand(20, 10)

In [None]:
mat.reshape(40, 5).shape

In [None]:
%%expect_exception ValueError

mat.reshape(30, 5)

In [None]:
mat.ravel().shape

In [None]:
mat.transpose().shape

### Combinando matrices

In [None]:
print(a)
print(b)

In [None]:
np.hstack((a, b))

In [None]:
np.vstack((a, b))

In [None]:
np.dstack((a, b))

### Funciones universales

`NumPy` define un `ufunc` que le permite ejecutar funciones de manera eficiente sobre matrices.  Muchas de estas funciones están integradas, como `np.cos`, y se implementan en código `C` compilado de alto rendimiento.  Estas funciones pueden realizar "difusión", lo que les permite manejar automáticamente operaciones entre matrices de diferentes formas, por ejemplo, dos matrices con la misma forma, o una matriz y un escalar.

## Matplotlib

Matplotlib es la biblioteca de trazado de Python más popular. Nos permite visualizar datos rápidamente al proporcionar una variedad de tipos de gráficos (por ejemplo, de barras, de dispersión, de líneas, etc.). También proporciona herramientas útiles para organizar múltiples imágenes o componentes de imágenes dentro de una figura, lo que nos permite crear visualizaciones más complejas según sea necesario.

¡Visualicemos algunos datos! En las siguientes celdas, generaremos algunos datos. Por ahora nos centraremos en cómo se producen los gráficos en lugar de cómo se generan los datos.

In [None]:
import matplotlib.pyplot as plt

In [None]:
def gen_stock_price(days, initial_price):
    # stock price grows or shrinks linearly
    # not exceeding 10% per year (heuristic)
    trend = initial_price * (np.arange(days) * .1 / 365 * np.random.rand() * np.random.choice([1, -1]) + 1)
    # noise will be about 2%
    noise = .02 * np.random.randn(len(trend)) * trend
    return trend + noise

days = 365
initial_prices = [80, 70, 65]
for price in initial_prices:
    plt.plot(np.arange(-days, 0), gen_stock_price(days, price))
plt.title('Stock price history for last %d days' % days)
plt.xlabel('Time (days)')
plt.ylabel('Price (USD)')
plt.legend(['Company A', 'Company B', 'Company C'])

In [None]:
from scipy.stats import linregress

def gen_football_team(n_players, mean_shoe, mean_jersey):
    shoe_sizes = np.random.normal(size=n_players, loc=mean_shoe, scale=.15 * mean_shoe)
    jersey_sizes = mean_jersey / mean_shoe * shoe_sizes + np.random.normal(size=n_players, scale=.05 * mean_jersey)

    return shoe_sizes, jersey_sizes

shoes, jerseys = gen_football_team(16, 11, 100)

fig = plt.figure(figsize=(12, 6))
fig.suptitle('Football team equipment profile')

ax1 = plt.subplot(221)
ax1.hist(shoes)
ax1.set_xlabel('Shoe size')
ax1.set_ylabel('Counts')

ax2 = plt.subplot(223)
ax2.hist(jerseys)
ax2.set_xlabel('Chest size (cm)')
ax2.set_ylabel('Counts')

ax3 = plt.subplot(122)
ax3.scatter(shoes, jerseys, label='Data')
ax3.set_xlabel('Shoe size')
ax3.set_ylabel('Chest size (cm)')

fit_line = linregress(shoes, jerseys)
ax3.plot(shoes, fit_line[1] + fit_line[0] * shoes, 'r', label='Line of best fit')

handles, labels = ax3.get_legend_handles_labels()
ax3.legend(handles[::-1], labels[::-1])

In [None]:
def gen_hourly_temps(days):
    ndays = len(days)
    seasonality = (-15 * np.cos((np.array(days) - 30) * 2.0 * np.pi / 365)).repeat(24) + 10
    solar = -3 * np.cos(np.arange(24 * ndays) * 2.0 * np.pi / 24)
    weather = np.interp(list(range(len(days) * 24)), list(range(0, 24 * len(days), 24 * 2)), 3 * np.random.randn(np.ceil(float(len(days)) / 2).astype(int)))
    noise = .5 * np.random.randn(24 * len(days))

    return seasonality + solar + weather + noise

days = np.arange(365)
hours = np.arange(days[0] * 24, (days[-1] + 1) * 24)
plt.plot(hours, gen_hourly_temps(days))
plt.title('Hourly temperatures')
plt.xlabel('Time (hours since Jan. 1)')
plt.ylabel('Temperature (C)')

En los ejemplos anteriores hemos utilizado el omnipresente comando `plot`, `subplot` para organizar múltiples gráficos en una imagen y `hist` para crear histogramas. También hemos utilizado paradigmas de trazado tanto de "máquina de estados" (es decir, usando una secuencia de comandos `plt.method`) como "orientados a objetos" (es decir, creando objetos de figuras y mutándolos). El paquete Matplotlib es muy flexible y las posibilidades de visualizar datos están limitadas en su mayoría por la imaginación. Una excelente manera de explorar Matplotlib y otros paquetes de visualización de datos es consultando sus [páginas de galería](https://matplotlib.org/gallery.html).

# Pandas

NumPy es útil para manejar datos, ya que nos permite aplicar funciones de manera eficiente a conjuntos de datos completos o seleccionar partes de ellos. Sin embargo, puede resultar difícil realizar un seguimiento de los datos relacionados que pueden estar almacenados en diferentes matrices, o del significado de los datos almacenados en diferentes filas o columnas de la misma matriz.

Por ejemplo, en la sección anterior teníamos una matriz unidimensional para tallas de zapatos y otra matriz unidimensional para tallas de camisetas. Si quisiéramos buscar la talla de calzado y camiseta de un jugador en particular, tendríamos que recordar su posición en cada conjunto.

Alternativamente, podríamos combinar las dos matrices unidimensionales para crear una matriz bidimensional con filas `n_players` y dos columnas (una para la talla de zapato, otra para la talla de camiseta). Pero una vez que combinamos los datos, ahora tenemos que recordar qué columna es la talla de zapato y qué columna es la talla de camiseta.

El paquete Pandas presenta una herramienta muy poderosa para trabajar con datos en Python: el DataFrame. Un DataFrame es una tabla. Cada columna representa un tipo diferente de datos (a veces llamado **campo**). Las columnas tienen nombre, por lo que podría tener una columna llamada `'shoe_size'` y una columna llamada `'jersey_size'`. No tengo que recordar qué columna es cuál, porque puedo referirme a ellas por su nombre. Cada fila representa un **registro** o **entidad** diferente (por ejemplo, jugador). También puedo nombrar las filas, de modo que en lugar de recordar qué fila de mi matriz corresponde a Ronaldinho, puedo nombrar la fila 'Ronaldinho' y buscar su talla de zapato y su talla de camiseta por nombre.

In [None]:
import pandas as pd

players = ['Ronaldinho', 'Pele', 'Lionel Messi', 'Zinedine Zidane', 'Didier Drogba', 'Ronaldo', 'Yaya Toure',
           'Frank Rijkaard', 'Diego Maradona', 'Mohamed Aboutrika', "Samuel Eto'o", 'George Best', 'George Weah',
           'Roberto Donadoni']
shoes, jerseys = gen_football_team(len(players), 10, 100)

df = pd.DataFrame({'shoe_size': shoes, 'jersey_size': jerseys}, index = players)

df

In [None]:
# we can also make a dataframe using zip

df = pd.DataFrame(list(zip(shoes, jerseys)), columns = ['shoe_size', 'jersey_size'], index = players)

df

El DataFrame tiene similitudes tanto con un "dict" como con un "ndarray" de NumPy. Por ejemplo, podemos recuperar una columna del DataFrame usando su nombre, tal como recuperaríamos un elemento de un "dict" usando su clave.

In [None]:
df['shoe_size']

Y podemos aplicar funciones fácilmente al DataFrame, tal como lo haríamos con una matriz NumPy.

In [None]:
np.log(df)

In [None]:
df.mean()

Exploraremos la aplicación de funciones y el análisis de datos en un DataFrame con más profundidad más adelante. Primero necesitamos saber cómo recuperar, agregar y eliminar datos de un DataFrame.

Ya hemos visto cómo recuperar una columna, ¿qué pasa con recuperar una fila? La sintaxis más flexible es utilizar el método `loc` del DataFrame.

In [None]:
df.loc['Ronaldo']

In [None]:
df.loc[['Ronaldo', 'George Best'], 'shoe_size']

In [None]:
# can also select position-based slices of data
df.loc['Ronaldo':'George Best', 'shoe_size']

In [None]:
# for position-based indexing, we will typically use iloc
df.iloc[:5]

In [None]:
df.iloc[2:4, 0]

In [None]:
# to see just the top of the DataFrame, use head
df.head()

In [None]:
# of for the bottom use tail
df.tail()

Al igual que con un `dict`, podemos agregar datos a nuestro DataFrame simplemente usando la misma sintaxis que usaríamos para recuperar datos, pero combinándolos con una asignación.

In [None]:
# adding a new column
df['position'] = np.random.choice(['goaltender', 'defense', 'midfield', 'attack'], size=len(df))
df.head()

In [None]:
# adding a new row
df.loc['Dylan'] = {'jersey_size': 91, 'shoe_size': 9, 'position': 'midfield'}
df.loc['Dylan']

Para eliminar datos, podemos usar el método `drop` del DataFrame.

In [None]:
df.drop('Dylan')

In [None]:
df.drop('position', axis=1)

Observe que cuando ejecutamos `df.drop('position', axis=1)`, había una entrada para `Dylan` aunque acabábamos de ejecutar `df.drop('Dylan')`. Tenemos que tener cuidado al usar `drop`; muchas funciones de DataFrame devuelven una _copia_ del DataFrame. Para que el cambio sea permanente, necesitamos reasignar `df` a la copia devuelta por `df.drop()` o tenemos que usar la palabra clave `inplace`.

In [None]:
df = df.drop('Dylan')
df

In [None]:
df.drop('position', axis=1, inplace=True)
df

Exploraremos Pandas con mucho más detalle más adelante en el curso, ya que tiene muchas herramientas poderosas para el análisis de datos. Sin embargo, incluso con estas herramientas ya puedes empezar a descubrir patrones en los datos y sacar conclusiones interesantes.