# Herramientas

Puedes ejecutar un Cell (celda) pulsando [shift] + [Enter] o presionando el botón Play en la barra de herramientas

![image.png](attachment:5af0dc85-c8bd-434b-a92b-b7862133707a.png)![image.png](attachment:0d256d89-28ae-4375-b536-2b0d65fd639f.png

Se puede obtener ayuda ejecutando **name_func**?

![image.png](attachment:fb99c5e0-ceca-4d71-8e40-2c2c1d22abb7.png)![image.png](attachment:720f26cf-81e0-40cf-bf2d-bdc7b6ef8b9c.png)

## Numpy - Matrices

In [None]:
import numpy as np

#Semilla de números aleatorios (para reproducibilidad)
rnd = np.random.RandomState(seed=123)

# Generar una matriz aleatoria
X = rnd.uniform(low=0.0, high=1.0, size=(3, 5))

print(X)

In [None]:
# Acceder a los elementos de la Matriz

print(X[:,1])

In [None]:
# Matriz Transpuesta
matrizT = X.T
print(matrizT)

![image.png](attachment:b69c6ac1-47f2-4945-a9b2-8c2ccb6c0307.png)![image.png](attachment:d486eeae-bd3c-492d-929c-16f0cc463506.png)

In [None]:
# Crear un vector fila de números con la misma separación en un intervalo definido
y = np.linspace(0, 12, 5)
print(y)

In [None]:
# Transformar el vector fila en un vector columna
print(y[:, np.newaxis])

In [None]:
# Rechape

rnd = np.random.RandomState(seed=123)
X = rnd.uniform(low=0.0, high=1.0, size=(3, 5))

print(X)
print(X.shape)

print()

print(X.reshape(5,3))

In [None]:
# Indexar según un conjunto de números enteros
indices = np.array([3, 1, 0])

X[:, indices]

## SciPy - Matrices Dispersas

In [None]:
from scipy import sparse
import numpy as np

# Crear matriz aleatoria entre 0 y 1
rnd = np.random.RandomState(seed=123)

X = rnd.uniform(low=0.0, high=1.0, size=(10,5))
print(X)

In [None]:
# Cualquier valor menos que 0.7 se convierte en cero
X[X<0.7] = 0
print(X)

In [None]:
# Se transforma la matriz X a una de tipo CSR (Compressed-Sparse-Row)
X_csr = sparse.csr_matrix(X)
print(X_csr)

In [None]:
# Para convertirla nuevamente a una matrix densa
X_dense = X_csr.toarray()
print(X_dense)

Existen formas alternativas para convertir matrices dispersas a densas (**numpy.todense**). Pero cuando se usa **toarray** se retorna un array de numpy, mientras que **todense** devuelve una matrix numpy que no es compatible con **scikit-learn**.

**CSR** es muy eficiente para cálculo computacional pero no lo es para agregar elementos a la matrix. En este caso, es recomendable utilizar **LIL** (List-In-List).

In [None]:
# Creacion de una matriz tipo LIL sin datos y agregar elementos

X_lil = sparse.lil_matrix((5,5))

for i, j in np.random.randint(0, 5, (15, 2)):
    X_lil[i, j] = i + j
    
print(X_lil)
print(type(X_lil))

In [None]:
# Transformar la matrix LIL a Dense
X_dense = X_lil.toarray()
print(X_dense)
print(type(X_dense))

Debido a que muchos algoritmos de **scikit-learn** requieren el formato **CSR** es necesario convertir el formato **LIL**.

In [None]:
X_csr = X_lil.tocsr()
print(X_csr)
print(type(X_csr))

Lista de formatos dispersos disponibles:
- CSR (compressed sparse row).
- CSC (compressed sparse column).
- BSR (block sparse row).
- COO (coordinate).
- DIA (diagonal).
- DOK (dictionary of keys).
- LIL (list in list).

## Matplotlib

La herramienta más habitual para la visualización de datos en Python es **Matplotlib**. 

En los Notebooks pueden usarse las [funciones mágicas](https://ipython.org/ipython-doc/3/interactive/magics.html). El modeo **%matplotlib inline** permite graficar directamente en el notebook.

In [None]:
%matplotlib inline

In [None]:
import matplotlib.pyplot as plt

In [None]:
# Dibujar una línea
x = np.linspace(0, 10, 100)
plt.plot(x, np.sin(x))

In [None]:
# Dibujar un scatter
# A scatter plot is a type of plot or mathematical diagram using Cartesian coordinates 
# to display values for typically two variables for a set of data.

x = np.random.normal(size=500)
y = np.random.normal(size=500)

plt.scatter(x, y)

In [None]:
# Mostrar imagenes con imshow
# El origen está arriba a la izquierda

x = np.linspace(1, 12, 100)
y = x[:, np.newaxis]

im = y * np.sin(x) * np.cos(y)
print(im.shape)
plt.imshow(im);

In [None]:
from PIL import Image
from numpy import asarray

imagen = Image.open('images/koala.jpg')
data = asarray(imagen)
plt.imshow(data)

In [None]:
# Para hacer el diagrama de curvas de nivel (contour plot)
# Origen abajo izquierda

plt.contour(im)

In [None]:
# Si se usa el modo widget de las funciones mágicas se puede trabajar con plots interactivos.

%matplotlib widget

# Plot en 3D
from mpl_toolkits.mplot3d import Axes3D

ax = plt.axes(projection='3d')
xgrid, ygrid = np.meshgrid(x, y.ravel())

ax.plot_surface(xgrid, ygrid, im, cmap=plt.cm.viridis, cstride=2, rstride=2, linewidth=0);

https://matplotlib.org/stable/gallery/index.html

In [None]:
import matplotlib.pyplot as plt
import numpy as np


np.random.seed(0)

dt = 0.01  # sampling interval
Fs = 1 / dt  # sampling frequency
t = np.arange(0, 10, dt)

# generate noise:
nse = np.random.randn(len(t))
r = np.exp(-t / 0.05)
cnse = np.convolve(nse, r) * dt
cnse = cnse[:len(t)]

s = 0.1 * np.sin(4 * np.pi * t) + cnse  # the signal

fig, axs = plt.subplots(nrows=3, ncols=2, figsize=(7, 7))

# plot time signal:
axs[0, 0].set_title("Signal")
axs[0, 0].plot(t, s, color='C0')
axs[0, 0].set_xlabel("Time")
axs[0, 0].set_ylabel("Amplitude")

# plot different spectrum types:
axs[1, 0].set_title("Magnitude Spectrum")
axs[1, 0].magnitude_spectrum(s, Fs=Fs, color='C1')

axs[1, 1].set_title("Log. Magnitude Spectrum")
axs[1, 1].magnitude_spectrum(s, Fs=Fs, scale='dB', color='C1')

axs[2, 0].set_title("Phase Spectrum ")
axs[2, 0].phase_spectrum(s, Fs=Fs, color='C2')

axs[2, 1].set_title("Angle Spectrum")
axs[2, 1].angle_spectrum(s, Fs=Fs, color='C2')

axs[0, 1].remove()  # don't display empty ax

fig.tight_layout()
plt.show()

## Pandas

Estructuras de Datos:

![image.png](attachment:b8dc888c-44ed-4a80-ae78-203d12126f96.png)

### Creación de Series

![image.png](attachment:a85a6c7a-ffa2-4efb-acf8-eb3ef8f769ca.png)

In [None]:
import pandas as pd

s1 = pd.Series([1, 2, 3, 4])
print(s1)

![image.png](attachment:25bf922c-47e5-42fa-8496-11d9bdc5d726.png)

In [None]:
s2 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])
print(s2)

### Creación de Dataframes

![image.png](attachment:a355c60c-8d77-4e0c-8ff1-344f883ba305.png)

In [None]:
df = pd.DataFrame({'foo': ['x', 'y', 'z'], 'bar': [6, 10, None], 'baz': [True, True, False],})
print(df)

### Selección de Columnas

![image.png](attachment:d2e504a8-c82e-4860-8266-9e781f2c005c.png)

![image.png](attachment:9051a25a-87f5-40f4-a10d-6ab55d2d95e3.png)

In [None]:
df['foo']

In [None]:
type(df['foo'])

![image.png](attachment:843f9430-19e0-4477-9778-a4d0933c6ef3.png)

![image.png](attachment:9374f2fd-b889-4659-b745-64a69422639c.png)

In [None]:
df[ ['foo', 'bar'] ]

In [None]:
type(df[ ['foo', 'bar'] ])

## Selección de Filas

![image.png](attachment:09b48826-ab04-451a-bdae-2e11016ab373.png)

![image.png](attachment:fa260b0c-b302-45c7-8795-83f01a153e70.png)

In [None]:
df.loc[0]

In [None]:
print(type(df.loc[0]))

![image.png](attachment:bea455ac-869c-464f-9c30-f5a7d3f9284b.png)

![image.png](attachment:f17659e7-90ed-4ec4-9b26-7cdc3d8b4eb0.png)

In [None]:
df.loc[0:1]

In [None]:
print(type(df.loc[0:2]))

## Filtros Condicionales

![image.png](attachment:5f1d24f6-af7a-4b77-a289-b33fdc388f78.png)

![image.png](attachment:a756e4f0-1761-4811-976b-fed6b57b344c.png)

In [None]:
df[(df['baz'])]

![image.png](attachment:50d89c5a-e29a-4a08-9b96-d462cb51087d.png)

![image.png](attachment:eacd5bf1-74b4-408c-bd2d-2961d11c31b9.png)

In [None]:
df[ (df['foo'] == 'x') | (df['foo'] == 'z')]

### Alineamiento de Datos

![image.png](attachment:8a5fe9d9-7108-46c2-8027-67242660d1ac.png)

In [None]:
dfA = pd.DataFrame({'a':[0, 1, 2, 3], 'b':[1, 2, 3, 4], 'c':[2, 3, 4, 5]}, index=['A', 'B', 'C', 'D'])
dfB = pd.DataFrame({'a':[0, 1, 2, 3, 4], 'b':[1, 2, 3, 4, 5]}, index=['A', 'B', 'C', 'D', 'E'])

nuevo_df = dfA + dfB
print(nuevo_df)

## Manejo de valores perdidos

![image.png](attachment:384c8b02-3dc5-4b7c-9bc0-e27a4ee81214.png)

In [None]:
df = pd.DataFrame({'foo': ['x', 'y', 'z', None], 'bar': [6, 10, None, None], 'baz': [True, True, False, None],})
print(df)

In [None]:
new_df = df.dropna()
print(new_df)

![image.png](attachment:e3826901-40a5-4c65-8897-2eb32200b375.png)

In [None]:
new_df = df.dropna(how='all')
print(new_df)

![image.png](attachment:5fb5229f-e150-4f6d-a71a-e6520574ae6b.png)

In [None]:
new_df = df.fillna(0)
print(new_df)

![image.png](attachment:5f8a9c3c-e3ab-48a7-9ea0-bb272f1ff88a.png)

In [None]:
new_df = df.fillna(method='ffill')
print(new_df)

![image.png](attachment:431a566d-3c1e-4f41-bd72-56b0eb9490dc.png)

In [None]:
new_df = df.fillna(method='ffill', limit=1)
print(new_df)

## Indexado

![image.png](attachment:2ac90dc9-7045-40a0-bc61-87f1f3dd3807.png)

In [None]:
df = pd.DataFrame({'foo':['a', 'b', 'c', 'd'], 'bar':[6, 10, -2, 1], 'baz':[True, True, False, True]})
print(df)

In [None]:
ix = df.index
print(ix)

In [None]:
for i in ix:
    print(df.loc[i])

![image.png](attachment:5d97f981-cc9d-4038-8bd6-496d3ceceef7.png)

In [None]:
print(df)

In [None]:
df = df.set_index('foo')
print(df)

![image.png](attachment:52f29972-7c6c-42d7-ae35-f86babd0ecf7.png)

![image.png](attachment:149b67d8-c8d3-4ce3-b104-a3cb784bbb67.png)

In [None]:
df.loc['a']

In [None]:
df.iloc[0]

![image.png](attachment:c58895e2-c63d-4d4f-a01e-e9d38dc59f5e.png)

In [None]:
df = df.set_index( [['one', 'one', 'two', 'two'], df.index] )
print(df)

![image.png](attachment:66f92fe3-b49d-404e-af50-32a47669e281.png)

In [None]:
one = df.loc['one']
print(one)

![image.png](attachment:2969d03b-61a3-4c3e-bac2-b18346f14da7.png)

In [None]:
one = df.loc['one', 'a']
print(one)

## Transposición de Datos

![image.png](attachment:29bdb28a-f9d7-4b47-a802-ff07c9245d1d.png)

In [None]:
new_df = df.T
print(new_df)

## Estadísticas

In [None]:
df

[Pandas describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)

Genera estadísticas descriptivas.

Las estadísticas descriptivas incluyen aquellas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores de NaN.

In [None]:
df.describe()

[Pandas cov()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html?highlight=cov#pandas.DataFrame.cov)

Calcula la covarianza por pares de las columnas, excluyendo NA/valores nulos.

![image.png](attachment:f61bed19-7872-4169-af8b-8b574ba0fa73.png)

In [None]:
df.cov()

[Panda corr()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html?highlight=corr#pandas.DataFrame.corr)

Correlación

In [None]:
df.corr()

[Pandas rank()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html?highlight=rank#pandas.DataFrame.rank)

Pandas Rank calculará el rango de su punto de datos dentro de un conjunto de datos más grande. Es extremadamente útil para filtrar el "primero" o el segundo de un subconjunto de datos.

In [None]:
df

In [None]:
df.rank()

[Pandas cumsum()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cumsum.html)

In [None]:
df.cumsum()