[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/aprendizaje-automatico-dc-uba-ar/material/blob/main/notebooks/notebook_01_herramientas-published.ipynb)

# Introducción a las herramientas
### Bienvenidos a Jupyter Notebooks! 

En este notebook exploraremos algunas de las funcionalidades básicas de bibliotecas en python3 que utilizaremos durante todo el cuatrimestre. 

Consejos: 
- Chequear "Help / Keyboard shortcuts"
- Asumimos conocimiento de python3, en caso de no tenerlo, se puede empezar con: https://learnxinyminutes.com/docs/python3/ 
- Consultar: https://jakevdp.github.io/PythonDataScienceHandbook/ como introducción a los paquetes pandas, numpy y matplotlib
- Para ejecutar las notebooks de la materia hay 2 alternativas:
  - instalar python3 y jupyter en la computadora local
  - utilizar GoogleColab
  
Esta práctica no es exhaustiva y está pensada para tener una primera aproximación sobre la cual explorar funcionalidades. Se recomienda fuertemente explorar las referencias propuestas.


## Carga de modulos

In [None]:
%matplotlib inline

import numpy as np # NUMPY
import pandas as pd # PANDAS
import matplotlib.pyplot as plt # MATPLOTLIB
import seaborn as sns # SEABORN
import scipy
import sklearn


#### Si la celda anterior no corre bien, chequear que se hayan instalado las librerías. En la terminal correr:

```bash
$ pip3 install numpy pandas matplotlib seaborn scipy sklearn
```

## Listas

In [None]:
lista_python = [1,2,3,4]
lista_python

In [None]:
# Descomentar y probar lo siguiente:

# print(lista_python + lista_python)  # funciona?
# print(lista_python * 2)  # funciona?
# print(lista_python ** 3) # funciona?
# print(lista_python - lista_python)  # funciona?
# print(lista_python * lista_python)  # funciona?


## Numpy

In [None]:
array_numpy = np.array([1,2,3,4,5])
array_numpy

In [None]:
print(array_numpy + array_numpy)
print(array_numpy * 2)
print(array_numpy ** 3)
print(array_numpy * array_numpy)
print(array_numpy - array_numpy)


#### Arreglos multidimensionales (Vectores, Matrices, Tensores, etc)

In [None]:
v = np.array([1,2,3,4,5,6])
print("Un vector de dim: ", v.shape)

m = np.array([[1,2,3],[4,5,6], [7,8,9], [10, 11, 12]])
print("Una matriz de dim:", m.shape)

t = np.array([[[1,2,3], [2,3,3]], [[1,3,2], [4,3,2]], 
              [[4,2,3], [0,3,-1]], [[10,3,21], [34,13,12]]])
print("Un tensor de dim: ", t.shape) # Vector de matrices, o matriz de vectores

In [None]:
m

In [None]:
print("suma con la función sum:", sum(m))
print("función sum de numpy array.sum:", m.sum()) # suma toda la matriz
print("función sum de numpy np.sum:", np.sum(m)) # suma toda la matriz

- ```sum(m)``` devuelve la suma de cada columna, ¿por qué?

### Ejercicios: 

Para la siguiente serie de ejercicios explorar las funciones del módulo `NumPy`:
`sum; vstack; hstack; shape; reshape; linspace; dot`

Para acceder a la documentación se puede ejecutar en una celda el nombre de la función seguido de un signo de pregunta (?).

Ej:```np.vstack?```


Implementar las siguientes funciones:

In [None]:
def sumar_por_fila(mat: np.ndarray) -> np.ndarray:
    # que devuelve la suma de cada fila de la matriz m. 
    # Debe devolver un vector columna: (n x 1)
    return "<<completar>>"

def transponer(mat: np.ndarray) -> np.ndarray:
    # que transponga la matriz m.
    return "<<completar>>"

def agregar_fila(mat: np.ndarray, row: np.ndarray) -> np.ndarray:
    # que agregue la fila row a la matriz m.
    return "<<completar>>"

def convertir_a_columna(x: np.ndarray) -> np.ndarray:
    # que convierta un vector fila en un vector columna. Es decir, de (1 x n) a (n x 1).
    return "<<completar>>"

def agregar_columna(mat: np.ndarray, col: np.ndarray) -> np.ndarray:
    # que agregue la columna col a la matriz m.
    return "<<completar>>"

def producto(x: np.ndarray, y: np.ndarray) -> np.ndarray:
    # que multiplique los vectores x e y (producto interno): x^t.y
    return "<<completar>>"

def equiespaciados(n: int, a: float, b: float) -> np.ndarray:
    # que devuelva n puntos equiespaciados entre a y b.
    return "<<completar>>"

  


In [None]:

print(f"Suma por fila\n{sumar_por_fila(m)}")
print(f"Transpuesta:\n{transponer(m)}")
print(f"Fila nueva:\n{agregar_fila(m, np.array([13,14,15]))}")

columna = convertir_a_columna(np.array([0,0,0,0]))
            
print(m)
print(f"A vector columna:\n{columna}")
print(f"Columna nueva:\n{agregar_columna(m, columna)}")

x = np.array([0,3,2,0])
y =  np.array([4,1,2,2])
print(f"producto: {producto(x,y)}")

print(f"equiespaciados: \n{equiespaciados(1, 10, 4)}")

## Matplotlib

Matplotlib es la biblioteca más utilizada en python para generar gráficos.

[Tutorial oficial](https://matplotlib.org/stable/tutorials/introductory/pyplot.html).

Se pueden ver ejemplos (con el código para generar gráficos) en una [galería de gráficos](https://matplotlib.org/stable/gallery/index.html), explorar gráficos puede dar ideas sobre posibles formas de ver datos propios.

Sobre matplotlib se han generado nuevas bibliotecas como [seaborn](https://seaborn.pydata.org/) que interactua bien con pandas. [Tutorial](https://seaborn.pydata.org/tutorial.html) y [Galería de ejemplos](https://seaborn.pydata.org/examples/index.html).

In [None]:
with plt.xkcd():
    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1)
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color('none')
    plt.xticks([])
    plt.yticks([])
    ax.set_ylim([-30, 10])

    data = np.ones(100)
    data[70:] -= np.arange(30)

    plt.annotate(
        'INICIO DEL MUNDIAL',
        xy=(70, 1), arrowprops=dict(arrowstyle='->'), xytext=(15, -10))

    plt.plot(data)

    plt.xlabel('DIAS')
    plt.ylabel('PRODUCTIVIDIDAD');
plt.rcdefaults()

In [None]:
x = np.linspace(-5, 5, 15)
print("X=", x)

y = np.sin(x) # aplica sen a cada elemento. 
print("Y=", y)



In [None]:
# Descomentar lo siguiente para probar:
# plt.plot?

plt.figure(figsize=(10, 1.5))
plt.plot(x, y, ".-")

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 3))
axes[0].plot(x, y, marker="x", color="red", linewidth=1)

axes[1].plot(x, y, marker="x", color="blue", linewidth=0.5)
axes[1].plot(x, y+1, marker="x", linewidth=0.4)

axes[2].plot(y, x, ".-");


In [None]:
# Descomentar lo siguiente y probar
# plt.scatter?

In [None]:
plt.figure(figsize=(10, 3))
x1 = np.arange(0, 100)
x2 = np.random.rand(100) * 5
x3 = np.random.rand(100) - 1
sizes = np.random.rand(100) * 100
plt.scatter(x1, x2, color="blue", marker="x", s=sizes) # tamaños al azar
plt.scatter(x1, x3, color="red", s=np.linspace(0, 300, 100), alpha=0.5) # tamaños crecientes


### Ejercicios

Completar los siguientes items:

1. Escribir una función $f(n, a, b)$ con $n, a, b$ naturales que devuelva $n$ números reales aleatorios en el intervalo $[a, b]$;
1. Escribir una función $g(n, m, v)$  que devuelva $n$ números reales aleatorios muestreando una distribución normal con media $m$ y varianza $v$.
1. Plotear luego histogramas para $f(1000, 10, 20)$ y $g(1000, 3, 9)$. 
1. Para los datos recién generados con la función $g$, estimar los parámetros muestrales y graficar junto al histograma, la densidad de una normal con los parámetros estimados.

In [None]:
def f(n: int, a: int, b: int) -> np.ndarray:
    return "<<completar>>"


def g(n: int, m: float, v: float) -> np.ndarray:
    return "<<completar>>"


## Pandas

In [None]:
import pandas as pd
from IPython.display import display

# Creamos un dataset
data = {"Nombre": ["El Profesor", "Mónica Gaztambide", "Raquel Murillo", "Tokio","Berlín","Alison Parker"],
        "Rol" : ["Atracador", "Rehén", "Policia", "Atracador", "Atracador", "Rehén"],
        "Edad": [40, 35, 38, 25, 44, 16]
       }

df = pd.DataFrame(data)
df

Explorar el data set con los comandos: `.head(3), .tail(2), .describe(), .T`.

¿Qué información nos muestra cada comando?

Ordenar los datos por Rol (alfabético inverso) y luego por edad (ascendente).

In [None]:
display(df[df.Edad > 30])
display(df.groupby("Rol").mean())

In [None]:
mascara_edad = (df.Edad > 30)
mascara_rol = (df.Rol == "Atracador")
mascara = mascara_edad & mascara_rol
print("Máscara: \n", mascara, sep="")
df[mascara]

Repasar la página [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html) para una completar la primera aproximación a pandas.