# NumPy

NumPy (Numerical Python) es una librería de construcción y mantenimiento colaborativo y de código libre que se ha vuelto el estándar para cálculos numéricos en Python, al proveer dos estructuras de datos: arreglos y matrices, optimizados para operar matemáticamente. Éstos vienen con métodos incorporados que benefician directamente operaciones de álgebra lineal, no obstante, al ser mucho del cálculo numérico y científico basado en álgebra lineal, ésto lo ha vuelto el centro de ecosistemas de paquetes de cómputo científico en Python.

In [None]:
import numpy as np

In [None]:
dir(np)

In [None]:
np.abs(-5)

In [None]:
lista_prueba = [1,6,-2,-10,4]
np.absolute(lista_prueba)      

In [None]:
# absolute es de tipo "ufunc", que son funciones implementadas en NumPy
# para operar elemento por elemento, similar a funciones en Octave o R
type(np.absolute)

In [None]:
type(np.add)

In [None]:
np.add([1,7,2,1,4,5,2,1,10],[-1,3,2,-40,2,5,2,6,2])

Esto debe hacerse de esta manera, pues previamente sumar listas resulta en una respuesta erronea...

In [None]:
[1,2,4] + [1,6,4]

Hay una manera de poder utilizar los símbolos estándar de aritmética sobre estructuras parecidas a las listas, al inicializar un arreglo de NumPy con antelación:

In [None]:
np.array([1,2,4]) + np.array([1,6,4])

In [None]:
x = np.array([1,2,4])
type(x)

In [None]:
# Creemos una función para filtrar de "dir" todos los dunder methods que por ahora no nos interesan tanto.
def vdir(obj):
    return([x for x in dir(obj) if not x.startswith('_')])

In [None]:
vdir(x)

## Aritmética con arreglos

In [None]:
x = np.array([1,4,2,6,5,1])
y = np.array([2,1,5,4,3,6])
x + y

In [None]:
x**2

In [None]:
4*x

In [None]:
x^y  # Operación XOR entrada por entrada

In [None]:
print(x)
print(y)
x%y  # Operación módulo entrada por entrada

## Funciones comunes

In [None]:
print(x)
print(x.cumsum())
print(x.cumprod())

In [None]:
print(np.cos(x))
print(np.sin(x))
print(np.tan(x))

In [None]:
x = x/10
x

In [None]:
print(np.arccos(x))
print(np.arcsin(x))
print(np.arctan(x))

In [None]:
print(x)
print(np.max(x))
print(np.argmax(x))

In [None]:
print(x)
print(np.min(x))
print(np.argmin(x))

In [None]:
print(x)
print(np.sort(x))

## Polinomios

In [None]:
np.poly([1])  # Esto corresponde a un polinomio con raiz igual a 1. Este es: p(x) = x - 1, expresado por sus coeficientes: [1, -1] 

In [None]:
np.poly([1,2,5,-2]) 

In [None]:
coeficientes = np.poly([1,2,5,-2]) 
f = np.poly1d(coeficientes)
type(f)

In [None]:
f(6), f(-1), f(5)

In [None]:
f([6,-1,5])

In [None]:
import matplotlib.pyplot as plt
x = np.arange(-3,5,0.1)
plt.plot(x, f(x))
plt.show()

In [None]:
g = np.poly1d(np.poly([6,-2]))
print(f,"  <--- f\n")
print(g,"  <--- g\n")
print(f+g,"  <--- f+g\n")
print(f*g,"  <--- f*g\n")
print(f/g,"  <--- ¿f/g?    \n")
print((f/g)[0],"  <--- División de f/g\n ")   #  Resultado de la división
print((f/g)[1],"  <--- Residuo de f/g")   #  Residuo

In [None]:
# Interpolación de polinomios
x = np.array([0.0, 1.0, 2.0, 3.0,  4.0,  5.0])   # \__ Pares de puntos a ajustar 
y = np.array([0.0, 0.8, 0.9, 0.1, -0.8, -1.0])   # /
coeficientes_ajuste = np.polyfit(x, y, 3)  # Ajuste de polinomio cúbico (grado 3)
p = np.poly1d(coeficientes_ajuste)
p

In [None]:
# Los ajustes de grado alto pueden tener inestabilidad numérica y se mostrará como un warning
p30 = np.poly1d(np.polyfit(x, y, 30))
p30

In [None]:
xp = np.linspace(-2, 6, 100)
fig = plt.plot(x, y, 'o', xp, p(xp), '-', xp, p30(xp), '--')
plt.ylim(-2,2)
#plt.legend()
plt.show()

## Números especiales

In [None]:
np.pi, np.e

In [None]:
np.nan

In [None]:
type(np.nan)

In [None]:
np.nan < 5, np.nan > 5

In [None]:
np.nan == np.nan

In [None]:
np.isnan(np.nan), np.isnan(5)

In [None]:
np.inf

In [None]:
np.inf < 5, np.inf > 5

In [None]:
np.inf == np.inf

In [None]:
np.inf == np.infty

In [None]:
np.isinf(np.inf), np.isinf(np.infty), np.isposinf(np.inf), np.isneginf(np.inf), np.isreal(np.inf)

## Matrices

In [None]:
v = np.array([1,0,0])
A = np.array([
    [1,3,0],
    [3,0,1],
    [2,0,1]
])

In [None]:
A@v # Multiplicación matricial

In [None]:
A*v # Multiplicación entrada por entrada

In [None]:
w = np.array([4,2,1])
v.dot(w), w.dot(v)

In [None]:
np.eye(3)

In [None]:
np.zeros(3)

In [None]:
np.zeros((3,3))

In [None]:
np.zeros((3,4))

In [None]:
np.diag([1,5,3,-4])

In [None]:
x = np.diag([1,5,3,-4])
np.shape(x)

In [None]:
help(np.linalg)

## Números aleatorios

In [None]:
np.random.randn(2)

In [None]:
np.random.randn(5)

In [None]:
np.random.randn(2,3)

In [None]:
muestra = np.random.normal(3, 0.3, 10000)
print(np.mean(muestra))
print(np.std(muestra))

In [None]:
help(np.random)

# Pandas

Pandas es una librería de código libre para Python, cuyo nombre deriva de las dos palabras **Pan**el **Da**ta, que es un término común para llamar a la data multidimensional encontrada en rubros de estadística y econometría. El objeto central del paquete son los `DataFrame`, que representan tablas al estilo de las familiares tablas de `Excel`, y su sub-objeto elemental son llamados `Series`, que representan columnas de la tabla o podrían pensarse también en un contexto de "serie de tiempo", es decir, data que ha sido tomada en pasos uniformes en el tiempo.

## Creación de DataFrame

In [None]:
import pandas as pd

Existen múltiples maneras de construir la estructura de datos `DataFrame` en `pandas`. Veremos algunas de ellas. Podemos comenzar con tener información en listas, como puede ser común al recolectarla de usuarios.

In [None]:
nombres = ["María", "Abner", "Ramón", "Carolina", "Ramiro", "Emily", "Sofía", "Cármen"]
edades = [22, 21, 22, 24, 27, 20, 25, 23]
deportes = np.random.choice([True, False], len(nombres))
fuma = np.random.choice([True, False], len(nombres))
gatoVSperro = np.random.choice(range(-5,5), len(nombres))  # -5 = ¡Me encantan los gatos pero no los perros!, 
                                                           #  0 = Neutral/ambos
                                                           #  5 = ¡Me encantan los perros pero no los gatos!

Nos creamos un diccionario que resuma esta data con respectivos encabezados

In [None]:
diccionario = {"Nombre": nombres,
               "Edad": edades,
               "Juega_deporte": deportes,
               "Fuma": fuma,
               "Gatos_o_perros": gatoVSperro}

diccionario

Aprovechamos aquí a introducir un paquete útil para lectura de nuestra data en jupyter notebooks o en la consola. 

In [None]:
from pprint import pprint  # pretty print

In [None]:
pprint(diccionario)

Otra forma en la que pudimos habernos formado este diccionario es:

In [None]:
keys = ["Nombre", "Edad", "Juega_deporte", "Fuma", "Gatos_o_perros"]
values = [nombres, edades, deportes, fuma, gatoVSperro]
diccionario = {key:value for key, value in zip(keys, values)}
pprint(diccionario)

Una vez creado nuestro diccionario, como tenemos cada dato asociado a un encabezado, esto equivale a tener contenidos de columnas asociados a un nombre de columna, volviéndose esto explícito al momento de crear nuestro `DataFrame`

In [None]:
df = pd.DataFrame(diccionario)
df

In [None]:
df.Fuma

In [None]:
df.Gatos_o_perros

In [None]:
df["Gatos_o_perros"]

In [None]:
type(df.Gatos_o_perros)

In [None]:
vdir(df)

In [None]:
vdir(df.Gatos_o_perros)

In [None]:
df.T

In [None]:
df.index = df.Nombre              # Utilizaremos los nombres como índices
df = df.drop(columns = "Nombre")  # Borra la columna "Nombre" ya que no la ocupamos luego de hacerla índice
df = df.T                         # Matriz transpuesta
df

In [None]:
df.María

In [None]:
df.Ramiro

## Filtrado de DataFrames

In [None]:
df = pd.DataFrame(diccionario)
df

Otra forma de lograr lo mismo sin modificar el dataframe es mediante `iloc` (que significa "index label of column")

In [None]:
df.iloc[0]

In [None]:
df.iloc[2:5]

In [None]:
len(df)

In [None]:
df.iloc[np.random.choice(range(len(df)), 4)]  # Toma una muestra aleatoria simple de tamaño 4

In [None]:
df.Nombre == "María"

In [None]:
df[df.Nombre == "María"]

In [None]:
df[df.Fuma == False]

In [None]:
df.Gatos_o_perros.unique()

In [None]:
n = 100
nombres = [f"Persona {i+1}" for i in range(n)]
size = len(nombres)
edades = np.random.choice(range(21,60), size)
deportes = np.random.choice([True, False], size)
fuma = np.random.choice([True, False], size)
gatoVSperro = np.random.choice(range(-5,5), size) 
universidad = np.random.choice(["Norte", "Sur", "Central"], size)

df = pd.DataFrame(data = np.array([nombres, edades, deportes, fuma, gatoVSperro, universidad]).T,  # Debemos transponer la data
                  columns = ["Nombre", "Edad", "Juega_deporte", "Fuma", "Gatos_o_perros", "Universidad"])

df.head(10)

In [None]:
df.shape

In [None]:
type(df.Gatos_o_perros[0])

In [None]:
type(df.Gatos_o_perros.astype(int)[0])

In [None]:
df.Gatos_o_perros = df.Gatos_o_perros.astype(int)
df.Edad = df.Edad.astype(int)

In [None]:
df.dtypes

## Análisis básicos sobre DataFrames

In [None]:
pivot = df.pivot_table(columns = "Universidad", index = "Juega_deporte", values = "Gatos_o_perros")
pivot

In [None]:
pivot.mean() # Ya veremos más adelante sobre cómo calcular más estadísticos

In [None]:
pivot.mean(axis = 1)

In [None]:
from statistics import mean

def clasificación(x):
    if mean(x) > 0:
        return("Perros")
    else:
        return("Gatos")

df.pivot_table(columns = "Universidad", index = "Juega_deporte", values = "Gatos_o_perros", aggfunc = clasificación)

## Lectura, escritura de archivos CSV y más análisis

In [None]:
df.to_csv("dataframe_personas.csv")

In [None]:
df = pd.read_csv('https://gist.githubusercontent.com/ZeccaLehn/4e06d2575eb9589dbe8c365d61cb056c/raw/64f1660f38ef523b2a1a13be77b002b98665cdfe/mtcars.csv')
df.head()

In [None]:
df.rename(columns={'Unnamed: 0':'marca'}, inplace=True)

In [None]:
df.head()

In [None]:
df.mean()

In [None]:
df.std()

In [None]:
df.skew()

In [None]:
df.kurtosis()

In [None]:
df.info()

In [None]:
df.describe()

Podemos revisar si existen valores faltantes en nuestra data. En este caso no tenemos, pero los comandos para verlo son:

In [None]:
df.isna().sum()

# PyPlot

PyPlot es un módulo del paquete MatPlotLib, el cual tiene muchísimas formas de uso y demasiadas funciones y aspectos para mencionarse todos en tan poco tiempo. No obstante, nos enfocaremos en los objetos fundamentales de PyPlot.

Esto son:
* Figura: La figura es un espacio donde pueden existir ejes y "artistas".
* Ejes (axes): Es una colección (de dos o más) de direcciones predefinidas llamadas de forma singular como "eje", y cada una puede contener otros objetos como etiquetas, ticks, etc.
* Eje (axis): Objetos similares a una recta numérica. Contiene ticks y las etiquetas de los ticks.
* Artistas: Esto de hecho es una generalización de los tres antreriores, pues la figura, ejes y cada eje son cada uno artistas. Pero existen otros artistas como objetos de texto, objetos Line2D, etc.

La siguiente figura ilustra mejor todo

![Partes_figure](https://matplotlib.org/3.3.1/_images/anatomy.png)

In [None]:
import matplotlib.pyplot as plt

Comando para crear una figure vacía

In [None]:
fig = plt.figure() 

Comando para crear una figura y dentro su único objeto "ejes". Note que "ejes" es un solo objeto, mientras que "eje" es un subobjeto.

In [None]:
fig, ax = plt.subplots()  # Comando para crear una figura y dentro su único objeto "ejes". Note que "ejes" es un solo objeto, mientras

In [None]:
fig, axs = plt.subplots(2, 2)

In [None]:
fig, axs = plt.subplots(2, 3)

In [None]:
x = np.linspace(0, 2, 100)  # Similar a arange() solamente que arange tiene como argumento el tamaño de paso y este es el número de objetos.

In [None]:
fig, ax = plt.subplots()  # Creamos la figura y un objeto "ejes"
ax.plot(x, x, label='linear')           # \
ax.plot(x, x**2, label='quadratic')     # |--- Tres objetos line2D sobre el objeto "ejes". 
ax.plot(x, x**3, label='cubic')         # /
ax.set_xlabel('x label')  # Agrega un objeto Text ubicado bajo el subobjeto "eje" de "ax" horizontal 
ax.set_ylabel('y label')  # Agrega un objeto Text ubicado bajo el subobjeto "eje" de "ax" vertical 
ax.set_title("Simple Plot")  # Agrega otro objeto Text para el título
ax.legend()  # Agrega un objeto Legend al objeto "Ejes"
plt.show()

In [None]:
type(ax.plot(x, x**2, label='quadratic')[0])  # Se debe colocar un indice [0] porque los objetos "ejes" vienen siempre en listas
                                              # cuando se llaman desde plt.subplots() para contemplar el caso general en que se 
                                              # creen varios ejes.

In [None]:
# Ejemplo:
axs

Esto permite en general decidir en qué eje colocar qué gráfico.

In [None]:
type(ax.set_xlabel('x label'))

In [None]:
type(ax.set_title("Simple Plot"))

In [None]:
print(ax.set_xlabel('x label'), ax.set_ylabel('y label'), ax.set_title("Simple Plot"))

In [None]:
type(ax.legend())

Esto muestra que matplotlib construye sus gráficos utilizando combinación de objetos de muy bajo nivel (pues incluso estos llamados "artistas" tienen todos sus métodos internos con los cuales realizar sin fin de cosas) pero también podemos utilizar la interfaz de mayor nivel para lograr lo mismo

In [None]:
plt.plot(x, x, label='linear')  
plt.plot(x, x**2, label='quadratic') 
plt.plot(x, x**3, label='cubic')
plt.xlabel('x label')
plt.ylabel('y label')
plt.title("Simple Plot")
plt.legend()
plt.show()