# S101 - Librerías Científicas en Python

Vamos a mostrar los principales resultados de algunas librerías científicas que podemos usar en python, por ejemplo:

1. `Numpy (numpy)`
2. `Scipy (scipy)`
3. `Matplotlib (matplotlib)`
4. `Pandas (pandas)`
5. `Scikit Learn (scikit-learn)`

Lo primero es crear una celda código en jupyter o abrir una terminal para instalar los paquetes.

Dentro de una celda de código podemos escribir:

    ! pip install <package>

Al ejecutar la celda que comienza en `!`, ejecutará el comando directamente cómo se hiciera en una terminal.

    $ pip install <package>

## Numpy - Manejo de arreglos n-dimensionales

    pip install numpy

In [1]:
! pip install numpy



Numpy es utilizado para transformar valores simples de python en arreglos n-dimensionales (vectores, matrices, tensores, etc) y poder usarlos de forma óptima.

Para importar numpy generalmente se hace con una importación de `alias` dónde llamaremos `np` a la librería de `numpy`, esto nos permitirá que en lugar de decir `numpy.array(...)`, digamos `np.array()`.

In [4]:
import numpy as np

# Crea un arreglo de dimensión 1,20 comenzando en 5
x = np.arange(5, 20)

x

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [5]:
x = np.array([3, 7, 5, 6, 4, 8, 9, 2])

x

array([3, 7, 5, 6, 4, 8, 9, 2])

In [6]:
# Aplica la función seno a cada elemento del arreglo x
y = np.sin(x)

y

array([ 0.14112001,  0.6569866 , -0.95892427, -0.2794155 , -0.7568025 ,
        0.98935825,  0.41211849,  0.90929743])

In [8]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Podemos sumar los arreglos entrada-entrada
c = a + b
d = a ** 2 + b ** 2

a, b, c, d

(array([1, 2, 3]), array([4, 5, 6]), array([5, 7, 9]), array([17, 29, 45]))

In [9]:
x = np.array([34, 45, 64, 21, 18, 13])

x2 = x ** 2

x, x2

(array([34, 45, 64, 21, 18, 13]), array([1156, 2025, 4096,  441,  324,  169]))

In [11]:
xp = x.mean()

xp

32.5

In [12]:
# x=vector - xp=escalar (entrada-entrada restar/sumar el escalar)
y = x - xp

x, y

(array([34, 45, 64, 21, 18, 13]),
 array([  1.5,  12.5,  31.5, -11.5, -14.5, -19.5]))

In [13]:
# x - vector de edades
# y - vector de edades menos el promedio
# y - vector de edades menos el promedio elevado al cuadrado

y2 = y ** 2

x, y, y2

(array([34, 45, 64, 21, 18, 13]),
 array([  1.5,  12.5,  31.5, -11.5, -14.5, -19.5]),
 array([  2.25, 156.25, 992.25, 132.25, 210.25, 380.25]))

Varianza:

Suma de cada elemento (`xi`) menos el promedio, elevados al cuadrado, entre el número de elementos (tamaño de `x`).

Desviación estándar:

Raíz cuadrada de la varianza.

In [21]:
var_x = y2.sum() / y2.size

var_x

312.25

In [22]:
ds_x = var_x ** 0.5 # raíz cuadrada de la varianza

ds_x

17.67059704707229

In [23]:
# Estimador al 66% de confianza
# Significa que 66% de los datos caerán en este intervalo
# (xp - ds_x, xp + ds_x)

(xp - ds_x, xp + ds_x)

(14.829402952927708, 50.17059704707229)

In [29]:
x, 4/6

(array([34, 45, 64, 21, 18, 13]), 0.6666666666666666)

In [30]:
# Estimador al 95% de confianza
# Significa que 95% de los datos caerán en este intervalo

(xp - 2 * ds_x, xp + 2 * ds_x)

(-2.8411940941445835, 67.84119409414458)

In [31]:
x, 6 / 6

(array([34, 45, 64, 21, 18, 13]), 1.0)

Los arreglos son n-dimensionales, lo que significa que:

vector - Dimensión `1: n` (`n` - tamaño)
Matriz - Dimensión `2: n x m` (`n` - filas y `m` - columnas)
Tensor - Dimensión `3: a x l x h` (`a` - largo, `l` de profundo, `h` alto)

In [48]:
# Crea un vector de 20 elementos
# centrados en 32.5
# con desviación estándar de 17
x = np.random.normal(32.5, 17, 20).astype(int)

x

array([27, 32, 45, 26, 31, -5, 37, 13, 12, 34, 31, 45, 19, 36, 23, 38, 35,
       18, 34, 36])

In [49]:
var_x = ((x - x.mean()) ** 2).sum() / x.shape[0]
ds_x = var_x ** 0.5

x.mean(), var_x, ds_x

(28.35, 141.0275, 11.875499989474127)

In [50]:
# Sistema de ecuaciones:
# 2x + y = 17
# x + 3y = 26

#    A     x
# | 2 1 | | x |  = | 17 |
# | 1 3 | | y |    | 26 |

A = np.array(
    [
        [2, 1],
        [1, 3]
    ]
)

A

array([[2, 1],
       [1, 3]])

In [51]:
print(A)

[[2 1]
 [1 3]]


In [52]:
b = np.array([17, 26])

b

array([17, 26])

In [None]:
# Intalar Scipy

! pip install scipy

In [53]:
# A * x = b
# A.inv * A * x = A.inv * b
# => x = A.inv * b

from scipy.linalg import inv

inv(A)

array([[ 0.6, -0.2],
       [-0.2,  0.4]])

In [56]:
x = inv(A).dot(b)

x

array([5., 7.])

In [57]:
A.T

array([[2, 1],
       [1, 3]])

In [58]:
from scipy.linalg import det

det(A)

5.0

In [59]:
D = np.array(
    [
        [1, 2, 4],
        [3, 2, 5],
        [7, 8, 2]
    ]
)

D.T, inv(D), det(D)

(array([[1, 3, 7],
        [2, 2, 8],
        [4, 5, 2]]),
 array([[-0.58064516,  0.4516129 ,  0.03225806],
        [ 0.46774194, -0.41935484,  0.11290323],
        [ 0.16129032,  0.09677419, -0.06451613]]),
 62.0)

In [66]:
# Ejercicio E101 - Arreglos

# Crea un arreglo distribuido normalmente
# y verifica que el ~66% de los datos caigan
# en el rango del estimado (xp - ds_x, xp + ds_x)

# Paso 1 - Import numpy como np
import numpy as np

# Paso 2 - Crear el arreglo distribuido normalmente
#          con valores aleatorios

# np.random.normal(<promedio>, <desviación>, <n_muestras>)
x = np.random.normal(4.5, 0.1, 30)

print(x)

# Paso 3 - Construir un estimador para promedio 4.5
#           y desviación estándar 0.1
xp = x.mean() # xp = 4.5
ds_x = (((x - xp) ** 2).sum() / x.size) ** 0.5 # ds_x = 0.1

print("Promedio: {:.1f}".format(xp))
print("Desviación: {:.4f}".format(ds_x))

# Paso 4 - Construir el estimador al 66% de confianza
#           cómo el promedio más/menos la desviación estándar

estimador = (xp - ds_x, xp + ds_x) # ~(4.4, 4.6)

print("Estimado al 66%: [{:2f}, {:2f}]".format(estimador[0], estimador[1]))

# Paso 5 - Contamos cuántos elementos están en el intervalo
#          de confianza al 66%

count = 0

for xi in x:
    if xi >= estimador[0] and xi <= estimador[1]:
        count += 1

print("Hay {} elementos en el rango del estimador".format(count))

print("Estimados: {} / {} = {:.1f}%".format(
    count,
    x.size,
    100 * count / x.size
))

[4.29761423 4.44984875 4.45944479 4.50712956 4.52130899 4.38591964
 4.50083547 4.63079081 4.43121702 4.51237296 4.51038296 4.57235123
 4.55169811 4.46682871 4.50452206 4.31664378 4.4047809  4.38123471
 4.54531291 4.43447443 4.50487108 4.34342423 4.45872631 4.2850412
 4.43440142 4.60196592 4.50373557 4.33527641 4.66835229 4.65050765]
Promedio: 4.5
Desviación: 0.0992
Estimado al 66%: [4.373155, 4.571579]
Hay 20 elementos en el rango del estimador
Estimados: 20 / 30 = 66.7%
