# Librerias para el Procesamiento de Datos

## Cargar Librerias

In [2]:
import pandas as pd
import numpy as np

## Numpy

Biblioteca dedicada a procesar valores numericos y se enfoca en el algebra lineal

### Crear un Vector

In [3]:
# crear un vector
vector = np.array([2,7,4])
vector

array([2, 7, 4])

- Importamos la libreria *Numpy* con un alias llamado *np*.

- Utilizamos el metodo *.array()* para crear el vector con los datos proporcionados. Soporta objetos indexados.

- El metodo *array()* pertenece a la biblioteca *Numpy* para crear datos ordenados conocidos como vectores y matrices.

### Crear una Matriz

In [4]:
matriz = np.array([[2,4,1], [3,6,9], [9,5,1]])
matriz

array([[2, 4, 1],
       [3, 6, 9],
       [9, 5, 1]])

- Al crear una matriz, puedes declarar todos los datos en una sola linea separandolos por una coma. Este tipo de datos se llama *ndarray* el cual se caracteriza porque todos sus datos son del mismo tipo.

### Producto de un Vector por una Matriz

In [5]:
result = vector @ matriz
result

array([61, 70, 69])

- El producto entre un vector y una matriz se realiza mediante el operador *@* que Numpy lo identifica como poducto. Para que se ejecute correctamente la operacion, ambos elementos deben ser de la misma operacion.

### Calculo de la inversa de una Matriz

In [7]:
from numpy import linalg

matrizInv = linalg.inv(matriz)
matrizInv

array([[-2.00000000e-01,  5.12820513e-03,  1.53846154e-01],
       [ 4.00000000e-01, -3.58974359e-02, -7.69230769e-02],
       [-2.00000000e-01,  1.33333333e-01,  9.86864911e-18]])

- Para obtener la inversa de una matriz, llamamos al metodo *.inv()* de la clase **linalg** de la biblioteca Numpy el cual importamos mediante la instruccion **from numpy import linalg**

- Recuerda que los metodos de una clase se pueden visualizar con la instruccion *dir()*

In [9]:
print(dir(linalg))

['LinAlgError', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_umath_linalg', 'cholesky', 'cond', 'det', 'eig', 'eigh', 'eigvals', 'eigvalsh', 'inv', 'linalg', 'lstsq', 'matrix_power', 'matrix_rank', 'multi_dot', 'norm', 'pinv', 'qr', 'slogdet', 'solve', 'svd', 'tensorinv', 'tensorsolve', 'test']


### Metodo *randint()*

El metodo *.randint()* permite generar un numero entero aleatorio entre 0 y 100. Pertenece a la clase *random* de la libreria **Numpy**

In [16]:
from numpy import random

x = random.randint(100)
x

32

- Al pasar como argumento el numero 100, indica que el rango para elegir el numero va entre 0 y 100. Si cambiamos el argumento, cambia el rango de eleccion

In [15]:
y = random.randint(10)
y

3

**Vector con elementos aleatorios enteros**

In [17]:
x = random.randint(10, size=(5))
x

array([9, 4, 9, 6, 3])

- El agumento *size()* indica la cantidad de elementos a crear y ademas si solo contiene un valor genera un vector.

**Matriz con elementos aleatorios enteros**

In [18]:
x = random.randint(10, size=(5,7))
x

array([[6, 0, 1, 0, 0, 2, 5],
       [2, 1, 1, 1, 0, 6, 6],
       [9, 1, 5, 8, 4, 6, 5],
       [4, 8, 2, 6, 8, 7, 6],
       [1, 2, 1, 1, 5, 9, 0]])

- Si el argumento *size()* posee dos valores, crea una matriz donde el primer valor indica las filas y el segundo valor las columnas.

### Metodo *rand()*

El metodo *.rand()* devuelve un numero float aleatorio entre 0.0 y 1.0. Pertenece a la clase *random* de la libreria **Numpy**.

In [11]:
from numpy import random

y = random.rand()
y

0.6325929018917967

- Al usar el metodo *rand()* sin argumentos, genera un solo dato. Podemos especificar la cantidad de datos usando un numero entero.

**Vector con elementos aleatorios float**

In [12]:
# crea 4 numero float aleatorios que esten entre 0.0 y 1.0
x = random.rand(4)
x

array([0.65452395, 0.07057304, 0.53332826, 0.68750796])

In [13]:
type(x)

numpy.ndarray

- Al pasar el 4 como argumento, se crea un vector de 4 elementos aleatorios de tipo float. Esto lo verificamos con la funcion *type()* que arroja que el objeto creado es de tipo *ndarray*

**Matriz de elementos aleatorios float**

In [14]:
from numpy import random

x = random.rand(4, 2)
x

array([[0.51052295, 0.46081872],
       [0.70487954, 0.87607524],
       [0.08174894, 0.68755407],
       [0.99736985, 0.32175702]])

- El primer elemento hace referencia a las filas. Mientras que el segundo elemento indica la cantidad de columnas

### Metodo *Choice()*

Es un metodo de la clase *random* que pertenece a la libreria *Numpy* y permite elegir un numero aleatorio de un conjunto de datos dado.

**Crear Matriz con elementos aleatorios de un conjuntos de datos dados**

In [19]:
from numpy import random

x = random.choice([1,4,7,9], size=(3,3))
x

array([[1, 1, 4],
       [1, 7, 4],
       [4, 9, 4]])

- Pasamos como argumento una lista de valores de donde queremos que sea seleccionado el numero aleatorio y las dimensiones del ndarray. Si queremos un vector, se coloca un valor que indica la cantidad de elementos. Si queremos una matriz, pasamos dos valores. 

**Crear una matriz con elementos aleatorios de un conjunto de valores dado indicando la probabilidad de cada valor**

In [21]:
x = random.choice([1,4,7,9], p=[0.5,0.2,0.1,0.2], size=(3,3))
x

array([[1, 9, 1],
       [1, 4, 1],
       [4, 9, 1]])

- Ademas de los argumentos anteriores, podemos agregar una lista con las probabilidades de obtener cada numero. En este caso, indicamos que la probabilidad de obtener el numero 1 es del 50%, el numero 4 es del 20%, el numero 7 es del 10% y el numero 9 es del 20%.

### Suma de Matrices

In [1]:
import numpy as np
from numpy import random

# creamos dos matrices con las mismas dimensiones
A = random.randint(10, size=(3,3))
B = random.randint(20, size=(3,3))

# suma de matrices con el metodo add()
C = np.add(A,B)
print(A)
print(B)
print(C)

[[8 9 5]
 [3 0 4]
 [3 2 9]]
[[ 6 15  6]
 [13  3 14]
 [ 0  7 15]]
[[14 24 11]
 [16  3 18]
 [ 3  9 24]]


- El metodo *.add()* corresponde a *Numpy* y permite sumar matrices.

In [2]:
# Suma de matrices mediante el operador +
# Funciona solo si ambas matrices son de la misma dimension

# creamos dos matrices con las mismas dimensiones
A = random.randint(10, size=(3,3))
B = random.randint(20, size=(3,3))

# suma de matrices
C = A + B
print(A)
print(B)
print(C)

[[7 3 3]
 [7 6 2]
 [6 8 1]]
[[ 7 16  5]
 [14  0 11]
 [ 9 16  9]]
[[14 19  8]
 [21  6 13]
 [15 24 10]]


- El operador + tambien permtie la suma de dos matrices.

### Producto Punto

Cuando se trata de matrices, el producto punto que opera sobre vectores es diferente al que opera sobre matrices. El producto punto de vectores devuelve un escalar. el producto punto entre matrices devuelve una matriz

In [17]:
# Producto Punto entre Vectores
import numpy as np

# creamos dos vectores de la misma dimension
vect_a = np.array([3,2,1])
vect_b = np.array([4,8,3])
vec = np.dot(vect_a,vect_b)
print(vec)

31


In [14]:
# Producto Punto entre Matrices
import numpy as np

# creamos dos matrices
A = np.array([[3,4], [1,2]])
B = np.array([[3,4], [1,2]])

# Producto Matricial con el metodo dot()
C = np.dot(A,B)
print(C)

[[13 20]
 [ 5  8]]


In [15]:
# Forma alternativa
C = A@B
print(C)

[[13 20]
 [ 5  8]]


- El metodo *dot()* corresponde a la libreria *Numpy* y nos devuelve la multiplicacion de dos matrices

- El operador *@* realiza la misma operacion del metodo *dot()*

### Producto Cruz

Es una operacion que aplica solo sobre matrices tridimensionales

In [11]:
import numpy as np

# Creamos dos matrices 3D
A = np.array([[3,4,5], [1,2,3]])
B = np.array([[2,4,5], [1,2,3]])
C = np.cross(A,B)
print(C)

[[ 0 -5  4]
 [ 0  0  0]]


- El metodo *cross()* realiza el producto cruz entre dos vectores 3D

### Traspuesta de una Matriz

Convierte una matriz *nxm* en su traspuesta *mxn*

In [19]:
import numpy as np

A = np.array([[1,2], [5,8], [7,3]])
B = np.transpose(A)
print(A)
print(B)

[[1 2]
 [5 8]
 [7 3]]
[[1 5 7]
 [2 8 3]]


- El metodo *traspose()* de *Numpy* permite obtener la traspuesta de una matriz

### Matriz Identidad

In [20]:
import numpy as np

# matriz identidad 4x4
A = np.eye(4)
print(A)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


- Creamos una matriz identidad con el metodo *eye()* de *Numpy*

### Determinante de una Matriz

Es un numero escalar asociado a una matriz cuadrada. Es utilizado para la resolucion de sistema de ecuaciones lineales.

In [22]:
import numpy as np
from numpy import linalg

# creamos matriz cuadrada 2x2
A = np.array([[5,6], [0,5]])

# calculamos determinante
det_A =linalg.det(A)
print(det_A)

24.999999999999996


- El metodo *det()* de la clase *linalg* permite el calculo del determinante de una matriz cuadrada

### Norma de una Matriz

Es una medida que permite cuantificar la longitud o tamano de la matriz en el espacio.

In [24]:
import numpy as np
from numpy import linalg

# creamos una matriz 2x2
A = np.array([[5,6], [0,5]])

# calculamos la norma
norm_A = linalg.norm(A)
print(norm_A)

9.273618495495704


- El metodo *norm()* de la clase *linalg* permite calcular la norma de la matriz

## Pandas

Es una biblioteca orientada al analisis de datos construido sobre Numpy y proporciona clases muy utiles como **Series** o **DataFrame**.

- Las **Series** permiten utilizar una secuencia de valores con indices personalizados (similar a un vector o a una sola columna).

- Los **DataFrames** cargan los datos como tablas en hojas de calculo ya que las columnas tienen como indice cadenas de texto. 

### Carga de archivo csv

In [26]:
import pandas as pd

# carga de archivo csv en formato df
df = pd.read_csv('notas.csv')
df

Unnamed: 0,nombre,Física,Química,Artes
0,Francisco Alvarez,35,47,39
1,Juan Gonzalez,41,38,45
2,Mauricio Castro,32,34,47
3,Saray Lozano,45,43,48
4,Viviana Cáceres,39,4,36


In [27]:
# Obtener solo los valores de la columna Quimica
df['Química']

0    4,7
1    3,8
2    3,4
3    4,3
4      4
Name: Química, dtype: object

In [28]:
# Obtener el nombre de todas las columnas en una lista
df.columns

Index(['nombre', 'Física', 'Química', 'Artes'], dtype='object')

### Carga de archivo xls

In [29]:
import pandas as pd

df = pd.read_excel('notas.xls')
df

Unnamed: 0,nombre,Física,Química,Artes
0,Francisco Alvarez,3.5,4.7,3.9
1,Juan Gonzalez,4.1,3.8,4.5
2,Mauricio Castro,3.2,3.4,4.7
3,Saray Lozano,4.5,4.3,4.8
4,Viviana Cáceres,3.9,4.0,3.6


### Cargar archivo json

In [30]:
import pandas as pd

df = pd.read_json('notas.json')
df

Unnamed: 0,nombre,Física,Química,Artes
0,Francisco Alvarez,3.5,4.7,3.9
1,Juan Gonzalez,4.1,3.8,4.5
2,Mauricio Castro,3.2,3.4,4.7
3,Saray Lozano,4.5,4.3,4.8
4,Viviana Cáceres,3.9,4.0,3.6
