### NOTA: Para un mejor seguimiento de esta clase, es recomendable abrirla desde Colab, siguiendo el botón de abajo

<a href="https://colab.research.google.com/github/martinezarraigadamaria/IntroduccionProgramacionPythonFCEUNC/blob/master/clases/IntroProgPython_clase5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 5 (En construcción...)

---
> Utilización de librerías para Data Science: numpy, pandas, statsmodels, scikit-learn.

> Elementos gráficos: matplotlib y seaborn.

# Revisando NumPy

<img align="middle" src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/1920px-NumPy_logo_2020.svg.png" alt="crispdm" width="400"/>

La librería NumPy tiene un objeto principal: **ndarray** (array n-dimensional). Este objeto es un array multipdimensional que contiene elementos del mismo tipo y tamaño.



*   shape: devuelve tupla con la forma del array 
*   ndim: devuelve la dimensión del array
*   size: devuelve el tamaño del array
*   dtype: cada ndarray tiene asociado **un** tipo de dato



In [None]:
import numpy as np

In [None]:
x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)
print(f"Shape: {x.shape}")
print(f"Dimensión: {x.ndim}")
print(f"Tamaño: {x.size}")
print(f"Tipo de datos del array: {x.dtype}")

# Esto falla?
#x = np.array([[1, 2, 3], [4, 5, 'hola']])
#print(x)
#print(x.shape)
#print(x.dtype)
#print(x.dtype.name)

## Creación de Arrays

La forma más básica es pasar como argumento una lista de listas:


In [None]:
x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)

Se puede inicializar como una tuplas de tuplas:

In [None]:
d = np.array(((1, 2, 3),(4, 5, 6)))
print(d)

Se puede inicializar como una lista de tuplas:

In [None]:
e = np.array([(1, 2, 3), [4, 5, 6], (7, 8, 9)])
print(e)

Podemos forzar a que inicialice la lista con un tipo de datos específico:

In [None]:
f = np.array([[1, 2, 3],[4, 5, 6]], dtype=float)
print(f)

#Opción rápida: al primer elemento lo definimos como decimal
#f = np.array([[1., 2, 3],[4, 5, 6]])
#print(f)


## Numpy Arrays con Contenido Inicial

Tener en cuenta que siempre se inicializan como *float*!

In [None]:
np.zeros((3, 3))

In [None]:
np.ones((3, 3))

Creación de un array de 1 dimension con secuencia de datos:

In [None]:
print(np.arange(0,10))
print(np.arange(0,10,2))
print(np.arange(0,10,2,dtype=float))

Creación de array multidimensional

In [None]:
np.arange(0, 12).reshape(3, 4)

In [None]:
np.linspace(0,10,6)

In [None]:
np.random.random(3)

In [None]:
np.random.random((3,3))

## Operaciones Básicas

### Operaciones Aritméticas

*   Suma, resta o multiplicación por un escalar


In [None]:
a = np.arange(4)
print(f"Array original a = {a}")
print(f"Suma por un escalar a+2 = {a+2}")
print(f"Suma por un escalar a-2 = {a-1}")
print(f"Multiplicación por un escalar a*2 = {a*2}")

*   Producto Matricial



In [None]:
A = np.arange(0, 9).reshape(3, 3)
A

In [None]:
B = np.ones((3, 3))
B

In [None]:
print(f"A*B= {np.dot(A,B)}")

In [None]:
print(f"B*A= {np.dot(B,A)}")

### Funciones Universales: ufunc
Es una función que opera elemento a elemento. Esto quiere decir que actua individualmente sobre cada elemento y genera un resultado. Para más información revisar documentación en Numpy: https://numpy.org/doc/stable/reference/ufuncs.html

In [None]:
a = np.arange(1, 5)
print(a)
print(f"Raíz cuadrada: {np.sqrt(a)} ")
print(f"Logaritmo: {np.log(a)} ")
print(f"Seno: {np.sin(a)} ")
print(f"Coseno: {np.cos(a)} ")

In [None]:
a = np.array([1,2,3,np.nan])
np.isnan(a)

### Funciones de Agregación 
Las funciones de agregación realizan una operación sobre un conjunto de valores y producen un solo resultado.

In [None]:
a = np.array([3.3, 4.5, 1.2, 5.7, 0.3])
print(f"Array: {a}")
print(f"Suma de todos los elementos: {a.sum()}")
print(f"El mínimo valor: {a.min()}")
print(f"El máximo valor: {a.max()}")
print(f"La media: {a.mean()}")
print(f"La desviación estándar: {a.std()}")

### Sub Array
Un **sub Array** es una porción de un array.



*   Arrays de una dimensión




In [None]:
a = np.arange(0, 6)
print(a)
print(a[1:5])
print(a[1:5:2])
print(a[::2])
print(a[:5:2])
print(a[:5:])

*   Arrays de dos dimensiones

In [None]:
A = np.arange(10, 19).reshape((3, 3))
print(A)
print(f"Solo la primera fila: \n A[0,:]= {A[0,:]}")
print(f"Solo la primera columna: \n A[:,0]= {A[:,0]}")
print(f"Sub matrix: \n A[0:2, 0:2]=\n {A[0:2, 0:2]}")
print(f"Sub matrix sin índices contiguos pasamos lista de índices: \nA[[0,2], 0:2]=\n  {A[[0,2], 0:2]}")

### Iteración


In [None]:
a = np.arange(0, 6)
for i in a:
    print(i)

In [None]:
A = np.arange(10, 19).reshape((3, 3))
for i in A:
  print(i)

In [None]:
for item in A.flat:
    print(item)

### Condiciones Sobre Arrays


In [None]:
A = np.random.random((4, 4))
print("A")
print(A)
print("A < 0.5")
print(A < 0.5)
print("A[A < 0.5]")
print(A[A < 0.5])
print(f"{A[A < 0.5]}")

### Manipulación de Array

#### Join

NumPy permite unir dos o más arrays verticalmente u horizontalmente. Esto lo llama apilar (stack).

*   Cuando se apila verticalmente (vstack) la cantidad de columnas tienen que ser iguales.
*   Cuando se apila horizontalmente (hstack) la cantidad de filas tienen que ser iguales.


In [None]:
#            F  C
A = np.ones((4, 3))
B = np.zeros((3, 3))
np.vstack((A, B))

In [None]:
#            F  C
A = np.ones((3, 4))
B = np.zeros((3, 3))
np.hstack((A,B))

#### Split

Este funcionalidad nos permite dividir un arrays a partir de un índice. 


*   hsplit: divide por columna
*   vsplit: divide por fila

In [None]:
# Generamos una matriz 4x4 con números del 1 al 16
A = np.arange(16).reshape((4, 4))
A

In [None]:
#            (array, indice)
[B,C] = np.hsplit(A, 2)
print(B)
print(C)

In [None]:
[B,C] = np.vsplit(A, 2)
print(B)
print(C)

In [None]:
[A1, A2, A3] = np.split(A, [1, 3], axis=1)  ## hsplit
print(A1)
print(A2)
print(A3)

In [None]:
[A1, A2, A3] = np.split(A, [1, 3], axis=0)  ## vsplit
print(A)
print(f"A1 = {A1}")
print(f"A2 = {A2}")
print(f"A3 = {A3}")

# Manipulando Datos con Pandas

<img align="middle" src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" alt="crispdm" width="300"/>

En esta sección trabajaremos con datos de [OpenFlights](https://openflights.org/data.html), para realizar una introducción a Pandas que recopilará los básicos de esta librería. El ***repositorio*** del proyecto es [éste](https://github.com/jpatokal/openflights).

Antes que nada, lo primero que tenemos que hacer para poder utilizar Pandas es importar la librería en nuestro código.

In [None]:
import pandas as pd