<h1>Tabla de contenidos 💜<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Fundamentos-prácticos-de-Machine-Learning" data-toc-modified-id="Fundamentos-prácticos-de-Machine-Learning-1">Fundamentos prácticos de Machine Learning</a></span><ul class="toc-item"><li><span><a href="#Fundamentos-prácticos" data-toc-modified-id="Fundamentos-prácticos-1.1">Fundamentos prácticos</a></span><ul class="toc-item"><li><span><a href="#Introducción-a-Numpy" data-toc-modified-id="Introducción-a-Numpy-1.1.1">Introducción a Numpy</a></span></li><li><span><a href="#Introducción-y-manipulación-de-datos-con-Pandas" data-toc-modified-id="Introducción-y-manipulación-de-datos-con-Pandas-1.1.2">Introducción y manipulación de datos con Pandas</a></span></li></ul></li></ul></li></ul></div>

# Fundamentos prácticos de Machine Learning

## Fundamentos prácticos

Recordemos que el Machine Learning se puede definir como la capacidad de un algoritmo de adquirir conocimiento a partir de observaciones, aprender de los datos para mejorar, describir y predecir resultados.

El proceso de implementar algoritmos de Machine Learning se puede ver como:

* Definir el problema
* Construir el modelo y evaluarlo
* Deploy y mejoras

### Introducción a Numpy

Es una biblioteca de Python comúnmente usada en la ciencia de datos. Esta librería trabaja principalmente con arreglos (vectores, matrices y tensores). 

Es muy popular por qué es:

* Sencilla de usar
* Adecuada para el manejo de arreglos
* Rápida

In [2]:
import numpy as np

Para crear arreglos lo hacemos con el metodo `.array` y se administra en forma de listas

In [3]:
np.array([10, 20, 24, 5, 15, 50])

array([10, 20, 24,  5, 15, 50])

podemos llamar a elementos individuales dentro de nuestro array con la notación de índices 

In [6]:
a = np.array([1,2,3,4,5,6,7,8,9])
a[4]

5

podemos hacer que nos muestre los datos desde un número hasta el final

In [7]:
a[3 : ]

array([4, 5, 6, 7, 8, 9])

o en un intervalo para que recorra el array hasta encontrar el dato que le pedimos, que en este caso sería el 7

In [10]:
a[3 : 7]

array([4, 5, 6, 7])

podemos imprimir alternando cada n posiciones, en este ejemplo cada 4 "pasos"

In [12]:
a[1 :: 4]

array([2, 6])

también podemos crear arreglos de manera dinámica

In [14]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

podemos ingresar las filas y columnas, respecivamente

In [16]:
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [15]:
np.ones((4,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

y para saber el tipo de dato de cierto arreglo podemos usar la instrucción `type`

In [28]:
type(np.ones(()))

numpy.ndarray

In [31]:
type(a[1])

numpy.int32

Para generar datos para analizar o crear gráficas podemos usar el comando `linspace` que recibe 3 parámetros, el valor inferior, el valor superior y la cantidad de elementos entre esos 2 valores extremos.

In [32]:
np.linspace(3, 5, 10)

array([3.        , 3.22222222, 3.44444444, 3.66666667, 3.88888889,
       4.11111111, 4.33333333, 4.55555556, 4.77777778, 5.        ])

en el caso donde queremos hacer arreglos de por ejemplo, 2 dimensiones podemos hacerlo con notación de corchetes y separando con comas

In [35]:
b = np.array([ ['x','y','z'],
               ['a','b','c'] ])
print(b)
type(b)

[['x' 'y' 'z']
 ['a' 'b' 'c']]


numpy.ndarray

para saber cuantas dimensiones tiene nuestro arreglo usamos `.ndim`

In [38]:
b.ndim

2

otro comando que es de muchísima utilidad es `sort` para ordenar el arreglo

In [39]:
c = [12, 4, 10, 40, 2]

In [40]:
np.sort(c)

array([ 2,  4, 10, 12, 40])

podemos usarlo para ordenar estructuras de datos un poco más complejas como las siguientes

In [42]:
cabeceras = [('nombre', 'S10'), ('edad', int)] #S10 representa un string de 10 elementos
datos = [('juan', 10), ('Maria',70), ('Javier', 42), ('Samuel', 15)]

vamos a unir las estructuras anteriores en un array llamado `usuarios`, de forma que integre los 2 valores anteriores en una estructura como la definida en la variable `cabeceras`

In [44]:
usuarios = np.array(datos, dtype = cabeceras)
print(usuarios)

[(b'juan', 10) (b'Maria', 70) (b'Javier', 42) (b'Samuel', 15)]


también podemos ordenarlos igualmente con `sort` y algunos parámetros extra, en este caso tendremos que decirle **el dato que queremos ordenar** y **en base a que elemento lo vamos a ordenar**.

In [45]:
np.sort(usuarios, order = 'edad')

array([(b'juan', 10), (b'Samuel', 15), (b'Javier', 42), (b'Maria', 70)],
      dtype=[('nombre', 'S10'), ('edad', '<i4')])

también tenemos la opción de llenarlos de una forma dinámica por medio de `.arange`

In [47]:
np.arange(25)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

y agregando un segundo parámetro le definimos nuestros valores inferior y superior, donde el superior es como un intervalo abierto

In [49]:
np.arange(5,30)

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,
       22, 23, 24, 25, 26, 27, 28, 29])

e indicarle también cada cuanto vamos a incrementar

In [53]:
np.arange(5, 51, 5)

array([ 5, 10, 15, 20, 25, 30, 35, 40, 45, 50])

Otra forma de crear arreglos bidimensionales es con la instrucción `np.full()` donde le pasamos como parámetro las dimensiones del arreglo (3x5) y los valores que va a contener

In [54]:
np.full( (3,5) , 10)

array([[10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10]])

Finalmente, para trabajar con matrices tenemos la instrucción `diag()` que nos ayuda a crear matrices colocando únicamente los valores de la diagonal y rellenando el resto con 0's

In [56]:
np.diag( [1,3,9,1] )

array([[1, 0, 0, 0],
       [0, 3, 0, 0],
       [0, 0, 9, 0],
       [0, 0, 0, 1]])

Ahora como repaso, tratemos de crear un arreglo de 3 dimensiones que podamos ordenar por medio de parámetros como edad, nombre o país.

In [66]:
# Estructura que van a llevar los datos
headers = [('nombre', 'S10'), ('edad', int), ('pais', 'S10')]

In [69]:
# Creamos los datos
data = [('Jesus', 20, 'Mexico'),('Ale', 32, 'Colombia'),('Yes', 25, 'Mexico'),('Luis', 50, 'Honduras'),
         ('Maria', 23, 'Mexico'),('Jhon', 53, 'Canada' ),('Zoom', 13, 'Argentina')]
print(users)

[('Jesus', 20, 'Mexico'), ('Ale', 32, 'Colombia'), ('Yes', 25, 'Mexico'), ('Luis', 50, 'Honduras'), ('Maria', 23, 'Mexico'), ('Jhon', 53, 'Canada'), ('Zoom', 13, 'Argentina')]


In [71]:
# Le damos a datos la estructura de header
users = np.array(data , dtype = headers)

print(users)

[(b'Jesus', 20, b'Mexico') (b'Ale', 32, b'Colombia')
 (b'Yes', 25, b'Mexico') (b'Luis', 50, b'Honduras')
 (b'Maria', 23, b'Mexico') (b'Jhon', 53, b'Canada')
 (b'Zoom', 13, b'Argentina')]


In [72]:
# Ordenamos por edad
np.sort(users , order = 'edad')

array([(b'Zoom', 13, b'Argentina'), (b'Jesus', 20, b'Mexico'),
       (b'Maria', 23, b'Mexico'), (b'Yes', 25, b'Mexico'),
       (b'Ale', 32, b'Colombia'), (b'Luis', 50, b'Honduras'),
       (b'Jhon', 53, b'Canada')],
      dtype=[('nombre', 'S10'), ('edad', '<i4'), ('pais', 'S10')])

In [73]:
# Ordenamos por nombre
np.sort(users, order = 'nombre')

array([(b'Ale', 32, b'Colombia'), (b'Jesus', 20, b'Mexico'),
       (b'Jhon', 53, b'Canada'), (b'Luis', 50, b'Honduras'),
       (b'Maria', 23, b'Mexico'), (b'Yes', 25, b'Mexico'),
       (b'Zoom', 13, b'Argentina')],
      dtype=[('nombre', 'S10'), ('edad', '<i4'), ('pais', 'S10')])

In [74]:
# Ordenamos por país
np.sort(users, order = 'pais')

array([(b'Zoom', 13, b'Argentina'), (b'Jhon', 53, b'Canada'),
       (b'Ale', 32, b'Colombia'), (b'Luis', 50, b'Honduras'),
       (b'Jesus', 20, b'Mexico'), (b'Maria', 23, b'Mexico'),
       (b'Yes', 25, b'Mexico')],
      dtype=[('nombre', 'S10'), ('edad', '<i4'), ('pais', 'S10')])

---

### Introducción y manipulación de datos con Pandas

Pandas es otra librería de Python que es más una extensión de NumPy que se utiliza para manipulación y análisis de datos. En particular ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

Al usar Pandas nos vamos a encontrar lo siguiente:

* Manejo de archivos
* Series (1D)
* Dataframes (2D)
* Panels (3D)

In [1]:
import pandas as pd

Vamos a ver la estructura de datos `serie` que es muy parecido a un diccionario o a la forma de una tabla

In [2]:
series = pd.Series( [5, 10, 15, 20, 25] )
print(series)

0     5
1    10
2    15
3    20
4    25
dtype: int64


In [3]:
type(series)

pandas.core.series.Series

también podemos acceder a los elementos individuales

In [4]:
series[3]

20

In [5]:
charac = pd.Series( ['p', 'q', 'r', 's', 't', 'u'] )
print(charac)

0    p
1    q
2    r
3    s
4    t
5    u
dtype: object


La otra estructura con la que vamos a trabajar en Pandas es `dataframe` ya que se usa con regularidad para algoritmos de machine learning y para análisis de datos. Ya que nos acomoda los datos de una forma parecida a como si tuvieramos un  SQL.

In [6]:
lst = ['Holi', 'como', 'tas'] 
df = pd.DataFrame(lst) # Lo convertimos a un DataFrame
print(df)

      0
0  Holi
1  como
2   tas


probemos ahora con una estructura un poco más compleja

In [7]:
data = { 'Nombre': ['Jesus', 'Ana', 'Maria', 'Jose', 'Marco'], 
           'edad': [25, 18, 23, 18, 40],
           'pais': ['Mexico', 'Colobia', 'Brazil', 'Mexico', 'Bolivia']}

df_2 = pd.DataFrame(data)
print(df_2)

  Nombre  edad     pais
0  Jesus    25   Mexico
1    Ana    18  Colobia
2  Maria    23   Brazil
3   Jose    18   Mexico
4  Marco    40  Bolivia


podemos imprimir solo algunas columnas que nos interesen

In [8]:
print(df_2[ [ 'Nombre', 'pais'  ] ])

  Nombre     pais
0  Jesus   Mexico
1    Ana  Colobia
2  Maria   Brazil
3   Jose   Mexico
4  Marco  Bolivia


Vamos a mandar a llamar un archivo .CSV

In [19]:
data = pd.read_csv('../Fundamentos_Practicos_de_Machine_Learning/Archivos/canciones-2018.csv')
# Y mostramos los 5 primeros elementos
data.head(5)

Unnamed: 0,id,name,artists,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms,time_signature
0,6DCZcSspjsKoFjzjrWoCd,God's Plan,Drake,0.754,0.449,7.0,-9.211,1.0,0.109,0.0332,8.3e-05,0.552,0.357,77.169,198973.0,4.0
1,3ee8Jmje8o58CHK66QrVC,SAD!,XXXTENTACION,0.74,0.613,8.0,-4.88,1.0,0.145,0.258,0.00372,0.123,0.473,75.023,166606.0,4.0
2,0e7ipj03S05BNilyu5bRz,rockstar (feat. 21 Savage),Post Malone,0.587,0.535,5.0,-6.09,0.0,0.0898,0.117,6.6e-05,0.131,0.14,159.847,218147.0,4.0
3,3swc6WTsr7rl9DqQKQA55,Psycho (feat. Ty Dolla $ign),Post Malone,0.739,0.559,8.0,-8.011,1.0,0.117,0.58,0.0,0.112,0.439,140.124,221440.0,4.0
4,2G7V7zsVDxg1yRsu7Ew9R,In My Feelings,Drake,0.835,0.626,1.0,-5.833,1.0,0.125,0.0589,6e-05,0.396,0.35,91.03,217925.0,4.0
