# Métodos de Machine Learning

## Tipos de problemas

### Regresión

Es estos problemas se ayuda a prever el futuro estimando relaciones entre las variables. Ejemplo:

- Predecir número de ventas de ítem particular
- Prever la temperatura de la próxima semana

### Clasificación

En estos problemas se separan los datos, según alguna característica específica. También sirve para predecir. Ejemplo:

- Predecir el ganador de las elecciones
- Clasificar tipos de flores
- Predecir si un tumor es cancerígeno

### Claustering o Agrupamiento

En estos problemas se agrupan datos similares dentro de conjuntos. Ejemplo:

- ¿Qué modelos de disco duro fallan de la misma forma?
- ¿A cuántos clientes les gusta un producto en particular?

## Resumen de procesos

1. Obtener los ***Datos***
2. ***Pre-procesado***: Consiste en preparar los datos y organizarlos para tener un formato válido. Por ejemplo, convertir datos de tipo texto a tipo numérico.
3. ***Estrategia de validación***: Se realiza con el fin de determinar si el algoritmo funciona o no de manera eficiente. Para ello se toma una métrica, que dependerá de si el problema es de regresión o de clasificación. Una estrategia común y simple es dividir los datos en subgrupos: Entrenamiento, validación y pruebas.
4. ***Entrenamiento***: Con un conjunto de datos de entrenamiento se enseña cómo el algoritmo debería funcionar. Algunos algoritmos comúnmente usados son: Regresión lineal, Regresión logística, KNN, etc.
5. ***Predecir***

## Tipos de Aprendizaje

Según la cantidad de supervisión humana que tiene el aprendizaje tenemos 2 tipos:

### Aprendizaje Supervisado

Necesita tener los datos tanto de la variable predictora X como de la variable a predecir Y. Se entrena con datos etiquetados, es decir, con datos que tienen la respuesta deseada. Aplicable a problemas de regresión y clasificación.

### Aprendizaje no supervisado

No necesita de los datos de la variable objeto Y. Usan datos sin etiquetas y busca relaciones entre ellos. Aplicable a clustering.


# Uso de Python en Machine Learning

## NumPy

In [1]:
import numpy as np

En este caso creamos una variable `a` como un arreglo unidimensional

In [2]:
a = np.array([1, 2, 3])
print(a)

[1 2 3]


La varible `b` es un arreglo multidimensional

In [3]:
b = np.array([[1, 2, 3], (4, 5, 6)])
print(b)

[[1 2 3]
 [4 5 6]]


### Ventajas de usar NumPy

- Usan menos memoria que las listas de Python
- En más rápido en la ejecución.


En este ejemplo vemos como podemos llenar una matriz de solos `1`, o también de solos `0`.

In [4]:
print(np.ones((3, 5)))

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [5]:
print(np.zeros((5, 3)))

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


También podemos llenar una matriz con un valor cualquiera.

In [6]:
print(np.full((5, 5), 5))

[[5 5 5 5 5]
 [5 5 5 5 5]
 [5 5 5 5 5]
 [5 5 5 5 5]
 [5 5 5 5 5]]


Otra opción, es tener una matriz con datos aleatorios entre 0 y 1.

In [7]:
print(np.random.random((3, 6)))

[[0.11544604 0.84950864 0.44504726 0.89576827 0.74097174 0.01438879]
 [0.18430642 0.80315572 0.80777121 0.93903273 0.417207   0.67996949]
 [0.60266756 0.29860287 0.93355728 0.46830375 0.59151987 0.37214721]]


Podemos llenar una matriz con valores que se separan uniformemente, luego de declarar el intervalo de [inicio, fin)

In [8]:
print(np.arange(0, 50, 10))

[ 0 10 20 30 40]


Podemos tener una matriz con valores equidistantes entre ellos.

In [9]:
print(np.linspace(0, 50, 10))

[ 0.          5.55555556 11.11111111 16.66666667 22.22222222 27.77777778
 33.33333333 38.88888889 44.44444444 50.        ]


Una matríz identidad teniendo en cuenta el número de columnas y filas.

In [10]:
print(np.eye(4, 4))

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


### Parámetros de las matrices

In [11]:
b = np.array([[1, 2.5, 3], [4, 5, 6]])

In [12]:
print(b.ndim)

2


In [13]:
print(b.dtype)

float64


In [14]:
print(b.size)

6


In [15]:
print(b.shape)

(2, 3)


In [16]:
print(b)

[[1.  2.5 3. ]
 [4.  5.  6. ]]


In [17]:
print(b.reshape(3, 2))

[[1.  2.5]
 [3.  4. ]
 [5.  6. ]]


In [18]:
print(b.reshape(b.size, 1))
print(b.reshape(1, b.size))

[[1. ]
 [2.5]
 [3. ]
 [4. ]
 [5. ]
 [6. ]]
[[1.  2.5 3.  4.  5.  6. ]]


¿Qué producen las siguientes funciones?

In [19]:
c = np.array([[1, 2, 3, 4, 5, 6], [7, 8, 9, 10, 11, 12]])

In [20]:
print(c[1][2])

9


In [21]:
print(c)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]


In [22]:
print(c.min())

1


In [23]:
print(c.max())

12


In [24]:
print(c.sum())

78


In [25]:
# Suma de columnas
print(c.sum(0))

[ 8 10 12 14 16 18]


In [26]:
# Suma de filas
print(c.sum(1))

[21 57]


In [27]:
print(np.std(c))

3.452052529534663


Operaciones entre matrices

In [28]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[9, 8], [7, 6]])

In [29]:
print(A)

[[1 2]
 [3 4]]


In [30]:
print(B)

[[9 8]
 [7 6]]


In [31]:
print(A+B)

[[10 10]
 [10 10]]


In [32]:
print(A-B)

[[-8 -6]
 [-4 -2]]


In [33]:
print(A*B)

[[ 9 16]
 [21 24]]


In [34]:
print(A/B)

[[0.11111111 0.25      ]
 [0.42857143 0.66666667]]


In [35]:
print(A.dot(B))

[[23 20]
 [55 48]]


## Pandas

In [36]:
import pandas as pd

In [37]:
data = np.array([
    ['', 'Nombre', 'Edad'], 
    ['Estudiante 1', 'Anna', 12], 
    ['Estudiante 2', 'Maria', 9]
])

In [38]:
df_1 = pd.DataFrame(data)
df_1

Unnamed: 0,0,1,2
0,,Nombre,Edad
1,Estudiante 1,Anna,12
2,Estudiante 2,Maria,9


In [39]:
df_2 = pd.DataFrame(data=data[1:, 1:], index=data[1:, 0], columns=data[0, 1:])
df_2

Unnamed: 0,Nombre,Edad
Estudiante 1,Anna,12
Estudiante 2,Maria,9


In [40]:
print('Forma: ', end='')
print(df_1.shape)

Forma: (3, 3)


In [41]:
print('Forma: ', end='')
print(df_1.shape)

Forma: (3, 3)


In [43]:
df_2.describe()

Unnamed: 0,Nombre,Edad
count,2,2
unique,2,2
top,Anna,9
freq,1,1


In [46]:
d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
d2 = pd.DataFrame(d)

In [47]:
d2.describe()

Unnamed: 0,0,1,2
count,4.0,4.0,4.0
mean,5.5,6.5,7.5
std,3.872983,3.872983,3.872983
min,1.0,2.0,3.0
25%,3.25,4.25,5.25
50%,5.5,6.5,7.5
75%,7.75,8.75,9.75
max,10.0,11.0,12.0


In [48]:
d2.mean()

0    5.5
1    6.5
2    7.5
dtype: float64

In [49]:
d2.count()

0    4
1    4
2    4
dtype: int64

In [50]:
d2.max()

0    10
1    11
2    12
dtype: int32