# ¡Un Problema salvaje aparece!
Si una casa de 1.700 m$^2$ cuesta 220.000 y otra de 2.000 m$^2$ cuesta 250.000
¿Cuánto costaría una de 1.500 m$^2$?

Imagino que:  
1. Miraste la **información**
2. Encontraste una **regla** que puede darle sentido
3. La usaste regla para responder

¡Si así fue, actuaste como un programa de **machine learning**!

# ¿Qué es machine learning?
Machine learning, en español: *aprendizaje automático* o *aprendizaje de máquinas*, es una rama de la **inteligencia artificial**.

Su objetivo es que las computadoras **aprendan de la experiencia** sin necesidad de ser **explícitamente programadas**.

## ¿Explícitamente?
Un programa clásico de computadora toma algunas **entradas** y una serie de **reglas** para obtener una **salida**.

En cambio, un software de *Machine Learning* permite **inferir las reglas a partir de las entradas y salidas**.

![programación clásica vs machine learning](img/0.1_classical_programming_vs_ml.png)

Esta inferemcia abre la posibilidad de trabajar con las **reglas que enlazan las entradas y salidas** .  
Usando nuevos datos podemos **predecir** nuevas respuestas 🤯

# ¿Cómo logramos que la máquina aprenda esta regla?
Necesitamos **datos** separados en dos grupos:

- Las entradas serán las *features* o características.
- Las salidas, *labels* o etiquetas. 

Los ingresamos a un algoritmo, y este "entrenará" un *model* o modelo para que **la máquina aprenda de los datos**, luego podemos usar el modelo entrenado ingresándole nuevas entradas para **predecir salidas** 😃.

# Demo time!
Utilizando el lenguaje Python y el objeto [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) de scikit-learn, obtendremos un modelo para resolver el problema.  
Haz click en la celda de abajo y presiona las teclas `shift + enter`

In [None]:
# importamos scikit-learn para el modelo de ML
from sklearn.linear_model import LinearRegression
# importamos Numpy para matemáticas
import numpy as np

features = np.array([1700, 2000])
targets = np.array([220000, 250000])

# sklearn espera un array 2D
features = np.reshape(features, newshape=(-1, 1))

# creamos y entrenamos el modelo
model = LinearRegression()
model.fit(features, targets)

# lo usamos para predecir nuevos datos
house_area = np.array(1400).reshape(1, -1)
price = model.predict(house_area)

print(f"Una casa de {house_area}m2 cuesta {price}.")

## Sobre el cambio de shape
Shape se refiere a las dimensiones de un array.  

- Si tiene una dimensión, la shape es `(n,)` esta describe un array de *n* elementos.  
- Si tenemos dos, la shape es `(n, m)` que cooresponde a una matriz de *n* filas, *m* columnas y *n x m* elementos.

Nuestro array de features es una lista, pero sklearn espera que las features estén en 2D, como matriz.
Si pasamos una lista, sklearn nos sugiere usar el método `reshape` de numpy con el argumento `newshape=(-1, 1)`

El argumento -1 calculará el número faltante, si tenemos una lista de 10 elementos y usamos `newshape=(-1, 2)` tendremos una matriz de 2 columnas, ¿y cúantas filas?

**5** filas, porque 5 x 2 = 10

Al usar `(-1, 1)` tendremos una matriz de 1 sola columna:

In [None]:
# nuestra lista
features = [1700, 2000]
print(f"Shape original {np.shape(features)}")

# features ahora es un np.array y cuenta con el atributo shape
features = np.reshape(features, newshape=(-1, 1)) 
print(f"Shape modificado {features.shape}")
print("\nUn gran cambio 👍🏼")

# Juega con la demo
Gracias a este entorno es posible experimentar con el código, prueba cambiar las features y targets para encontrar un nuevo modelo, y utilízalo para predecir nuevos datos 😉.  
Recuerda que cada feature debe tener su target correspondiente, es decir, los arrays deben tener el mismo número de elementos.

# Datos, datos
Las entradas son datos, las salidas también son datos, ¿algún otro dato que debamos conocer?

¡Por supuesto!, muchos, muchos datos agrupados en lo que llamamos un *dataset* o conjunto de datos, aprenderemos a manejar datasets tabulares con [Pandas](1_Pandas.ipynb)

# y = mx + b
Esa es la ecuación de la recta, esta describe a nuestro modelo.

- $m$ es la **pendiente*, mide qué tan inclinada está una recta.
- $b$ es el **término independiente**, su valor es el punto en el que la recta corta el eje vertical de un plano.
- $y$ es la variable **dependiente**.
- $x$ es la variable **independiente**.

Si la ecuación fuera $y = -\frac{1}{2}x + 2$ la recta sería:  
![recta](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8f/Recta_gen%C3%A9rica.png/400px-Recta_gen%C3%A9rica.png)

La relación de cada parámetro con el modelo sería:
- $m$ es igual a `model.coef_[0]`
- $b$ es igual a `model.intercept_`
- $y$ equivale a `targets`
- $x$ equivale a `features`

Obtuvimos estos parámetros usando la regresión lineal, que trataremos en el [próximo capítulo](./2_hola_mundo.ipynb).

<iframe id="preview-frame" src="http://www.educaplus.org/web/games/../../html5/v2/mat_ecuarecta/ep.html" scrolling="no" class="game-iframe" style="height: 430px;" width="100%" height="100%" frameborder="0"></iframe>