# ¡Un Problema salvaje aparece!
Si una casa de 1.700 m$^2$ cuesta 220.000 y otra de 2.000 m$^2$ cuesta 250.000
¿Cuánto costaría una de 1.500 m$^2$?

Imagino que:  
1. Miraste la **información**
2. Encontraste una **regla** que puede darle sentido
3. La usaste regla para responder

¡Si así fue, actuaste como un programa de **machine learning**!

# ¿Qué es machine learning?
Machine learning, en español: **aprendizaje automático** o **aprendizaje de máquinas**, es una rama de la **inteligencia artificial**.

Su objetivo es lograr que las computadoras **aprendan de la experiencia** sin necesidad de ser **explícitamente programadas** 👩🏻‍💻.

## ¿Explícitamente?
Un programa clásico de computadora toma algunas **entradas** y una serie de **reglas** para obtener una **salida**.

En cambio, un software de *Machine Learning* permite **inferir las reglas a partir de las entradas y salidas**.

![programación clásica vs machine learning](img/0.1_classical_programming_vs_ml.png)

Esta inferencia abre la posibilidad de trabajar con las **reglas que enlazan las entradas y salidas** .  
Usando **nuevos datos** podemos **predecir nuevas respuestas** 🤯

# ¿Cómo logramos que la máquina aprenda esta regla?
Necesitamos **datos** separados en dos grupos:

- Las entradas serán las **_features_** o características.
- Las salidas, **_labels_** o etiquetas. 

Los ingresamos a un algoritmo, y este "entrenará" un **_model_** o modelo que va a representar **el aprendizaje de máquina sobre los datos**, luego podemos usar este modelo entrenado ingresándole entradas que no vio antes para **predecir salidas** 😃.

# Demo time!
Utilizando el lenguaje Python y el objeto [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) de la librería [scikit-learn](https://scikit-learn.org), obtendremos un modelo para resolver el problema. Esta librería tiene varias utilidades para machine learning
Haz click en la celda de abajo y presiona las teclas `shift + enter`

In [None]:
# importamos scikit-learn para el modelo de ML
from sklearn.linear_model import LinearRegression

# importamos Numpy para matemáticas
import numpy as np

features = np.array([1700, 2000])
targets = np.array([220000, 250000])

# sklearn espera un array 2D
features = np.reshape(features, newshape=(-1, 1))

# creamos y entrenamos el modelo
model = LinearRegression()
model.fit(features, targets)

# lo usamos para predecir nuevos datos
house_area = np.array(1400).reshape(1, -1)
price = model.predict(house_area)

print(f"Una casa de {house_area}m2 cuesta {price}.")

## Sobre el cambio de shape
Shape, o forma, se refiere a las **dimensiones de un array**.  

- Si tiene una dimensión, la shape es `(n,)` esta describe un array de *n* elementos.  
- Si tenemos dos, la shape es `(n, m)` que cooresponde a una matriz de *n* filas, *m* columnas y *n x m* elementos.

Nuestras **features están en un array**, esto es 1D, pero **sklearn espera que las features estén como una matriz** en 2D.
Si pasamos una lista, sklearn nos sugiere usar el método `reshape` de numpy con el argumento `newshape=(-1, 1)`

El argumento `-1` calculará el **número faltante**, si tenemos una lista de 10 elementos y usamos `newshape=(-1, 2)` tendremos una matriz de 2 columnas, ¿y cúantas filas?

**5** filas, porque 5 x 2 = 10

Al usar `(-1, 1)` tendremos una matriz de 1 sola columna:

In [None]:
# nuestra lista
features = [1700, 2000]
print(f"Shape original {np.shape(features)}")

# features ahora es un np.array y cuenta con el atributo shape
features = np.reshape(features, newshape=(-1, 1)) 
print(f"Shape modificado {features.shape}")
print("\nUn gran cambio 👍🏼")

# Juega con la demo
Gracias a este entorno es posible experimentar con el código, prueba cambiar las features y targets para encontrar un nuevo modelo, y utilízalo para predecir nuevos datos 😉.  
Recuerda que cada feature debe tener su target correspondiente, es decir, los arrays deben tener el mismo número de elementos.

# Datos, datos
Las entradas son datos, las salidas también son datos, ¿pero qué tipo de datos necesitamos?

Podemos empezar utilizando datos almacenados en una tabla, agrupados en lo que llamamos un *dataset* o conjunto de datos, aprenderemos a manejar datasets tabulares con [Pandas](1_Pandas.ipynb)