In [65]:
from sklearn.datasets import load_diabetes,load_breast_cancer
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
import numpy as np

# Introducción 

- Los problemas que se están estudiando en el mini-proyecto están relacionados a *Regresión* y *Clasificación*, para ambos casos se tiene un vector de características $x$ y se busca encontrar un valor $y$ dado una función $f$ de tal forma que $\overline{y} = f(x)$. 

- Para regresión se busca la función/modelo $f$ de tal forma que se minimize el error cuadrático médio de predicción.

- En el caso de Clasificación se busca que la función/modelo asigne correctamente la clase del ejemplo $x_i$ (Maximizar la precisión)

### Cargando datos de precio casa

In [79]:
#Función que carga dataset, ustedes lo pueden hacer cargando los csv. Utilizando numpy o pandas.
diabetes = load_diabetes()

In [80]:
X = diabetes["data"]
y = diabetes["target"]

In [81]:
#Ver la documentación para más información
lr = LinearRegression()

#Ajustando los parámetros de la regresión lineal.
lr.fit(X,y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [82]:
#Luego de ajustar los parámetros podemos predecer los valores
y_pred = lr.predict(X)

#### Error Cuadrático Medio
Sea $y_i$ el valor real del ejemplo $x_i$ e $\hat{y}_i$ el valor que predice nuestro modelo, se define el error cuadrático medio como:
$$ MSE = \frac{1}{N} \sum_{i=0}^N(y_i - \hat{y}_i)^2 $$

In [83]:
#Error cuadrático medio
mse = 1./len(y) * np.sum(np.power(y_pred - y , 2))

In [84]:
mse

2859.6903987680657

### Normalizar la data
Hay casos donde los datos tienen escalas muy distintas, por lo mismo algunas variables van a perder importancia al momento de ajustar los parámetros, por eso mismo se utiliza un procesamiento previo para mejorar esto.

Un ejemplo de procesamiento previo es la normalización de los datos, que busca dejarlos en el rango $[0,1]$, para esto se utiliza la siguiente fórmula:

$$ \hat{x} = \frac{x - min(x)}{max(x) - min(x)} $$

No siempre funcionará realizar este pre-procesamiento todo depende de los datos y el método que se utilizará.

In [85]:
X_norm = (X  - X.min()) / (X.max() - X.min())
y_norm = (y - y.min()) / (y.max()- y.min())

In [86]:
#Sin parámetros
lr = LinearRegression()
lr.fit(X_norm,y_norm)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [87]:
y_pred = lr.predict(X_norm)

In [88]:
mse = 1./len(y) * np.sum(np.power(y_pred - y_norm , 2))

In [89]:
# Error cuadrático medio normalizado
mse

0.027752937168389918

In [90]:
# Volvemos a la escala anterior
mse * (y.max()- y.min()) + y.min()

33.908692831053166

#### Cargando datos cancer de mamas

In [66]:
breast = load_breast_cancer()

In [67]:
X = breast["data"]
y = breast["target"]

In [91]:
#Creando la Regresión Logistica
logr = LogisticRegression()

#Ajustando los parámetros de la regresión
logr.fit(X,y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [92]:
#Luego de ajustar parámetros predecimos la clase 
y_pred = logr.predict(X)

## Precisión
Sea $y_i$ la clase a la que pertenece el ejemplo $x_i$ e $\hat{y}_i$ el valor que predice nuestro modelo. Se define:
$$ p(y,\hat{y}) = \left\{
\begin{array}{c l}
 1 \text{ si } y = \hat{y}\\
 0 \text{ en otro caso}
\end{array}
\right. $$

La precisión puede ser definida por 

$$ Precisión = \frac{1}{N}\sum_{i=0}^N p(y_i,\hat{y}_i)$$


In [70]:
prec = 1./len(y) * np.sum(y_pred == y)

In [71]:
prec

0.9595782073813708