# Regresion Lineal

In [None]:
# cargamos las librerias
from sklearn import datasets
import matplotlib.pyplot as plt
# cargamos el dataset
boston = datasets.load_boston()
# creamos una matriz de caracteristicas
X = boston.data
# target vector
y = boston.target
# Primera observacion
X[0]
# Mostramos como floats los elementos
['{:f}'.format(x) for x in X[0]]

Primero recordar que una regresión lineal se puede implementar con
scipy,numpy,statsmodel o Scikit-Learn. Por ejemplo haciendo uso
solo de numpy obtendríamos el siguiente código :

In [None]:
from numpy import arange,array,ones,linalg
from pylab import plot,show
xi = arange(0,9)
A = array([ xi, ones(9)])
# secuencia generada
y = [19, 20, 20.5, 21.5, 22, 23, 23, 25.5, 24]
w = linalg.lstsq(A.T,y)[0] # obtencion de parametros
# graficando la linea
line = w[0]*xi+w[1] # linea de regresion
plt.plot(xi,line,'r-',xi,y,'o')
plt.show()

Ahora veamos el codigo usando scipy:

In [None]:
from numpy import arange,array,ones
from scipy import stats
xi = arange(0,9)
A = array([ xi, ones(9)])
# secuencia generada
y = [19, 20, 20.5, 21.5, 22, 23, 23, 25.5, 24]

slope, intercept, r_value, p_value, std_err = stats.linregress(xi,y)

print('r value', r_value)
print('p_value', p_value)
print('standard deviation', std_err)

line = slope*xi+intercept
plt.plot(xi,line,'r-',xi,y,'o')
plt.show()

Ahora veamos el codigo usando statsmmodels:

In [None]:
import numpy as np
import statsmodels.api as sm

y = [1,2,3,4,3,4,5,4,5,5,4,5,4,5,4,5,6,5,4,5,4,3,4]

x = [
[4,2,3,4,5,4,5,6,7,4,8,9,8,8,6,6,5,5,5,5,5,5,5],
[4,1,2,3,4,5,6,7,5,8,7,8,7,8,7,8,7,7,7,7,7,6,5],
[4,1,2,5,6,7,8,9,7,8,7,8,7,7,7,7,7,7,6,6,4,4,4]
]
def reg_m(y, x):
  ones = np.ones(len(x[0]))
  X = sm.add_constant(np.column_stack((x[0], ones)))
  for ele in x[1:]:
    X = sm.add_constant(np.column_stack((ele, X)))
  results = sm.OLS(y, X).fit()
  return results

print(reg_m(y, x).summary())

Regresion Lineal con el Dataset Boston Housing
El Boston Housing Dataset consiste en el precio de las casas en
varios lugares en Boston. Junto con el precio, el conjunto de datos
también proporciona información como el crimen (CRIM), áreas de
negocios no minoristas en la ciudad (INDUS), la edad de las
personas que poseen la casa (AGE), y hay muchos otros atributos
disponibles.

https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names

El dataset en sí está disponible en linea. Sin embargo, como vamos
a usar scikit-learn, podemos importarlo directamente desde
scikit-learn, ademas usaremos otros modulos de python.

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import sklearn.model_selection
import statsmodels.api as sm





Exploremos un poco el dataset,en primer lugar, al igual que lo que
hacemos con cualquier otro conjunto de datos, vamos a importar el
dataset Boston Housing y almacenarlo en una variable llamada
boston. Para importarlo de scikit-learn tendremos que ejecutar este
fragmento de código

In [None]:
from sklearn.datasets import load_boston
boston = load_boston()

La variable boston es un diccionario, por ello veamos sus llaves :

In [None]:
print(boston.keys())

Veamos la dimencion de la data en el dataset,asi como otras
propiedades :

In [None]:
print(boston.data.shape)
print(boston.feature_names)
print(boston.DESCR)

Ahora convirtamos la data del dataset en un DataFrame de pandas.

In [None]:
bos = pd.DataFrame(boston.data)
print(bos.head())

Ojo con los nombres de cada una de las columnas. Utilicemos el
campo features_names del dataset boston original.

In [None]:
bos.columns = boston.feature_names
print(bos.head())

OJO, ¿Alguien se da cuenta de que no hay una columna llamada
’PRECIO’ en el dataset?

Sí, es porque la columna target está disponible en otro atributo
llamado target. Así que vamos a verificar el shape del
boston.target.

In [None]:
print(boston.target.shape)

Entonces, como resulta que coincide con el número de filas del
dataset. Vamos a agregarlo al DataFrame como una nueva columna

In [None]:
bos['PRICE'] = boston.target
print(bos.head())

Con la data ya preparada (o pre-procesada) podemos empezar con
el resumen estadístico

In [None]:
print(bos.describe())

El siguiente paso es partir (split) la data a estudiar (DataFrame) ,
inicialmente, en dos conjuntos: Train y Test. A diferencia del
dataset titanic, en boston solo tenemos un solo conjunto de
datos. No hay datos de entrenamiento (Train) y Testeo (Test). Así
que hay que hacer esta discretización nosotros mismos.
Básicamente antes de dividir los datos en los conjuntos
train-test, tendríamos que dividir el conjunto de datos en valores
target y valores predictor .

Tomemos
Y = Precios de las casas en Boston.
X = Las otras características.

In [None]:
X = bos.drop('PRICE', axis = 1)
Y = bos['PRICE']

Ahora, finalmente podemos dividir el conjunto de datos en
entrenamiento (Train) y pruebas (test) con el siguiente
fragmento de código

In [None]:
X_train, X_test, Y_train, Y_test = sklearn.model_selection.train_test_split(X, Y, test_size = 0.33, random_state = 5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

Los conjuntos de datos han sido separados (discretizados) en 66.6%
para entrenamiento (Train) y 33.3% para pruebas (Test).

Ahora si ejecutemos la regresion lineal:

In [None]:
from sklearn.linear_model import LinearRegression
lm = LinearRegression()
lm.fit(X_train, Y_train)
Y_pred = lm.predict(X_test)

plt.scatter(Y_test, Y_pred)
plt.xlabel("Precios: $Y_i$")
plt.ylabel("Prediccion de Precios: $\hat{Y}_i$")
plt.title("Precios Vs Precios Predichos: $Y_i$ vs $\hat{Y}_i$")
plt.show()

Para terminar, veamos la información ofrecida en el error cuadrático
medio,
Para verificar el nivel de error de este primer modelo, lo podemos
hacer usando el Mean Squared Error. Este es un procedimiento
para medir el cuadrado de los errores. . Básicamente, verificará la
diferencia entre el valor real y el valor predicho.

In [None]:
mse = sklearn.metrics.mean_squared_error(Y_test, Y_pred)
print(mse)

# Regresion Logistica

Utilizaremos algoritmos de Machine Learning en Python para
resolver un problema de Regresión Logística. A partir de un
conjunto de datos de entrada (características), nuestra salida será
discreta (y no continua) por eso utilizamos Regresión Logística (y
no Regresión Lineal). La Regresión Logística es un Algoritmo
Supervisado y se utiliza para clasificación.

Vamos a clasificar problemas con dos posibles estados “SI/NO”:
binario o un número finito de “etiquetas” o “clases”: múltiple.
Algunos Ejemplos de Regresión Logística son:

  * Clasificar si el correo que llega es Spam o No es Spam
  * Dados unos resultados clínicos de un tumor clasificar en “Benigno” o “Maligno”.
  * El texto de un artículo a analizar es: Entretenimiento,Deportes, Política ó Ciencia
  * A partir de historial bancario conceder un crédito o no

Para nuestro ejercicio usaremos un archivo [csv](https://raw.githubusercontent.com/robintux/Datasets4StackOverFlowQuestions/master/usuarios_win_mac_lin.csv) con datos de entrada a modo de
ejemplo para clasificar si el usuario que visita un sitio web usa como
sistema operativo Windows, Macintosh o Linux.
Nuestra información de entrada son 4 características que tomé de
una web que utiliza Google Analytics y son:
1. Duración de la visita en Segundos
2. Cantidad de Páginas Vistas durante la Sesión
3. Cantidad de Acciones del usuario (click, scroll, uso de
checkbox, sliders,etc)
4. Suma del Valor de las acciones (cada acción lleva asociada una
valoración de importancia)

Como la salida es discreta, asignaremos los siguientes valores a las
etiquetas:

> 0 Windows

> 1 Macintosh

> 2 Linux

La muestra es pequeña: son 170 registros para poder comprender el
ejercicio, pero recordemos que para conseguir buenos resultados
siempre es mejor contar con un número abundante de datos que
darán mayor exactitud a las predicciones y evitarán problemas de
overfitting u underfitting. (Por decir algo, de mil a 5 mil registros
no estaría mal).

Identificar Sistema Operativo de los usuarios
Para comenzar hacemos los Import necesarios con los paquetes que
utilizaremos en el Ejercicio.


In [None]:
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import seaborn as sb

Leemos el archivo csv y lo asignamos mediante Pandas a la variable
dataframe. Mediante el método dataframe.head() vemos en
pantalla los 5 primeros registros.

In [None]:
dataframe = pd.read_csv("https://raw.githubusercontent.com/robintux/Datasets4StackOverFlowQuestions/master/usuarios_win_mac_lin.csv")
dataframe.head()

A continuación llamamos al método dataframe.describe() que nos
dará algo de información estadística básica de nuestro set de datos.
La Media, el desvío estándar, valores mínimo y máximo de cada
característica.

In [None]:
dataframe.describe()

Luego analizaremos cuantos resultados tenemos de cada tipo
usando la función groupby 

In [None]:
print(dataframe.groupby('clase').size())

Visualización de Datos Antes de empezar a procesar el conjunto
de datos, vamos a hacer unas visualizaciones que muchas veces nos
pueden ayudar a comprender mejor las características de la
información con la que trabajamos y su correlación.
Primero visualizamos en formato de historial los cuatro Features de
entrada con nombres “duración”, “páginas”,”acciones” y “valor”
podemos ver gráficamente entre qué valores se comprenden sus
mínimos y máximos y en qué intervalos concentran la mayor
densidad de registros.

In [None]:
dataframe.drop(['clase'],1).hist()
plt.show()

Y también podemos interrelacionar las entradas de a pares, para ver
como se concentran linealmente las salidas de usuarios por colores:
Sistema Operativo Windows en azul, Macintosh en verde y Linux
en rojo.

In [None]:
sb.pairplot(dataframe.dropna(), hue='clase',size=4,vars=["duracion", "paginas","acciones","valor"],kind='reg')

Creamos el Modelo de Regresión Logística Ahora cargamos las
variables de las 4 columnas de entrada en X excluyendo la columna
“clase” con el método drop(). En cambio agregamos la columna
“clase” en la variable y. Ejecutamos X.shape para comprobar la
dimensión de nuestra matriz con datos de entrada de 170 registros
por 4 columnas.

In [None]:
X = np.array(dataframe.drop(['clase'],1))
y = np.array(dataframe['clase'])
X.shape

Y creamos nuestro modelo y hacemos que se ajuste (fit) a nuestro
conjunto de entradas X y salidas ‘y’.

In [None]:
model = linear_model.LogisticRegression()
model.fit(X,y)

Una vez compilado nuestro modelo, le hacemos clasificar todo
nuestro conjunto de entradas X utilizando el método “predict(X)” y
revisamos algunas de sus salidas y vemos que coincide con las
salidas reales de nuestro archivo csv.

In [None]:
predictions = model.predict(X)
print(predictions[0:5])

Y confirmamos cuan bueno fue nuestro modelo utilizando
model.score() que nos devuelve la precisión media de las
predicciones : 

---



In [None]:
model.score(X,y)

## Validación de nuestro modelo 

Una buena práctica en Machine
Learning es la de subdividir nuestro conjunto de datos de entrada
en un set de entrenamiento y otro para validar el modelo (que no se
utiliza durante el entrenamiento y por lo tanto la máquina
desconoce). Esto evitará problemas en los que nuestro algoritmo
pueda fallar por “sobregeneralizar” el conocimiento.
Para ello, subdividimos nuestros datos de entrada en forma
aleatoria (mezclados) utilizando 80% de registros para
entrenamiento y 20% para validar.

In [None]:
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, y, test_size=validation_size, random_state=seed)

Volvemos a compilar nuestro modelo de Regresión Logística pero
esta vez sólo con 80% de los datos de entrada y calculamos el
nuevo scoring que ahora nos da 74%.

In [None]:
name='Logistic Regression'
kfold = model_selection.KFold(n_splits=10, random_state=seed)
cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring='accuracy')
msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
print(msg)


Y ahora hacemos las predicciones -en realidad clasificación-
utilizando nuestro “cross validation set”, es decir del subconjunto
que habíamos apartado. 

In [None]:
predictions = model.predict(X_validation)
# aciertos
print(accuracy_score(Y_validation, predictions))

Finalmente vemos en pantalla la “matriz de confusión” donde
muestra cuantos resultados equivocados tuvo de cada clase (los que
no están en la diagonal)

Reporte de Resultados del Modelo

In [None]:
print(confusion_matrix(Y_validation, predictions))

También podemos ver el reporte de clasificación con nuestro
conjunto de Validación. 

In [None]:
print(classification_report(Y_validation, predictions))

En nuestro caso vemos que se utilizaron
como “soporte” 18 registros windows, 6 de mac y 10 de Linux (total
de 34 registros). 

Clasificación (o predicción) de nuevos valores 

Como último
ejercicio, vamos a inventar los datos de entrada de navegación de
un usuario ficticio que tiene estos valores:
Tiempo Duración: 10
Paginas visitadas: 3
Acciones al navegar: 5
Valoración: 9

Lo probamos en nuestro modelo y vemos que lo clasifica como un
usuario tipo 2, es decir, de Linux.

In [None]:
X_new = pd.DataFrame({'duracion': [10], 'paginas': [3],'acciones': [5], 'valor': [9]})
model.predict(X_new)