# Machine Learning con Python
## Scikit Learn  - Regresión Lineal Simple


[Link Video Teoría](https://www.youtube.com/watch?v=wMg1HU6pfnk&list=PLJjOveEiVE4Dk48EI7I-67PEleEC5nxc3&index=17)

[Link Video - Practica](https://www.youtube.com/watch?v=kAfFxwiDvdQ&list=PLJjOveEiVE4Dk48EI7I-67PEleEC5nxc3&index=18)

[Documentación](https://scikit-learn.org/0.21/index.html)

## Importar librerías

In [2]:
# Importar librerías a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets, linear_model

## Cargar Data

In [3]:
#Cargar Dataset
boston = datasets.load_boston()

## Entender la data

In [4]:
# Verificar la información contenida en el dataset:
print(boston.keys())

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])


In [5]:
# Verificar las caracteristicas del dataset
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [6]:
# Verificar la cantidad de datos en el dataset
print("La cantidad de datos es:")
print(boston.data.shape)

La cantidad de datos es:
(506, 13)


In [7]:
# Verificar la información de las columnas:
print("Nombres de columnas:")
print(boston.feature_names)

Nombres de columnas:
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


## Preparar la data para la Regresión Lineal Múltiple


In [8]:
# Seleccionamos las columnas 5 (RM- Numero de habitaciones),6 y 7(Dis - Distancia a los centros de trabajo) del dataset:
X_multiple = boston.data[:, 5:8]
print(X_multiple)

[[ 6.575  65.2     4.09  ]
 [ 6.421  78.9     4.9671]
 [ 7.185  61.1     4.9671]
 ...
 [ 6.976  91.      2.1675]
 [ 6.794  89.3     2.3889]
 [ 6.03   80.8     2.505 ]]


In [9]:
# Defino los datos correspondientes a las etiquetas
y_multiple = boston.target

In [11]:
y_multiple.shape

(506,)

## Implementación de la Regresión Lineal Múltiple

In [13]:
from sklearn.model_selection import train_test_split

#Separo los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X_multiple, y_multiple, test_size = 0.2)

In [15]:
#Defino el algoritmo a utilizar
lr_multiple = linear_model.LinearRegression()

In [16]:
#Entreno el modelo
lr_multiple.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [17]:
#Realizo una predicción
Y_pred_multiple =  lr_multiple.predict(X_test)

## Datos del Modelo de Regresión Lineal Múltiple

In [18]:
print("Valor de la pendiente o coeficientes 'a':")
print()
print(lr_multiple.coef_)

Valor de la pendiente o coeficientes 'a':

[ 8.40400845 -0.10190776 -0.54279773]


In [19]:
print("Valor de la intersección o coeficiente 'b':")
print()
print(lr_multiple.intercept_)
      

Valor de la intersección o coeficiente 'b':

-21.264989168011184


## Cálculo de la precisión del algoritmo

In [None]:
print("Precisión del Modelo:")
print()
print(lr_multiple.score(X_train, y_train))