## Introducción a la regresión lineal

En esta notebook estaremos viendo qué es una regresión lineal y cómo funciona con un ejemplo en Python. Para esto lo primero que tendremos que hacer es descargar los datos y entender qué contienen.

El conjunto de datos puede ser encontrado aquí: https://www.kaggle.com/datasets/vikrishnan/boston-house-prices?resource=download

## Importando los datos

In [1]:
import pandas as pd

In [6]:
df = pd.read_csv("housing.csv", header=None, sep="\s+")
df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df.head(2)

  df = pd.read_csv("housing.csv", header=None, sep="\s+")


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6


## Detalles del conjunto de datos:

Una explicación más detallada de cada columna en el conjunto de datos Boston Housing:

1. **CRIM (Tasa de criminalidad per cápita por ciudad):** Esta columna indica la tasa de criminalidad per cápita en la ciudad correspondiente. Mide la cantidad de delitos cometidos por habitante en una determinada área.

2. **ZN (Proporción de terreno residencial zonificado para lotes de más de 25,000 pies cuadrados):** Esta columna representa la proporción de terreno residencial en la ciudad que está zonificado para lotes grandes, es decir, lotes de más de 25,000 pies cuadrados. Proporciona información sobre la distribución del uso del suelo en la zona.

3. **INDUS (Proporción de acres de negocios no minoristas por ciudad):** Indica la proporción de acres de tierra en la ciudad dedicada a negocios no minoristas, como fábricas, almacenes, etc. Es una medida de la industrialización de la zona.

4. **CHAS (Variable ficticia del río Charles):** Es una variable ficticia que toma el valor 1 si el terreno de la ciudad colinda con el río Charles y 0 en caso contrario. Puede considerarse como una característica binaria que indica la proximidad a un cuerpo de agua.

5. **NOX (Concentración de óxidos nítricos):** Representa la concentración de óxidos nítricos (contaminantes del aire) en partes por 10 millones en la ciudad. Proporciona información sobre la calidad del aire en la zona.

6. **RM (Número medio de habitaciones por vivienda):** Indica el número promedio de habitaciones por vivienda en la ciudad. Es una medida de la tamaño promedio de las viviendas en la zona.

7. **AGE (Proporción de unidades ocupadas por sus propietarios construidas antes de 1940):** Esta columna representa la proporción de unidades de vivienda ocupadas por sus propietarios que fueron construidas antes de 1940. Proporciona información sobre la antigüedad de las viviendas en la zona.

8. **DIS (Distancias ponderadas a cinco centros de empleo de Boston):** Indica las distancias ponderadas a cinco centros de empleo en Boston. Es una medida de la accesibilidad a empleo en la zona.

9. **RAD (Índice de accesibilidad a carreteras radiales):** Este índice indica la accesibilidad a carreteras radiales principales en la ciudad. Cuanto mayor es el valor, mayor es la accesibilidad.

10. **TAX (Tasa de impuesto a la propiedad):** Representa la tasa de impuesto a la propiedad de valor total por cada $10,000 en la ciudad. Es una medida de la carga impositiva en la zona.

11. **PTRATIO (Proporción alumno-maestro por ciudad):** Indica la proporción de alumnos por maestro en las escuelas de la ciudad. Es una medida de la calidad del sistema educativo en la zona.

12. **B (1000(Bk - 0.63)^2 donde Bk es la proporción de negros por ciudad):** Esta columna está relacionada con la proporción de población negra por ciudad. La fórmula especificada ajusta esta proporción para fines de análisis estadístico.

13. **LSTAT (Porcentaje de población de estatus bajo):** Indica el porcentaje de población de estatus socioeconómico bajo en la ciudad. Es una medida de la desigualdad económica en la zona.

14. **MEDV (Valor mediano de las viviendas ocupadas por sus propietarios en miles de dólares):** Esta columna representa el valor mediano de las viviendas ocupadas por sus propietarios en miles de dólares en la ciudad. Es la variable objetivo que se intenta predecir en los modelos de regresión.