## Pregunta 1: ¿Qué características influyen más en el valor de una casa?

### Pasos:
1. Preprocesar los datos (manejar valores faltantes y variables categóricas).
2. Entrenar un modelo de regresión lineal.
3. Revisar los coeficientes del modelo para identificar las variables más influyentes.

In [9]:
# Importar librerías necesarias
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [10]:
# Cargar el dataset
file_path = 'housing.csv'
housing_data = pd.read_csv(file_path)

In [11]:
# Imputar valores faltantes en 'total_bedrooms' con la media
imputer = SimpleImputer(strategy='mean')
housing_data['total_bedrooms'] = imputer.fit_transform(housing_data[['total_bedrooms']])

In [12]:
# Codificar la variable categórica 'ocean_proximity' usando OneHotEncoding
encoder = OneHotEncoder(drop='first')
ocean_proximity_encoded = encoder.fit_transform(housing_data[['ocean_proximity']]).toarray()
ocean_proximity_df = pd.DataFrame(ocean_proximity_encoded, columns=encoder.get_feature_names_out(['ocean_proximity']))

In [13]:
# Unir la columna codificada a los datos originales
housing_data_encoded = pd.concat([housing_data.drop('ocean_proximity', axis=1), ocean_proximity_df], axis=1)

In [14]:
# Separar variables independientes y dependientes
X = housing_data_encoded.drop('median_house_value', axis=1)
y = housing_data_encoded['median_house_value']

In [15]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [16]:
# Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

In [17]:
# Extraer los coeficientes del modelo para analizar la influencia de las características
coefficients = pd.Series(model.coef_, index=X.columns)
coefficients = coefficients.sort_values(ascending=False)

print("Las características que más influyen en el valor de una casa son:")
for feature, coef in coefficients.items():
  if coef > 0:
    print(f"- {feature}: {coef} (Un valor más alto de {feature} se asocia con un valor de casa más alto)")
  else:
    print(f"- {feature}: {coef} (Un valor más alto de {feature} se asocia con un valor de casa más bajo)")

Las características que más influyen en el valor de una casa son:
- ocean_proximity_ISLAND: 136125.0726154177 (Un valor más alto de ocean_proximity_ISLAND se asocia con un valor de casa más alto)
- median_income: 39473.97517531756 (Un valor más alto de median_income se asocia con un valor de casa más alto)
- ocean_proximity_NEAR OCEAN: 3431.140073154216 (Un valor más alto de ocean_proximity_NEAR OCEAN se asocia con un valor de casa más alto)
- housing_median_age: 1102.185083971667 (Un valor más alto de housing_median_age se asocia con un valor de casa más alto)
- total_bedrooms: 102.78939539109251 (Un valor más alto de total_bedrooms se asocia con un valor de casa más alto)
- households: 48.252752786974725 (Un valor más alto de households se asocia con un valor de casa más alto)
- total_rooms: -6.021505665532459 (Un valor más alto de total_rooms se asocia con un valor de casa más bajo)
- population: -38.172906426199916 (Un valor más alto de population se asocia con un valor de casa más

## Pregunta 2: ¿Cuál es la precisión del algoritmo generado?

### Pasos:
1. Predecir los valores en el conjunto de prueba.
2. Evaluar la precisión del modelo utilizando el puntaje R².

In [6]:
# Evaluar la precisión del modelo con el puntaje R²
r2_score = model.score(X_test, y_test)

print(f"El R² del modelo es: {r2_score}")
print("El R² representa la proporción de la varianza en la variable dependiente que es predecible a partir de las variables independientes.")
print("Un valor de R² cercano a 1 indica un buen ajuste del modelo a los datos.")

El R² del modelo es: 0.6257351821159713
El R² representa la proporción de la varianza en la variable dependiente que es predecible a partir de las variables independientes.
Un valor de R² cercano a 1 indica un buen ajuste del modelo a los datos.


## Pregunta 3: Métricas de evaluación del algoritmo

### Pasos:
1. Calcular el error absoluto medio (MAE), error cuadrático medio (MSE), la raíz del error cuadrático medio (RMSE) y el puntaje R².
2. Interpretar los resultados.

**Interpretación:**
- **MAE**: Promedio de los errores absolutos.
- **MSE**: Penaliza más los errores grandes que los pequeños.
- **RMSE**: Raíz cuadrada del MSE, más interpretable en el contexto del problema.
- **R²**: Proporción de la varianza explicada por el modelo.

In [8]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# Predecir los valores del conjunto de prueba
y_pred = model.predict(X_test)

# Calcular MAE, MSE, RMSE, y R²
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = model.score(X_test, y_test)

print(f"MAE: {mae} (Error absoluto medio: indica el promedio de los errores absolutos entre las predicciones y los valores reales)")
print(f"MSE: {mse} (Error cuadrático medio: indica el promedio de los errores cuadráticos)")
print(f"RMSE: {rmse} (Raíz del error cuadrático medio: similar al MSE pero en las mismas unidades que la variable objetivo)")
print(f"R²: {r2} (Coeficiente de determinación: indica la proporción de la varianza en la variable dependiente que se explica por el modelo)")

MAE: 50701.77903133031 (Error absoluto medio: indica el promedio de los errores absolutos entre las predicciones y los valores reales)
MSE: 4904399775.949265 (Error cuadrático medio: indica el promedio de los errores cuadráticos)
RMSE: 70031.41991955657 (Raíz del error cuadrático medio: similar al MSE pero en las mismas unidades que la variable objetivo)
R²: 0.6257351821159713 (Coeficiente de determinación: indica la proporción de la varianza en la variable dependiente que se explica por el modelo)
