In [12]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

def remove_irrelevant_variables(data, target_variable, significance_level=0.05):
    """
    Elimina las variables no relevantes para un modelo de regresión lineal
    basándose en el p-valor.

    Parámetros:
    - data: DataFrame de pandas con los datos.
    - target_variable: La columna objetivo (variable dependiente).
    - significance_level: El nivel de significancia para considerar una variable
      como relevante. Por defecto es 0.05.

    Retorna:
    - DataFrame: DataFrame con las variables relevantes.
    """
    # Separar las variables independientes y dependientes
    X = data.drop(columns=[target_variable])
    y = data[target_variable]

    # Añadir una constante al modelo (intercepto)
    X = sm.add_constant(X)

    # Construir el modelo de regresión lineal
    model = sm.OLS(y, X).fit()

    # Obtener los p-valores de las variables
    p_values = model.pvalues

    # Filtrar las variables con p-valores menores que el nivel de significancia
    relevant_variables = p_values[p_values < significance_level].index

    # Excluir la constante si está presente
    if 'const' in relevant_variables:
        relevant_variables = relevant_variables.drop('const')

    # Retornar el DataFrame con solo las variables relevantes
    return data[relevant_variables.tolist() + [target_variable]]

# Ejemplo de uso
data = pd.read_csv('boston_clear.txt')

df = pd.DataFrame(data)

# Eliminar variables no relevantes
df_relevant = remove_irrelevant_variables(df, target_variable='MEDV')

print("Variables relevantes:")
print(df_relevant)


Variables relevantes:
        CRIM    ZN  CHAS    NOX     RM     DIS  RAD    TAX  PTRATIO       B  \
0    0.00632  18.0     0  0.538  6.575  4.0900    1  296.0     15.3  396.90   
1    0.02731   0.0     0  0.469  6.421  4.9671    2  242.0     17.8  396.90   
2    0.02729   0.0     0  0.469  7.185  4.9671    2  242.0     17.8  392.83   
3    0.03237   0.0     0  0.458  6.998  6.0622    3  222.0     18.7  394.63   
4    0.06905   0.0     0  0.458  7.147  6.0622    3  222.0     18.7  396.90   
..       ...   ...   ...    ...    ...     ...  ...    ...      ...     ...   
501  0.06263   0.0     0  0.573  6.593  2.4786    1  273.0     21.0  391.99   
502  0.04527   0.0     0  0.573  6.120  2.2875    1  273.0     21.0  396.90   
503  0.06076   0.0     0  0.573  6.976  2.1675    1  273.0     21.0  396.90   
504  0.10959   0.0     0  0.573  6.794  2.3889    1  273.0     21.0  393.45   
505  0.04741   0.0     0  0.573  6.030  2.5050    1  273.0     21.0  396.90   

     LSTAT  MEDV  
0     4.98