In [None]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import math

<h1>1. Preprocesamiento</h1>

<h2>1.1 Normalización</h2>

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
df_0 = pd.read_csv('Data\Concrete_Data_Yeh.csv')

df_p = preprocessing.normalize(df_0, axis=0)
df = pd.DataFrame(df_p, columns=df_0.columns)
df.describe()

<h2>1.2 Selección de variables</h2>

<h3>1.2.1 Generación de nuevas variables</h3>

In [None]:
## Generación de realciones

columnas = list(df.drop(columns=['csMPa']).columns)
for i in columnas:
    columnas_2 = [x for x in columnas if x not in i]
    for j in columnas_2:
        nombre_columna = i + '-' + j
        df[nombre_columna] = df[i] / df[j]

## Dejar varibales con valores no indeterminados

df = df[list(df.describe().replace([np.inf, -np.inf], np.nan).iloc[-1].dropna().index)]

## Generación de Exponenciales

columnas = list(df.drop(columns=['csMPa']).columns)

for i in columnas:
    nombre_columna = 'exp_' + i
    df[nombre_columna] = df[i].apply(lambda x: math.exp(x))

<h3>1.2.2 Selección por GA con AIC</h3>

In [None]:
## Definición funcion a optimizar

def aic_criterion(df):
    n_var = len(df.drop(columns=['residuos'
                                 , 'csMPa'
                                 , 'csMPa_est']).columns)
    
    n = len(df)
    
    res = sum(df['residuos'].apply(lambda x: x ** 2))
    
    return((n * (math.log(2 * math.pi) + 1 + math.log(res / (n - n_var - 1)))) + ((n_var + 1) * 2))

In [None]:
## Generar población inicial aleatoria

np.random.seed(1984)

explicativas = list(df.drop(columns=['csMPa']).columns)
df_explicativas = pd.DataFrame(np.random.randint(2,size=(500, len(explicativas))), columns=explicativas)
df_explicativas['aic'] = 200000

y = df['csMPa']
aic_col = pd.Series([])

for i in range(len(df_explicativas)):
    X = df[list(df_explicativas.iloc[i][df_explicativas.iloc[i] == 1].index)]
    X_val, X_other, y_val, y_other = train_test_split(X, y, test_size=0.80, random_state=42, shuffle=False)
    X_train, X_test, y_train, y_test = train_test_split(X_other, y_other, test_size=0.40, shuffle=False)

    del X_other
    del y_other
    
    reg = LinearRegression().fit(X_train, y_train)
    y_val_est = pd.Series(reg.predict(X_val))
    
    df_val = pd.concat([X_val, y_val,y_val_est], axis=1).rename(columns={0 : 'csMPa_est'})
    df_val['residuos'] = df_val['csMPa'] - df_val['csMPa_est']
    
    df_explicativas['aic'].iloc[i] = aic_criterion(df_val)

In [None]:
## Generar operadores de cruce y mutacion

def cruce(cromosoma_0, cromosoma_1, tipo_cruce):
    
    rng = np.random.default_rng()
    largo_cromosoma = len(cromosoma_0)
    rango_cromosoma = range(largo_cromosoma)
    
    if tipo_cruce == 'punto unico':
        
        punto = rng.choice(rango_cromosoma, size=1, replace=False)[0]
        
        descendencia_0 = np.concatenate((cromosoma_0[:punto], cromosoma_1[punto:]), axis = 0)
        descendencia_1 = np.concatenate((cromosoma_1[:punto], cromosoma_0[punto:]), axis = 0)
        
        return(descendencia_0, descendencia_1)
    
    elif tipo_cruce == 'dos puntos':
        
        puntos = rng.choice(rango_cromosoma, size=2, replace=False)
        punto_0 = min(puntos[0], puntos[1])
        punto_1 = max(puntos[0], puntos[1])
        
        descendencia_0 = np.concatenate((cromosoma_0[:punto_0]
                                         , cromosoma_1[punto_0:punto_1]
                                         , cromosoma_0[punto_1:]), axis = 0)
        descendencia_1 = np.concatenate((cromosoma_1[:punto_0]
                                         , cromosoma_0[punto_0:punto_1]
                                         , cromosoma_1[punto_1:]), axis = 0)
        
        return(descendencia_0, descendencia_1)
    
    elif tipo_cruce == 'uniforme':

        padre_0 = np.random.randint(2,size=(len(cromosoma_0), 1))
        padre_1 = (padre_0 - 1) * (- 1)
        
        descendencia_0 = [(padre_0[i] * cromosoma_0[i])[0] + (padre_1[i] * cromosoma_1[i])[0] for i in range(len(cromosoma_0))]
        descendencia_1 = [(padre_0[i] * cromosoma_1[i])[0] + (padre_1[i] * cromosoma_0[i])[0] for i in range(len(cromosoma_0))]
        
        return(descendencia_0, descendencia_1)

    
    
def mutacion(cromosoma_0, tipo_dato):
    
    largo_cromosoma = len(cromosoma_0)
    rango_cromosoma = range(largo_cromosoma)
    
    if tipo_dato == 'binario':
        gen_mutacion = rng.choice(rango_cromosoma, size=1, replace=False)[0]
        
        if cromosoma_0[gen_mutacion] == 1:
            nuevo_gen = 0
        else:
            nuevo_gen = 1
        
        cromosoma_0 = np.concatenate((cromosoma_0[:gen_mutacion]
                                      ,np.array([nuevo_gen])
                                      ,cromosoma_0[gen_mutacion+1:]), axis = 0)
        return(cromosoma_0)

In [None]:
## Generar funciones de seleccion

def seleccion(df, factor_seleccion, tipo_seleccion, tamano_elitismo):
    
    df['dummy'] = 0
    df['seleccionado'] = 0
    
    if tipo_seleccion == 'ruleta':
        if tamano_elitismo > 0:
            
            max_aic = max(df['aic'])
            df['aic_escalado'] = (df['aic'] - max_aic - 1) * (-1)
            
            total_aic_esc = sum(df['aic_escalado'])
            df['prob'] = df['aic_escalado'] / total_aic_esc
            df['prob_acum'] = df.groupby(['dummy'])['prob'].cumsum()
            df['prob_acum_lag'] = df['prob_acum'].shift(1).fillna(0)
            
            i = 0
            
            while (sum(df['seleccionado']) / len(df)) < factor_seleccion:
                
                rand = np.random.uniform(0, 1)
                df['seleccionado'] =  df.apply(lambda x: 1 if x.prob_acum_lag < rand <= x.prob_acum else 0, axis = 1)
                print(rand, sum(df['seleccionado']) / len(df))
        else:
            print('bad')
    elif tipo_seleccion == 'torneo':
        if tamano_elitismo > 0:
            print('bad')
        else:
            print('bad')       

    df = df.drop(columns=['dummy'])
    
    return(df)