In [3]:
import pandas as pd
from scipy.stats import pearsonr

In [12]:
def get_features_num_regresion(dataframe, target_col, umbral_corr, pvalue= None):

    '''
    La funcion get_features_num_regresion devuelve las features para la creacion de un modelo de machine learning.

    Estas features deben ser variables numericas y disponer de una correlacón y significacion estadistica significativa con el target, definidos previamente por el usuario.
    La significacion estadistica es nula por defecto.

    Argumentos:

    .-dataframe(pandas.core.frame.DataFrame) -> un dataframe pandas sobre el que realizar el estudio
    .-target_col(str) -> la columna seleccionada como target para nuestro modelo
    .-umbral_corr(float) -> la correlacion minima exigida a una variable con el target para ser designado como feature. Debe estar comprendido entre 0 y 1
    .-pvalue(float) -> la significacion estadistica Pearson maxima exigida a una variable para ser designada como feature (generalmente 0.005). None por defecto

    Retorna:

    Lista con las columnas designadas como features para el modelo.
    Tipo lista compuesto por cadenas de texto.
    '''

    cardinalidad = dataframe[target_col].nunique() / len(dataframe[target_col])

    if (umbral_corr < 0) or (umbral_corr > 1):

        print('Variable umbral_corr incorrecto.')
        return None

    elif dataframe[target_col].dtype not in ['int8', 'int16', 'int32','int64', 'float16', 'float32', 'float64']:

        print('La columna seleccionada como target debe ser numerica.')
        return None
    
    elif cardinalidad < 0: # este no se si ponerlo

        print('Tu variable target tiene una cardinalidad muy baja para ser target.')
        return None
    
    lista_numericas = []
    for column in dataframe.columns:
        
        if dataframe[column].dtypes in ['int8', 'int16', 'int32','int64', 'float16', 'float32', 'float64']:
            lista_numericas.append(column)

    lista_numericas.remove(target_col)
    lista_features = []
    for columna in lista_numericas:

        no_nulos = dataframe.dropna(subset= [target_col, columna])
        corr, pearson = pearsonr(no_nulos[target_col], no_nulos[columna])

        if pvalue != None:
            if (abs(corr) >= umbral_corr) and (pearson <= pvalue):
                lista_features.append(columna)
        else:
            if abs(corr) >= umbral_corr:
                lista_features.append(columna)
    
    return lista_features

In [6]:
df_titanic = pd.read_csv('titanic.csv')
df_california = pd.read_csv('california_cities.csv')
df_pokemon = pd.read_csv('pokemon.csv')

In [7]:
get_features_num_regresion(df_california, 'population_total', 0.6)

['area_total_sq_mi', 'area_land_sq_mi', 'area_total_km2', 'area_land_km2']

In [11]:
get_features_num_regresion(df_pokemon, 'attack', 0.2)

['against_fairy',
 'base_egg_steps',
 'base_happiness',
 'base_total',
 'defense',
 'experience_growth',
 'height_m',
 'hp',
 'sp_attack',
 'sp_defense',
 'speed',
 'weight_kg',
 'is_legendary']