- Limpieza automatizada de datos; identificar los valores y / o filas no válidas y resolver automáticamente el problema, sea él NaN, falta de datos, valores atípicos, valores poco fiables, fuera del rango. Tu grupo debe pensar que solución quiere dar a cada situación e implementarla.
DataCleaning(dataframe)
El parámeto de entrada del método es un dataframe. Como salida nos devolverá un nuevo dataframe.
- Creación automática de ratio y selección de los mejores ratios utilizando Principal Component Analysis y árbol de decisión. Mediante combinaciones de variables X y Y de la siguiente forma:
- (X-Y)/Y
- X+Y
- X*Y
- X/Y
- X-Y
- X^2
Ratios_PCA_DT(dataframe, 'nombre_col_target')
Los parámetros de entrada del método son un dataframe y el nombre de la columna target. Como salida nos devolverá un nuevo dataframe con los ratios generados y seleccionados.
- Utilizar Algoritmo Genético para estimar los parámetros de la regresión en una Regresión Logística
GeneticLogisticRegression(dataframe, 'nombre_col_target')
Los parámetros de entrada del método son un dataframe y el nombre de la columna target. Como salida nos devolverá una lista con los parámetros de la regresión logística.
Para Python 2.x y Python 3.x respectivamente:
pip install idmbd
pip3 install idmbd