# Feature Engineering en SQL

A continuación, veremos cómo calcular diferentes variables para el feature engineering utilizando SQL.


In [5]:
'''
%pip install duckdb
%pip install jupysql
%pip install duckdb-engine
'''

'\n%pip install duckdb\n%pip install jupysql\n%pip install duckdb-engine\n'

In [6]:
import duckdb
import pandas as pd

%load_ext sql
%config SqlMagic.autopandas = True
%config SqlMagic.feedback = False
%config SqlMagic.displaycon = False

%sql duckdb:///

In [7]:
dataset_path = '/Users/ignacio/MAESTRIA/DMEF/datasets/'
dataset_file = 'competencia_01.csv'

In [8]:
%%sql
create or replace table competencia_01 as
select
    *
from read_csv_auto("{{dataset_path + dataset_file}}")

Unnamed: 0,Success


In [9]:
%%sql
select
    Master_Fvencimiento
    , Visa_Fvencimiento
    , greatest(Master_Fvencimiento, Visa_Fvencimiento) as tc_fvencimiento_mayor
    , least(Master_Fvencimiento, Visa_Fvencimiento) as tc_fvencimiento_menor
from competencia_01 limit 10

Unnamed: 0,Master_Fvencimiento,Visa_Fvencimiento,tc_fvencimiento_mayor,tc_fvencimiento_menor
0,-790,-274,-274,-790
1,-760,-244,-244,-760
2,-729,-213,-213,-729
3,-699,-183,-183,-699
4,-1519,-1884,-1519,-1884
5,-1491,-1856,-1491,-1856
6,-1460,-1825,-1460,-1825
7,-1430,-1795,-1430,-1795
8,-1399,-1764,-1399,-1764
9,-1369,-1734,-1369,-1734


Lo siguiente es querer operar dos variables, como por ejemplo sumarla. Esto es sencillo


In [10]:
%%sql
select
    Master_msaldototal
    , Visa_msaldototal
    , Master_msaldototal + Visa_msaldototal as tc_saldo_total
from competencia_01 limit 10

Unnamed: 0,Master_msaldototal,Visa_msaldototal,tc_saldo_total
0,-730.19,47421.7,46691.51
1,-730.19,19120.41,18390.22
2,-730.19,23373.14,22642.95
3,-730.19,28981.04,28250.85
4,0.0,14490.89,14490.89
5,0.0,17883.06,17883.06
6,0.0,11248.77,11248.77
7,0.0,10646.89,10646.89
8,0.0,8687.53,8687.53
9,0.0,14034.6,14034.6


Pero un DS de a de veras mirará los datos y se encontrará con un campo que es null cuando se lo suma a otro dará null.

In [11]:
%%sql
select
    Master_msaldototal
    , Visa_msaldototal
    , Master_msaldototal + Visa_msaldototal as tc_saldo_total
from competencia_01 where Master_msaldototal is null limit 10

Unnamed: 0,Master_msaldototal,Visa_msaldototal,tc_saldo_total
0,,,
1,,,
2,,,
3,,,
4,,,
5,,,
6,,12185.94,
7,,620.3,
8,,11637.78,
9,,16336.36,


Esto no siempre es deseable y puede ser fácilmente evitable

In [12]:
%%sql
select
    Master_msaldototal
    , Visa_msaldototal
    , ifnull(Master_msaldototal, 0) + ifnull(Visa_msaldototal, 0) as tc_saldo_total
from competencia_01 limit 10

Unnamed: 0,Master_msaldototal,Visa_msaldototal,tc_saldo_total
0,-730.19,47421.7,46691.51
1,-730.19,19120.41,18390.22
2,-730.19,23373.14,22642.95
3,-730.19,28981.04,28250.85
4,0.0,14490.89,14490.89
5,0.0,17883.06,17883.06
6,0.0,11248.77,11248.77
7,0.0,10646.89,10646.89
8,0.0,8687.53,8687.53
9,0.0,14034.6,14034.6


In [13]:
%%sql
CREATE OR REPLACE MACRO suma_sin_null(a, b) AS ifnull(a, 0) + ifnull(b, 0);


Unnamed: 0,Success


In [14]:
%%sql
select distinct
    Master_msaldototal
    , Visa_msaldototal
    , suma_sin_null(Master_msaldototal, Visa_msaldototal) as tc_saldo_total
from competencia_01 where Master_msaldototal is null limit 10


Unnamed: 0,Master_msaldototal,Visa_msaldototal,tc_saldo_total
0,,-2686.5,-2686.5
1,,212979.94,212979.94
2,,17575.71,17575.71
3,,10621.88,10621.88
4,,9228.33,9228.33
5,,15198.52,15198.52
6,,17887.56,17887.56
7,,12101.0,12101.0
8,,58092.39,58092.39
9,,18539.09,18539.09


TAREA: Escriba una macro para hacer un ratio de dos variables que sea seguro, donde no solo hay campos con null, también esta el problema de la división por cero. Como es costumbre comparta su solución por este canal. Lea https://duckdb.org/docs/sql/functions/numeric.html para referencias de funciones que puede usar.

---

"Claro!" me dirá, mientras lee esto con un mate en la mano, "para cosas fáciles usar SQL alcanza, pero para algo más complicado como crear campos contra el data drifting es difícil".... elija su medicina:

In [15]:
%%sql
select
    foto_mes
    , numero_de_cliente
    , cliente_antiguedad
    , row_number() over (partition by numero_de_cliente order by foto_mes) as cliente_antiguedad_2
    , percent_rank() over (partition by foto_mes order by cliente_antiguedad) as cliente_antiguedad_3
    , cume_dist() over (partition by foto_mes order by cliente_antiguedad) as cliente_antiguedad_4
    , ntile(4) over (partition by foto_mes order by cliente_antiguedad) as cliente_antiguedad_5
    , ntile(10) over (partition by foto_mes order by cliente_antiguedad) as cliente_antiguedad_6
from competencia_01
order by numero_de_cliente, cliente_antiguedad


Unnamed: 0,foto_mes,numero_de_cliente,cliente_antiguedad,cliente_antiguedad_2,cliente_antiguedad_3,cliente_antiguedad_4,cliente_antiguedad_5,cliente_antiguedad_6
0,202101,249221109,300,1,0.947564,0.947947,4,10
1,202102,249221109,301,2,0.947831,0.948213,4,10
2,202103,249221109,302,3,0.948291,0.948670,4,10
3,202104,249221109,303,4,0.948638,0.949016,4,10
4,202105,249221109,304,5,0.948950,0.949327,4,10
...,...,...,...,...,...,...,...,...
981941,202106,1598444941,1,1,0.000000,0.001553,1,1
981942,202106,1598471047,1,1,0.000000,0.001553,1,1
981943,202106,1598515897,1,1,0.000000,0.001553,1,1
981944,202106,1598517059,1,1,0.000000,0.001553,1,1


Qué paso? use las hermosas funciones analíticas de SQL. Al campo cliente_antiguedad (que no sufre de data drifting, solo esta para dar el ejemplo) para cada período (partition by foto_mes) la ordeno (order by cliente_antiguedad) y luego calculo las métricas de orden que pueden encontrar acá https://duckdb.org/docs/sql/window_functions.html#general-purpose-window-functions.

Seguiremos usando las funciones analíticas de SQL, esta vez para calcular features que utilizan valores del pasado.

Qué pasa si quiero agregar un feature que muestre el valor del periodo anterior?


In [16]:
%%sql
select
  numero_de_cliente
  , foto_mes
  , ctrx_quarter
  , lag(ctrx_quarter, 1) over (partition by numero_de_cliente order by foto_mes) as lag_1_ctrx_quarter
from competencia_01
limit 10


Unnamed: 0,numero_de_cliente,foto_mes,ctrx_quarter,lag_1_ctrx_quarter
0,249223005,202101,182,
1,249223005,202102,208,182.0
2,249223005,202103,201,208.0
3,249223005,202104,194,201.0
4,249223005,202105,171,194.0
5,249223005,202106,172,171.0
6,249237079,202101,141,
7,249237079,202102,149,141.0
8,249237079,202103,153,149.0
9,249237079,202104,160,153.0


Podemos calcular el delta (diferencia) entre el valor pasado y el presente, para uno o varios meses


In [17]:
%%sql
select
  numero_de_cliente
  , foto_mes
  , ctrx_quarter
  , lag(ctrx_quarter, 1) over (partition by numero_de_cliente order by foto_mes) as lag_1_ctrx_quarter
  , ctrx_quarter - lag_1_ctrx_quarter as delta_1_ctrx_quarter
  , ctrx_quarter - lag(ctrx_quarter, 2) over (partition by numero_de_cliente order by foto_mes) as lag_2_ctrx_quarter
from competencia_01
limit 10


Unnamed: 0,numero_de_cliente,foto_mes,ctrx_quarter,lag_1_ctrx_quarter,delta_1_ctrx_quarter,lag_2_ctrx_quarter
0,650076823,202105,94,97.0,-3.0,-16.0
1,650076823,202106,97,94.0,3.0,0.0
2,650103655,202101,96,,,
3,650103655,202102,100,96.0,4.0,
4,650103655,202103,103,100.0,3.0,7.0
5,650103655,202104,102,103.0,-1.0,2.0
6,650103655,202105,97,102.0,-5.0,-6.0
7,650103655,202106,99,97.0,2.0,-3.0
8,650144424,202101,43,,,
9,650144424,202102,43,43.0,0.0,


Si necesitamos ya no solo traer un valor del pasado, sino una secuencia de valores, por ejemplo para calcular la media móvil con los últimos 3 meses anteriores? se puede hacer fácilmente


In [18]:
%%sql
select
  numero_de_cliente
  , foto_mes
  , ctrx_quarter
  , lag(ctrx_quarter, 1) over (partition by numero_de_cliente order by foto_mes) as lag_1_ctrx_quarter
  , lag(ctrx_quarter, 2) over (partition by numero_de_cliente order by foto_mes) as lag_2_ctrx_quarter
  , lag(ctrx_quarter, 3) over (partition by numero_de_cliente order by foto_mes) as lag_3_ctrx_quarter
  , avg(ctrx_quarter) over (partition by numero_de_cliente
                            order by foto_mes
                            rows between 3 preceding and current row) as avg_3_ctrx_quarter
from competencia_01
order by numero_de_cliente, foto_mes desc
limit 10


Unnamed: 0,numero_de_cliente,foto_mes,ctrx_quarter,lag_1_ctrx_quarter,lag_2_ctrx_quarter,lag_3_ctrx_quarter,avg_3_ctrx_quarter
0,249221109,202106,199,199.0,188.0,174.0,190.0
1,249221109,202105,199,188.0,174.0,161.0,180.5
2,249221109,202104,188,174.0,161.0,166.0,172.25
3,249221109,202103,174,161.0,166.0,,167.0
4,249221109,202102,161,166.0,,,163.5
5,249221109,202101,166,,,,166.0
6,249221468,202106,191,182.0,182.0,170.0,181.25
7,249221468,202105,182,182.0,170.0,154.0,172.0
8,249221468,202104,182,170.0,154.0,145.0,162.75
9,249221468,202103,170,154.0,145.0,,156.333333


Si embargo puede resultar incómodo escribir constantemente el over partition sobre todo si se buscan aplicar muchas veces para distintas funciones. Para reducir el código se puede usar la siguiente sintaxis



In [19]:
%%sql
select
  numero_de_cliente
  , foto_mes
  , ctrx_quarter
  , avg(ctrx_quarter) over ventana_3 as ctrx_quarter_media_3
  , max(ctrx_quarter) over ventana_3 as ctrx_quarter_max_3
  , min(ctrx_quarter) over ventana_3 as ctrx_quarter_min_3
from competencia_01
window ventana_3 as (partition by numero_de_cliente order by foto_mes rows between 3 preceding and current row)
limit 10


Unnamed: 0,numero_de_cliente,foto_mes,ctrx_quarter,ctrx_quarter_media_3,ctrx_quarter_max_3,ctrx_quarter_min_3
0,249312997,202101,22,22.0,22,22
1,249312997,202102,26,24.0,26,22
2,249312997,202103,23,23.666667,26,22
3,249312997,202104,24,23.75,26,22
4,249312997,202105,22,23.75,26,22
5,249312997,202106,24,23.25,24,22
6,249427199,202101,238,238.0,238,238
7,249427199,202102,230,234.0,238,230
8,249427199,202103,222,230.0,238,222
9,249427199,202104,228,229.5,238,222


Para saber más que funciones tenemos disponibles, recomiendo ver los siguientes links:

https://duckdb.org/docs/archive/0.8.1/sql/window_functions
https://duckdb.org/docs/archive/0.8.1/sql/aggregates
Un caso más, que ni me voy a molestar en explicar que significa...


In [20]:
%%sql
select
  numero_de_cliente
  , foto_mes
  , ctrx_quarter
  ,regr_slope(ctrx_quarter, cliente_antiguedad) over ventana_3 as ctrx_quarter_slope_3
from competencia_01
window ventana_3 as (partition by numero_de_cliente order by foto_mes rows between 3 preceding and current row)
limit 10


Unnamed: 0,numero_de_cliente,foto_mes,ctrx_quarter,ctrx_quarter_slope_3
0,681729502,202102,59,1.0
1,681729502,202103,52,-3.0
2,681729502,202104,52,-2.5
3,681729502,202105,48,-3.3
4,681729502,202106,48,-1.6
5,681821534,202101,72,
6,681821534,202102,80,8.0
7,681821534,202103,98,13.0
8,681821534,202104,100,10.2
9,681821534,202105,86,2.0


... Alguno dirá "tenemos que escribir todo esto a mano? Son muchas variables!". Bueno no, use los conocimientos de programación para que la computadora trabaje para usted. Si tenemos una lista de campos


In [21]:
campos = ['active_quarter', 'cliente_vip', 'internet', 'cliente_edad', 'cliente_antiguedad', 'mrentabilidad']


Podemos hacer un script muy sencillo que nos genere el texto que hay que poner en una query para generar esas variables


In [22]:
nuevos_features = ""
for campo in campos:
  nuevos_features += f"\n, regr_slope({campo}, cliente_antiguedad) over ventana_3 as ctrx_{campo}_slope_3"
print(nuevos_features)



, regr_slope(active_quarter, cliente_antiguedad) over ventana_3 as ctrx_active_quarter_slope_3
, regr_slope(cliente_vip, cliente_antiguedad) over ventana_3 as ctrx_cliente_vip_slope_3
, regr_slope(internet, cliente_antiguedad) over ventana_3 as ctrx_internet_slope_3
, regr_slope(cliente_edad, cliente_antiguedad) over ventana_3 as ctrx_cliente_edad_slope_3
, regr_slope(cliente_antiguedad, cliente_antiguedad) over ventana_3 as ctrx_cliente_antiguedad_slope_3
, regr_slope(mrentabilidad, cliente_antiguedad) over ventana_3 as ctrx_mrentabilidad_slope_3





Con la salida de esa celda, arme la query agregando las nuevas líneas y la ejecuta.

Lo que acabamos de hacer de manera muy simple es como "funcionan" sistemas como **dbt** que están tan de moda en el mundo de los datos.

La última reflexión, la creación de nuevas features es un proceso computacionalmente rápido pero intenso. Si ejecutó lo anterior pudo haber visto que en poco minutos tenía sus nuevas variables. Pero, también pudo haberle fallado por temas de recursos. Miles de variables necesitan los recursos adecuados. Use la nube, una máquina grande, al menos que sepa bien como optimizar las queries.


Y a no olvidarse guardar las nueva tabla

In [23]:
%%sql
COPY competencia_01 TO '{dataset_path}competencia_01_fe.csv' (FORMAT CSV, HEADER TRUE);


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

Unnamed: 0,Success
