# Crear Target

## Ejercicio 1:
Cree el archivo `competencia_01.csv`, usando el `competencia_01_crudo.csv` con una variable adicional llamada `clase_ternaria`, que contenga las categorías **CONTINUA**, **BAJA+1** y **BAJA+2** 

### Ayudita 

Para practicar el muy útil y necesario lenguaje **SQL**, vamos a utilizar una base de datos **OLAP** llamada **DuckDB**. 

La documentación la puede encontrar [aquí](https://duckdb.org/docs/archive/0.8.1/sql/introduction)
Procedemos a instalarla, esto se debe ejecutar una sola vez

In [2]:
%%bash 
pip install duckdb
pip install jupysql
pip install duckdb-engine



Configuramos el entorno de ejecución. Si ya tiene todo instalado, solo necesita ejecutar esta celda para empezar a usar **duckdb** 

In [3]:
import duckdb
import pandas as pd

%load_ext sql
%config SqlMagic.autopandas = True
%config SqlMagic.feedback = False
%config SqlMagic.displaycon = False

%sql duckdb:///:default:

Y ya podemos usar **SQL** dentro de una notebook!

In [4]:
%%sql
select 'hola mundo' 

Unnamed: 0,'hola mundo'
0,hola mundo


Para cargar el archivo `.csv` a una tabla:

In [7]:
%%sql
create or replace table competencia_01 as 
select 
    *
from read_csv_auto('../datasets/competencia_01_crudo.csv')

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

Unnamed: 0,Count
0,491063


Hagamos unas queries básicas para comprobar que todo esta funcionando bien.

In [11]:
%sql select * from competencia_01 limit 5

Unnamed: 0,numero_de_cliente,foto_mes,active_quarter,cliente_vip,internet,cliente_edad,cliente_antiguedad,mrentabilidad,mrentabilidad_annual,mcomisiones,...,Visa_madelantodolares,Visa_fultimo_cierre,Visa_mpagado,Visa_mpagospesos,Visa_mpagosdolares,Visa_fechaalta,Visa_mconsumototal,Visa_cconsumos,Visa_cadelantosefectivo,Visa_mpagominimo
0,29183981,202103,1,0,0,50,197,14468.81,125765.29,2389.82,...,0.0,7.0,0.00,-114954.00,0.00,5938.0,101050.66,68.0,0.0,71811.06
1,29184630,202103,1,0,0,59,322,11901.57,74158.93,18750.68,...,0.0,1.0,0.00,-40330.15,17.59,4089.0,26834.09,7.0,0.0,3894.36
2,29185433,202103,1,0,0,68,268,847.15,21672.47,481.62,...,0.0,21.0,4692.00,-1173.00,0.00,7829.0,1651.36,3.0,0.0,1560.09
3,29185587,202103,1,0,0,79,322,4976.94,47735.98,1839.31,...,0.0,1.0,0.00,-15988.67,0.00,7580.0,30025.29,11.0,0.0,1700.85
4,29185646,202103,1,0,0,60,257,2860.45,37800.71,4035.40,...,0.0,21.0,380616.14,-97383.25,0.00,7827.0,359610.70,31.0,0.0,15600.90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
491058,186790659,202105,0,0,0,35,1,0.00,0.00,0.00,...,,5.0,0.00,,,28.0,,,,0.00
491059,186792315,202105,1,0,0,37,1,51.81,51.81,0.00,...,,5.0,0.00,,,25.0,,,,0.00
491060,186795526,202105,1,0,0,47,1,327.75,327.75,0.00,...,,5.0,0.00,,,21.0,,,,0.00
491061,186798379,202105,0,0,0,32,1,0.00,0.00,0.00,...,,5.0,0.00,,,11.0,,,,0.00


In [209]:
%%sql
select 
    periodo
    , count(*) as cantidad -- cuenta cuantos casos hay en cada periodo 
                           -- y lo guarda en un campo llamado cantidad
from competencia_01
group by periodo

Unnamed: 0,foto_mes,cantidad
0,202103,163324
1,202104,163637
2,202105,164102


Perfecto, ahora cree una nueva tabla con la variable adicional que se le pide. Algunas funciones que le pueden ser útiles:  [where](https://duckdb.org/docs/sql/query_syntax/where), [left join](https://duckdb.org/docs/sql/query_syntax/from), [case statement](https://duckdb.org/docs/sql/expressions/case)



In [71]:
%%sql   
select numero_de_cliente, count(periodo)
from competencia_01
group by numero_de_cliente
having count(periodo) = 2

Unnamed: 0,numero_de_cliente,count(foto_mes)
0,29600771,2
1,30961066,2
2,32082640,2
3,32800986,2
4,35935324,2
...,...,...
2316,75836056,2
2317,79454290,2
2318,77022755,2
2319,84606679,2


In [257]:
%%sql
select * 
from competencia_01
where numero_de_cliente = 29282120 --29600771

Unnamed: 0,numero_de_cliente,foto_mes,active_quarter,cliente_vip,internet,cliente_edad,cliente_antiguedad,mrentabilidad,mrentabilidad_annual,mcomisiones,...,Visa_madelantodolares,Visa_fultimo_cierre,Visa_mpagado,Visa_mpagospesos,Visa_mpagosdolares,Visa_fechaalta,Visa_mconsumototal,Visa_cconsumos,Visa_cadelantosefectivo,Visa_mpagominimo
0,29282120,202103,1,0,0,61,174,5347.92,44430.08,5021.49,...,0.0,1,0.0,0.0,0.0,5173,199.17,1,0,187.68


buenas, para el primer ejercicio, traté de encontrar el mayor registro de foto_mes para cada usuario y restar el valor de foto_mes en la base de datos(202105) por el mayor mes_foto del cliente, por lo que si la diferencia es cero, significa que hasta el mes_foto de la base de datos, la persona sigue siendo cliente del banco, para los demás casos utilicé el mayor foto_mes del cliente y lo resté por foto_mes que se encuentra en cada línea, por lo que obtuve los siguientes resultados:
si la diferencia es 0, significa que la foto_mes es el último mes que el usuario es cliente del banco, por lo que recibe baja+1, si la diferencia es 1, dejará de ser cliente el próximo mes, es decir, baja+2.


Me di cuenta que la cantidad de baja+1 es mayor que la de los demás compañeros, no sé si entendí bien, pero lo que entendí fue que si tengo un registro de 202103 y 202104 de un cliente, significa que en 202103 estaría con bajo+2 porque en 2 meses no sería mas cliente y en 202104 estaría con bajo+1 porque el próximo mes dejaría de ser cliente

In [443]:
%%sql
create or replace table competencia_01_solucion as 

with max_foto_mes as (
    select numero_de_cliente, max(foto_mes) as max_foto
    from competencia_01
    group by numero_de_cliente
)
select c.*,
    case
        when m.max_foto = 202105 then 'continua'
        when m.max_foto - c.foto_mes = 0 then 'baja+1'
        when m.max_foto - c.foto_mes = 1 then 'baja+2'
    end as clase_ternaria
from competencia_01 c
    left join max_foto_mes m on m.numero_de_cliente = c.numero_de_cliente


Unnamed: 0,Count
0,491063


## Ejercicio 1.1

* ¿Cuál es la nominalidad de cada clase?
* ¿Cuál es la proporción del target?

In [549]:
%%sql
select clase_ternaria, count(distinct numero_de_cliente) as cantidad
from competencia_01_solucion
group by clase_ternaria

Unnamed: 0,clase_ternaria,cantidad
0,continua,164102
1,baja+1,2018
2,baja+2,963


In [617]:
%%sql
SELECT clase_ternaria,
       COUNT(DISTINCT numero_de_cliente) AS cantidad,
       COUNT(DISTINCT numero_de_cliente) * 1.0 / SUM(COUNT(DISTINCT numero_de_cliente)) OVER () AS proporcion
FROM competencia_01_solucion
GROUP BY clase_ternaria;


Unnamed: 0,clase_ternaria,cantidad,proporcion
0,continua,164102,0.982159
1,baja+2,963,0.005764
2,baja+1,2018,0.012078


Para guardar a un **.csv** simplemente debe ejecutar la siguiente sentencia

In [551]:
%%sql
COPY competencia_01_solucion TO '../datasets/competencia_01.csv' (FORMAT CSV, HEADER)

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

Unnamed: 0,Count
0,491063


## Ejercicio 2 - Avanzado
Use ahora el archivo `ejercicio_target.csv` y calcule para todos los clientes en todos los periodos su **clase_ternaria** al mismo tiempo

In [277]:
%%sql
create or replace table competencia_01_avanzado as 
select 
    *
from read_csv_auto('../datasets/ejercicio_target.csv')

Unnamed: 0,Count
0,739


In [278]:
%%sql
select * 
from competencia_01_avanzado

Unnamed: 0,periodo,nombre
0,202110,Isaac Valverde
1,202110,Santiago Córdova Tercero
2,202110,Jerónimo Ocasio
3,202110,Isabel Terrazas Hijo
4,202110,Diego Caballero
...,...,...
734,202203,Srita. Violeta Carrero Segundo
735,202203,Valentín Delafuente
736,202203,Valeria Candelaria
737,202203,Vicente Luna Tercero


In [410]:
%%sql
select numero_de_cliente, foto_mes
from competencia_01
where numero_de_cliente = 86201398

Unnamed: 0,numero_de_cliente,foto_mes
0,86201398,202103
1,86201398,202104
2,86201398,202105


In [362]:
%%sql
select nombre, periodo
from competencia_01_avanzado
where nombre = 'Sr. Hipólito Estrada'
group by nombre, periodo

Unnamed: 0,nombre,periodo
0,Sr. Hipólito Estrada,202202
1,Sr. Hipólito Estrada,202203


In [555]:
%%sql
with max_periodo as (
    select nombre, max(periodo) as max_periodo
    from competencia_01_avanzado
    group by nombre
)
select c.*, m.max_periodo,
    case
        when m.max_periodo = 202203 then 'continua'
        when m.max_periodo - c.periodo = 0 then 'baja+1'
        when m.max_periodo - c.periodo = 1 then 'baja+2'
        when m.max_periodo - c.periodo > 1 then concat('baja+', m.max_periodo - c.periodo)
    end as clase_ternaria
from competencia_01_avanzado c
    left join max_periodo m on m.nombre = c.nombre

Unnamed: 0,periodo,nombre,max_periodo,clase_ternaria
0,202110,Isaac Valverde,202203,continua
1,202110,Santiago Córdova Tercero,202112,baja+2
2,202110,Jerónimo Ocasio,202203,continua
3,202110,Isabel Terrazas Hijo,202203,continua
4,202110,Diego Caballero,202110,baja+1
...,...,...,...,...
734,202112,David Villaseñor,202203,continua
735,202201,David Villaseñor,202203,continua
736,202202,David Villaseñor,202203,continua
737,202203,David Villaseñor,202203,continua


Para el ejercicio avanzado seguí la misma idea que el anterior, las únicas diferencias fueron que no ingresé manualmente el último período de registro y para baja+n ingresé la cantidad de meses que faltan para dejar de ser cliente en lugar de 'n'.
Como no encontré una función para convertir cadenas en fechas en duckdb, tuve que calcular manualmente la diferencia de meses cuando cuando la resta es entre el primer mes de un año y el último mes del año pasado, por ejemplo: 202212 - 202301

In [608]:
%%sql
create or replace table competencia_01_avanzado_solucion as 

with max_db as 
    (
        select max(periodo) as max_periodo_db
        from competencia_01_avanzado
    )
select c.*, max_db.max_periodo_db, max_nombre.max_periodo, c.periodo,
    case
        when max_db.max_periodo_db = max_nombre.max_periodo then 'continua'
        when CAST(SUBSTRING(max_nombre.max_periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(max_nombre.max_periodo, 5, 2) AS INTEGER) -
           (CAST(SUBSTRING(c.periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(c.periodo, 5, 2) AS INTEGER)) =  0 then 'baja+1'
        when CAST(SUBSTRING(max_nombre.max_periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(max_nombre.max_periodo, 5, 2) AS INTEGER) -
           (CAST(SUBSTRING(c.periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(c.periodo, 5, 2) AS INTEGER)) == 1 then 'baja+2'
         when CAST(SUBSTRING(max_nombre.max_periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(max_nombre.max_periodo, 5, 2) AS INTEGER) -
           (CAST(SUBSTRING(c.periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(c.periodo, 5, 2) AS INTEGER)) > 1 then 
            concat('baja+', CAST(SUBSTRING(max_nombre.max_periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(max_nombre.max_periodo, 5, 2) AS INTEGER) -
                            (CAST(SUBSTRING(c.periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(c.periodo, 5, 2) AS INTEGER)))
    end as clase_ternaria, 
    CAST(SUBSTRING(max_nombre.max_periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(max_nombre.max_periodo, 5, 2) AS INTEGER) -
        (CAST(SUBSTRING(c.periodo, 1, 4) AS INTEGER) * 12 + CAST(SUBSTRING(c.periodo, 5, 2) AS INTEGER)) as valor
from competencia_01_avanzado c
    cross join max_db
    left join 
        (
            select nombre, max(periodo) as max_periodo
            from competencia_01_avanzado
            group by nombre
        ) max_nombre on max_nombre.nombre = c.nombre 

Unnamed: 0,Count
0,739


In [612]:
%%sql

select clase_ternaria, count(nombre)
from competencia_01_avanzado_solucion
group by clase_ternaria

Unnamed: 0,clase_ternaria,count(nombre)
0,continua,649
1,baja+2,42
2,baja+1,41
3,baja+3,5
4,baja+4,2


In [559]:
%%sql
COPY competencia_01_avanzado_solucion TO '../datasets/competencia_01_avanzado.csv' (FORMAT CSV, HEADER)

Unnamed: 0,Count
0,739
