# Crear la clase  Target

## Ejercicio 1

Cree el archivo competencia_01.csv, usando el competencia_01_crudo.csv con una variable adicional llamada clase_ternaria, que contenga las categorías **CONTINUA, BAJA+1 y BAJA+2**

Ayudita
Para practicar el muy útil y necesario lenguaje **SQL**, vamos a utilizar una base de datos **OLAP** llamada **DuckDB**.

La documentación la puede encontrar [aquí](https://duckdb.org/docs/archive/0.8.1/sql/introduction) Procedemos a instalarla, esto se debe ejecutar una sola vez

In [None]:
# pip install duckdb
# pip install jupysql
# pip install duckdb-engine

Configuramos el entorno de ejecución. Si ya tiene todo instalado, solo necesita ejecutar esta celda para empezar a usar **duckdb**

In [1]:
import duckdb
import pandas as pd

In [2]:
# when using magic commands (%) don't use comments in the same line

# %: line magic
# %%: cell magic

# Import jupysql Jupyter extension to create SQL cells
%load_ext sql 

# Set configrations on jupysql to directly output data to Pandas and to simplify the output that is printed to the notebook.
%config SqlMagic.autopandas = True
%config SqlMagic.feedback = False
%config SqlMagic.displaycon = False

# Connect jupysql to DuckDB using a SQLAlchemy-style connection string. Either connect to a new in-memory DuckDB, the default connection or a file backed db.

#%sql duckdb:///:default:
%sql duckdb:///:memory:
# %sql duckdb:///path/to/file.db

Y ya podemos usar **SQL** dentro de una notebook!

In [3]:
%%sql
select 'hola mundo'

Unnamed: 0,'hola mundo'
0,hola mundo


Para cargar el archivo `.csv` a una tabla pasando su ubicación a través de la variable `dataset_path`:

In [4]:
dataset_path = 'C:/Eugenio/Maestria/DMEyF/datasets/'
dataset_file = 'competencia_01_crudo.csv'

In [5]:
%%sql

create or replace table competencia_01_crudo as
select
    *
from read_csv_auto("{{dataset_path + dataset_file}}")

Unnamed: 0,Success


Hagamos unas queries básicas para comprobar que todo esta funcionando bien.

In [6]:
%sql select * from competencia_01_crudo limit 5

Unnamed: 0,numero_de_cliente,foto_mes,active_quarter,cliente_vip,internet,cliente_edad,cliente_antiguedad,mrentabilidad,mrentabilidad_annual,mcomisiones,...,Visa_madelantodolares,Visa_fultimo_cierre,Visa_mpagado,Visa_mpagospesos,Visa_mpagosdolares,Visa_fechaalta,Visa_mconsumototal,Visa_cconsumos,Visa_cadelantosefectivo,Visa_mpagominimo
0,249221109,202101,1,0,0,61,300,1664.94,17994.4,1605.81,...,0.0,4,0.0,-37098.9,0.0,7867,118514.88,10,0,76538.25
1,249221468,202101,1,0,0,53,37,4879.78,18640.95,1149.08,...,0.0,4,0.0,-9864.93,0.0,1124,31427.14,14,0,0.0
2,249223005,202101,1,0,0,48,202,1828.35,37789.01,610.12,...,0.0,4,0.0,-32119.08,0.0,3486,855.11,2,0,19389.69
3,249228180,202101,1,0,0,66,320,175.87,2600.67,276.22,...,0.0,4,0.0,-10891.3,0.0,8925,7517.73,6,0,516.12
4,249232117,202101,1,0,0,79,373,16600.69,32270.07,16367.13,...,0.0,4,0.0,-43610.75,0.0,8607,37309.25,5,0,3084.99


In [7]:
%%sql
select
    foto_mes
    , count(*) as cantidad -- cuenta cuantos casos hay en cada foto_mes
                           -- y lo guarda en un campo llamado cantidad
from competencia_01_crudo
group by foto_mes

Unnamed: 0,foto_mes,cantidad
0,202101,162026
1,202102,162646
2,202103,163685
3,202104,164090
4,202105,164623
5,202106,164876


Perfecto, ahora cree una nueva tabla con la variable adicional que se le pide.

In [None]:
# %%sql
# create or replace table competencia_01 as
# ...

In [None]:
# %sql select * from competencia_01 limit 5

## Ejercicio 1.1
* ¿Cuál es la nominalidad de cada clase?


In [None]:
%%sql
PIVOT competencia_01
on clase_ternaria
USING count(numero_de_cliente)
GROUP BY foto_mes

* ¿Cuál es la proporción del target?

## Guardar tabla en .csv

Para guardar a un `.csv` simplemente debe ejecutar la siguiente sentencia

In [None]:
%%sql COPY competencia_01 TO '{{dataset_path}}competencia_01.csv' (FORMAT CSV, HEADER)