# Título: Utilización de IA para la 0ptimización de procesos de conciliación en pasarelas de pago.

# Reporte No. 1. Propuesta del proyecto

    Asesor principal: 
    Profesor convenido a ser su asesor principal, si ya lo tienen.

    Autor@s
    José Álvaro Rodríguez Botero

<h1>Introducción</h1>

<p>Ganar en los servicios financieros depende cada vez más de la velocidad y precisión de la normalización y conciliación de datos. Los bancos, las pasarelas de pago, los corredores de bolsa, etc., se basan fundamentalmente en datos. Para ello  se utilizan miles de empleados que, comparan, calculan e informan cantidades masivas de datos todos los días en cada parte del negocio.
</p>
<p>La reconciliación de datos para que puedan agregarse, analizarse e informarse es una actividad interminable en los servicios financieros. Gran parte de este trabajo de reconciliación lo realizan equipos de datos con herramientas ETL tradicionales, pero las hojas de cálculo y los procesos manuales están muy extendidos y abundan las ineficiencias y los costos, particularmente cuando se incorporan nuevas fuentes de datos.
</p>
<p>Según el modelo tradicional, los analistas comerciales y los especialistas en datos/ETL deben crear requisitos técnicos, incorporar nuevas fuentes de datos, analizar los datos y aplicar procesos ETL que coincidan con un modelo de datos fijo. Esto es muy complejo, requiere mucho tiempo y, a menudo, requiere expandir el alcance del proyecto a múltiples partes del negocio.
</p>
<p>
Estas ineficiencias en la reconciliación de datos son exactamente el tipo de "oportunidad" que el aprendizaje automático puede resolver, ya que se pueden implementar algoritmos para ayudar a solucionar los problemas de velocidad y costo de incorporación y reconciliación de nuevas fuentes de datos.
</p>

<h1>Descripción del problema</h1>

<p>
En cada proceso de conciliación financiera, se inspeccionan las transacciones no conciliadas para comprender por qué una línea específica no tiene contrapartida. La investigación de las transacciones por conciliar es crucial desde una perspectiva comercial y financiera. 
<br>
Una mirada cuidadosa a estas excepciones a menudo revelan problemas de causa raíz que necesitan atención. Dichas causas fundamentales pueden incluir errores del sistema y/o humanos, tarifas o impuestos incurridos, diferencias de cambio de divisas, etc.
Uno de los desafíos más frecuentes en la reconciliación de datos parece ser la mala calidad de los datos de entrada. Los errores tipográficos, las abreviaturas, los campos que faltan en las columnas y los caracteres fuera de lugar dentro de una cadena pueden arruinar un identificador que de otro modo sería relevante. A su vez, esto impide la coincidencia deseada.
 
</p>
<p>
    <h2>Escenarios de solución</h2>
    <h3>1. Coincidencia de transacciones por probabilidad</h3>
    Este escenario aprovecha las capacidades de IA para identificar patrones en conjuntos de datos sin conocimiento previo de la lógica de coincidencia. Con este enfoque, el algoritmo clasificará las transacciones en función de la probabilidad de que una determinada transacción sea equivalente. Utiliza criterios de decisión "duros" o "blandos":
<ul>
    <li>con criterios "fuertes", las columnas deben ser equivalentes para que coincidan</li>
    <li>con criterios 'debiles', las columnas pueden contener datos similares, evaluados por algoritmos relacionados con la proximidad.</li>
</ul>

El resultado será una lista de posibles grupos de coincidencias. Estos asignan probabilidades de coincidencia 'altas', 'medias' y 'bajas', que luego son evaluables por intervención humana.

Por lo tanto, a través de algoritmos ML, un sistema explora alternativas para aumentar las tasas de coincidencias exitosas. Luego, estos se someten al escrutinio y la corrección del usuario (aunque muchos demostrarán coincidencias altamente probables y válidas). El significado es que las similitudes sutiles, particularmente en grandes conjuntos de datos, que tienden a pasar desapercibidas para los operadores humanos, son detectadas por el sistema.
</p>
<p>
<h3>2. Coincidencia de criterios de cadena debil</h3>
Cuando las fallas de datos recurrentes se convierten en parte de la agenda de creación de reglas, un sistema de reconciliación habilitado por IA puede buscar similitudes con un nivel de probabilidad aceptable y presentarlas para su validación. La visibilidad mejorada de dichos patrones oscurecidos puede compensar las deficiencias de los datos. Pero esto sólo es aplicable hasta cierto punto. Si, por ejemplo, los identificadores únicos de transacciones (en los datos de entrada) faltan por completo, no es posible obtener un resultado de coincidencia confiable.
</p>

<h1>Fuentes de datos</h1>
<ul>
    <li>Dataset reconciliation_transaction</li>
    <li>Dataset sales_payment_method</li>
</ul>

<h2>Dataset reconciliation_transaction</h2>
<p>
    <ul>
        <li>sales_payment_method_id -   float64</li>
        <li>transaccion_id -             object</li>
        <li>pais_conciliacion -          object</li>
        <li>dia_fecha_transaccion -      object</li>
        <li>medio_de_pago -              object</li>
        <li>red_medio_pago -             object</li>
        <li>tipo_transaccion -           object</li>
        <li>codigo_trazabilidad -        object</li>
        <li>numero_autorizacion -        object</li>
        <li>orden_id -                    int64</li>
        <li>numero_visible_tarjeta -     object</li>
        <li>vr_venta -                  float64</li>
        <li>vr_abonado -                float64</li>
        <li>vr_comision -                 int64</li>
        <li>vr_iva_comision -             int64</li>
        <li>estado_presentacion -        object</li>
        <li>fecha_presentacion -        float64</li>
        <li>nro_key -                     int64</li>
        <li>key_conciliation -           object</li>
    </ul>
</p>
<h2>Dataset sales_payment_method</h2>
<p>
    <ul>
        <li>sales_payment_method_id -                int64</li>
        <li>transaccion_id -                       float64</li>
        <li>pais_conciliacion -                     object</li>
        <li>fecha_transaccion -                     object</li>
        <li>medio_de_pago -                         object</li>
        <li>red_medio_pago -                        object</li>
        <li>tipo_transaccion -                      object</li>
        <li>codigo_trazabilidad -                  float64</li>
        <li>numero_autorizacion -                   object</li>
        <li>numero_orden -                         float64</li>
        <li>numero_visible_tarjeta -                object</li>
        <li>vr_venta -                             float64</li>
        <li>vr_abonado -                           float64</li>
        <li>vr_comision -                          float64</li>
        <li>vr_iva_comision -                      float64</li>
        <li>estado_conciliacion_transaccional -     object</li>
        <li>fecha_conciliacion -                   float64</li>
        <li>nro_key -                                int64</li>
        <li>key_conciliation -                      object</li>
    </ul>
</p></li>

In [10]:
import pandas as pd

df_rt = pd.read_csv("./files/CO-rt-refunds-20221104.csv", delimiter=",")
df_spm = pd.read_csv("./files/CO-spm-refunds-20221104.csv", delimiter=",")

In [28]:
df_rt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 188370 entries, 0 to 188369
Data columns (total 19 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   sales_payment_method_id  0 non-null       float64
 1   transaccion_id           188370 non-null  object 
 2   pais_conciliacion        188370 non-null  object 
 3   dia_fecha_transaccion    188370 non-null  object 
 4   medio_de_pago            188370 non-null  object 
 5   red_medio_pago           188370 non-null  object 
 6   tipo_transaccion         188370 non-null  object 
 7   codigo_trazabilidad      188327 non-null  object 
 8   numero_autorizacion      182926 non-null  object 
 9   orden_id                 188370 non-null  int64  
 10  numero_visible_tarjeta   188370 non-null  object 
 11  vr_venta                 188370 non-null  float64
 12  vr_abonado               0 non-null       float64
 13  vr_comision              188370 non-null  int64  
 14  vr_i

In [31]:
df_spm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 135460 entries, 0 to 135459
Data columns (total 19 columns):
 #   Column                             Non-Null Count   Dtype  
---  ------                             --------------   -----  
 0   sales_payment_method_id            135460 non-null  int64  
 1   transaccion_id                     0 non-null       float64
 2   pais_conciliacion                  135460 non-null  object 
 3   fecha_transaccion                  135460 non-null  object 
 4   medio_de_pago                      135460 non-null  object 
 5   red_medio_pago                     12932 non-null   object 
 6   tipo_transaccion                   135460 non-null  object 
 7   codigo_trazabilidad                4082 non-null    float64
 8   numero_autorizacion                135458 non-null  object 
 9   numero_orden                       0 non-null       float64
 10  numero_visible_tarjeta             135460 non-null  object 
 11  vr_venta                           1354

<h1>Procesamiento ETL</h1>
Recuerden que ETL significa Extracción, Transformación y Carga de datos). Describen como se hará todo el proeprocesmaiento de información. 

<h2>Extracción</h2>
<p>
    El proceso de extracción se hace a partir de consultas SQL realizadas a las tablas que contienen la información de interes. Cabe anotar que desde la consulta SQL se extraen solamente los atributos que considero importantes en el armado de las llaves de conciliacion.  
</p>

<h2>Transformaciones</h2>
<p>
    Las transformaciones se realizan dependiendo del tipo de dato del atributo a tratar y que forma parte de la llave de conciliación de la siguiente manera:
    <ul>
        <li>Operaciones con atributos de tipo String
            <ul>
                <li>Concatenar</li>
                <li>Mapping</li>
                <li>Split</li>
            </ul>    
        </li>
        <li>Operaciones con atributos de tipo númerico
            <ul>
                <li>Redondear</li>
                <li>Suma de atributos</li>
            </ul>    
        </li>
        <li>Operaciones con atributos de tipo datetime
            <ul>
                <li>Convertir formatos</li>
                <li>Split (fecha y hora)</li>
            </ul>    
        </li>
    </ul>
</p>

# Exploración de los datos
Indicar que técnicas usaran inicialmente para describir y entender sus datos:
* Muestras de los datos
* Estadisticas y grafica univariadas
* Técnicas factoriales: ACP, ...



<img src="./files/[graph]-03-Total transacciones.png" alt="Gráfico 1." width="500" height="600">

<img src="./files/[graph]-01-Transacciones por estado.png" alt="Gráfico 1." width="500" height="600">

<img src="./files/[graph]-02-Transaciones por pais y estado.png" alt="Gráfico 2." width="1000" height="1400">

In [23]:
df_rt.head()

Unnamed: 0,sales_payment_method_id,transaccion_id,pais_conciliacion,dia_fecha_transaccion,medio_de_pago,red_medio_pago,tipo_transaccion,codigo_trazabilidad,numero_autorizacion,orden_id,numero_visible_tarjeta,vr_venta,vr_abonado,vr_comision,vr_iva_comision,estado_presentacion,fecha_presentacion,nro_key,key_conciliation
0,,4852e6cd-2c89-4eba-904f-cb3fc3bf09fd,CO,2022-01-24 00:00:00.000,VISA,DAVIVIENDA,REFUND,0,234923,1834041746,464822******0879,15256.0,,0,0,NO_ABONADA,,1,COVISAREFUND234923464822087915256.00
1,,0d91dd27-6334-465f-abab-27edb8edd026,CO,2022-01-18 00:00:00.000,VISA,CREDIBANCO,REFUND,0,50026,1772709534,491626******2232,359800.0,,0,0,NO_ABONADA,,1,COVISAREFUND0500264916262232359800.00
2,,6838ac90-1e2e-413d-9193-a4fffbdf8601,CO,2022-01-18 00:00:00.000,VISA,CREDIBANCO,REFUND,0,825424,1822897648,491626******7233,335996.0,,0,0,NO_ABONADA,,1,COVISAREFUND8254244916267233335996.00
3,,6a9e545f-44e6-4bce-b2c5-ae98a1d0dafc,CO,2022-01-18 00:00:00.000,VISA,CREDIBANCO,PARTIAL_REFUND,0,233641,1782256327,454600******3816,478000.02,,0,0,NO_ABONADA,,1,COVISAREFUND2336414546003816478000.02
4,,cc4df3cd-8056-49bc-ae67-91e20d7de77a,CO,2022-02-07 00:00:00.000,MASTERCARD,REDEBAN,PARTIAL_REFUND,0,833636,1787925519,528209******2137,109900.0,,0,0,NO_ABONADA,,1,COMASTERCARDREFUND8336365282092137109900.00


In [26]:
df_rt.describe()

Unnamed: 0,sales_payment_method_id,orden_id,vr_venta,vr_abonado,vr_comision,vr_iva_comision,fecha_presentacion,nro_key
count,0.0,188370.0,188370.0,0.0,188370.0,188370.0,0.0,188370.0
mean,,2060753000.0,81617.86,,0.0,0.0,,1.0
std,,128969900.0,263483.1,,0.0,0.0,,0.0
min,,649997000.0,1.01,,0.0,0.0,,1.0
25%,,1970315000.0,5483.0,,0.0,0.0,,1.0
50%,,2079781000.0,13710.5,,0.0,0.0,,1.0
75%,,2175174000.0,63166.5,,0.0,0.0,,1.0
max,,2221881000.0,20000000.0,,0.0,0.0,,1.0


In [24]:
df_spm.head()

Unnamed: 0,sales_payment_method_id,transaccion_id,pais_conciliacion,fecha_transaccion,medio_de_pago,red_medio_pago,tipo_transaccion,codigo_trazabilidad,numero_autorizacion,numero_orden,numero_visible_tarjeta,vr_venta,vr_abonado,vr_comision,vr_iva_comision,estado_conciliacion_transaccional,fecha_conciliacion,nro_key,key_conciliation
0,704574977,,CO,2022-01-19 00:00:00.000,VISA,,REFUND,,146472,,422274XXXXXX7296,1600000.0,1540256.0,29120.0,,POR_CONCILIAR,,1,COVISAREFUND14647242227472961600000.00
1,704574989,,CO,2022-01-19 00:00:00.000,VISA,,REFUND,,214789,,450407XXXXXX7392,1453000.0,1372609.0,22222.0,,POR_CONCILIAR,,1,COVISAREFUND21478945040773921453000.00
2,704575048,,CO,2022-01-19 00:00:00.000,VISA,,REFUND,,342352,,482451XXXXXX5049,1183300.0,1117829.0,18098.0,,POR_CONCILIAR,,1,COVISAREFUND34235248245150491183300.00
3,704647550,,CO,2022-01-22 00:00:00.000,VISA,,REFUND,,602924,,459356XXXXXX7878,20800.0,20023.0,379.0,,POR_CONCILIAR,,1,COVISAREFUND602924459356787820800.00
4,704647358,,CO,2022-01-22 00:00:00.000,VISA,,REFUND,,610532,,450602XXXXXX7228,53534.0,51535.0,974.0,,POR_CONCILIAR,,1,COVISAREFUND610532450602722853534.00


In [25]:
df_spm.describe()

Unnamed: 0,sales_payment_method_id,transaccion_id,codigo_trazabilidad,numero_orden,vr_venta,vr_abonado,vr_comision,vr_iva_comision,fecha_conciliacion,nro_key
count,135460.0,0.0,4082.0,0.0,135460.0,135460.0,135460.0,0.0,0.0,135460.0
mean,818803700.0,,4932.072268,,139018.4,119013.1,2194.05635,,,1.0
std,58506760.0,,2900.970287,,384990.3,374174.0,6952.244196,,,0.0
min,694346300.0,,2.0,,1.0,-4162393.0,-73963.0,,,1.0
25%,767803600.0,,2431.75,,7680.0,6827.75,124.0,,,1.0
50%,828837800.0,,4941.0,,18190.5,16270.1,299.0,,,1.0
75%,867287300.0,,7470.0,,100000.0,83296.25,1541.0,,,1.0
max,921105800.0,,9999.0,,23073240.0,22190920.0,440699.0,,,1.0


# Técnicas de modelación propuestas
Se espera que hayan sido discutidas con algún asesor (profesor) previamente.

# Conocimientos requeridos para el desarrollo del proyecto

Se espera que se hayan discutido previamente con el asesor 
* Bases de datos relacionales y no relacionales
* SQL : Intermedio
* Python : Intermedio
* Modelos supervisados: explicativos o predictivos
* Modelos de lenguaje natural

# Resultados esperados
*
*

Tiempo de desarrollo esperado
No puede ser mayor a 6 semanas.