# CONSULTAS

El presente script se divide en dos secciones de consultas, en ambas, se analizan las 4 tablas en cuestion: 'catalog', 'test_projects', 'test_rules' y 'test_transactions'.

Las consultas se realizaron desde pgAdmin 4 pero para mostrarlas en la presente Notebook conecto mi base de datos a Python.  

1) Brevísima exploración de datos: Se analizan las tablas por separado para visualizar propiedades básicas de cada una.

2) Análisis de datos y uniones entre tablas: Se realizan consultas para identificar patrones y se unen tablas para optimizar el estudio. 

## 1) Brevísima exploración de datos 

**Tabla catalog:**

In [13]:
pd.read_sql("""SELECT *
               FROM catalog
               LIMIT 5""", conn)

Unnamed: 0,project_id,project_name_cat,project_type_cat
0,015981e401af4887becbec5f45c3cd4c,Vehiculo,project_categories
1,4500593565e942d9876fa73734336157,Solo ahorrar,project_categories
2,6f3c645d720140d0be6063b26b1c423d,Otro,project_categories
3,b252b4300a02483eb15812ff9e03b841,Comprar algo,project_categories
4,c173854d8d994c5cad7926cedb6b8770,Viajar,project_categories


In [9]:
# categorías dentro de project_type_cat

pd.read_sql("""SELECT COUNT(DISTINCT project_name_cat), project_type_cat
               FROM catalog
               GROUP BY project_type_cat""", conn)

Unnamed: 0,count,project_type_cat
0,5,merchants
1,7,project_categories
2,10,rule_types


Se observa que hay 7 categorías para proyecto, 10 tipos de reglas y 5 merchants. Examinemos cada uno: 

In [10]:
pd.read_sql("""SELECT * FROM catalog
               WHERE project_type_cat LIKE 'merchants'""", conn)

Unnamed: 0,project_id,project_name_cat,project_type_cat
0,12864d3406744ac396d89d19c85ae1f8,Oxxo,merchants
1,2cc2e29a30ec445fa42032b6039fa488,Seven Eleven,merchants
2,a5f7809608e64211a8e051ac51644320,Cinépolis,merchants
3,b35b8370ccd54abc90175a7d6986dfa4,Starbucks,merchants
4,b442e354514543388e41f1f8480923be,McDonalds,merchants


In [11]:
pd.read_sql("""SELECT * FROM catalog
               WHERE project_type_cat LIKE 'project_categories'""", conn)

Unnamed: 0,project_id,project_name_cat,project_type_cat
0,015981e401af4887becbec5f45c3cd4c,Vehiculo,project_categories
1,4500593565e942d9876fa73734336157,Solo ahorrar,project_categories
2,6f3c645d720140d0be6063b26b1c423d,Otro,project_categories
3,b252b4300a02483eb15812ff9e03b841,Comprar algo,project_categories
4,c173854d8d994c5cad7926cedb6b8770,Viajar,project_categories
5,edd09901ae364ddb80347e40005d2244,Hogar,project_categories
6,ff8ac02124d847bd8a1600ec2c969bea,Deudas,project_categories


In [12]:
pd.read_sql("""SELECT * FROM catalog
               WHERE project_type_cat LIKE 'rule_types'""", conn)

Unnamed: 0,project_id,project_name_cat,project_type_cat
0,75134d7134ed41f1a906d18a0710ad8e,% de mi sueldo,rule_types
1,7ff87139ef9b48eba2b12836b6ac336c,Ahorro manual,rule_types
2,8f6a28107c1641d5aff4a85972f5ee06,Placer culpable,rule_types
3,a34b4b3ffb714e0bb82ebeb94b79932d,5 Kilómetros,rule_types
4,ada15c0ee03340419da150f466cda604,Gastar Menos,rule_types
5,b30b058a53634cbcb1f589af13e6689f,Monto fijo,rule_types
6,c175e7bf6cf64677903bac9389a80cd9,Redondear,rule_types
7,c265f8edebce4470a717c536dd133d23,Santander TAP,rule_types
8,c493284d852840c0802bf58ba9ab8cc3,Desafío 52 semanas,rule_types
9,d6fff0a96ef040fea92071e7221bef97,Pasión Futbolera,rule_types


**Tabla test_projects**

Cabe mencionar aquí que la columna 'project_category_id' refiere a los id de los 'project_categories' de la columna 'project_type_cat' de la tabla 'catalog' ya descrita.  

In [14]:
pd.read_sql("""SELECT *
               FROM test_projects
               LIMIT 5""", conn)

Unnamed: 0,project_id,project_name,goal_date,user_id,project_category_id,total
0,7593859139ff4b00b09c6a5c2d7d4602,Hogar,2020-06-02,700b1ad8bcb948d2b948c20d8e4160cd,edd09901ae364ddb80347e40005d2244,5000.0
1,d48cd6721a8b42ccac581ea388250e47,Enero,2020-01-16,cf91c22c0f7c4cc8917af73c1f0b7fa7,4500593565e942d9876fa73734336157,3000.0
2,c50f7a157b6048459590de84a14c7c1e,Solo guardar,2020-02-14,e4eb05de0b454a17b4f9f556bb70e9c1,4500593565e942d9876fa73734336157,5000.0
3,f712136baed347e6b5c0a07a9582d4ea,Comprar algo,2022-02-22,a821b4c74ec4467e9170db0a499fa082,b252b4300a02483eb15812ff9e03b841,5000.0
4,0baba95b627a42dbbaa7a4d5a0d49458,Ahorro,2021-01-09,2de353a9a926462d86a6009cabbfa1a4,4500593565e942d9876fa73734336157,40000.0


In [16]:
# Analicemos un poco el rango de fechas 'meta' o 'goal_date'

pd.read_sql("""SELECT DISTINCT (EXTRACT( YEAR FROM goal_date))  
               FROM test_projects
               ORDER BY EXTRACT( YEAR FROM goal_date)""", conn)

# Observar que las metas van desde 2020 hasta 2038 (19 años en total) 

Unnamed: 0,date_part
0,2020.0
1,2021.0
2,2022.0
3,2023.0
4,2024.0
5,2025.0
6,2026.0
7,2027.0
8,2028.0
9,2029.0


**Tabla test_rules**

Cabe mencionar que la columna 'rule_type' corresponde a los id de las reglas de ahorro 'rule_types' de la columna 'project_type_cat' de la tabla 'catalog'.

In [17]:
pd.read_sql("""SELECT *
               FROM test_rules
               LIMIT 5""", conn)

Unnamed: 0,rule_id,project_id,rule_type,amount,frecuency,categories
0,2f206c2f263f4332aa8985dbe25fc0b5,7593859139ff4b00b09c6a5c2d7d4602,c175e7bf6cf64677903bac9389a80cd9,10.0,0,
1,7cffbe8d84534f489637b0ab8694f234,7593859139ff4b00b09c6a5c2d7d4602,b30b058a53634cbcb1f589af13e6689f,228.0,7,
2,f7b9d06c8e4d42a0bc17012d72cbe7be,d48cd6721a8b42ccac581ea388250e47,8f6a28107c1641d5aff4a85972f5ee06,5.0,0,2cc2e29a-30ec-445f-a420-32b6039fa488
3,21ba2243d24b4f14982e491e30088e41,c50f7a157b6048459590de84a14c7c1e,b30b058a53634cbcb1f589af13e6689f,1667.0,15,
4,9525ec3f7bba4d37a919453436419bbe,c50f7a157b6048459590de84a14c7c1e,75134d7134ed41f1a906d18a0710ad8e,20.0,0,


**Tabla test_transactions**

In [27]:
pd.read_sql("""SELECT *
               FROM test_transactions
               LIMIT 5""", conn)

Unnamed: 0,user_id,description,transaction_date,amount
0,0001c38e1231436eb1218b4caf1090d6,OXXO MARIA,2019-12-06,-335.0
1,0001c38e1231436eb1218b4caf1090d6,LIVERPOOL MEXIC,2020-01-17,-1000.0
2,0001c38e1231436eb1218b4caf1090d6,ADYENMX*SPOTIFY,2019-11-30,-99.0
3,0001c38e1231436eb1218b4caf1090d6,BP*SERV PROFESI,2019-12-01,-562.0
4,0001c38e1231436eb1218b4caf1090d6,NETFLIX,2020-01-04,-169.0


## 2) Análisis de datos y uniones entre tablas

**Tabla test_project**

In [18]:
# usuarios por categoría de proyecto

pd.read_sql("""SELECT project_name_cat, COUNT(user_id) 
               FROM test_projects
               INNER JOIN catalog
               ON catalog.project_id = test_projects.project_category_id 
               GROUP BY project_name_cat""", conn)

Unnamed: 0,project_name_cat,count
0,Viajar,6092
1,Hogar,2247
2,Solo ahorrar,19689
3,Vehiculo,4091
4,Otro,1788
5,Deudas,2721
6,Comprar algo,3617


La mayoría lo hace sólo para ahorrar

In [19]:
# Veamos amounts promedio por categoría

pd.read_sql("""SELECT project_name_cat, ROUND(AVG(total),0) 
               FROM test_projects
               INNER JOIN catalog
               ON catalog.project_id = test_projects.project_category_id 
               GROUP BY project_name_cat""", conn)

Unnamed: 0,project_name_cat,round
0,Viajar,26699.0
1,Hogar,83808.0
2,Solo ahorrar,10348577.0
3,Vehiculo,244492427.0
4,Otro,232264862.0
5,Deudas,367535327.0
6,Comprar algo,22445.0


Las grandes amounts son por Deuda, Vehículo y Otro, la menor es Comprar algo

In [20]:
# Analicemos un poco en base a las fechas o goal_date

#Por año:
pd.read_sql("""SELECT EXTRACT( YEAR FROM goal_date), COUNT(user_id)  
               FROM test_projects
               GROUP BY EXTRACT( YEAR FROM goal_date)
               ORDER BY EXTRACT( YEAR FROM goal_date)""", conn)

Unnamed: 0,date_part,count
0,2020.0,23720
1,2021.0,12662
2,2022.0,1941
3,2023.0,546
4,2024.0,388
5,2025.0,255
6,2026.0,147
7,2027.0,76
8,2028.0,167
9,2029.0,62


La mayor cantidad de metas son a corto plazo si hablamos en años

In [22]:
pd.read_sql("""SELECT EXTRACT( YEAR FROM goal_date), ROUND(AVG(total),0)  
               FROM test_projects
               GROUP BY EXTRACT( YEAR FROM goal_date)
               ORDER BY EXTRACT( YEAR FROM goal_date)""", conn)

Unnamed: 0,date_part,round
0,2020.0,8454825.0
1,2021.0,191036945.0
2,2022.0,49853.0
3,2023.0,68177.0
4,2024.0,100186.0
5,2025.0,143901.0
6,2026.0,102060.0
7,2027.0,49949.0
8,2028.0,96772.0
9,2029.0,274834.0


Las metas más ambiciosas son para 2021

In [21]:
# Por mes: 

pd.read_sql("""SELECT EXTRACT( MONTH FROM goal_date), COUNT(user_id)  
               FROM test_projects
               GROUP BY EXTRACT( MONTH FROM goal_date)
               ORDER BY EXTRACT( MONTH FROM goal_date)""", conn)

Unnamed: 0,date_part,count
0,1.0,7661
1,2.0,2575
2,3.0,2335
3,4.0,2771
4,5.0,2265
5,6.0,2292
6,7.0,2579
7,8.0,2101
8,9.0,2197
9,10.0,1645


La mayor cantidad de metas es para ENERO y DICIEMBRE. Tiene cierta lógica: año nuevo, vida nueva, pasado pisado, nuevos proyectos, vacaciones, regalos, etc. 

In [24]:
pd.read_sql("""SELECT EXTRACT( MONTH FROM goal_date), ROUND(AVG(total),0)  
               FROM test_projects
               GROUP BY EXTRACT( MONTH FROM goal_date)
               ORDER BY EXTRACT( MONTH FROM goal_date)""", conn)

Unnamed: 0,date_part,round
0,1.0,54660484.0
1,2.0,21010.0
2,3.0,23884.0
3,4.0,433090010.0
4,5.0,24901.0
5,6.0,436324906.0
6,7.0,25961.0
7,8.0,29523.0
8,9.0,27867.0
9,10.0,29640.0


Las metas más ambiciosas son para ENERO, ABRIL y JUNIO

**Tabla test_rules**

In [25]:
# agrupemos por regla para ver monto 

pd.read_sql("""SELECT project_name_cat, ROUND(AVG(amount),0) 
               FROM test_rules
               INNER JOIN catalog
               ON catalog.project_id = test_rules.rule_type 
               GROUP BY project_name_cat""", conn)

Unnamed: 0,project_name_cat,round
0,Santander TAP,9.0
1,Redondear,10.0
2,Placer culpable,40.0
3,Pasión Futbolera,79.0
4,% de mi sueldo,13.0
5,Monto fijo,1131.0
6,Desafío 52 semanas,5.0


Las reglas que se usan para grandes volumenes son Monto fijo, por escándalo. 

In [26]:
# agrupemos por regla para ver frecuencia

pd.read_sql("""SELECT project_name_cat, ROUND(AVG(frecuency),0) 
               FROM test_rules
               INNER JOIN catalog
               ON catalog.project_id = test_rules.rule_type 
               GROUP BY project_name_cat""", conn)

Unnamed: 0,project_name_cat,round
0,Santander TAP,0.0
1,Redondear,0.0
2,Placer culpable,0.0
3,Pasión Futbolera,2.0
4,% de mi sueldo,0.0
5,Monto fijo,11.0
6,Desafío 52 semanas,0.0


Esto es un tanto extraño, sólo hay dos rules que tienen frecuencias: Pasión Futbolera (si tu equipo es muy malo no es una buena estrategia de ahorro), y Monto fijo (parece que las personas se toman más en serio este tipo de regla). 
Podría pensarse que hay pocos datos para los emás, o que los clientes desisten con los demás tipos de reglas. 

**Tabla test_transactions**

Estudiemos cantidad de transacciones por año, mes y día 

In [28]:
# Año
pd.read_sql("""SELECT EXTRACT( YEAR FROM transaction_date), COUNT(user_id)
               FROM test_transactions
               GROUP BY EXTRACT( YEAR FROM transaction_date)""", conn)

Unnamed: 0,date_part,count
0,2019.0,242315
1,2020.0,333807


Cantidad de transacciones del orden, aunque claro aumento en 2020 respecto a 2019

In [29]:
# Mes
pd.read_sql("""SELECT EXTRACT( MONTH FROM transaction_date), COUNT(user_id)
               FROM test_transactions
               GROUP BY EXTRACT( MONTH FROM transaction_date)
               ORDER BY COUNT(user_id) DESC""", conn)

Unnamed: 0,date_part,count
0,1.0,333807
1,12.0,232967
2,11.0,9335
3,10.0,10
4,9.0,3


La mayor cantidad de transacciones se da en enero seguido por diciembre, mucho menos noviembre. Otra vez, tiene cierta lógica, son meses de recreación en varios aspectos. 

In [30]:
# Día
pd.read_sql("""SELECT EXTRACT( DAY FROM transaction_date), COUNT(user_id)
               FROM test_transactions
               GROUP BY EXTRACT( DAY FROM transaction_date)
               ORDER BY COUNT(user_id) DESC""", conn)

Unnamed: 0,date_part,count
0,30.0,36570
1,15.0,23260
2,14.0,22338
3,13.0,22252
4,18.0,21854
5,24.0,21534
6,19.0,21443
7,16.0,20942
8,20.0,20838
9,17.0,20532


No hay un patron tan claro pero hay menos transacciones en los primeros dias del mes, y el máximo es el 30. Naturalmente en el día 31 hay menos transacciones pues no todos los meses tiene 31.

Ahora estudiemos los amounts en distintos periodos de tiempo

In [32]:
# Métricas de amounts por año 
pd.read_sql("""SELECT EXTRACT( YEAR FROM transaction_date), 
               ROUND(MAX(amount),0), ROUND(MIN(amount),0), ROUND(AVG(amount),0), ROUND(COUNT(amount),0) 
               FROM test_transactions
               GROUP BY EXTRACT( YEAR FROM transaction_date)""", conn)

Unnamed: 0,date_part,round,round.1,round.2,round.3
0,2019.0,463037.0,-113532.0,347.0,242315.0
1,2020.0,217387.0,-110050.0,127.0,333807.0


Nada interesante bajo el sol 

In [33]:
# Métricas de amounts por mes
pd.read_sql("""SELECT EXTRACT( MONTH FROM transaction_date), 
               ROUND(MAX(amount),0), ROUND(MIN(amount),0), ROUND(AVG(amount),0), ROUND(COUNT(amount),0) 
               FROM test_transactions
               GROUP BY EXTRACT( MONTH FROM transaction_date)""", conn)

Unnamed: 0,date_part,round,round.1,round.2,round.3
0,1.0,217387.0,-110050.0,127.0,333807.0
1,9.0,-510.0,-510.0,-510.0,3.0
2,10.0,-169.0,-18190.0,-3272.0,10.0
3,11.0,0.0,-75889.0,-502.0,9335.0
4,12.0,463037.0,-113532.0,381.0,232967.0


Se observa lo mismo que antes