## Apiux & SII: deteccion de relaciones familiares en personas juridicas.
## ATENCION: proyecto sujeto a mantenimiento continuo. 

## Henry Vega (henry.vega@edu.uai.cl)
## Physicist and Data Scientist

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark import SparkContext, SparkConf
import pyspark
import pandas as pd
warnings.filterwarnings('ignore', category=DeprecationWarning)

In [2]:
spark = SparkSession.builder \
    .appName("Test") \
    .config("spark.yarn.access.hadoopFileSystems","abfs://data@datalakesii.dfs.core.windows.net/") \
    .getOrCreate()
warnings.filterwarnings('ignore')
sc=spark.sparkContext
sc.setLogLevel ('ERROR')

23/09/25 12:44:03 WARN SparkConf: The configuration key 'spark.yarn.access.hadoopFileSystems' has been deprecated as of Spark 3.0 and may be removed in the future. Please use the new key 'spark.kerberos.access.hadoopFileSystems' instead.
23/09/25 12:44:03 WARN SparkConf: The configuration key 'spark.yarn.access.hadoopFileSystems' has been deprecated as of Spark 3.0 and may be removed in the future. Please use the new key 'spark.kerberos.access.hadoopFileSystems' instead.
Setting spark.hadoop.yarn.resourcemanager.principal to hvega.externo
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/25 12:44:03 WARN SparkConf: The configuration key 'spark.yarn.access.hadoopFileSystems' has been deprecated as of Spark 3.0 and may be removed in the future. Please use the new key 'spark.kerberos.access.hadoopFileSystems' instead.
23/09/2

## Carga de relaciones societarias y depuracion de data

Primero, veamos los valores null en participacion de capital y participacion de utilidades.

In [3]:
spark.sql("select RUT_SOCIEDAD, RUT_SOCIO,PORCENTAJE_CAPITAL,PORCENTAJE_UTILIDADES from libsdf.jab_soc_2023_inom where PORCENTAJE_CAPITAL is null or PORCENTAJE_UTILIDADES IS NULL").show()

Hive Session ID = 8883e209-5ff0-4197-8715-d781ef3f471c
                                                                                

+------------+---------+------------------+---------------------+
|RUT_SOCIEDAD|RUT_SOCIO|PORCENTAJE_CAPITAL|PORCENTAJE_UTILIDADES|
+------------+---------+------------------+---------------------+
+------------+---------+------------------+---------------------+



Vemos que no hay valores nulos en la tabla. A continuacion veamos cuantos duplicados existen en las columnas de interes:
RUT_SOCIEDAD,RUT_SOCIO,PORCENTAJE_CAPITAL,PORCENTAJE_UTILIDADES, pues todos
los calculos lo haremos basados en esta columnas.

In [4]:
spark.sql("select RUT_SOCIEDAD, RUT_SOCIO,PORCENTAJE_CAPITAL,PORCENTAJE_UTILIDADES, count(*) as c from libsdf.jab_soc_2023_inom  group by  RUT_SOCIEDAD, RUT_SOCIO,PORCENTAJE_CAPITAL,PORCENTAJE_UTILIDADES order by c desc").createOrReplaceTempView("sociedad")
spark.sql("select RUT_SOCIEDAD, RUT_SOCIO,PORCENTAJE_CAPITAL,PORCENTAJE_UTILIDADES from sociedad").createOrReplaceTempView("sociedad")

Donde seleccionamos los valores no repetidos. Haciendo nuevamente un recuento de los valores unicos,

In [5]:
spark.sql("select RUT_SOCIEDAD, RUT_SOCIO, count(*) as count from sociedad group by RUT_SOCIEDAD, RUT_SOCIO order by count desc ").show()



+--------------------+--------------------+-----+
|        RUT_SOCIEDAD|           RUT_SOCIO|count|
+--------------------+--------------------+-----+
|XT3/hfy+Mplva3KQa...|sfcXDRR254XVzqQ4O...|    1|
|lKwPyzZ50d5RMJ7+8...|rPDbcinptR5QgL7Fo...|    1|
|AQBAdao900uSGrRq2...|nrOXCvl8COOcZFJhu...|    1|
|TwVXQ1e0e7aVWeexZ...|+23KlPaxKqyoiio8l...|    1|
|WutkO6PyeL3Gwr/Ro...|PgOwgqXuuOl/Ll3F6...|    1|
|M4rT29AnuVrWws3v/...|1Ow3yOf5KwmW7D8PQ...|    1|
|QFYeLe6LSuc8MEf+x...|+dUcXuKse4ifhqrsE...|    1|
|h/Fm9nDrvGnno0hJu...|SMX6DBoFu9qZiApzB...|    1|
|nRovg2pv6/A0+S3jo...|oBsxtoJwWjnPlsQQu...|    1|
|PzN83I4W/MDeOqqUa...|O6imj6gnyr7DZtqMO...|    1|
|ZVy9Q0ZtQxngY7kyy...|0Ahvdd2Rlsdg4dXA6...|    1|
|rK5DS6cOT5MN7Q57Q...|1fyW8k4b7dp0/KJN1...|    1|
|ZvkldJRFTk3tGb0h7...|t4gNmxiyLVzUljdZ/...|    1|
|LXlP0klmM1ZKTTN3f...|vLpDZEDAGoElvkWsh...|    1|
|EZ1Y7BZcr5un4m5kE...|vOAZ6FN8w8H3lJRLG...|    1|
|P49qZ95m3o7j3drdk...|wrq36LR9C2AR2SDI5...|    1|
|3KI/3xT9KaVMdirgq...|gyrBh3KCklCZWVBWE...|    1|


                                                                                

Por lo visto tenemos unicidad de la relaciones sociedad socio, a juzgar por el recuento de las combinaciones.
Ahora vamos las entradas con al menos un valor cero (que indica cero participacion porcentual)

In [6]:
spark.sql("select COUNT(*) from sociedad WHERE PORCENTAJE_CAPITAL=0 OR PORCENTAJE_UTILIDADES=0").show()



+--------+
|count(1)|
+--------+
| 1057765|
+--------+



                                                                                

Por lo visto, tenemos 1057765 entradas donde al menos uno de ambos porcentajes es cero. Por otro lado, tenemos 
1053936 registros donde ambos porcentajes son cero.


Ahora veamos cuales porcentajes de capital son cero y luego los porcentajes de utilidades son cero.

In [7]:
spark.sql("select count(*) from sociedad WHERE PORCENTAJE_CAPITAL=0 and PORCENTAJE_UTILIDADES!=0").show()
spark.sql("select count(*) from sociedad WHERE PORCENTAJE_CAPITAL!=0 and PORCENTAJE_UTILIDADES=0").show()

                                                                                

+--------+
|count(1)|
+--------+
|    2608|
+--------+





+--------+
|count(1)|
+--------+
|    1221|
+--------+



                                                                                

Para el analisis del problema de oscuridad, es mejor tener en cuenta los porcentajes de participacion de capital, porque los creditos se reparten segun la participacion societaria.
Ahora veamos cuantos tienen valores positivos mayores que 100 o negativos.

In [8]:
spark.sql("select * from sociedad WHERE PORCENTAJE_CAPITAL<0 or PORCENTAJE_CAPITAL>100 or PORCENTAJE_UTILIDADES<0 or PORCENTAJE_UTILIDADES>100").show()



+--------------------+--------------------+------------------+---------------------+
|        RUT_SOCIEDAD|           RUT_SOCIO|PORCENTAJE_CAPITAL|PORCENTAJE_UTILIDADES|
+--------------------+--------------------+------------------+---------------------+
|qjkqLEYc5TRVKEMYf...|ifIlRQ1yYkDigN1Ii...|            100.01|                100.0|
+--------------------+--------------------+------------------+---------------------+



                                                                                

El cual es solo un valor levemente superior a 100 %. Seleccionamos los que no tienen valores cero en PORCENTAJE_CAPITAL.

In [9]:
spark.sql("select RUT_SOCIEDAD, RUT_SOCIO from sociedad where PORCENTAJE_CAPITAL!=0").createOrReplaceTempView("sociedad")

In [10]:
spark.sql("select count(*) from sociedad where RUT_SOCIEDAD LIKE 'Qbau/6SlJ/lEcKUD%'").show()
spark.sql("select *  from libsdf.jab_soc_2023_inom where RUT_SOCIEDAD LIKE 'Qbau/6SlJ/lEcKUD%'").show()

                                                                                

+--------+
|count(1)|
+--------+
|    5695|
+--------+





+--------------------+--------------------+------------------+---------------------+------------------------+------+
|        RUT_SOCIEDAD|           RUT_SOCIO|PORCENTAJE_CAPITAL|PORCENTAJE_UTILIDADES|PERI_AGNO_MES_TRIBUTARIO|FUENTE|
+--------------------+--------------------+------------------+---------------------+------------------------+------+
|Qbau/6SlJ/lEcKUDF...|RQ0TnfBpncysCFzap...|              0.03|                 0.03|                  202300| F1948|
|Qbau/6SlJ/lEcKUDF...|i8odveNc3AEZRZWI7...|              0.01|                 0.01|                  202300| F1948|
|Qbau/6SlJ/lEcKUDF...|9cDQjPbdfB1EfPUmw...|              0.02|                 0.02|                  202300| F1948|
|Qbau/6SlJ/lEcKUDF...|7T3+u8inor8kIrUtm...|              0.02|                 0.02|                  202300| F1948|
|Qbau/6SlJ/lEcKUDF...|CbAnOeVKkXKx8w0q3...|              0.01|                 0.01|                  202300| F1948|
|Qbau/6SlJ/lEcKUDF...|dEi5RAN/WiSIYuK1s...|              0.01|  

                                                                                

## Tablas temporales previo a la ejecucion

In [11]:
spark.sql("select RUT_SOCIEDAD, RUT_SOCIO from sociedad order by RUT_SOCIEDAD asc").createOrReplaceTempView("sociedad")
spark.sql("select RUT_SOCIEDAD as RUT_SOCIEDAD_AUX ,RUT_SOCIO as RUT_SOCIO_AUX from sociedad order by RUT_SOCIEDAD asc").createOrReplaceTempView("aux")
spark.sql("select RUT_SOCIEDAD, COUNT(*) AS F from sociedad group by RUT_SOCIEDAD ORDER BY F DESC").show()





+--------------------+----+
|        RUT_SOCIEDAD|   F|
+--------------------+----+
|Qbau/6SlJ/lEcKUDF...|5695|
|MRU68+Z5OL1aQ0Z1w...|4048|
|aCQI5hc9DJjdiR99C...|3935|
|+UCMEZbCFoa1QlZA9...|3832|
|KC2gSl0b9r3JFGJGB...|2300|
|budnfTzn6InI36rUl...|2015|
|XFPrrMjIRpmkIviY2...|1901|
|HDB9b720pXEYmSg+O...|1066|
|pQ8RTSgnVVSztjUFr...|1058|
|IhPFdr7e7Rp7pan7w...|1018|
|yZGTUDpF/+ZCQZSu4...| 982|
|z71uB1zhk2qOUjNE7...| 914|
|015/V4NMbTt4NqHqu...| 887|
|YBHL59u/ObQyJG8ge...| 818|
|e+VFGU2vucXoStF+t...| 803|
|+A3j56r4Y75etCe7l...| 781|
|cxMSpj6sk0e5YAiGn...| 736|
|2PWxHBf5OFjafbjAZ...| 730|
|jYQ/cfaEFA67wHhtv...| 709|
|/zFuTa4lU2t1d/eWC...| 700|
+--------------------+----+
only showing top 20 rows



                                                                                

In [12]:

for a in range (1,2):
    spark.sql("select * from sociedad left join aux on sociedad.RUT_SOCIO=aux.RUT_SOCIEDAD_AUX ").createOrReplaceTempView("sociedad")
    spark.sql("select * from sociedad  order by RUT_SOCIEDAD_AUX desc").createOrReplaceTempView("sociedad")
    spark.sql("select * from sociedad").show()
    spark.sql("select RUT_SOCIEDAD, CASE WHEN RUT_SOCIEDAD_AUX is null then RUT_SOCIO else RUT_SOCIO_AUX END AS RUT_SOCIO from sociedad  order by RUT_SOCIEDAD_AUX desc").createOrReplaceTempView("sociedad")
    spark.sql("select * from sociedad").show()
    spark.sql("select RUT_SOCIEDAD, COUNT(*) as d from sociedad GROUP BY RUT_SOCIEDAD order by d desc ").show()

                                                                                

+--------------------+--------------------+--------------------+--------------------+
|        RUT_SOCIEDAD|           RUT_SOCIO|    RUT_SOCIEDAD_AUX|       RUT_SOCIO_AUX|
+--------------------+--------------------+--------------------+--------------------+
|gusyW8sL25uu6GHpQ...|zzycSmylbx7abTn6L...|zzycSmylbx7abTn6L...|oBwy7ODmDOAi3jGMi...|
|r7U2sgwFVd309y/AE...|zzycSmylbx7abTn6L...|zzycSmylbx7abTn6L...|oBwy7ODmDOAi3jGMi...|
|mWLS9Vz9dBPrgQXCQ...|zzyIQ58Evw9Ywxzmq...|zzyIQ58Evw9Ywxzmq...|QglF/ZyA+gPt9QwnP...|
|mWLS9Vz9dBPrgQXCQ...|zzyIQ58Evw9Ywxzmq...|zzyIQ58Evw9Ywxzmq...|vp5vmARoko5V2tQz4...|
|mWLS9Vz9dBPrgQXCQ...|zzyIQ58Evw9Ywxzmq...|zzyIQ58Evw9Ywxzmq...|/T+DekYtwLnAr14d5...|
|mWLS9Vz9dBPrgQXCQ...|zzyIQ58Evw9Ywxzmq...|zzyIQ58Evw9Ywxzmq...|BWJUJ2O88q9ylTXZn...|
|sOotV4Dbhi0Gcw5kV...|zzw82ZqW8spQp27re...|zzw82ZqW8spQp27re...|kIjGcwUZIM7jN16ml...|
|4l5mp3z5pgfHVTewT...|zzr41gDzOxHxz+fGH...|zzr41gDzOxHxz+fGH...|elX59iomVHGRNrZhn...|
|4l5mp3z5pgfHVTewT...|zzr41gDzOxHxz+fGH...|zzr41gDzOxH

                                                                                

+--------------------+--------------------+
|        RUT_SOCIEDAD|           RUT_SOCIO|
+--------------------+--------------------+
|r7U2sgwFVd309y/AE...|oBwy7ODmDOAi3jGMi...|
|gusyW8sL25uu6GHpQ...|oBwy7ODmDOAi3jGMi...|
|mWLS9Vz9dBPrgQXCQ...|vp5vmARoko5V2tQz4...|
|mWLS9Vz9dBPrgQXCQ...|/T+DekYtwLnAr14d5...|
|mWLS9Vz9dBPrgQXCQ...|BWJUJ2O88q9ylTXZn...|
|mWLS9Vz9dBPrgQXCQ...|QglF/ZyA+gPt9QwnP...|
|sOotV4Dbhi0Gcw5kV...|kIjGcwUZIM7jN16ml...|
|4xxQd0+y30uJ6io8t...|elX59iomVHGRNrZhn...|
|4xxQd0+y30uJ6io8t...|YVkzLcUvjYfQrQPeB...|
|4xxQd0+y30uJ6io8t...|oLvts1fAMFFD60LMU...|
|4l5mp3z5pgfHVTewT...|elX59iomVHGRNrZhn...|
|4l5mp3z5pgfHVTewT...|oLvts1fAMFFD60LMU...|
|4l5mp3z5pgfHVTewT...|YVkzLcUvjYfQrQPeB...|
|5YtVB20cih4aR9kHB...|mYAI3WaLA5OSvLgji...|
|5YtVB20cih4aR9kHB...|9BxQjl2KW09XsoNi+...|
|wSOWcIH74yPUSHVxD...|MrKOVPL885uJaXPsv...|
|pQ8RTSgnVVSztjUFr...|MrKOVPL885uJaXPsv...|
|pQ8RTSgnVVSztjUFr...|mYAI3WaLA5OSvLgji...|
|wSOWcIH74yPUSHVxD...|5H/AsvtJKfs5N660/...|
|pQ8RTSgnVVSztjUFr...|9BxQjl2KW0



+--------------------+----+
|        RUT_SOCIEDAD|   d|
+--------------------+----+
|8zQn3/1BnDPyxDNnu...|6115|
|Qbau/6SlJ/lEcKUDF...|5695|
|vp8Oc3KOw23tIMHqV...|5630|
|+UCMEZbCFoa1QlZA9...|4759|
|MRU68+Z5OL1aQ0Z1w...|4048|
|aCQI5hc9DJjdiR99C...|3935|
|KC2gSl0b9r3JFGJGB...|2301|
|z71uB1zhk2qOUjNE7...|2276|
|budnfTzn6InI36rUl...|2019|
|V2Xq5BaVxZWbBJBx9...|2016|
|KJ7i4Qj5qnOr1Lc03...|2016|
|XFPrrMjIRpmkIviY2...|1907|
|cxMSpj6sk0e5YAiGn...|1803|
|yZGTUDpF/+ZCQZSu4...|1372|
|pQ8RTSgnVVSztjUFr...|1316|
|yc6hspZqFEbNhJJP8...|1259|
|qD//7tG4dKPlQAGIM...|1074|
|HDB9b720pXEYmSg+O...|1071|
|IhPFdr7e7Rp7pan7w...|1035|
|e+VFGU2vucXoStF+t...|1021|
+--------------------+----+
only showing top 20 rows



                                                                                

In [13]:
spark.read.parquet("abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/DW/DW_TRN_RELACIONES_FAMILIARES").createOrReplaceTempView("familiar")
spark.sql("select * from familiar").show()

[Stage 83:>                                                         (0 + 1) / 1]

+--------------------+-------+--------------------+----------+----------+--------------------+-----------+--------------------+--------------+---------------------+--------------------+---------------------+----------------------+--------------------------+-------------------+------------------------+-------------------+----+
|            CONT_RUT|CONT_DV|         FAMI_RUT_VO|FAMI_DV_VO|FAMI_DV_IC|        CONT_RUT_FAM|CONT_DV_FAM|      FAM_RUT_FAM_VO|FAMI_DV_FAM_VO|FAMI_TIPO_RELACION_VO|FAMI_FECHA_INICIO_VO|FAMI_FECHA_TERMINO_VO|FAMI_FECHA_CREACION_VO|FAMI_FECHA_MODIFICACION_VO|FAMI_ORIGEN_DATO_VO|FAMI_FECHA_EXTRACCION_SO|FAMI_FECHA_CARGA_DW|_c17|
+--------------------+-------+--------------------+----------+----------+--------------------+-----------+--------------------+--------------+---------------------+--------------------+---------------------+----------------------+--------------------------+-------------------+------------------------+-------------------+----+
|WwQLK4PxrE9czzj

                                                                                

In [14]:
spark.sql("select familiar.FAMI_TIPO_RELACION_VO, count(*)  from familiar group by familiar.FAMI_TIPO_RELACION_VO").show()



+---------------------+--------+
|FAMI_TIPO_RELACION_VO|count(1)|
+---------------------+--------+
|                    1|12615190|
|                    2|13086926|
|                    3| 6530132|
+---------------------+--------+



                                                                                

In [15]:
select * from INFORMATION_SCHEMA.COLUMNS where TABLE_NAME='familiar'

SyntaxError: invalid syntax (2368019470.py, line 1)

In [None]:
spark.sql("select * from INFORMATION_SCHEMA.COLUMNS where TABLE_NAME='familiar'").show()