# Data documentos

En este notebook se obtiene caracteristicas unicas documentos electronicos tipo 33 previo a la union con la data de cada contribuyente. 

In [1]:
##Se importan packages necesarios
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark import SparkContext, SparkConf
import pyspark
import pandas as pd
import warnings
warnings.filterwarnings('ignore', category=DeprecationWarning)
from pyspark.sql.types import StringType,TimestampType
import matplotlib.pyplot as plt
from pyspark.sql import functions as F

In [21]:
spark.stop()

In [2]:
#inicio de sesion en spark
ss_name = 'Lectura de datos Dashboard'
wg_conn = "spark.kerberos.access.hadoopFileSystems"
db_conn = "abfs://data@datalakesii.dfs.core.windows.net/"

spark = SparkSession.builder \
      .appName(f"Ejecucion algoritmo {ss_name}")  \
      .config(wg_conn, db_conn) \
      .config("spark.executor.memory", "6g") \
      .config("spark.driver.memory", "12g")\
      .config("spark.executor.cores", "4") \
      .config("spark.executor.instances", "5") \
      .config("spark.driver.maxResultSize", "12g") \
      .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")

spark.conf.set("spark.sql.parquet.enableVectorizedReader","false")
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.int96RebaseModeInWrite", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInWrite", "CORRECTED")
spark.conf.set("spark.sql.debug.maxToStringFields", "2000")

Setting spark.hadoop.yarn.resourcemanager.principal to hvega.externo


### Documentos electronicos tipo 33 y caracteristicas

In [3]:
# Seleciconamos de la dte emiso, receptor, folio, monto total, hora y fecha de emision respectivas

dte=spark.sql("select dhdr_folio,dtdc_codigo,dhdr_fch_emis, dhdr_rut_emisor,dhdr_dv_emisor,dhdr_rut_recep,dhdr_dv_recep,dhdr_mnt_total,dhdr_iva,dhdr_tmst_firma from DWBGDATA.HEADER_DTE_CONSOLIDADA_ENC_SAS_ANALITICA where dtdc_codigo=33")

Hive Session ID = c6315906-2b06-4862-91d0-30706c6129dc


In [6]:
from pyspark.sql import functions as F

dte = dte.withColumn("anio", F.year("dhdr_tmst_firma")) \
         .withColumn("mes", F.month("dhdr_tmst_firma")) \
         .withColumn("dia", F.dayofmonth("dhdr_tmst_firma")) \
         .withColumn("hora", F.hour("dhdr_tmst_firma")) \
         .withColumn("es_fin_de_semana", 
             F.when(F.date_format("dhdr_tmst_firma", "u").cast("int").isin([6, 7]), 1).otherwise(0)) \
         .withColumn("bloque_horario", 
             F.when((F.col("hora") >= 0) & (F.col("hora") < 6), "Madrugada")
              .when((F.col("hora") >= 6) & (F.col("hora") < 12), "Mañana")
              .when((F.col("hora") >= 12) & (F.col("hora") < 19), "Tarde")
              .otherwise("Noche")) \
         .withColumn("dia_semana", F.dayofweek("dhdr_tmst_firma")) \
         .withColumn("semana_mes", 
             (F.dayofmonth("dhdr_tmst_firma") - 1) / 7 + 1)




## Muestreo de ultimos meses

In [7]:
# 2. Obtener la última fecha de emisión
ultima_fecha_emision = dte.agg(F.max("dhdr_fch_emis")).collect()[0][0]

meses_antes = F.add_months(F.lit(ultima_fecha_emision), -2)

# 4. Filtrar el DataFrame 
dte = dte.filter(dte["dhdr_fch_emis"] >= meses_antes)


                                                                                

In [8]:
dte.columns

['dhdr_folio',
 'dtdc_codigo',
 'dhdr_fch_emis',
 'dhdr_rut_emisor',
 'dhdr_dv_emisor',
 'dhdr_rut_recep',
 'dhdr_dv_recep',
 'dhdr_mnt_total',
 'dhdr_iva',
 'dhdr_tmst_firma',
 'anio',
 'mes',
 'dia',
 'hora',
 'es_fin_de_semana',
 'bloque_horario',
 'dia_semana',
 'semana_mes']

## Resample con consideracion de tipo de contribuyente

In [9]:
# Ruta donde está el DataFrame de contribuyentes en formato Parquet
ruta_contribuyentes = "abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/lr-629/APA/Analisis_factura/data_contribuyentes"

# Leer el DataFrame desde la ruta especificada
contribuyentes = spark.read.format("parquet").load(ruta_contribuyentes)


In [10]:
contribuyentes.filter(F.col('CONT_RUT').isNull()).count()

                                                                                

0

In [11]:
recuento = contribuyentes.groupBy("ES_PERSONA", "ES_EMPRESA").count()
# Mostrar el resultado
recuento.show()



+----------+--------------------+--------+
|ES_PERSONA|          ES_EMPRESA|   count|
+----------+--------------------+--------+
|      null|Segmento Pequeñas...|  296711|
|      null|                null|  145603|
|         1|                null|25381961|
|      null|Segmento Micro Em...| 3290283|
|      null|Segmento Grandes ...|   76036|
|      null|Segmento Medianas...|   50209|
+----------+--------------------+--------+



                                                                                

In [12]:
contribuyentes = contribuyentes.withColumn(
    "tipo_contribuyente",
    F.when(F.col("ES_EMPRESA").isNotNull(), F.col("ES_EMPRESA"))
     .when(F.col("ES_PERSONA").isNotNull(), "Persona")
)

In [13]:
contribuyentes.groupBy("tipo_contribuyente").count().show()

[Stage 13:===>                                                    (4 + 63) / 67]

+--------------------+--------+
|  tipo_contribuyente|   count|
+--------------------+--------+
|Segmento Pequeñas...|  296711|
|                null|  145603|
|Segmento Micro Em...| 3290283|
|Segmento Grandes ...|   76036|
|Segmento Medianas...|   50209|
|             Persona|25381961|
+--------------------+--------+



                                                                                

In [14]:
# 2. Hacer el left join
dte_contribuyentes = dte.join(
    contribuyentes,
    (dte["dhdr_rut_emisor"] == contribuyentes["CONT_RUT"]) &
    (dte["dhdr_dv_emisor"] == contribuyentes["CONT_DV"]),
    how="left"
)

In [15]:
resultado_final = dte_contribuyentes.select(
    dte["*"],  # Todas las columnas de dte
    contribuyentes["tipo_contribuyente"]  # La nueva columna
)

In [16]:
resultado_final = resultado_final.withColumn(
    "tipo_contribuyente",
    F.when(F.col("tipo_contribuyente").isNull(), "indefinido")
     .otherwise(F.col("tipo_contribuyente"))
)

In [17]:
# 1. Contar los valores únicos de CONT_RUT por tipo_contribuyente
conteo_por_clase = resultado_final.groupBy("tipo_contribuyente") \
                                   .agg(F.countDistinct("dhdr_rut_emisor").alias("num_cont_rut_unicos"))

# Mostrar el resultado
conteo_por_clase.show()

Exception in thread "serve-DataFrame" java.net.SocketTimeoutException: Accept timed out
	at java.net.PlainSocketImpl.socketAccept(Native Method)
	at java.net.AbstractPlainSocketImpl.accept(AbstractPlainSocketImpl.java:409)
	at java.net.ServerSocket.implAccept(ServerSocket.java:560)
	at java.net.ServerSocket.accept(ServerSocket.java:528)
	at org.apache.spark.security.SocketAuthServer$$anon$1.run(SocketAuthServer.scala:64)

+--------------------+-------------------+
|  tipo_contribuyente|num_cont_rut_unicos|
+--------------------+-------------------+
|Segmento Pequeñas...|             170111|
|Segmento Micro Em...|             279072|
|          indefinido|               1316|
|Segmento Grandes ...|              15721|
|Segmento Medianas...|              31317|
|             Persona|                255|
+--------------------+-------------------+



                                                                                

In [18]:
# 3. Determinar el tamaño mínimo para el muestreo equilibrado
min_tamano = conteo_por_clase.agg(F.min("num_cont_rut_unicos")).first()[0]

# 4. Calcular la fracción de muestreo para cada clase
fracciones = conteo_por_clase.select(
    "tipo_contribuyente",
    (F.lit(min_tamano) / F.col("num_cont_rut_unicos")).alias("fraccion")
).rdd.collectAsMap()

# 5. Realizar el muestreo equilibrado
dataset_final = resultado_final.sampleBy("tipo_contribuyente", fracciones, seed=42)

# 6. Contar el tamaño final del dataset muestreado
print(f"Tamaño del dataset final: {dataset_final.count()}")
dataset_final=dataset_final.drop('tipo_contribuyente')



Tamaño del dataset final: 879047


                                                                                

In [19]:
# Cambiar la política de análisis de tiempo
spark.conf.set("spark.sql.legacy.timeParserPolicy", "LEGACY")
# Se guarda el archivo final en el datalake. 
dataset_final .write.mode('overwrite').format("parquet").save("abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/lr-629/APA/Analisis_factura/dtes")


                                                                                

In [20]:
dataset_final .count()

                                                                                

879047

------------------------------------------------------------------------------------------------------------------------

## Cesión de documentos tributarios

## Completar

In [87]:
doct=spark.table("hivenom.csn_doctos_final")
ces=spark.table("hivenom.csn_cesion_final")

In [88]:
# Realiza el inner join
dte_cesion = dte.join(
    doct,  # Asumiendo que ya tienes el DataFrame 'ces'
    (dte.dhdr_folio == doct.rdoc_folio) &
    (dte.dhdr_rut_emisor == doct.rdoc_rut_emisor_e) &
    (dte.dhdr_dv_emisor == doct.rdoc_dv_emisor),
    "left"
).select(
    dte.dhdr_folio,
    dte.dtdc_codigo,
    dte.dhdr_rut_emisor,
    dte.dhdr_dv_emisor,
    dte.dhdr_rut_recep,
    dte.dhdr_dv_recep,
    dte.dhdr_mnt_total,
    dte.dhdr_iva,
    dte.dhdr_fch_emis,  # Asegúrate de que esta columna exista en dte
    *doct.columns # Selecciona todas las columnas de 'ces'
)

# Agrega la columna 'cedido' para indicar si hay cruce
dte_cesion = dte_cesion.withColumn(
    "cedido",
    F.when(doct.rdoc_folio.isNotNull(), "Sí").otherwise("No")
)



In [89]:
dte_cesion.columns

['dhdr_folio',
 'dtdc_codigo',
 'dhdr_rut_emisor',
 'dhdr_dv_emisor',
 'dhdr_rut_recep',
 'dhdr_dv_recep',
 'dhdr_mnt_total',
 'dhdr_iva',
 'dhdr_fch_emis',
 'rdoc_codigo',
 'rtdc_codigo',
 'rdoc_rut_emisor_e',
 'rdoc_dv_emisor',
 'rdoc_rut_receptor_e',
 'rdoc_dv_receptor',
 'rdoc_folio',
 'rdoc_fch_emis',
 'rdoc_fch_emis_int',
 'rdoc_fch_emis_str',
 'rdoc_mnt_total',
 'rdoc_codigo_sii',
 'rdoc_firma_dte',
 'rdoc_firma_doc',
 'rtes_estado',
 'rdoc_info_acuse',
 'rdoc_rut_tenedor_e',
 'rdoc_dv_tenedor',
 'cont_rut_emisor_e',
 'cont_dv_emisor',
 'cont_rut_receptor_e',
 'cont_dv_receptor',
 'cont_rut_tenedor_e',
 '_c29',
 'cedido']

In [90]:
# Agrupa por las columnas originales de dte y cuenta las veces que ha sido cedido
result = dte_cesion.groupBy(
    "dhdr_folio",
    "dtdc_codigo",
    "dhdr_fch_emis",
    "dhdr_rut_emisor",
    "dhdr_dv_emisor",
    "dhdr_rut_recep",
    "dhdr_dv_recep",
    "dhdr_mnt_total",
    "dhdr_iva"
).agg(
    F.count(F.when(F.col("cedido") == "Sí", 1)).alias("veces_cedido")  # Cuenta solo los cedidos
)

In [91]:
result.show()



+----------+-----------+-------------------+--------------------+--------------+--------------------+-------------+--------------+--------+------------+
|dhdr_folio|dtdc_codigo|      dhdr_fch_emis|     dhdr_rut_emisor|dhdr_dv_emisor|      dhdr_rut_recep|dhdr_dv_recep|dhdr_mnt_total|dhdr_iva|veces_cedido|
+----------+-----------+-------------------+--------------------+--------------+--------------------+-------------+--------------+--------+------------+
|         1|         33|2022-12-07 03:00:00|+AfjgrFgKkLdApQe3...|             5|x/fYZ0zPcHVsIVkKc...|            2|  412335.00000|   65835|           0|
|         1|         33|2022-12-12 03:00:00|/K8I2xM34Jvn3Dk7r...|             0|yMwo16vBWNGr9KRE5...|            0|  238000.00000|   38000|           0|
|         1|         33|2022-12-20 03:00:00|6mqctbPheprIMb5Yl...|             3|hejp2SLUDIHF2FaM9...|            7|  188000.00000|   30017|           0|
|         1|         33|2022-12-28 03:00:00|9AyUMOiQXMQ3oBlFt...|             6|9Q

                                                                                

In [92]:
# Realiza el left join con dte_cesion
dte_cesion_det = dte_cesion.join(
    ces,  # Asumiendo que ya tienes el DataFrame 'ces'
    dte_cesion.rdoc_codigo == ces.rdoc_codigo,  # Asegúrate de que esta columna exista
    "left"  # Cambiado a left join
).select(
    dte_cesion.dhdr_folio,
    dte_cesion.dhdr_rut_emisor,
    dte_cesion.dhdr_rut_recep
)

# Muestra el resultado (opcional)
dte_cesion_det.show()

                                                                                 / 375]]]]]

+----------+--------------------+--------------------+
|dhdr_folio|     dhdr_rut_emisor|      dhdr_rut_recep|
+----------+--------------------+--------------------+
|        18|u6DN4IRNrOuGLINJ3...|dY2m6pdz1O3v/NSQT...|
|        21|pPNBwzAwciULMqUnC...|+pMO2/qLRI7HJ7+PP...|
|        38|ItdrI7u872SwrCrlH...|NdSKAiMD2p2FEn9Rr...|
|        78|n1gYq8ArCZUeeJF2u...|5vMWyhcQ9jeVKxsXq...|
|        84|bkNJ1dOsghOLJngZT...|fqgelMrO0CCRxi6cq...|
|       102|BYQ6tqynOrZyetyC0...|jbiSiWX4DZsKy7BLV...|
|       157|LGeSZbWE8awaui/ay...|o89UI8aTO2lDS/5pG...|
|       164|Gj/RnW2xN/T8RWLW/...|8pU5XNwOd3MTODWGt...|
|       166|nYNUFq4OC8rqQ5Y+9...|SpgmRVea3kh4/deyj...|
|       247|ScY50e0LsVPPn0hVr...|Ssj+zKDhfPiLdYUlu...|
|       258|sIIadgXwL49mjoORM...|j5QEkgEVW7SWcHuTd...|
|       269|fX9+YQ5E7JIqA8RvP...|umsm49+18CdPExclv...|
|       295|5jJAtZLHsIMc9IZmK...|tH5WWf0Hzr7qWu/Jv...|
|       308|Bmey3mk6mjFEnuVkZ...|b5RJzATbKSxVqvtvY...|
|       315|DG2EoONby8xK6o+sY...|2Sv73JU1MvvC/XDnS...|
|       34

                                                                                

In [93]:
result.show()

ERROR:root:KeyboardInterrupt while sending command.6) / 4544][Stage 241:>(0 + 0) / 388]
Traceback (most recent call last):
  File "/home/cdsw/.local/lib/python3.11/site-packages/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/cdsw/.local/lib/python3.11/site-packages/py4j/clientserver.py", line 511, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
                          ^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/socket.py", line 706, in readinto
    return self._sock.recv_into(b)
           ^^^^^^^^^^^^^^^^^^^^^^^
KeyboardInterrupt


KeyboardInterrupt: 

## Obtencion de documentos de RCV

In [None]:
rcv=spark.table("DWBGDATA.DCV_GENERIC_DET_CONSOLIDADO_SAS")

## Cruce con registros de RCV

In [None]:
# Realiza el left join
union= dte.join(
    rcv,
    (dte.dhdr_folio == rcv.det_folio_doc_ref) &
    (dte.dhdr_rut_emisor ==rcv.dcv_rut_emisor_e) &
    (dte.dhdr_rut_recep == rcv.det_rut_doc_e),
    "left"
)

# Agrega una columna para indicar si hubo cruce
union = union.withColumn(
    "cruce_rcv",
    F.when(rcv.det_folio_doc_ref.isNotNull(), "Sí").otherwise("No")
)


In [None]:
# Selecciona todas las columnas originales de dte y las columnas específicas de rcv
df_final = union.select(
    dte.dhdr_folio,
    dte.dtdc_codigo,
    dte.dhdr_fch_emis,
    dte.dhdr_rut_emisor,
    dte.dhdr_dv_emisor,
    dte.dhdr_rut_recep,
    dte.dhdr_dv_recep,
    dte.dhdr_mnt_total,
    dte.dhdr_iva,
    rcv.det_emisor_nota,
    rcv.det_fch_doc,
    rcv.det_fec_creacion,
    rcv.tipo_transaccion,
    F.when(rcv.det_folio_doc_ref.isNotNull(), "Sí").otherwise("No").alias("cruce_rcv")
)

# Muestra el resultado
df_final.show()


### Cesion de documentos

In [94]:
spark.stop()

24/11/04 18:18:02 354 ERROR TransportRequestHandler: Error while invoking RpcHandler#receive() for one-way message.
org.apache.spark.SparkException: Could not find CoarseGrainedScheduler.
	at org.apache.spark.rpc.netty.Dispatcher.postMessage(Dispatcher.scala:178)
	at org.apache.spark.rpc.netty.Dispatcher.postOneWayMessage(Dispatcher.scala:150)
	at org.apache.spark.rpc.netty.NettyRpcHandler.receive(NettyRpcEnv.scala:690)
	at org.apache.spark.network.server.AbstractAuthRpcHandler.receive(AbstractAuthRpcHandler.java:66)
	at org.apache.spark.network.server.TransportRequestHandler.processOneWayMessage(TransportRequestHandler.java:274)
	at org.apache.spark.network.server.TransportRequestHandler.handle(TransportRequestHandler.java:111)
	at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:140)
	at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:53)
	at io.netty.channel.SimpleChannelInboundHandler