### Estudio de grupos economicos 

Para realizar el estudio de caracteristicas sobre diferentes grupos, lo que se hara es analizar cada dato asociado a un contribuyente sin construir un dataframe completo, pues para ciertas variables hay mas de dos valores por contribuyente lo que puede llevar a distorsiones en las estadisticas.

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark import SparkContext, SparkConf
import pyspark
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore', category=DeprecationWarning)
import matplotlib.pyplot as plt




In [3]:
spark = SparkSession.builder \
  .appName("Test")  \
  .config("spark.kerberos.access.hadoopFileSystems","abfs://data@datalakesii.dfs.core.windows.net/") \
  .config("spark.executor.memory", "24g") \
  .config("spark.driver.memory", "12g")\
  .config("spark.executor.cores", "12") \
  .config("spark.executor.instances", "24") \
  .config("spark.driver.maxResultSize", "12g") \
  .getOrCreate()
warnings.filterwarnings('ignore', category=DeprecationWarning)
sc=spark.sparkContext
sc.setLogLevel ('ERROR')
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.enableVectorizedReader","false")
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.int96RebaseModeInWrite", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInWrite", "CORRECTED")

### Datos de grupos economicos conocidos

Obtenemos la data de los grupos economicos conocidos.

In [5]:
spark.read.parquet("abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/LibSDF/GE_APIUX_ARFI_E").createOrReplaceTempView("grupos_conocidos")
spark.sql('select PARU_RUT_E,COM, count(*) as c from grupos_conocidos group by PARU_RUT_E, COM order by PARU_RUT_E asc').createOrReplaceTempView("grupos_conocidos")
spark.sql('select PARU_RUT_E as CONT_RUT,COM from grupos_conocidos  order by PARU_RUT_E asc').createOrReplaceTempView("grupos_conocidos")


                                                                                

### Agregacion de familiaridad 

In [None]:
familiaridad=spark.read.parquet("abfs://data@datalakesii.dfs.core.windows.net/DatoOrigen/lr-629/Oscuridad/final/familiaridad")
familiaridad.createOrReplaceTempView("familiaridad")
familiaridad=spark.sql('select CONT_RUT,COM,TASA_FAMILIARIDAD from  grupos_conocidos left join familiaridad on grupos_conocidos.CONT_RUT=familiaridad.RUT_SOCIEDAD').toPandas()


In [None]:
# Gráfico de distribución de TASA_FAMILIARIDAD
plt.figure(figsize=(10, 6))
sns.histplot(data=familiaridad, x='TASA_FAMILIARIDAD', bins=30, kde=True)
plt.title('Distribución de TASA_FAMILIARIDAD')
plt.xlabel('TASA_FAMILIARIDAD')
plt.ylabel('Frecuencia')
plt.show()


# Obtener los 5 grupos COM más grandes
top_5_com = familiaridad['COM'].value_counts().nlargest(5).index

# Filtrar el DataFrame para incluir solo las filas correspondientes a los 5 grupos más grandes
df_top_5 = familiaridad[familiaridad['COM'].isin(top_5_com)]

# Gráfico de violín de TASA_FAMILIARIDAD para los 5 grupos COM más grandes
plt.figure(figsize=(10, 6))
sns.violinplot(data=df_top_5, x='COM', y='TASA_FAMILIARIDAD')
plt.title('Distribución de TASA_FAMILIARIDAD para los 5 grupos COM más grandes')
plt.xlabel('COM')
plt.ylabel('TASA_FAMILIARIDAD')
plt.xticks(rotation=45)
plt.show()


# Calcular el valor promedio de TASA_FAMILIARIDAD para cada grupo COM
promedio_por_com = familiaridad.groupby('COM')['TASA_FAMILIARIDAD'].mean()

# Crear un histograma para mostrar la distribución de los promedios de TASA_FAMILIARIDAD por COM
plt.figure(figsize=(10, 6))
sns.histplot(promedio_por_com, bins=20, kde=True, color='skyblue')
plt.title('Distribución del promedio de TASA_FAMILIARIDAD por COM')
plt.xlabel('Promedio de TASA_FAMILIARIDAD')
plt.ylabel('Frecuencia')
plt.tight_layout()
plt.show()




### Agregacion de oscuridad

In [None]:
oscuridad=spark.read.parquet("abfs://data@datalakesii.dfs.core.windows.net/DatoOrigen/lr-629/Oscuridad/final/oscuridad")
oscuridad.createOrReplaceTempView("oscuridad")
oscuridad=spark.sql('select grupos_conocidos.CONT_RUT,COM,Value as OSCURIDAD from grupos_conocidos left join oscuridad on grupos_conocidos.CONT_RUT=oscuridad.CONT_RUT').toPandas()


In [None]:
# Gráfico de distribución de OSCURIDAD
plt.figure(figsize=(10, 6))
sns.histplot(data=oscuridad, x='OSCURIDAD', bins=30, kde=True)
plt.title('Distribución de OSCURIDAD')
plt.xlabel('OSCURIDAD')
plt.ylabel('Frecuencia')
plt.show()

# Obtener los 5 grupos COM más grandes
top_5_com = oscuridad['COM'].value_counts().nlargest(5).index

# Filtrar el DataFrame para incluir solo las filas correspondientes a los 5 grupos más grandes
df_top_5 = oscuridad[oscuridad['COM'].isin(top_5_com)]

# Gráfico de violín de OSCURIDAD para los 5 grupos COM más grandes
plt.figure(figsize=(10, 6))
sns.violinplot(data=df_top_5, x='COM', y='OSCURIDAD')
plt.title('Distribución de OSCURIDAD para los 5 grupos COM más grandes')
plt.xlabel('COM')
plt.ylabel('OSCURIDAD')
plt.xticks(rotation=45)
plt.show()

# Calcular el valor promedio de OSCURIDAD para cada grupo COM
promedio_por_com = oscuridad.groupby('COM')['OSCURIDAD'].mean()

# Crear un histograma para mostrar la distribución de los promedios de OSCURIDAD por COM
plt.figure(figsize=(10, 6))
sns.histplot(promedio_por_com, bins=20, kde=True, color='skyblue')
plt.title('Distribución del promedio de OSCURIDAD por COM')
plt.xlabel('Promedio de OSCURIDAD')
plt.ylabel('Frecuencia')
plt.tight_layout()
plt.show()

### Agregacion de contadores

In [None]:

spark.sql('select * from libsdf.arfi_contadores_e').createOrReplaceTempView("contadores")
contadores=spark.sql('select grupos_conocidos.CONT_RUT, COM, RUT_CONTADOR from grupos_conocidos left join contadores on grupos_conocidos.CONT_RUT=contadores.CONT_RUT').toPandas()

In [None]:
# Encontrar los 15 valores más repetidos en general en la columna RUT_CONTADOR
top_15_repetidos = contadores['RUT_CONTADOR'].value_counts().nlargest(15)

# Gráfico de barras de los 15 valores más repetidos en general
plt.figure(figsize=(12, 6))
sns.barplot(x=top_15_repetidos.index, y=top_15_repetidos.values)
plt.title('Top 15 valores más repetidos en general')
plt.xlabel('RUT_CONTADOR')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

def calculate_mode(series):
    try:
        mode = series.mode().iloc[0]
    except IndexError:
        mode = None
    return mode

# Calcular las modas de RUT_CONTADOR para cada COM
modas_por_com = contadores.groupby('COM')['RUT_CONTADOR'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_filtradas = modas_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas = modas_filtradas.value_counts().nlargest(15)

# Crear un gráfico de barras para las 15 modas más frecuentes
plt.figure(figsize=(10, 6))
top_15_modas.plot(kind='bar', color='skyblue')
plt.title('Top 15 Modas de RUT_CONTADOR por COM')
plt.xlabel('RUT_CONTADOR')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

### Agregacion de direcciones

In [None]:
spark.sql('select CONT_RUT,DIRE_COD_COMUNA_VO from dw.dw_trn_direcciones_e').createOrReplaceTempView("direccion")
spark.sql('select grupos_conocidos.CONT_RUT,COM, DIRE_COD_COMUNA_VO from grupos_conocidos left join direccion on grupos_conocidos.CONT_RUT=direccion.CONT_RUT').createOrReplaceTempView("grupos_aux")
spark.sql('select * from dw.dim_comuna').createOrReplaceTempView("dim_comuna")

direccion=spark.sql('select CONT_RUT, COM,COMU_DES_COMUNA as COMUNA from grupos_aux left join dim_comuna on grupos_aux.DIRE_COD_COMUNA_VO=dim_comuna.COMU_COD_COMUNA').toPandas()

In [None]:
# Encontrar los 15 valores más repetidos en general en la columna COMUNA
top_15_repetidos_comuna = direccion['COMUNA'].value_counts().nlargest(15)

# Gráfico de barras de los 15 valores más repetidos en general
plt.figure(figsize=(12, 6))
sns.barplot(x=top_15_repetidos_comuna.index, y=top_15_repetidos_comuna.values)
plt.title('Top 15 valores más repetidos en general en COMUNA')
plt.xlabel('COMUNA')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

def calculate_mode(series):
    try:
        mode = series.mode().iloc[0]
    except IndexError:
        mode = None
    return mode

# Calcular las modas de COMUNA para cada COM
modas_por_com = direccion.groupby('COM')['COMUNA'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_filtradas = modas_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas = modas_filtradas.value_counts().nlargest(15)

# Crear un gráfico de barras para las 15 modas más frecuentes
plt.figure(figsize=(10, 6))
top_15_modas.plot(kind='bar', color='skyblue')
plt.title('Top 15 Modas de COMUNA por COM')
plt.xlabel('COMUNA')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

### Agregacion de mails

In [None]:
spark.sql('select * from dw.dw_trn_contribuyentes_e').createOrReplaceTempView("mails")
mails=spark.sql('select grupos_conocidos.CONT_RUT, COM, CONT_E_MAIL_VO as MAIL from grupos_conocidos left join mails on grupos_conocidos.CONT_RUT=mails.CONT_RUT').toPandas()

In [None]:
# Encontrar los 15 valores más repetidos en general en la columna MAILS
top_10_repetidos_mails = mails['MAIL'].value_counts().nlargest(10)

# Gráfico de barras de los 15 valores más repetidos en general
plt.figure(figsize=(12, 6))
sns.barplot(x=top_10_repetidos_mails.index, y=top_10_repetidos_mails.values)
plt.title('Top 15 valores más repetidos en general en MAIL')
plt.xlabel('MAIL')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

def calculate_mode(series):
    try:
        mode = series.mode().iloc[0]
    except IndexError:
        mode = None
    return mode

# Calcular las modas de MAILS para cada COM
modas_por_com = mails.groupby('COM')['MAIL'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_filtradas = modas_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas = modas_filtradas.value_counts().nlargest(10)

# Crear un gráfico de barras para las 15 modas más frecuentes
plt.figure(figsize=(10, 6))
top_15_modas.plot(kind='bar', color='skyblue')
plt.title('Top 15 Modas de MAIL por COM')
plt.xlabel('MAIL')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()


### Agregacion de patrimonios

In [None]:
spark.sql('select * from libsdf.patrimonio_at2021_eh').createOrReplaceTempView("patrimonio")

In [None]:
spark.sql('select * from patrimonio').show()

In [None]:

#spark.sql('select * from libsdf.patrimonio_at2021_eh').createOrReplaceTempView("patrimonio")
#spark.sql('select grupos_conocidos.CONT_RUT, COMUNIDAD, FAMILIARIDAD, OSCURIDAD, RUT_CONTADOR,COMUNA, PROVINCIA, REGION, MAIL, PATR_AT as PATRIMONIO_2021 from grupos_conocidos left join patrimonio on grupos_conocidos.CONT_RUT=patrimonio.RUT').createOrReplaceTempView("grupos_conocidos")


In [None]:
#spark.read.parquet("abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/LibSDF/GE_APIUX_ARFI_E").createOrReplaceTempView("grupos_conocidos")
#spark.sql('select * from grupos_conocidos left join patrimonio on grupos_conocidos.PARU_RUT_E=patrimonio.RUT').createOrReplaceTempView("grupos_conocidos")



### Agregacion de rubros asociados

In [None]:
spark.sql('select * from dw.dw_trn_actividad_economica_e').createOrReplaceTempView("acteco")


In [None]:
spark.sql('select grupos_conocidos.CONT_RUT, COM,ACTECO_COD_ACTECO from grupos_conocidos left join acteco on grupos_conocidos.CONT_RUT=acteco.CONT_RUT').createOrReplaceTempView("grupos_conocidos_auxiliar")

In [None]:
spark.sql('select * from dw.dw_dim_actividad_economica_e').createOrReplaceTempView("acteco_aux")

In [None]:
acteco=spark.sql('select grupos_conocidos_auxiliar.CONT_RUT, COM, ACEC_DES_ACTECO,ACEC_DES_SUBRUBRO, ACEC_DES_RUBRO  from grupos_conocidos_auxiliar left join acteco_aux on grupos_conocidos_auxiliar.ACTECO_COD_ACTECO=acteco_aux.ACEC_COD_ACTECO').toPandas()
#spark.sql('select * from grupos_conocidos left join actecto_dimensiones on grupos_conocidos.ACTECO_COD_ACTECO=acteco_dimensiones.ACEC_COD_ACTECO').show()


In [None]:
# Encontrar los 15 valores más repetidos en general en la columna ACEC_DES_SUBRUBRO
top_15_repetidos_subrubro = acteco['ACEC_DES_SUBRUBRO'].value_counts().nlargest(15)

# Gráfico de barras horizontales de los 15 valores más repetidos en general
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_repetidos_subrubro.values, y=top_15_repetidos_subrubro.index, orient='h')
plt.title('Top 15 valores más repetidos en general en ACEC_DES_SUBRUBRO')
plt.xlabel('Frecuencia')
plt.ylabel('ACEC_DES_SUBRUBRO')
plt.tight_layout()
plt.show()

# Calcular las modas de ACEC_DES_SUBRUBRO para cada COM
modas_subrubro_por_com = acteco.groupby('COM')['ACEC_DES_SUBRUBRO'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_subrubro_filtradas = modas_subrubro_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas_subrubro = modas_subrubro_filtradas.value_counts().nlargest(15)

# Crear un gráfico de barras horizontales para las 15 modas más frecuentes de ACEC_DES_SUBRUBRO
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_modas_subrubro.values, y=top_15_modas_subrubro.index, orient='h', palette='viridis')
plt.title('Top 15 Modas de ACEC_DES_SUBRUBRO por COM')
plt.xlabel('Frecuencia')
plt.ylabel('ACEC_DES_SUBRUBRO')
plt.tight_layout()
plt.show()



In [None]:
# Encontrar los 15 valores más repetidos en general en la columna ACEC_DES_ACTECO
top_15_repetidos_acteco = acteco['ACEC_DES_ACTECO'].value_counts().nlargest(15)

# Gráfico de barras horizontales de los 15 valores más repetidos en general
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_repetidos_acteco.values, y=top_15_repetidos_acteco.index, orient='h')
plt.title('Top 15 valores más repetidos en general en ACEC_DES_ACTECO')
plt.xlabel('Frecuencia')
plt.ylabel('ACEC_DES_ACTECO')
plt.tight_layout()
plt.show()

# Calcular las modas de ACEC_DES_ACTECO para cada COM
modas_acteco_por_com = acteco.groupby('COM')['ACEC_DES_ACTECO'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_acteco_filtradas = modas_acteco_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas_acteco = modas_acteco_filtradas.value_counts().nlargest(15)

# Crear un gráfico de barras horizontales para las 15 modas más frecuentes de ACEC_DES_ACTECO
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_modas_acteco.values, y=top_15_modas_acteco.index, orient='h', palette='viridis')
plt.title('Top 15 Modas de ACEC_DES_ACTECO por COM')
plt.xlabel('Frecuencia')
plt.ylabel('ACEC_DES_ACTECO')
plt.tight_layout()
plt.show()


In [None]:
# Encontrar los 15 valores más repetidos en general en la columna ACEC_DES_RUBRO
top_15_repetidos_rubro = acteco['ACEC_DES_RUBRO'].value_counts().nlargest(15)

# Gráfico de barras horizontales de los 15 valores más repetidos en general
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_repetidos_rubro.values, y=top_15_repetidos_rubro.index, orient='h')
plt.title('Top 15 valores más repetidos en general en ACEC_DES_RUBRO')
plt.xlabel('Frecuencia')
plt.ylabel('ACEC_DES_RUBRO')
plt.tight_layout()
plt.show()

# Calcular las modas de ACEC_DES_RUBRO para cada COM
modas_rubro_por_com = acteco.groupby('COM')['ACEC_DES_RUBRO'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_rubro_filtradas = modas_rubro_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas_rubro = modas_rubro_filtradas.value_counts().nlargest(15)

# Crear un gráfico de barras horizontales para las 15 modas más frecuentes de ACEC_DES_RUBRO
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_modas_rubro.values, y=top_15_modas_rubro.index, orient='h', palette='viridis')
plt.title('Top 15 Modas de ACEC_DES_RUBRO por COM')
plt.xlabel('Frecuencia')
plt.ylabel('ACEC_DES_RUBRO')
plt.tight_layout()
plt.show()


### Directores 

In [4]:
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.enableVectorizedReader","false")
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.int96RebaseModeInWrite", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInWrite", "CORRECTED")

spark.sql("select * from dw.dw_trn_djr_f1879_e").createOrReplaceTempView("F1879")

Hive Session ID = 4edee553-8341-4927-9da9-c1eb532a662e


In [42]:

a=spark.read.parquet("abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/DW/DW_TRN_DJR_F1879_E")

                                                                                

In [43]:
a.createOrReplaceTempView("F1879")

In [44]:
a.show()

[Stage 64:>                                                         (0 + 1) / 1]

+------------------------+------------------+-------------+---------------------+--------------------+-------+--------------------+-----------------+--------------------+------------+--------------------+----------------+---------------+-----------------+-----------------+-----------------+-----------------+------------------+---------------------+--------------------+--------------------+-------------+--------------------+------------+----------+--------------+---------------+---------------+---------------+----------------------+-------------------------+-----------------------+--------------------+----+
|PERI_AGNO_MES_TRIBUTARIO|HEADER_FORM_KEY_VO|TIFO_COD_FORM|TIFO_COD_FORM_VERSION|            CONT_RUT|CONT_DV|  F1879_RUT_DECLA_VO|F1879_DV_DECLA_VO|       CONT_RUT_INFO|CONT_DV_INFO|   F1879_RUT_INFO_VO|F1879_DV_INFO_VO|F1879_RETE_HONO|F1879_RETE_DIRE10|F1879_RETE_DIRE20|F1879_CERTIFICADO|F1879_CORRELATIVO|F1879_PERIODO_PAGO|F1879_RETE_HONO_ARTES|F1879_RETE_HONO_ISLA|      F1879_RUT

                                                                                

In [31]:
#a=spark.sql('select * from F1879')

In [45]:
b=spark.sql('select CONT_RUT as CONT_RUT1, COM  from grupos_conocidos')
b.show()

[Stage 65:>                                                         (0 + 1) / 1]

+--------------------+----+
|           CONT_RUT1| COM|
+--------------------+----+
|+++4/3jzUwtDPSSo3...| 460|
|++7yFnLR2jk0Wr0e8...|2478|
|++WLg1DbuZQ0MUQEN...|2915|
|++YxswwB51l+3P6mO...|1799|
|++ggVpHHILx+9SGu8...|1141|
|++qoXOhoawzvRog9E...| 999|
|+/+yqr5XeK0rOoKkG...|3114|
|+/HrCRshGy4wSSO1V...| 126|
|+/JZf0TTOGVxNx9tj...| 325|
|+/R7TO3QchPVrRHn9...|1091|
|+/bsZuw7/ADsTou53...|2202|
|+/cJ7EBd5oKjQfhxu...|1018|
|+0dURcPCBYLGVKmIt...| 614|
|+0f/GM34xojh+tn7A...| 321|
|+0ut+stCHqH6UHSAh...|2659|
|+0yKx5GSw/Q5FoSrp...|1157|
|+1FNxAxXZVPFSdmBl...|1920|
|+1YKE5LQO+CE2nB6H...| 595|
|+1eDEaPXcR4UTQlQz...|1329|
|+1iuDsJuEu9oPjZFA...| 330|
+--------------------+----+
only showing top 20 rows



                                                                                

In [None]:
join 

In [33]:
spark.sql('select CONT_RUT, CONT_RUT_INFO from F1879 where F1879_RETE_DIRE10>0 OR F1879_RETE_DIRE20>0').createOrReplaceTempView("F1879")

In [46]:
c=spark.sql('select * from F1879')
#c=a.select("CONT_RUT, CONT_RUT_INFO").filter

In [47]:
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.enableVectorizedReader","false")
spark.conf.set("spark.sql.parquet.int96RebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.int96RebaseModeInWrite", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInRead", "CORRECTED")
spark.conf.set("spark.sql.parquet.datetimeRebaseModeInWrite", "CORRECTED")

In [None]:
#empDF.join(deptDF,empDF.emp_dept_id ==  deptDF.dept_id,"left").show(truncate=False)

In [48]:
f=c.join(b,c.CONT_RUT ==  b.CONT_RUT1,"left")

In [50]:
f.show(3)

[Stage 75:>                                                         (0 + 1) / 1]

+------------------------+------------------+-------------+---------------------+--------------------+-------+--------------------+-----------------+--------------------+------------+--------------------+----------------+---------------+-----------------+-----------------+-----------------+-----------------+------------------+---------------------+--------------------+--------------------+-------------+--------------------+------------+----------+--------------+---------------+---------------+---------------+----------------------+-------------------------+-----------------------+--------------------+----+---------+----+
|PERI_AGNO_MES_TRIBUTARIO|HEADER_FORM_KEY_VO|TIFO_COD_FORM|TIFO_COD_FORM_VERSION|            CONT_RUT|CONT_DV|  F1879_RUT_DECLA_VO|F1879_DV_DECLA_VO|       CONT_RUT_INFO|CONT_DV_INFO|   F1879_RUT_INFO_VO|F1879_DV_INFO_VO|F1879_RETE_HONO|F1879_RETE_DIRE10|F1879_RETE_DIRE20|F1879_CERTIFICADO|F1879_CORRELATIVO|F1879_PERIODO_PAGO|F1879_RETE_HONO_ARTES|F1879_RETE_HONO_ISLA|

                                                                                

In [51]:
f.select("CONT_RUT1","COM","CONT_RUT_INFO").show(3)

+---------+----+--------------------+
|CONT_RUT1| COM|       CONT_RUT_INFO|
+---------+----+--------------------+
|     null|null|ar2xjfWs1hJGgY3Xr...|
|     null|null|m3eW+lvPJ+jHUwYQL...|
|     null|null|InkD6L0Te6285PKK0...|
+---------+----+--------------------+
only showing top 3 rows



In [52]:
salida=f.select("CONT_RUT1","COM","CONT_RUT_INFO").filter("CONT_RUT1 is not null")

In [53]:
salida.show(3)

+--------------------+----+--------------------+
|           CONT_RUT1| COM|       CONT_RUT_INFO|
+--------------------+----+--------------------+
|4a+1bVQ3ECSHktMct...|1734|OhK2d9YlOVecM7U9A...|
|4a+1bVQ3ECSHktMct...|1734|KsxvqdN8Y+AqHce7z...|
|4a+1bVQ3ECSHktMct...|1734|gDDhfvJ69XpKQpeBk...|
+--------------------+----+--------------------+
only showing top 3 rows



                                                                                

In [54]:
"spark.sql.parquet.writeLegacyFormat=true"

'spark.sql.parquet.writeLegacyFormat=true'

In [55]:
spark.conf.set("spark.sql.parquet.writeLegacyFormat", "true")

In [56]:
salida.count()

                                                                                

19866524

In [57]:
salida.printSchema()

root
 |-- CONT_RUT1: string (nullable = true)
 |-- COM: integer (nullable = true)
 |-- CONT_RUT_INFO: string (nullable = true)



In [58]:
salidaPandas=salida.toPandas()

                                                                                

In [59]:
salidaPandas.head(5)

Unnamed: 0,CONT_RUT1,COM,CONT_RUT_INFO
0,4a+1bVQ3ECSHktMctHRjZg==,1734,OhK2d9YlOVecM7U9AVc3Mw==
1,4a+1bVQ3ECSHktMctHRjZg==,1734,KsxvqdN8Y+AqHce7zrANeA==
2,4a+1bVQ3ECSHktMctHRjZg==,1734,gDDhfvJ69XpKQpeBkgVEyQ==
3,4a+1bVQ3ECSHktMctHRjZg==,1734,y+zrz7elPXtqeb684EAQvQ==
4,4a+1bVQ3ECSHktMctHRjZg==,1734,IXtw8gcVudn23YMgP7II9A==


In [60]:
salidaPandas.to_csv('salidaPandas.csv')

In [20]:
salida.createOrReplaceTempView("directores")

In [13]:
f.createOrReplaceTempView("directores")
spark.sql('select CONT_RUT1 as CONT_RUT, COM, CONT_RUT_INFO from directores where CONT_RUT1 is not null').createOrReplaceTempView("directores")
directores=spark.sql('select count(*) from directores')
directores.show()

24/04/15 19:48:37 ERROR TaskSetManager: Task 7 in stage 11.0 failed 4 times; aborting job


Py4JJavaError: An error occurred while calling o114.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 7 in stage 11.0 failed 4 times, most recent failure: Lost task 7.3 in stage 11.0 (TID 34) (10.244.48.21 executor 15): org.apache.spark.sql.execution.QueryExecutionException: Encounter error while reading parquet files. One possible cause: Parquet column cannot be converted in the corresponding files. Details: 
	at org.apache.spark.sql.errors.QueryExecutionErrors$.cannotReadParquetFilesError(QueryExecutionErrors.scala:577)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:200)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:104)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:458)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3.agg_doAggregateWithoutKey_0$(Unknown Source)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anon$1.hasNext(WholeStageCodegenExec.scala:759)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:458)
	at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140)
	at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52)
	at org.apache.spark.scheduler.Task.run(Task.scala:131)
	at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:506)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1491)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:509)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:750)
Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 1 in block 0 in file abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/DW/DW_TRN_DJR_F1879_E/part-00001-51ac1a73-cc1a-42c0-9a32-f42e184500f2-c000.snappy.parquet
	at org.apache.parquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalParquetRecordReader.java:251)
	at org.apache.parquet.hadoop.ParquetRecordReader.nextKeyValue(ParquetRecordReader.java:207)
	at org.apache.spark.sql.execution.datasources.RecordReaderIterator.hasNext(RecordReaderIterator.scala:39)
	at org.apache.spark.sql.execution.datasources.RecordReaderIterator$$anon$1.hasNext(RecordReaderIterator.scala:61)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:104)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:191)
	... 18 more
Caused by: java.lang.ClassCastException

Driver stacktrace:
	at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2454)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2403)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2402)
	at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62)
	at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55)
	at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49)
	at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2402)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1160)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1160)
	at scala.Option.foreach(Option.scala:407)
	at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1160)
	at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2642)
	at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2584)
	at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2573)
	at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)
Caused by: org.apache.spark.sql.execution.QueryExecutionException: Encounter error while reading parquet files. One possible cause: Parquet column cannot be converted in the corresponding files. Details: 
	at org.apache.spark.sql.errors.QueryExecutionErrors$.cannotReadParquetFilesError(QueryExecutionErrors.scala:577)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:200)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:104)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:458)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3.agg_doAggregateWithoutKey_0$(Unknown Source)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anon$1.hasNext(WholeStageCodegenExec.scala:759)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:458)
	at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140)
	at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52)
	at org.apache.spark.scheduler.Task.run(Task.scala:131)
	at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:506)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1491)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:509)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:750)
Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 1 in block 0 in file abfs://data@datalakesii.dfs.core.windows.net/DatosOrigen/DW/DW_TRN_DJR_F1879_E/part-00001-51ac1a73-cc1a-42c0-9a32-f42e184500f2-c000.snappy.parquet
	at org.apache.parquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalParquetRecordReader.java:251)
	at org.apache.parquet.hadoop.ParquetRecordReader.nextKeyValue(ParquetRecordReader.java:207)
	at org.apache.spark.sql.execution.datasources.RecordReaderIterator.hasNext(RecordReaderIterator.scala:39)
	at org.apache.spark.sql.execution.datasources.RecordReaderIterator$$anon$1.hasNext(RecordReaderIterator.scala:61)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:104)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:191)
	... 18 more
Caused by: java.lang.ClassCastException


In [21]:
# Encontrar los 15 valores más repetidos en general en la columna CONT_RUT_INFO
top_15_repetidos_directores = directores['CONT_RUT_INFO'].value_counts().nlargest(15)

# Gráfico de barras horizontales de los 15 valores más repetidos en general
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_repetidos_directores.values, y=top_15_repetidos_directores.index, orient='h')
plt.title('Top 15 valores más repetidos en general en CONT_RUT_INFO')
plt.xlabel('Frecuencia')
plt.ylabel('CONT_RUT_INFO')
plt.tight_layout()
plt.show()

# Calcular las modas de CONT_RUT_INFO para cada COM
modas_directores_por_com = directores.groupby('COM')['CONT_RUT_INFO'].apply(calculate_mode)
# Filtrar las modas que no son nulas
modas_directores_filtradas = modas_directores_por_com.dropna()

# Seleccionar las 15 modas más frecuentes
top_15_modas_directores = modas_directores_filtradas.value_counts().nlargest(15)

# Crear un gráfico de barras horizontales para las 15 modas más frecuentes de CONT_RUT_INFO
plt.figure(figsize=(10, 8))
sns.barplot(x=top_15_modas_directores.values, y=top_15_modas_directores.index, orient='h', palette='viridis')
plt.title('Top 15 Modas de CONT_RUT_INFO por COM')
plt.xlabel('Frecuencia')
plt.ylabel('CONT_RUT_INFO')
plt.tight_layout()
plt.show()


AnalysisException: Cannot resolve column name "CONT_RUT_INFO" among (count(1))