Exploración de datos de RNC


El objetivo de este notebook es importar el archivo ZIP que esta contenido en la carpeta "downloads/dgii/rnc/all" y tranformarla, extratyendo el contenido del documento de texto que contiene los RNC de las empresas registradas en la DGII.

Pasos logicos:
1 - Importar el archivo contenido en la carpeta "downloads/dgii/rnc/all" que lleva por nombre "DGII_RNC.zip".
2 - Extraer su contenido y almacenar el resultado en la carpeta "data" en la raiz del directorio. 
3 - Importar el set de datos que resulta de la extracción y que ya estara en la carpeta "data".
4 - Convertir el el sed de datos que estara en formato txt en un dataframe de pandas. 

In [2]:
#Import libraires 
import zipfile
import os
import pandas as pd

In [19]:
# Ruta del archivo ZIP que quieres importar
zip_file_path = '../downloads/dgii/rnc/all/DGII_RNC.zip'

print("Extrayendo archivos de", zip_file_path)

# Directorio donde quieres extraer los archivos
extract_to_path = '../data/dgii/rnc'

# Asegurarse de que el directorio de extracción existe
os.makedirs(extract_to_path, exist_ok=True)

# Abrir el archivo ZIP en modo lectura
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    # Extraer todo el contenido en el directorio especificado
    zip_ref.extractall(extract_to_path)

# Ahora puedes trabajar con los archivos extraídos como necesites
# Por ejemplo, listar los archivos extraídos
extracted_files = os.listdir(extract_to_path)
print("Archivos extraídos:", extracted_files)

Extrayendo archivos de ../downloads/dgii/rnc/all/DGII_RNC.zip
Archivos extraídos: ['TMP']


In [35]:
# Verificar si el archivo existe
if os.path.isfile(extract_to_path + '/TMP/DGII_RNC.TXT'):
    # Leer el archivo TXT en un DataFrame usando una codificación adecuada y el delimitador '|'
    try:
        df = pd.read_csv(extract_to_path + '/TMP/DGII_RNC.TXT', delimiter='|', encoding='latin1')  # Usar el delimitador '|'
        print("DataFrame cargado con éxito.")
        print(df.head())  # Mostrar las primeras filas del DataFrame
    except UnicodeDecodeError as e:
        print(f"Error de decodificación: {e}")
else:
    print(f"El archivo {extract_to_path + '/TMP/DGII_RNC.TXT'} no existe.")

DataFrame cargado con éxito.
   10400227509 BOYNE                          TEJEDA LORENZO Unnamed: 2  \
0   4700182985                           JUANA FELIX SANCHEZ        NaN   
1   4400264109                             DEURY BEATO GOMEZ        NaN   
2  40225809322                      DANIEL ALMONTE FERNANDEZ        NaN   
3   4700198569                          CIRILO OVALLES ARIAS        NaN   
4   1700219395                         ENRIQUE GALVAN LEBRON        NaN   

   ELABORACIÓN DE CERVEZA, BEBIDA     .1  .2  .3  13/02/2017  SUSPENDIDO  \
0  VENTA AL POR MENOR DE MATERIAL                 29/12/2016  SUSPENDIDO   
1  SERVICIOS DE TRANSMISIÓN DE RA                 07/04/2017  SUSPENDIDO   
2  SERVICIOS RELACIONADOS CON LA                  10/04/2017  SUSPENDIDO   
3  SERVICIOS DE DEPURACIÓN DE AGU                 06/10/2008  SUSPENDIDO   
4  SERV. PRESTADOS POR PROFESIONA                 06/03/2017  SUSPENDIDO   

   NORMAL  
0  NORMAL  
1  NORMAL  
2  NORMAL  
3  NORMAL  
4  

  df = pd.read_csv(extract_to_path + '/TMP/DGII_RNC.TXT', delimiter='|', encoding='latin1')  # Usar el delimitador '|'


In [36]:
#Data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 749358 entries, 0 to 749357
Data columns (total 11 columns):
 #   Column                                         Non-Null Count   Dtype 
---  ------                                         --------------   ----- 
 0   10400227509                                    749346 non-null  object
 1   BOYNE                          TEJEDA LORENZO  749355 non-null  object
 2   Unnamed: 2                                     385109 non-null  object
 3   ELABORACIÓN DE CERVEZA, BEBIDA                 725162 non-null  object
 4                                                  749324 non-null  object
 5    .1                                            749324 non-null  object
 6    .2                                            749324 non-null  object
 7    .3                                            749324 non-null  object
 8   13/02/2017                                     681952 non-null  object
 9   SUSPENDIDO                                     7

In [37]:
# Asignar los nuevos nombres a las columnas del DataFrame
df.columns = ['Cédula/RNC', 'Nombre/Razón Social', 'Nombre Comercial', 'Categoría', 'Borrar1', 'Borrar2', 'Borrar3', 'Borrar4', 'Fecha Afiliación', 'Estado', 'Régimen de pagos']

# Eliminar columnas ignoradas
df.drop(['Borrar1', 'Borrar2', 'Borrar3', 'Borrar4'], axis=1, inplace=True)

# Ahora df tiene las columnas renombradas
print(df.head())

    Cédula/RNC       Nombre/Razón Social Nombre Comercial  \
0   4700182985       JUANA FELIX SANCHEZ              NaN   
1   4400264109         DEURY BEATO GOMEZ              NaN   
2  40225809322  DANIEL ALMONTE FERNANDEZ              NaN   
3   4700198569      CIRILO OVALLES ARIAS              NaN   
4   1700219395     ENRIQUE GALVAN LEBRON              NaN   

                        Categoría Fecha Afiliación      Estado  \
0  VENTA AL POR MENOR DE MATERIAL       29/12/2016  SUSPENDIDO   
1  SERVICIOS DE TRANSMISIÓN DE RA       07/04/2017  SUSPENDIDO   
2  SERVICIOS RELACIONADOS CON LA        10/04/2017  SUSPENDIDO   
3  SERVICIOS DE DEPURACIÓN DE AGU       06/10/2008  SUSPENDIDO   
4  SERV. PRESTADOS POR PROFESIONA       06/03/2017  SUSPENDIDO   

  Régimen de pagos  
0           NORMAL  
1           NORMAL  
2           NORMAL  
3           NORMAL  
4           NORMAL  


In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 749358 entries, 0 to 749357
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   Cédula/RNC           749346 non-null  object
 1   Nombre/Razón Social  749355 non-null  object
 2   Nombre Comercial     385109 non-null  object
 3   Categoría            725162 non-null  object
 4   Fecha Afiliación     681952 non-null  object
 5   Estado               749303 non-null  object
 6   Régimen de pagos     749303 non-null  object
dtypes: object(7)
memory usage: 40.0+ MB


In [39]:
df.info

<bound method DataFrame.info of          Cédula/RNC                  Nombre/Razón Social  \
0        4700182985                  JUANA FELIX SANCHEZ   
1        4400264109                    DEURY BEATO GOMEZ   
2       40225809322             DANIEL ALMONTE FERNANDEZ   
3        4700198569                 CIRILO OVALLES ARIAS   
4        1700219395                ENRIQUE GALVAN LEBRON   
...             ...                                  ...   
749353    130333718        HERMOSA CONSTRUCTORA C POR A    
749354    132033452  CONSTRUCCIONES MODERNAS MODCONS SRL   
749355    132124286                   INTERCALZADOS EIRL   
749356    102009589                    ZEP CARIBBEAN INC   
749357    131171494               ALBANILERIA GOMEZ EIRL   

                       Nombre Comercial                       Categoría  \
0                                   NaN  VENTA AL POR MENOR DE MATERIAL   
1                                   NaN  SERVICIOS DE TRANSMISIÓN DE RA   
2                     

In [40]:
df.isnull().sum()

Cédula/RNC                 12
Nombre/Razón Social         3
Nombre Comercial       364249
Categoría               24196
Fecha Afiliación        67406
Estado                     55
Régimen de pagos           55
dtype: int64

In [5]:
if os.path.exists("../downloads/dgii/rnc/all/DGII_RNC.zip"):
    # if os.path.exists("../downloads/dgii/rnc/all/DGII_RNC.zip"): 
    print("El archivo ZIP existe.")
else:
    print("El archivo ZIP no existe.")


El archivo ZIP existe.
