### Scraping de tablas encontradas en PDF

In [1]:
import tabula
import pandas as pd

# Ruta al archivo PDF que contiene las tablas
pdf_file_path = "Pad_Exp_Sec.pdf"
# Obtener una lista de todos los DataFrames de las tablas en el PDF
all_tables = tabula.read_pdf(pdf_file_path, pages='all')
# Concatenar todas las tablas en un solo DataFrame
combined_df = pd.concat(all_tables, ignore_index=True)
combined_df

Unnamed: 0.1,ID,RFC,NOMBRE,FECHA,SECTOR,DESCRIPCIÓN,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7
0,1,ABC150206Q47,ALIMENTOS LA BRASILEIRA DEL CARIBE S DE RL DE CV,21/10/2021,1.0,"Alcohol, alcohol desnaturalizado y mieles incr...",,,,,,,,
1,2,ACA0401281AA,AB CALSA SA DE CV,12/03/2014,1.0,"Alcohol, alcohol desnaturalizado y mieles incr...",,,,,,,,
2,3,ACI180815K11,APAGUBO COMERCIO INTERNACIONAL SEGURO SA DE CV,07/12/2018,1.0,"Alcohol, alcohol desnaturalizado y mieles incr...",,,,,,,,
3,4,ACM040507RY2,AVON COSMETICS MANUFACTURING S DE RL DE CV,29/11/2010,1.0,"Alcohol, alcohol desnaturalizado y mieles incr...",,,,,,,,
4,5,ACP980702RV6,AGROCULTIVOS CASA DE PIEDRA SA DE CV,10/04/2008,1.0,"Alcohol, alcohol desnaturalizado y mieles incr...",,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13855,13166,ZIM9408055K6,ZIMMER SA DE CV,20/06/2016,15.0,Aluminio.,,,,,,,,
13856,13167,ZME000103USA,ZOBELE MEXICO SA DE CV,04/08/2016,15.0,Aluminio.,,,,,,,,
13857,13168,ZOS161010942,ZF OCCUPANT SAFETY SYSTEMS DE LA LAGUNA S DE R...,25/06/2019,15.0,Aluminio.,,,,,,,,
13858,13169,ZUCD8012318W7,ZUÑIGA CASTILLO DAVID,01/12/2016,15.0,Aluminio.,,,,,,,,


In [2]:
# Selección de datos relevantes para la el tratamiento 
combined_one = combined_df.iloc[40:13837]
# Columnas relevantes
combined_one = combined_one.drop(['ID', 'RFC', 'NOMBRE', 'FECHA', 'SECTOR', 'DESCRIPCIÓN', 'Unnamed: 0',
       'Unnamed: 7'], axis=1)
# Renombrar columnas 
combined_one.rename(columns={"Unnamed: 1":"ID",
                             "Unnamed: 2":"RFC",
                             "Unnamed: 3":"NOMBRE",
                             "Unnamed: 4":"FECHA",
                             "Unnamed: 5":"SECTOR",
                             "Unnamed: 6":"DESCRIPCIÓN"}, inplace=True)

In [3]:
# Limpieza de datos
combined_one = combined_one.dropna()
combined_one.isna().sum()
combined_one

Unnamed: 0,ID,RFC,NOMBRE,FECHA,SECTOR,DESCRIPCIÓN
40,39,CAN950609PM7,CORPORACION ANSAN SA DE CV,10/04/2008,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
41,40,CAR980917RF3,COMERCIALIZADORA ARGON SA DE CV,10/04/2008,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
42,41,CAT130912GU9,"COLECTIVO ATL-XOLOTL, SA DE CV",27/09/2022,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
43,42,CCO060405AS1,COMERCIALIZADORA LOS COLORINES SA DE CV,10/04/2008,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
44,43,CCU870622986,CASA CUERVO SA DE CV,10/04/2008,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
...,...,...,...,...,...,...
13832,13143,WIM1109238W7,WHITEHALL INDUSTRIES DE MEXICO S DE RL DE CV,24/06/2016,15.0,Aluminio.
13833,13144,WIN070601UX0,WHIRLPOOL INTERNACIONAL S DE RL DE CV,30/06/2016,15.0,Aluminio.
13834,13145,WIS1806203W3,"WILKINSON INTERNATIONAL SCRAP SERVICES, S DE R...",01/09/2021,15.0,Aluminio.
13835,13146,WJU070709R29,WINSTON JUAREZ S DE RL DE CV,05/07/2016,15.0,Aluminio.


In [4]:
# Selección de datos relevantes
combined_ini = combined_df.iloc[:38,:6]
combined_fin = combined_df.iloc[13837:13860,:6]
# Combinación de datos
padron_exp = pd.concat([combined_ini,combined_one,combined_fin], ignore_index=True)
padron_exp

Unnamed: 0,ID,RFC,NOMBRE,FECHA,SECTOR,DESCRIPCIÓN
0,1,ABC150206Q47,ALIMENTOS LA BRASILEIRA DEL CARIBE S DE RL DE CV,21/10/2021,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
1,2,ACA0401281AA,AB CALSA SA DE CV,12/03/2014,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
2,3,ACI180815K11,APAGUBO COMERCIO INTERNACIONAL SEGURO SA DE CV,07/12/2018,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
3,4,ACM040507RY2,AVON COSMETICS MANUFACTURING S DE RL DE CV,29/11/2010,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
4,5,ACP980702RV6,AGROCULTIVOS CASA DE PIEDRA SA DE CV,10/04/2008,1.0,"Alcohol, alcohol desnaturalizado y mieles incr..."
...,...,...,...,...,...,...
13165,13166,ZIM9408055K6,ZIMMER SA DE CV,20/06/2016,15.0,Aluminio.
13166,13167,ZME000103USA,ZOBELE MEXICO SA DE CV,04/08/2016,15.0,Aluminio.
13167,13168,ZOS161010942,ZF OCCUPANT SAFETY SYSTEMS DE LA LAGUNA S DE R...,25/06/2019,15.0,Aluminio.
13168,13169,ZUCD8012318W7,ZUÑIGA CASTILLO DAVID,01/12/2016,15.0,Aluminio.


In [6]:
# Guardado de datos en un archivo csv
padron_exp.to_csv("pad_exp_sec.csv", index=False)

In [5]:
# Guardado de datos en archivo de tipo json
padron_exp.to_json('pad_exp_sec.json',orient='records', force_ascii=False)