In [1]:
from PyPDF2 import PdfReader
import pandas as pd
import os # Para manipular rutas de archivos, muy útil en Jupyter

In [2]:
def extract_text_from_pdf(pdf_path):
    text = ""
    try:
        reader = PdfReader(pdf_path)
        for page_num in range(len(reader.pages)):
            text += reader.pages[page_num].extract_text() or ""
        return text
    except Exception as e:
        return f"ERROR: {e}"

# Puedes ejecutar esta celda para definir la función

In [3]:
# Define la ruta de tu archivo PDF de entrada
# Asegúrate de que esta ruta sea ABSOLUTA y LOCAL en tu sistema.
# Por ejemplo, si tu PDF está en la misma carpeta que tu notebook, solo el nombre es suficiente.
input_pdf_path = r"C:\Users\Pablo\OneDrive\Maestria en Estadistica\17 - Tesis\Script\03-CotizacionOpciones\DataOpciones\2024\745719.pdf" # El 'r' es para raw string, útil en rutas de Windows

# Define la ruta del archivo de salida (por ejemplo, en la misma carpeta que el PDF)
# Puedes usar os.path.dirname para obtener la carpeta del PDF
output_folder = os.path.dirname(input_pdf_path)
output_csv_path = os.path.join(output_folder, "datos_extraidos.csv") # Un nombre de archivo simple
output_txt_path = os.path.join(output_folder, "texto_extraido.txt") # Si quieres un TXT

In [4]:
extracted_text = extract_text_from_pdf(input_pdf_path)

if extracted_text.startswith("ERROR:"):
    print(extracted_text)
else:
    print("Texto extraído con éxito (primeras 500 caracteres):")
    print(extracted_text[:500]) # Muestra solo una parte para no saturar la salida

Texto extraído con éxito (primeras 500 caracteres):
INFORME  DIARIO
Rueda del 4 de enero de 2024Año XL
Nro: 8715
Acciones
750,000800,000850,000900,000950,0001,000,0001,050,000 
28-11 04-12 11-12 15-12 21-12 28-12 04-01índice S&P MervalÍndice S&P Merval
Mínimo 972411.66    Máximo 1006276.43    Cierre 1004789.73 + 3.33%
Mayores Alzas Mayores Bajas
TXAR  + 7.86%
ALUA
TECO2 + 7.57%
 + 5.37%TRAN  - 2.43%
SUPV  - 1.47%
VA L O  - 0.45%
Otros Índices de Acciones ADR Argentinos en N .Y.
S&P BYMA Gral. YPF    U$S 16.52  - 2.48%
Grp. F. Galicia U$S 16.41  -


In [6]:
type(extracted_text)

str

In [7]:
if not extracted_text.startswith("ERROR:"):
    with open(output_txt_path, "w", encoding="utf-8") as f:
        f.write(extracted_text)
    print(f"Texto completo guardado en: {output_txt_path}")

Texto completo guardado en: C:\Users\Pablo\OneDrive\Maestria en Estadistica\17 - Tesis\Script\03-CotizacionOpciones\DataOpciones\2024\texto_extraido.txt


In [8]:
if not extracted_text.startswith("ERROR:"):
    # --- LÓGICA PARA PROCESAR EL TEXTO Y CREAR UN DATAFRAME ---
    # Esta parte dependerá de cómo esté estructurado el texto de tu PDF.
    # EJEMPLO: Si el texto está separado por líneas y cada línea tiene valores separados por comas.

    lines = extracted_text.strip().split('\n')
    data_rows = []
    for line in lines:
        # Asegúrate de que esta lógica coincida con el formato de tus datos
        # Por ejemplo, si tienes encabezados, los manejas aquí
        data_rows.append(line.split(',')) 

    # Crea el DataFrame de pandas
    df = pd.DataFrame(data_rows)

    # Opcional: Asigna nombres a las columnas si sabes la estructura
    # df.columns = ['Header1', 'Header2', 'Header3'] # Ajusta esto a tus datos

    # Muestra las primeras filas del DataFrame en el notebook
    print("\nDataFrame generado (primeras 5 filas):")
    print(df.head())

    # Guarda el DataFrame en un archivo CSV
    try:
        df.to_csv(output_csv_path, index=False, encoding='utf-8')
        print(f"\nDataFrame guardado en CSV: {output_csv_path}")
    except Exception as e:
        print(f"ERROR al guardar el DataFrame en CSV: {e}")

    # Opcional: Guardar en Excel (requiere 'openpyxl': !pip install openpyxl)
    # output_excel_path = os.path.join(output_folder, "datos_extraidos.xlsx")
    # try:
    #     df.to_excel(output_excel_path, index=False)
    #     print(f"DataFrame guardado en Excel: {output_excel_path}")
    # except Exception as e:
    #     print(f"ERROR al guardar el DataFrame en Excel: {e}")


DataFrame generado (primeras 5 filas):
                                   0       1       2       3       4     5   \
0                     INFORME  DIARIO    None    None    None    None  None   
1  Rueda del 4 de enero de 2024Año XL    None    None    None    None  None   
2                           Nro: 8715    None    None    None    None  None   
3                            Acciones    None    None    None    None  None   
4                                 750  000800  000850  000900  000950  0001   

     6     7     8     9     10    11  
0  None  None  None  None  None  None  
1  None  None  None  None  None  None  
2  None  None  None  None  None  None  
3  None  None  None  None  None  None  
4   000  0001   050  000   None  None  

DataFrame guardado en CSV: C:\Users\Pablo\OneDrive\Maestria en Estadistica\17 - Tesis\Script\03-CotizacionOpciones\DataOpciones\2024\datos_extraidos.csv


In [2]:
# Ruta al archivo CSV
ruta = r"C:\Users\Pablo\OneDrive\Maestria en Estadistica\17 - Tesis\Script\03-CotizacionOpciones\DataOpciones\2024\datos_extraidos.csv"

# Cargar el DataFrame
df = pd.read_csv(ruta, header=None)

# Mostrar las primeras 5 filas
print(df.head())


                       0              1                 2           3   \
0                 320,000     Unnamed: 0  Empresas Líderes  Unnamed: 1   
1        Bonos Nacionales            NaN               NaN         NaN   
2   300,000 Mayores Alzas  Mayores Bajas               NaN         NaN   
3  280,000 TDG24  + 7.23%  TX26  - 4.99%               NaN         NaN   
4   260,000 TVY0  + 6.45%  TX28  - 4.03%               NaN         NaN   

           4           5           6           7           8           9   \
0  Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5  Unnamed: 6  Unnamed: 7   
1         NaN         NaN         NaN         NaN         NaN         NaN   
2         NaN         NaN         NaN         NaN         NaN         NaN   
3         NaN         NaN         NaN         NaN         NaN         NaN   
4         NaN         NaN         NaN         NaN         NaN         NaN   

   ...                     86                           87          88  \
0  ...  Próximo\rV

In [8]:
# Mostrar hasta 100 filas en la salida
pd.set_option('display.max_rows', 100)

# Mostrar hasta 100 columnas (opcional)
pd.set_option('display.max_columns', 100)

In [12]:
df[300:400]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95
300,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Opciones de Venta,
301,,,,"100\r0\r5,000\r10,000\r200\r600\r100\r12,000",-100\r0\r0\r0\r0\r0\r0\r0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
302,,"Total Put Febrero0100027,900",,28000,-100,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
303,,,,1500,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
304,,"Total Put Abril0001,500",,1500,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
305,,,,"1,000\r200",0\r0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
306,,"Total Put Junio0001,200",,1200,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
307,,,,100,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
308,,Total Put Febrero000100,,100,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
309,,,,100,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [5]:
df_gfg

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,86,87,88,89,90,91,92,93,94,95
