<h2>Procesamiento de los PDFs</h2>

Nos encontramos ante archivos PDFs de imagen entre los cuales diferenciamos tres formatos de edición.

<ul>
    <li><h4>Primer formato: </h4>
    Está presente desde el documento (1, I) hasta el (286, VI).
    Para normalizar este formato se debe:
        <ol>
            <li>Eliminar los cabeceros de página.</li>
            <li>Unir todas las diferentes líneas eliminando los guiones separadores</li>
            <li>Separar los interventores de las intervenciones eliminando la última (el cierre de sesión e información metatextual) y todo el contenido previo a la primera (título, sumario...)</li>
        </ol>
    </li>
    <li><h4>Segundo formato: </h4>
    Está presente desde el documento (1, VII) hasta el (53 , X).
    Para normalizar este formato se debe:
        <ol>
            <li>Eliminar los cabeceros de página.</li>
            <li>Eliminar los números de página al final del documento.</li>
            <li>Unir todas las diferentes líneas eliminando los guiones separadores.</li>
            <li>Separar los interventores de las intervenciones eliminando la última (el cierre de sesión e información metatextual) y todo el contenido previo a la primera (título, sumario...)</li>
        </ol>
    </li>
    <li><h4>Tercer formato: </h4>
    Está presente desde el documento (55, X) hasta la actualidad.
    Para normalizar este formato se debe:
        <ol>
            <li>Eliminar los cabeceros de página (diferentes a los anteriores)</li>
            <li>Eliminar los códigos que se encuentran al final de cada página</li>
            <li>Unir todas las diferentes líneas</li>
            <li>Separar los interventores de las intervenciones eliminando la última (el cierre de sesión e información metatextual) y todo el contenido previo a la primera (título, sumario...)</li>
        </ol>
    </li>
</ul>

Queremos obtener únicamente la conversación que se documenta en estos archivos. La intervención y el interventor. Los pasos para obtener estos datos son:

<ol>
    <li>Utilizar un OCR para leer el PDF como texto y elimnar los elementos metatextuales de cada página.</li>
    <li>Unir el texto como un único string de texto eliminando elementos como los saltos de línea con guión.</li>
    <li>Detectar las diferentes intervenciones y separar el texto de forma adecuada.</li>
</ol>

In [80]:
from pypdf import PdfReader

def process_pdf(path):
    reader = PdfReader(path)
    pages = reader.pages
    return [page.extract_text() for page in pages]

# Devuelve un array de strings de cada página

In [81]:
process_pdf()

['CORTES \nDIARIO DE SESIONES DEL \nCONGRESO DE LOS DIPUTADOS \nAño 1983 11 Legislatura Núm. 55 \nPRESIDENCIA DEL EXCMO. SR. D. GREGORIO PECES-BARBA MARTINEZ \nSesión Plenaria núm. 55 \ncelebrada el martes, 20 de septiembre de 1983 \nORDEN DEL DIA \nDeclaración con motivo del segundo centenario del nacimiento de Simón Bolívar. \nDebate sobre la comunicación del Gobieho formulada a los efectos de lo establecido en los artículos 196 y \n197 del Reglamento. \n(Continúa el orden del día en el .Diario de Sesiones. número 56, de 21 de septiembre de 1983.) \nSUMARIO \nSe abre la sesión a las cuatro y cuarenta y cinco minutos de \nla tarde. \nPágina \nJuramento o promesa de acatamiento a la \nConstitución por nuevos señores Diputa- \ndos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2624 \nPágina \nDeclaración con motivo del segundo cente- \nnario del nacimiento de Slmón Bolívar. . \nEl señor Secrerario (Trias de Bes i Seria) lee la propuesta de 2624 \ndeclaracion, q

In [82]:
process_pdf()

['Año 1979 Núm. 24 \nCORTES \nDIARIO DE SESIONES DEL \nCONGRESO DE LOS DIPUTADOS \nPRESIDENCIA DEL EXCMO. SR. D. LANDELINO LAVILLA ALSINA \nSesión Plenaria núm. 24 (extraordinaria) \ncelebrada el martes, 24 de julio de 1979 \nORDEN DEL DIA \nPrimero. Dictámeaes de Cumisiones: \nDe la Comisión Constitucional, sobre el proyecto de Ley OrganiCa del Tri- \nbunal Constitucional («Boletín Oficial de las Corta Generales, núm. 44-11, \nserie A, de 19 de julio de 1979). (Continuación.) \nDe la C~dsión de Justicia, sobre el proyecto de Ley General Penitenciaria \n(aBoktín Oficial de las Cortes Generales. núm. 25-U, serie A, de 18 de ju- \nlio de 1979.) \nDe la Comisión de Agricultura, sobre el proyecto de Ley de Fincas Manifies- \ntamente Mejorables («Boletín Oficial de las Cortes Generales. núm. 30-11, \nserie A, de 18 de julio de 1979.) \nDe k Comisión de Hacienda, sobre el proyecto de ley por el que se regula \nel régimen transitorio de la Imposicidn Indirecta. (aBoletín Oficial de las \nCort

In [83]:
def text_union(lines):
    out = ""
    for line in lines:
        out += line.strip()
        if out[len(out)-1] == '-':
            out = out[:-1]
        else:
            out += " "
    return out

In [84]:
def clean_first(pages):
    pages = pages[1:]
    frases = []
    # Eliminamos el cabecero de cada página
    for page in pages:
        tmp = page.split("\n")
        while(len(tmp[0]) < 10):
            tmp = tmp[1:]
        tmp = tmp[1:]
        for frase in tmp:
            frases.append(frase)   
    return text_union(frases)

In [85]:
print(clean_first(process_pdf()))
print(clean_first(process_pdf()))

20 DE SEPTIEMBRE DE 1983.-NU~. 55 Se abre la sesión a las cuatro .y cuarenta y cinco minutos de la tarde. JURAMENTO O PROMESA DE ACATAMIENTO A LA CONSTITUCION POR NUEVOS SERORES DIPUTADOS El señor PRESIDENTE: Se inicia la sesión. Como asunto previo al orden del dia tenemos el juramento o promesa de acatamiento a la Constitución de dos señores Diputados. Señorías, a los efectos de dar cumplimiento al requisito previsto en el artículo 20.3 del Reglamento de esta Cámara, procedo a llamar a los siguientes Diputados, que indicarán si se encuentran presentes en la sala. Doña Carmen del Campo Casasus. (Asentimiento.) Don Leopoldo Calvo-Soleto y Bustelo. (Asentimienlo.) Doña Carmen del Campo Casasus, ¿jura o promete acatar la Constitución? La señora DEL CAMPO CASASUS: Sí, prometo. El señor PRESIDENTE: Don Leopoldo Calvo-Sotelo y Bustelo, ¿jura o promete acatar la Constitución? El señor CALVO-SOTELO Y BUSTELO: Sí, juro. El señor PRESIDENTE: Muchas gracias. Habiéndose pronunciado la promesa o ju

In [86]:
process_pdf()

['Congreso 12 de mayo de 2009.—Núm. 81\n1CORTES GENERALES\nDIARIO DE SESIONES DEL\nCONGRESO DE LOS DIPUTADOS\nPLENO Y DIPUTACIÓN PERMANENTE\nAño 2009 IX Legislatura Núm. 81\nPRESIDENCIA DEL EXCMO. SR. D. JOSÉ BONO MARTÍNEZ\nSesión plenaria núm. 76\ncelebrada el martes 12 de mayo de 2009\nPágina\nORDEN DEL DÍA:\nJuramento o promesa de acatamiento de la Constitución por nuevos señores diputados  . . . . . . . 2\nComunicación del Gobierno:— Comunicación del Gobierno para el debate de política general en torno al estado de la Nación. \n«BOCG. Congreso de los Diputados», serie D, número 196, de 4 de mayo de 2009. (Número de expediente 200/000001.)  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . . . . 3',
 'Congreso 12 de mayo de 2009.—Núm. 81\n2SUMARIO\nSe abre la sesión a las doce del mediodía.\nPágina\nJuramento o promesa de acatamiento de la \nConstitución por nuevos señores diputa-dos . . . . . . . . . . . . . . . . . . . . . . . .

In [97]:
import re

def clean_second(pages):
    frases = []
    pages = pages[1:]
    for page in pages:
        tmp = page.split("\n")
        if len(tmp):
            tmp = tmp[1:] # Eliminar cabecero

        if (len(tmp)):
            aux = tmp[0] # Eliminar número de página
            tmp = tmp[1:]
        f = 0
        for i in range(len(aux[0])):
            if re.match("[0-9]", aux[0][i]):
                f+=1
            else:
                break
        frases.append(aux[f:])

        for frase in tmp:
            frases.append(frase)   

    return text_union(frases)

In [88]:
clean_second(process_pdf())

'SUMARIO Se abre la sesión a las doce del mediodía. Página Juramento o promesa de acatamiento de la Constitución por nuevos señores diputa-dos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Página Comunicación del Gobierno . . . . . . . . . . . . 3 Página Comunicación del Gobierno para el debate de política general en torno al estado de la Nación   . . . . . . . . . . . . . . . . . . . . . . . . . 3 El señor presidente del Gobierno (Rodrí guez Zapatero)  interviene ante la Cámara para hacer un balance de las medidas adoptadas y anunciar nuevas iniciativas concretas frente a los desafíos que Espa-ña debe afrontar en el corto y en el largo plazo. Se refiere también a los compromisos de orden distinto al económico-social que el Gobierno quiere asumir para el próximo período de sesiones. Se suspende la sesión a la una y diez minutos de la tarde. Se reanuda la sesión a las cuatro de la tarde.Interviene el señor Rajoy Brey , en nombre del Grupo Parlamentario Popular en el Co

In [89]:
process_pdf()

['CORTES GENERALES\nDIARIO DE SESIONES DEL\nCONGRESO DE LOS DIPUTADOS\nPLENO Y DIPUTACIÓN PERMANENTE\nAño 2022  XIV LEGISLATURA  Núm. 200  Pág. 1\nPRESIDENCIA DE LA EXCMA. SRA. D.ª MERITXELL BATET LAMAÑA\nSesión plenaria núm. 193 (extraordinaria)\ncelebrada el martes 12 de julio de 2022\nPágina\nORDEN DEL DÍA:\nJuramento o promesa de acatamiento de la Constitución por nuevos señores \ndiputados  .................................................................................................................................. 4\nComunicación del Gobierno.\n— Comunicación del Gobierno en la que solicita la celebración de un debate de política \ngeneral sobre el estado de la Nación. «BOCG. Congreso de los Diputados», serie D, \nnúmero 484, de 7 de julio de 2022. (Número de expediente 200/000001)  ...................... 5\nCorrección de error  .................................................................................................................. 66\ncve: DSCD-14-PL-200',
 'DIARIO

In [93]:
def clean_third(pages):
    frases = []
    pages = pages[1:]
    for page in pages:
        tmp = page.split("\n")
        tmp.pop()
        tmp = tmp[3:] # Eliminar cabecero
        for frase in tmp:
            frases.append(frase)   

    return text_union(frases)

In [94]:
clean_third(process_pdf())

'SUMARIO Se abre la sesión a las doce del mediodía. Página Juramento o promesa de acatamiento de la Constitución por nuevos señores diputados  ............................................................................................................................. 4 La señora  doña  María Fernández Pérez y el señor don Onofre Miralles Martín adquieren la condición plena de diputadas al prestar acatamiento a la Constitución. Página Comunicación del Gobierno  .................................................................................................... 5 Página Comunicación del Gobierno en la que solicita la celebración de un debate de política general sobre el estado de la Nación  ................................................................................ 5 El señor  presidente del Gobierno (Sánchez Pérez-Castejón) comienza su intervención recordando que el primer debate sobre el estado de la nación se celebró en 1983. Entonces España era una democracia joven, con una eco

In [100]:
import os

dir1 = r""
dir2 = r""

for name in os.listdir(dir1):

    # LEER EL NÚMERO DE CADA DIARIO Y SU LEGISLATURA

    tmp = name[3:]
    legis = ""
    for char in tmp:
        if char != "_":
            legis+=char
        else:
            break
    # print(legis)
    num = ""
    tmp = tmp[len(legis)+1:]
    for char in tmp:
        if char != ".":
            num+=char
        else:
            break
    # print(num)
    legis = int(legis)
    num = int(num)

    try:

        pages = process_pdf(os.path.join(dir1, name))
        norm = ""

        if legis < 10:
            norm = clean_first(pages)
        elif legis == 10 and num < 54:
            norm = clean_second(pages)
        else:
            norm = clean_third(pages)

        with open(os.path.join(dir2, "PL_"+str(legis)+"_"+str(num))+".txt", "w") as f:
            f.write(norm)

    except:
        print(legis)
        print(num)

invalid pdf header: b'<!DOC'
EOF marker not found


14
1
1
109
1
110
1
115
1
119
1
204
1
206
1
218
1
243
1
247
1
28
1
40
1
41
1
42
1
43
1
44
1
47
1
48
1
84
1
87
1
90
2
10
2
101
2
108
2
110
2
112
2
125
2
130
2
135
2
137
2
138
2
143
2
150
2
17
2
185
2
189
2
217
2
22
2
227
2
253
2
26
2
260
2
27
2
43
2
44
2
45
2
46
2
54
2
6
2
72
2
73
2
75
2
76
2
77
2
79
2
80
2
89
3
101
3
12
3
15
3
162
3
179
3
18
3
19
3
195
3
196
3
2
3
20
3
202
3
206
3
22
3
24
3
25
3
27
3
28
3
29
3
30
3
31
3
32
3
34
3
35
3
36
3
38
3
41
3
42
3
47
3
6
3
71
3
72
3
73
3
74
3
8
4
149
4
24
4
47
4
68
5
139
5
143
5
152
5
154
5
171
5
172
5
180
5
194
5
90
6
174
6
176
6
177
6
181
6
182
6
183
6
193
6
194
6
195
6
197
6
202
6
205
6
211
6
216
6
217
6
218
6
219
6
223
6
224
6
232
6
236
6
239
6
241
6
242
6
248
6
251
6
252
7
131
8
149
8
184
8
203
8
229
8
91
9
1
9
185
9
186
9
188
9
189
9
190
9
191
9
192
9
193
9
194
9
195
9
197
9
198
9
200
9
201
9
202
9
203
9
204
9
205
9
206
9
207
9
208
9
209
9
210
9
211
9
212
9
215
9
216
9
218
9
219
9
221
9
222
9
223
9
224
9
225
9
226
9
227
9
228
9
229
9
230
9


Huecos

invalid pdf header: b'<!DOC'
EOF marker not found
14
1
1
109
1
110
1
115
1
119
1
204
1
206
1
218
1
243
1
247
1
28
1
40
1
41
1
42