<center>
<img src="https://laelgelcpublic.s3.sa-east-1.amazonaws.com/lael_50_years_narrow_white.png.no_years.400px_96dpi.png" width="300" alt="LAEL 50 years logo">
<h3>APPLIED LINGUISTICS GRADUATE PROGRAMME (LAEL)</h3>
</center>
<hr>

# Corpus Linguistics - Study 1 - Proof of Concept 1 - Fernanda

This Proof of Concept aims at:

- Examining a data sample;
- Suggesting metadata organisation.

## Required Python packages

- pandas
- PyMuPDF
- tqdm

## Importing the required libraries

In [1]:
import os
import pandas as pd
import fitz  # PyMuPDF
import logging
from tqdm import tqdm
import shutil

## Defining input variables

In [2]:
input_directory = 'cl_st1_poc1_input'
output_directory = 'cl_st1_poc1_output'

## Creating output directory

In [3]:
# Check if the output directory already exists. If it does, do nothing. If it doesn't exist, create it.
if os.path.exists(output_directory):
    print('Output directory already exists.')
else:
    try:
        os.makedirs(output_directory)
        print('Output directory successfully created.')
    except OSError as e:
        print('Failed to create the directory:', e)
        sys.exit(1)

Output directory successfully created.


## Setting up logging

In [3]:
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    filename = f"{output_directory}/cl_st1_poc1_fernanda.log"
#    handlers=[
#        logging.FileHandler(f"{output_directory}/cl_st1_poc1_fernanda.log"),
#        logging.StreamHandler()
#    ]
)

## Reorganising the directory structure

### From

```
eyamrog@Rog-ASUS:/mnt/c/Users/eyamr/Downloads$ find Doutorado_Corpus_Amostra/ -type f
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Cotia.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Diadema.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Mauá.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec PG.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 FATEC Santo André.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/CPA R6 2023/1 - Relatório CPA/CPA 2023 Fatec Zona Sul.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Cotia.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Diadema.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Mauá.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Santo André.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/CPA R6 2024/1-Relatório CPA/CPA 2023-2024 Fatec Zona Sul.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Cotia.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Diadema.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Mauá.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Santo André.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/CPA R6 2025/1-Relatório CPA/CPA 2025 Fatec Zona Sul.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Cotia.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Diadema.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Mauá.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Santo André.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/PDI R6 2023-2024/1- PDI/PDI 2023 Fatec Zona Sul.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Cotia.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Diadema.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Mauá.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Santo André.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/PGA R6 2023/1- PGA/PGA 2023 Fatec Zona Sul.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Cotia.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Diadema.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Mauá.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Santo André.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/PGA R6 2024/1-PGA/PGA 2024 Fatec Zona Sul.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Baixada Santista.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Cotia.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Diadema.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Ipiranga.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Mauá.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Praia Grande.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Santo André.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec São Bernardo do Campo.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec São Caetano do Sul.pdf
Doutorado_Corpus_Amostra/PGA R6 2025/1-PGA/PGA 2025_Fatec Zona Sul.pdf
eyamrog@Rog-ASUS:/mnt/c/Users/eyamr/Downloads$ 
```

### To

`Windows File Explorer` was used to move the files into the new structure `'Root Directory'/'Document Type'/'Year'/'Branch'/'File'`

```
eyamrog@Rog-ASUS:/mnt/c/Users/eyamr/Downloads/cl_st1_fernanda$ find cl_st1_poc1_input/ -type f
cl_st1_poc1_input/CPA/2023/Baixada Santista/CPA 2023 Fatec Baixada Santista.pdf
cl_st1_poc1_input/CPA/2023/Cotia/CPA 2023 Fatec Cotia.pdf
cl_st1_poc1_input/CPA/2023/Diadema/CPA 2023 Fatec Diadema.pdf
cl_st1_poc1_input/CPA/2023/Ipiranga/CPA 2023 Fatec Ipiranga.pdf
cl_st1_poc1_input/CPA/2023/Mauá/CPA 2023 Fatec Mauá.pdf
cl_st1_poc1_input/CPA/2023/Praia Grande/CPA 2023 Fatec PG.pdf
cl_st1_poc1_input/CPA/2023/Praia Grande/CPA 2023 Fatec Praia Grande.pdf
cl_st1_poc1_input/CPA/2023/Santo André/CPA 2023 FATEC Santo André.pdf
cl_st1_poc1_input/CPA/2023/São Bernardo do Campo/CPA 2023 Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/CPA/2023/São Caetano do Sul/CPA 2023 Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/CPA/2023/Zona Sul/CPA 2023 Fatec Zona Sul.pdf
cl_st1_poc1_input/CPA/2024/Baixada Santista/CPA 2023-2024 Fatec Baixada Santista.pdf
cl_st1_poc1_input/CPA/2024/Cotia/CPA 2023-2024 Fatec Cotia.pdf
cl_st1_poc1_input/CPA/2024/Diadema/CPA 2023-2024 Fatec Diadema.pdf
cl_st1_poc1_input/CPA/2024/Ipiranga/CPA 2023-2024 Fatec Ipiranga.pdf
cl_st1_poc1_input/CPA/2024/Mauá/CPA 2023-2024 Fatec Mauá.pdf
cl_st1_poc1_input/CPA/2024/Praia Grande/CPA 2023-2024 Fatec Praia Grande.pdf
cl_st1_poc1_input/CPA/2024/Santo André/CPA 2023-2024 Fatec Santo André.pdf
cl_st1_poc1_input/CPA/2024/São Bernardo do Campo/CPA 2023-2024 Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/CPA/2024/São Caetano do Sul/CPA 2023-2024 Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/CPA/2024/Zona Sul/CPA 2023-2024 Fatec Zona Sul.pdf
cl_st1_poc1_input/CPA/2025/Baixada Santista/CPA 2025 Fatec Baixada Santista.pdf
cl_st1_poc1_input/CPA/2025/Cotia/CPA 2025 Fatec Cotia.pdf
cl_st1_poc1_input/CPA/2025/Diadema/CPA 2025 Fatec Diadema.pdf
cl_st1_poc1_input/CPA/2025/Ipiranga/CPA 2025 Fatec Ipiranga.pdf
cl_st1_poc1_input/CPA/2025/Mauá/CPA 2025 Fatec Mauá.pdf
cl_st1_poc1_input/CPA/2025/Praia Grande/CPA 2025 Fatec Praia Grande.pdf
cl_st1_poc1_input/CPA/2025/Santo André/CPA 2025 Fatec Santo André.pdf
cl_st1_poc1_input/CPA/2025/São Bernardo do Campo/CPA 2025 Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/CPA/2025/São Caetano do Sul/CPA 2025 Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/CPA/2025/Zona Sul/CPA 2025 Fatec Zona Sul.pdf
cl_st1_poc1_input/PDI/2023/Baixada Santista/PDI 2023 Fatec Baixada Santista.pdf
cl_st1_poc1_input/PDI/2023/Cotia/PDI 2023 Fatec Cotia.pdf
cl_st1_poc1_input/PDI/2023/Diadema/PDI 2023 Fatec Diadema.pdf
cl_st1_poc1_input/PDI/2023/Ipiranga/PDI 2023 Fatec Ipiranga.pdf
cl_st1_poc1_input/PDI/2023/Mauá/PDI 2023 Fatec Mauá.pdf
cl_st1_poc1_input/PDI/2023/Praia Grande/PDI 2023 Fatec Praia Grande.pdf
cl_st1_poc1_input/PDI/2023/Santo André/PDI 2023 Fatec Santo André.pdf
cl_st1_poc1_input/PDI/2023/São Bernardo do Campo/PDI 2023 Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/PDI/2023/São Caetano do Sul/PDI 2023 Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/PDI/2023/Zona Sul/PDI 2023 Fatec Zona Sul.pdf
cl_st1_poc1_input/PGA/2023/Baixada Santista/PGA 2023 Fatec Baixada Santista.pdf
cl_st1_poc1_input/PGA/2023/Cotia/PGA 2023 Fatec Cotia.pdf
cl_st1_poc1_input/PGA/2023/Diadema/PGA 2023 Fatec Diadema.pdf
cl_st1_poc1_input/PGA/2023/Ipiranga/PGA 2023 Fatec Ipiranga.pdf
cl_st1_poc1_input/PGA/2023/Mauá/PGA 2023 Fatec Mauá.pdf
cl_st1_poc1_input/PGA/2023/Praia Grande/PGA 2023 Fatec Praia Grande.pdf
cl_st1_poc1_input/PGA/2023/Santo André/PGA 2023 Fatec Santo André.pdf
cl_st1_poc1_input/PGA/2023/São Bernardo do Campo/PGA 2023 Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/PGA/2023/São Caetano do Sul/PGA 2023 Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/PGA/2023/Zona Sul/PGA 2023 Fatec Zona Sul.pdf
cl_st1_poc1_input/PGA/2024/Baixada Santista/PGA 2024 Fatec Baixada Santista.pdf
cl_st1_poc1_input/PGA/2024/Cotia/PGA 2024 Fatec Cotia.pdf
cl_st1_poc1_input/PGA/2024/Diadema/PGA 2024 Fatec Diadema.pdf
cl_st1_poc1_input/PGA/2024/Ipiranga/PGA 2024 Fatec Ipiranga.pdf
cl_st1_poc1_input/PGA/2024/Mauá/PGA 2024 Fatec Mauá.pdf
cl_st1_poc1_input/PGA/2024/Praia Grande/PGA 2024 Fatec Praia Grande.pdf
cl_st1_poc1_input/PGA/2024/Santo André/PGA 2024 Fatec Santo André.pdf
cl_st1_poc1_input/PGA/2024/São Bernardo do Campo/PGA 2024 Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/PGA/2024/São Caetano do Sul/PGA 2024 Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/PGA/2024/Zona Sul/PGA 2024 Fatec Zona Sul.pdf
cl_st1_poc1_input/PGA/2025/Baixada Santista/PGA 2025_Fatec Baixada Santista.pdf
cl_st1_poc1_input/PGA/2025/Cotia/PGA 2025_Fatec Cotia.pdf
cl_st1_poc1_input/PGA/2025/Diadema/PGA 2025_Fatec Diadema.pdf
cl_st1_poc1_input/PGA/2025/Ipiranga/PGA 2025_Fatec Ipiranga.pdf
cl_st1_poc1_input/PGA/2025/Mauá/PGA 2025_Fatec Mauá.pdf
cl_st1_poc1_input/PGA/2025/Praia Grande/PGA 2025_Fatec Praia Grande.pdf
cl_st1_poc1_input/PGA/2025/Santo André/PGA 2025_Fatec Santo André.pdf
cl_st1_poc1_input/PGA/2025/São Bernardo do Campo/PGA 2025_Fatec São Bernardo do Campo.pdf
cl_st1_poc1_input/PGA/2025/São Caetano do Sul/PGA 2025_Fatec São Caetano do Sul.pdf
cl_st1_poc1_input/PGA/2025/Zona Sul/PGA 2025_Fatec Zona Sul.pdf
eyamrog@Rog-ASUS:/mnt/c/Users/eyamr/Downloads/cl_st1_fernanda$
```

## Importing the directory structure into a DataFrame

In [4]:
# Initialising an empty list to hold the directory information
directory_data = []

# Walking through the directory structure
for root, dirs, files in os.walk(input_directory):
    #for file in tqdm(files, desc='Processing files'):
    for file in files:
        if file.endswith('.pdf'):
            try:
                # Getting the full file path
                file_path = os.path.join(root, file)
                # Splitting the root into individual directories
                directory_parts = root.split(os.sep)
                # Creating a dictionary for this file's information
                file_info = {'File': file}
                # Adding the file path to the dictionary
                file_info['File Path'] = file_path
                # Adding each part of the directory to the dictionary with appropriate keys
                for i, part in enumerate(directory_parts):
                    file_info[f"Directory Level {i+1}"] = part
                
                # Opening the PDF file
                document = fitz.open(file_path)
                # Extracting text from each page
                text = ''
                for page_num in range(document.page_count):
                    page = document[page_num]
                    text += page.get_text()

                file_info['Scraped Text'] = text
                document.close()
                
                # Adding the file info to the list
                directory_data.append(file_info)
                
                # Logging the successful extraction
                logging.info(f"Successfully scraped {file_path}")
            except Exception as e:
                # Logging any errors
                logging.error(f"Error scraping {file_path}: {str(e)}")

# Converting the list of dictionaries into a DataFrame
df = pd.DataFrame(directory_data)

In [5]:
df

Unnamed: 0,File,File Path,Directory Level 1,Directory Level 2,Directory Level 3,Directory Level 4,Scraped Text
0,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_poc1_input\CPA\2023\Baixada Santista\CP...,cl_st1_poc1_input,CPA,2023,Baixada Santista,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...
1,CPA 2023 Fatec Cotia.pdf,cl_st1_poc1_input\CPA\2023\Cotia\CPA 2023 Fate...,cl_st1_poc1_input,CPA,2023,Cotia,1 \n____________________...
2,CPA 2023 Fatec Diadema.pdf,cl_st1_poc1_input\CPA\2023\Diadema\CPA 2023 Fa...,cl_st1_poc1_input,CPA,2023,Diadema,1 \n____________________...
3,CPA 2023 Fatec Ipiranga.pdf,cl_st1_poc1_input\CPA\2023\Ipiranga\CPA 2023 F...,cl_st1_poc1_input,CPA,2023,Ipiranga,1 \n____________________...
4,CPA 2023 Fatec Mauá.pdf,cl_st1_poc1_input\CPA\2023\Mauá\CPA 2023 Fatec...,cl_st1_poc1_input,CPA,2023,Mauá,1 \n____________________...
...,...,...,...,...,...,...,...
66,PGA 2025_Fatec Praia Grande.pdf,cl_st1_poc1_input\PGA\2025\Praia Grande\PGA 20...,cl_st1_poc1_input,PGA,2025,Praia Grande,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
67,PGA 2025_Fatec Santo André.pdf,cl_st1_poc1_input\PGA\2025\Santo André\PGA 202...,cl_st1_poc1_input,PGA,2025,Santo André,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
68,PGA 2025_Fatec São Bernardo do Campo.pdf,cl_st1_poc1_input\PGA\2025\São Bernardo do Cam...,cl_st1_poc1_input,PGA,2025,São Bernardo do Campo,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
69,PGA 2025_Fatec São Caetano do Sul.pdf,cl_st1_poc1_input\PGA\2025\São Caetano do Sul\...,cl_st1_poc1_input,PGA,2025,São Caetano do Sul,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...


## Renaming the columns

In [6]:
df = df.rename(columns={'Directory Level 1': 'Root Directory', 'Directory Level 2': 'Document Type', 'Directory Level 3': 'Year', 'Directory Level 4': 'Branch'})

In [7]:
df

Unnamed: 0,File,File Path,Root Directory,Document Type,Year,Branch,Scraped Text
0,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_poc1_input\CPA\2023\Baixada Santista\CP...,cl_st1_poc1_input,CPA,2023,Baixada Santista,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...
1,CPA 2023 Fatec Cotia.pdf,cl_st1_poc1_input\CPA\2023\Cotia\CPA 2023 Fate...,cl_st1_poc1_input,CPA,2023,Cotia,1 \n____________________...
2,CPA 2023 Fatec Diadema.pdf,cl_st1_poc1_input\CPA\2023\Diadema\CPA 2023 Fa...,cl_st1_poc1_input,CPA,2023,Diadema,1 \n____________________...
3,CPA 2023 Fatec Ipiranga.pdf,cl_st1_poc1_input\CPA\2023\Ipiranga\CPA 2023 F...,cl_st1_poc1_input,CPA,2023,Ipiranga,1 \n____________________...
4,CPA 2023 Fatec Mauá.pdf,cl_st1_poc1_input\CPA\2023\Mauá\CPA 2023 Fatec...,cl_st1_poc1_input,CPA,2023,Mauá,1 \n____________________...
...,...,...,...,...,...,...,...
66,PGA 2025_Fatec Praia Grande.pdf,cl_st1_poc1_input\PGA\2025\Praia Grande\PGA 20...,cl_st1_poc1_input,PGA,2025,Praia Grande,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
67,PGA 2025_Fatec Santo André.pdf,cl_st1_poc1_input\PGA\2025\Santo André\PGA 202...,cl_st1_poc1_input,PGA,2025,Santo André,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
68,PGA 2025_Fatec São Bernardo do Campo.pdf,cl_st1_poc1_input\PGA\2025\São Bernardo do Cam...,cl_st1_poc1_input,PGA,2025,São Bernardo do Campo,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
69,PGA 2025_Fatec São Caetano do Sul.pdf,cl_st1_poc1_input\PGA\2025\São Caetano do Sul\...,cl_st1_poc1_input,PGA,2025,São Caetano do Sul,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...


## Creating the column `Text ID`

In [8]:
df['Text ID'] = 't' + df.index.astype(str).str.zfill(6)

In [9]:
df.dtypes

File              object
File Path         object
Root Directory    object
Document Type     object
Year              object
Branch            object
Scraped Text      object
Text ID           object
dtype: object

## Exporting to a file

In [10]:
df[['Root Directory', 'Document Type', 'Year', 'Branch', 'File', 'File Path', 'Text ID', 'Scraped Text']].to_json(f"{output_directory}/cl_st1_poc1_fernanda_scraped.jsonl", orient='records', lines=True)

## Importing data into a DataFrame

In [11]:
df = pd.read_json(f'{output_directory}/cl_st1_poc1_fernanda_scraped.jsonl', lines=True)

In [12]:
df.dtypes

Root Directory    object
Document Type     object
Year               int64
Branch            object
File              object
File Path         object
Text ID           object
Scraped Text      object
dtype: object

In [13]:
df

Unnamed: 0,Root Directory,Document Type,Year,Branch,File,File Path,Text ID,Scraped Text
0,cl_st1_poc1_input,CPA,2023,Baixada Santista,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_poc1_input\CPA\2023\Baixada Santista\CP...,t000000,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...
1,cl_st1_poc1_input,CPA,2023,Cotia,CPA 2023 Fatec Cotia.pdf,cl_st1_poc1_input\CPA\2023\Cotia\CPA 2023 Fate...,t000001,1 \n____________________...
2,cl_st1_poc1_input,CPA,2023,Diadema,CPA 2023 Fatec Diadema.pdf,cl_st1_poc1_input\CPA\2023\Diadema\CPA 2023 Fa...,t000002,1 \n____________________...
3,cl_st1_poc1_input,CPA,2023,Ipiranga,CPA 2023 Fatec Ipiranga.pdf,cl_st1_poc1_input\CPA\2023\Ipiranga\CPA 2023 F...,t000003,1 \n____________________...
4,cl_st1_poc1_input,CPA,2023,Mauá,CPA 2023 Fatec Mauá.pdf,cl_st1_poc1_input\CPA\2023\Mauá\CPA 2023 Fatec...,t000004,1 \n____________________...
...,...,...,...,...,...,...,...,...
66,cl_st1_poc1_input,PGA,2025,Praia Grande,PGA 2025_Fatec Praia Grande.pdf,cl_st1_poc1_input\PGA\2025\Praia Grande\PGA 20...,t000066,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
67,cl_st1_poc1_input,PGA,2025,Santo André,PGA 2025_Fatec Santo André.pdf,cl_st1_poc1_input\PGA\2025\Santo André\PGA 202...,t000067,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
68,cl_st1_poc1_input,PGA,2025,São Bernardo do Campo,PGA 2025_Fatec São Bernardo do Campo.pdf,cl_st1_poc1_input\PGA\2025\São Bernardo do Cam...,t000068,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...
69,cl_st1_poc1_input,PGA,2025,São Caetano do Sul,PGA 2025_Fatec São Caetano do Sul.pdf,cl_st1_poc1_input\PGA\2025\São Caetano do Sul\...,t000069,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...


## Inspecting a few rows

In [14]:
df.at[17, 'File']

'CPA 2023-2024 Fatec Santo André.pdf'

In [15]:
df.at[17, 'File Path']

'cl_st1_poc1_input\\CPA\\2024\\Santo André\\CPA 2023-2024 Fatec Santo André.pdf'

In [16]:
df.at[17, 'Text ID']

't000017'

## Copying each original PDF file to ease the text review process

In [17]:
for index, row in df.iterrows():
    source_path = row['File Path']
    new_name = row['Text ID'] + '.pdf'
    destination_path = os.path.join(output_directory, new_name)
    try:
        shutil.copy(source_path, destination_path)
        logging.info(f"Copied: {source_path} to {destination_path}")
    except Exception as e:
        logging.error(f"Error copying {source_path}: {str(e)}")

## Exporting each scraped text to individual files for review

In [18]:
for index, row in df.iterrows():
    # Constructing the file name based on row data and index
    file_name = f"{output_directory}/{row['Text ID']}.txt"
    
    # Writing the 'Scraped Text' content to the file
    with open(file_name, 'w', encoding='utf-8') as file:
        file.write(row['Scraped Text'])

## Manual inspection and clean up

Inspect each article in TXT format and:

- Remove titles and subtitles
- Remove headers and footers
- Remove elements such as tables, figures, references and appendices
- Separate sets of lines that constitute paragraphs with an empty line

## Merging lines into paragraphs

In [19]:
# Defining a function to tokenise the paragraphs of each article
def paragraph_tokenise(text):
    lines = text.split('\n')
    paragraphs = []
    paragraph = ''
    
    for line in lines:
        if line.strip():
            cleaned_line = ' '.join(line.split())  # Remove extra spaces within the line
            paragraph += ' ' + cleaned_line.strip()  # Join subsequent lines into a paragraph
        else:
            paragraphs.append(paragraph.strip())  # If there is an empty line, the paragraph consolidated so far is added to the list of paragraphs
            paragraph = ''  # The paragraph variable is cleared out
    
    if paragraph:
        paragraphs.append(paragraph.strip())  # The last paragraph is added to the list of paragraphs
    
    tokenised_paragraphs = '\n'.join(paragraphs)  # The list of paragraphs is compiled into a text with each paragraph as a separate line
    
    return tokenised_paragraphs

# Defining a function to read the content of a TXT file
def read_txt_file(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            return file.read()
    except Exception as e:
        logging.error(f"Error reading file {file_path}: {e}")
        return None

# Defining a function to save the paragraph-tokenised articles into TXT files
def save_paragraph_tokenised_file(output_text_content, output_file):
    try:
        with open(output_file, 'w', encoding='utf-8') as output_txt_file:
            output_txt_file.write(output_text_content)
        logging.info(f"Successfully saved tokenised file: {output_file}")
    except Exception as e:
        logging.error(f"Error saving file {output_file}: {e}")

# Iterating through each row in the DataFrame and add the text content
for index, row in tqdm(df.iterrows(), total=df.shape[0], desc='Processing files'):
    text_id = row['Text ID']
    txt_file_path = os.path.join(output_directory, f"{text_id}.txt")
    if os.path.exists(txt_file_path):
        text_content = read_txt_file(txt_file_path)
        if text_content:
            paragraph_tokenised_text_content = paragraph_tokenise(text_content)
            save_paragraph_tokenised_file(paragraph_tokenised_text_content, f"{output_directory}/{text_id}_tokenised.txt")
    else:
        logging.warning(f"File not found: {txt_file_path}")

Processing files: 100%|██████████| 71/71 [00:01<00:00, 57.95it/s]


## Adding the column `Text` with the text extracted from each document

In [20]:
# Function to read the content of a TXT file
def read_txt_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

# Iterating through each row in the DataFrame and add the text content
texts = []
for index, row in df.iterrows():
    text_id = row['Text ID']
    txt_file_path = os.path.join(output_directory, f"{text_id}_tokenised.txt")
    if os.path.exists(txt_file_path):
        text_content = read_txt_file(txt_file_path)
    else:
        text_content = None  # or you can set it to an empty string or any default value
    texts.append(text_content)

# Add the 'Text' column to the DataFrame
df['Text'] = texts

In [21]:
df

Unnamed: 0,Root Directory,Document Type,Year,Branch,File,File Path,Text ID,Scraped Text,Text
0,cl_st1_poc1_input,CPA,2023,Baixada Santista,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_poc1_input\CPA\2023\Baixada Santista\CP...,t000000,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_poc1_input,CPA,2023,Cotia,CPA 2023 Fatec Cotia.pdf,cl_st1_poc1_input\CPA\2023\Cotia\CPA 2023 Fate...,t000001,1 \n____________________...,"A Fatec Baixada Santista – Rubens Lara, possui..."
2,cl_st1_poc1_input,CPA,2023,Diadema,CPA 2023 Fatec Diadema.pdf,cl_st1_poc1_input\CPA\2023\Diadema\CPA 2023 Fa...,t000002,1 \n____________________...,"A Fatec Baixada Santista – Rubens Lara, possui..."
3,cl_st1_poc1_input,CPA,2023,Ipiranga,CPA 2023 Fatec Ipiranga.pdf,cl_st1_poc1_input\CPA\2023\Ipiranga\CPA 2023 F...,t000003,1 \n____________________...,"A Fatec Baixada Santista – Rubens Lara, possui..."
4,cl_st1_poc1_input,CPA,2023,Mauá,CPA 2023 Fatec Mauá.pdf,cl_st1_poc1_input\CPA\2023\Mauá\CPA 2023 Fatec...,t000004,1 \n____________________...,"A Fatec Baixada Santista – Rubens Lara, possui..."
...,...,...,...,...,...,...,...,...,...
66,cl_st1_poc1_input,PGA,2025,Praia Grande,PGA 2025_Fatec Praia Grande.pdf,cl_st1_poc1_input\PGA\2025\Praia Grande\PGA 20...,t000066,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...,"A Fatec Baixada Santista – Rubens Lara, possui..."
67,cl_st1_poc1_input,PGA,2025,Santo André,PGA 2025_Fatec Santo André.pdf,cl_st1_poc1_input\PGA\2025\Santo André\PGA 202...,t000067,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...,"A Fatec Baixada Santista – Rubens Lara, possui..."
68,cl_st1_poc1_input,PGA,2025,São Bernardo do Campo,PGA 2025_Fatec São Bernardo do Campo.pdf,cl_st1_poc1_input\PGA\2025\São Bernardo do Cam...,t000068,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...,"A Fatec Baixada Santista – Rubens Lara, possui..."
69,cl_st1_poc1_input,PGA,2025,São Caetano do Sul,PGA 2025_Fatec São Caetano do Sul.pdf,cl_st1_poc1_input\PGA\2025\São Caetano do Sul\...,t000069,PLANO DE GESTÃO ANUAL \nPGA 2025 \nV04 \nEstru...,"A Fatec Baixada Santista – Rubens Lara, possui..."


## Inspecting a few rows

In [26]:
print(df.at[0, 'Text'])

A Fatec Baixada Santista – Rubens Lara, possui a crença na avaliação como instrumento de gestão. Por meio da avaliação temos condições de reunir indicadores capazes de suscitar análises e discussões possibilitando definir planos de melhorias de forma continuada.
Sabe-se que a Lei 10.861/2014, que define o Sistema Nacional de Avaliação da Educação Superior (SINAES), estabelece, em seu Artigo 3º, que a avaliação institucional tem por objetivo identificar o perfil da IES e o significado de sua atuação, por meio de suas atividades, cursos, programas, projetos e setores, considerando as diferentes dimensões institucionais, consolidadas em cinco eixos, sempre objetivando evidenciar os referenciais mínimos de qualidade exigidos pela excelência de ensino que é um dos pilares da pratica de todas as faculdades de tecnologias do Estado de São Paulo vinculadas ao Centro Paula Souza.
Por meio do desenvolvimento do presente relatório, em sua versão integral, serão apresentados os dados referentes ao

## Exporting to a file

In [23]:
df.to_json(f"{output_directory}/cl_st1_poc1_fernanda.jsonl", orient='records', lines=True)

In [24]:
df.to_excel(f"{output_directory}/cl_st1_poc1_fernanda.xlsx", index=False)