<center>
<img src="https://laelgelcpublic.s3.sa-east-1.amazonaws.com/lael_50_years_narrow_white.png.no_years.400px_96dpi.png" width="300" alt="LAEL 50 years logo">
<h3>APPLIED LINGUISTICS GRADUATE PROGRAMME (LAEL)</h3>
</center>
<hr>

# Corpus Linguistics - Study 1 - Phase 1 - Fernanda

This phase aims at:

- Extracting data for a pilot Lexical Multi-Dimensional Analysis.

## Required Python packages

- pandas
- PyMuPDF
- tqdm

## Import the required libraries

In [1]:
import os
import sys
import pandas as pd
import fitz  # PyMuPDF
import logging
from tqdm import tqdm
import shutil

## Define input variables

In [2]:
input_directory = 'cl_st1_ph1_fernanda_folders'
output_directory = 'cl_st1_ph1_output'
log_filename = f"{output_directory}/cl_st1_ph1_fernanda.log"

## Create output directory

In [3]:
# Check if the output directory already exists. If it does, do nothing. If it doesn't exist, create it.
if os.path.exists(output_directory):
    print('Output directory already exists.')
else:
    try:
        os.makedirs(output_directory)
        print('Output directory successfully created.')
    except OSError as e:
        print('Failed to create the directory:', e)
        sys.exit(1)

Output directory already exists.


## Set up logging

In [4]:
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    filename = log_filename
)

## Import the directory structure into a DataFrame

In [5]:
# Initialising an empty list to hold the directory information
directory_data = []

# Walking through the directory structure
for root, dirs, files in os.walk(input_directory):
    #for file in tqdm(files, desc='Processing files'):
    for file in files:
        if file.endswith('.pdf'):
            try:
                # Getting the full file path
                file_path = os.path.join(root, file)
                # Splitting the root into individual directories
                directory_parts = root.split(os.sep)
                # Creating a dictionary for this file's information
                file_info = {'File': file}
                # Adding the file path to the dictionary
                file_info['File Path'] = file_path
                # Adding each part of the directory to the dictionary with appropriate keys
                for i, part in enumerate(directory_parts):
                    file_info[f"Directory Level {i+1}"] = part
                
                # Opening the PDF file
                document = fitz.open(file_path)
                # Extracting text from each page
                text = ''
                for page_num in range(document.page_count):
                    page = document[page_num]
                    text += page.get_text()

                file_info['Scraped Text'] = text
                document.close()
                
                # Adding the file info to the list
                directory_data.append(file_info)
                
                # Logging the successful extraction
                logging.info(f"Successfully scraped {file_path}")
            except Exception as e:
                # Logging any errors
                logging.error(f"Error scraping {file_path}: {str(e)}")

# Converting the list of dictionaries into a DataFrame
df = pd.DataFrame(directory_data)

In [6]:
df

Unnamed: 0,File,File Path,Directory Level 1,Directory Level 2,Directory Level 3,Directory Level 4,Directory Level 5,Scraped Text
0,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,1 \n____________________...
1,CPA 2023 Fatec Zona Sul.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u137...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u137,\n___________________________________________...
2,CPA 2023 Fatec Mauá.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u113...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u113,1 \n____________________...
3,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u005...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...
4,CPA 2023 Fatec Diadema.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u217...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u217,1 \n____________________...
...,...,...,...,...,...,...,...,...
108,PDI 2023-u204_ Fatec Ipiranga.pdf,cl_st1_ph1_fernanda_folders/pdi/23/r06/u204/PD...,cl_st1_ph1_fernanda_folders,pdi,23,r06,u204,\n \nPlano de \nDesenvolvimento \nInstitucion...
109,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u27...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...
110,RADE e2022_r2024 Fatec_Zona Sul v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u13...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u137,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...
111,RADE e2022_r2024 Fatec_São Caetano do Sul v.0...,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u16...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u168,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...


## Rename the columns

In [7]:
df = df.rename(columns={'Directory Level 1': 'Root Directory', 'Directory Level 2': 'Document Type', 'Directory Level 3': 'Year', 'Directory Level 4': 'Branch', 'Directory Level 5': 'Unit'})

In [8]:
df

Unnamed: 0,File,File Path,Root Directory,Document Type,Year,Branch,Unit,Scraped Text
0,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,1 \n____________________...
1,CPA 2023 Fatec Zona Sul.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u137...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u137,\n___________________________________________...
2,CPA 2023 Fatec Mauá.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u113...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u113,1 \n____________________...
3,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u005...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...
4,CPA 2023 Fatec Diadema.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u217...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u217,1 \n____________________...
...,...,...,...,...,...,...,...,...
108,PDI 2023-u204_ Fatec Ipiranga.pdf,cl_st1_ph1_fernanda_folders/pdi/23/r06/u204/PD...,cl_st1_ph1_fernanda_folders,pdi,23,r06,u204,\n \nPlano de \nDesenvolvimento \nInstitucion...
109,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u27...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...
110,RADE e2022_r2024 Fatec_Zona Sul v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u13...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u137,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...
111,RADE e2022_r2024 Fatec_São Caetano do Sul v.0...,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u16...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u168,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...


## Create the column `Text ID`

In [9]:
df['Text ID'] = 't' + df.index.astype(str).str.zfill(6)

In [10]:
df.dtypes

File              object
File Path         object
Root Directory    object
Document Type     object
Year              object
Branch            object
Unit              object
Scraped Text      object
Text ID           object
dtype: object

## Export to a file

In [11]:
df[['Root Directory', 'Document Type', 'Year', 'Branch', 'Unit', 'File', 'File Path', 'Text ID', 'Scraped Text']].to_json(f"{output_directory}/cl_st1_ph1_fernanda_scraped.jsonl", orient='records', lines=True)

## Import data into a DataFrame

In [12]:
df = pd.read_json(f'{output_directory}/cl_st1_ph1_fernanda_scraped.jsonl', lines=True)

In [13]:
df.dtypes

Root Directory    object
Document Type     object
Year              object
Branch            object
Unit              object
File              object
File Path         object
Text ID           object
Scraped Text      object
dtype: object

In [14]:
df

Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Scraped Text
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,t000000,1 \n____________________...
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u137,CPA 2023 Fatec Zona Sul.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u137...,t000001,\n___________________________________________...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u113,CPA 2023 Fatec Mauá.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u113...,t000002,1 \n____________________...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u005...,t000003,\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n ...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u217,CPA 2023 Fatec Diadema.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u217...,t000004,1 \n____________________...
...,...,...,...,...,...,...,...,...,...
108,cl_st1_ph1_fernanda_folders,pdi,23,r06,u204,PDI 2023-u204_ Fatec Ipiranga.pdf,cl_st1_ph1_fernanda_folders/pdi/23/r06/u204/PD...,t000108,\n \nPlano de \nDesenvolvimento \nInstitucion...
109,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u27...,t000109,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...
110,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u137,RADE e2022_r2024 Fatec_Zona Sul v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u13...,t000110,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...
111,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u168,RADE e2022_r2024 Fatec_São Caetano do Sul v.0...,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u16...,t000111,1 \n \n \n \n \n \n \n \n \n \n \nDireção da ...


## Inspect a few rows

In [15]:
df.at[22, 'File']

'CPA 2025 Fatec Mauá.pdf'

In [16]:
df.at[22, 'File Path']

'cl_st1_ph1_fernanda_folders/cpa/24-25/r06/u113/CPA 2025 Fatec Mauá.pdf'

In [17]:
df.at[22, 'Text ID']

't000022'

In [18]:
df.at[22, 'Scraped Text']

''

## Find texts that are empty

These are documents whose text could not be captured because they are probably image-based PDF documents. **They should be removed**.

In [19]:
# Find rows where the specified column has empty strings
mask = df['Scraped Text'].str.len() == 0

# Get the corresponding 'Text ID' values 
text_ids_with_missing_text = df[mask]['Text ID']

text_ids_with_missing_text

22    t000022
Name: Text ID, dtype: object

## Copy each original PDF file to ease the text review process

In [20]:
for index, row in df.iterrows():
    source_path = row['File Path']
    new_name = row['Text ID'] + '.pdf'
    destination_path = os.path.join(output_directory, new_name)
    try:
        shutil.copy(source_path, destination_path)
        logging.info(f"Copied: {source_path} to {destination_path}")
    except Exception as e:
        logging.error(f"Error copying {source_path}: {str(e)}")

## Export each scraped text to individual files for review

This cell has been set to 'raw' in order to avoid unintended overwrite of the the reviewed texts.

## Manual inspection and clean up

Inspect each document in TXT format and:

- Remove titles and subtitles
- Remove headers and footers
- Remove elements such as tables, figures, references and appendices
- **Separate sets of lines that constitute paragraphs with an empty line**
- Indicate sections with the prefix `Section: `. For example: `Section: 1 INTRODUÇÃO`
    - Ensure that sections are separated by an **empty line before and after it**
    - **Do not modify** the prefix like:
        - `Section : 1 INTRODUÇÃO`
        - `Section:1 INTRODUÇÃO`
        - `Seçion: 1 INTRODUÇÃO`
        - `section: 1 INTRODUÇÃO`
        - `Section - 1 INTRODUÇÃO`
        - `SECTION: 1 INTRODUÇÃO`
    - **Do not leave a section empty** like:
        - `Section: `

### Example

```
Section: 1 INTRODUÇÃO

A Comissão Própria de Avaliação (CPA) da Faculdade de Tecnologia de Cotia
foi constituída em março de 2016, e aprovada pelo Colegiado Máximo da Unidade de
Ensino em 09/04/2016, conforme previsto pela Portaria CEETEPS-GDS nº 1305, de
31 de maio de 2016 e Lei Federal nº 10.861/2004, com representação dos segmentos
da comunidade universitária e de representante(s) da sociedade civil organizada.

A finalidade dessa comissão é de contribuir com o planejamento, elaboração,
coordenação e monitoramento da política de autoavaliação institucional, promovendo,
no que couber, a interlocução com os órgãos de regulação, supervisão e avaliação.
Esse relatório se refere à CPA da Fatec Cotia que foi formada no início do ano
de 2021, cujos membros convidados a participar eram representantes da comunidade
acadêmica: docentes, discentes, funcionários e comunidade externa.

Section: 2 METODOLOGIA

Para contribuir com a organização da Comissão Própria de Avaliação de cada
Fatec, o Centro Paula Souza, por meio da Área de Avaliação Institucional (AAI) e da
Unidade de Ensino Superior de Graduação (CESU), organizaram a comissão da CPA
Central.

Assumindo como centro organizativo as atribuições que lhe competem, a
saber:

I – Contribuir com o planejamento, orientação e monitoramento dos
procedimentos da autoavaliação Institucional das FATECs;

II – Utilizar os indicadores coletados nas unidades como instrumento de
gestão, oferecendo subsídios para cada uma das áreas da administração
central tomar as medidas corretivas;

Por meio CPA Central cada Fatec e das Diretorias Pedagógicas Regionais
recebe todo o suporte necessário para cumprir o que lhe compete a CPA conforme
segue:

1. contribuir
com
o
planejamento,
elaboração,
coordenação
e
monitoramento dos processos de avaliação interna, apresentando o
projeto de autoavaliação Institucional que norteará todos os
procedimentos de autoavaliação para a CPA Central em consonância
com a equipe de Supervisão Regional das FATECs.

2. apoiar os processos internos de avaliação;

3. sistematizar e prestar informações relativas às políticas de
autoavaliação institucional, solicitadas pelos Sistemas Federal e
Estadual de Avaliação da Educação Superior, além de atender à
demanda interna da Supervisão Regional e da CPA Central do Centro
Paula Souza;

Section: 3 DESENVOLVIMENTO

Considerando os instrumentos da autoavaliação, estruturados a partir das 10 dimensões previstas no
art. 3º da Lei nº 10.861 (SINAES), nesta parte do relatório, a CPA deverá apresentar as informações
que foram coletadas, a partir da organização de 5 eixos, que articulam as 10 dimensões, conforme
disposto na Nota Técnica INEP nº 065, como segue:

Nessa seção apresentamos os dados da pesquisa de forma gráfica procuram
extrair as questões com respostas mais positivas e mais negativas para evidenciar
os pontos fortes e fracos da instituição.



Section: 5 CONSIDERAÇÕES FINAIS

A Comissão Própria de Avaliação, pelo seu trabalho, visa oferecer subsídios capazes
de subsidiar à tomada de decisão e ao planejamento institucional, na busca de
contínua melhoria da qualidade do ensino, da pesquisa, da extensão e da gestão.
Sendo assim um importante instrumento para a Direção.

Dentre as principais ações advindas desse processo, podemos salientar:

• a confiança que professores, funcionários e alunos têm na direção, nos
coordenadores e
nos
órgãos
colegiados
da
instituição; às
vezes
desconhecendo a missão da Instituição.

• o ensino remoto forçado mudou a forma do aluno estudar e do professor
lecionar. O retorno presencial foi planejado visando o acolhimento;

Os resultados apresentados contemplam as dez dimensões auto avaliativas do
SINAES e foram analisados e discutidos por todos os membros da comunidade
institucional: direção, coordenações de cursos, setores administrativos, gestores,
professores e alunos.

Os dados coletados, as análises e propostas foram amplamente divulgadas e serão
objeto de comparação na próxima avaliação, para elucidar os avanços alcançados,
reforçando o quanto a avaliação contribui para a gestão dos resultados.

```

## Merge lines into paragraphs

In [22]:
# Defining a function to tokenise the paragraphs of each article
def paragraph_tokenise(text):
    lines = text.split('\n')
    paragraphs = []
    paragraph = ''
    
    for line in lines:
        if line.strip():
            cleaned_line = ' '.join(line.split())  # Remove extra spaces within the line
            paragraph += ' ' + cleaned_line.strip()  # Join subsequent lines into a paragraph
        else:
            paragraphs.append(paragraph.strip())  # If there is an empty line, the paragraph consolidated so far is added to the list of paragraphs
            paragraph = ''  # The paragraph variable is cleared out
    
    if paragraph:
        paragraphs.append(paragraph.strip())  # The last paragraph is added to the list of paragraphs
    
    tokenised_paragraphs = '\n'.join(paragraphs)  # The list of paragraphs is compiled into a text with each paragraph as a separate line
    
    return tokenised_paragraphs

# Defining a function to read the content of a TXT file
def read_txt_file(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            return file.read()
    except Exception as e:
        logging.error(f"Error reading file {file_path}: {e}")
        return None

# Defining a function to save the paragraph-tokenised articles into TXT files
def save_paragraph_tokenised_file(output_text_content, output_file):
    try:
        with open(output_file, 'w', encoding='utf-8') as output_txt_file:
            output_txt_file.write(output_text_content)
        logging.info(f"Successfully saved tokenised file: {output_file}")
    except Exception as e:
        logging.error(f"Error saving file {output_file}: {e}")

# Iterating through each row in the DataFrame and add the text content
for index, row in tqdm(df.iterrows(), total=df.shape[0], desc='Processing files'):
    text_id = row['Text ID']
    txt_file_path = os.path.join(output_directory, f"{text_id}.txt")
    if os.path.exists(txt_file_path):
        text_content = read_txt_file(txt_file_path)
        if text_content:
            paragraph_tokenised_text_content = paragraph_tokenise(text_content)
            save_paragraph_tokenised_file(paragraph_tokenised_text_content, f"{output_directory}/{text_id}_tokenised.txt")
    else:
        logging.warning(f"File not found: {txt_file_path}")

Processing files: 100%|██████████| 113/113 [00:01<00:00, 109.62it/s]


## Break down the texts into sections and paragraphs

In [23]:
# Prepare to collect rows
data = []

# Loop through each 'Text ID' in df
for _, row in df.iterrows():
    text_id = row['Text ID']

    paragraph_count = 0
    section = None
    file_path = os.path.join(output_directory, f"{text_id}_tokenised.txt")

    if not os.path.isfile(file_path):
        print(f"Missing file: {file_path}")
        continue

    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            line = ' '.join(line.split()).strip()

            if line.startswith('Section:'):
                section_name = line.partition(':')[2].strip()
                # If a section line is blank or only has the colon, we gracefully assign the fallback name 'Undefined Section'
                section = section_name if section_name else 'Undefined Section'
                paragraph_count = 0  # Resetting paragraph count for new section

            elif line:
                paragraph_count += 1
                data.append({
                    'Text ID': text_id,
                    'Section': section,
                    'Paragraph': f"Paragraph {paragraph_count}",
                    'Text Paragraph': line
                })

# Create final DataFrame
df_section_paragraph = pd.DataFrame(data)

Missing file: cl_st1_ph1_output/t000022_tokenised.txt


In [24]:
df_section_paragraph

Unnamed: 0,Text ID,Section,Paragraph,Text Paragraph
0,t000000,1 INTRODUÇÃO,Paragraph 1,A Comissão Própria de Avaliação (CPA) da Facul...
1,t000000,1 INTRODUÇÃO,Paragraph 2,A finalidade dessa comissão é de contribuir co...
2,t000000,1 INTRODUÇÃO,Paragraph 3,A Fatec Cotia possui a crença na avaliação com...
3,t000000,1 INTRODUÇÃO,Paragraph 4,"Sabe-se que a Lei 10.861/2014, que define o Si..."
4,t000000,1 INTRODUÇÃO,Paragraph 5,"Pelo presente relatório, serão apresentados os..."
...,...,...,...,...
34773,t000112,,Paragraph 31,12
34774,t000112,,Paragraph 32,ANEXO II – ANÁLISE DO COORDENADOR(A) DE PROJET...
34775,t000112,,Paragraph 33,Regional:
34776,t000112,,Paragraph 34,Coordenador(a) de Projetos CESU:


## Merge `df` into `df_section_paragraph` to obtain `df_fatec`

In [25]:
df.drop(columns=['Scraped Text'], inplace=True)

In [26]:
df_fatec = df.merge(df_section_paragraph, on='Text ID', how='left')

In [27]:
df_fatec

Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,t000000,1 INTRODUÇÃO,Paragraph 1,A Comissão Própria de Avaliação (CPA) da Facul...
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,t000000,1 INTRODUÇÃO,Paragraph 2,A finalidade dessa comissão é de contribuir co...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,t000000,1 INTRODUÇÃO,Paragraph 3,A Fatec Cotia possui a crença na avaliação com...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,t000000,1 INTRODUÇÃO,Paragraph 4,"Sabe-se que a Lei 10.861/2014, que define o Si..."
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u270,CPA 2023 Fatec Cotia.pdf,cl_st1_ph1_fernanda_folders/cpa/22-23/r06/u270...,t000000,1 INTRODUÇÃO,Paragraph 5,"Pelo presente relatório, serão apresentados os..."
...,...,...,...,...,...,...,...,...,...,...,...
34774,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u129,RADE e2022_r2024 Fatec_Praia Grande v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u12...,t000112,,Paragraph 31,12
34775,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u129,RADE e2022_r2024 Fatec_Praia Grande v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u12...,t000112,,Paragraph 32,ANEXO II – ANÁLISE DO COORDENADOR(A) DE PROJET...
34776,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u129,RADE e2022_r2024 Fatec_Praia Grande v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u12...,t000112,,Paragraph 33,Regional:
34777,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u129,RADE e2022_r2024 Fatec_Praia Grande v.02.pdf,cl_st1_ph1_fernanda_folders/rade/23-24/r06/u12...,t000112,,Paragraph 34,Coordenador(a) de Projetos CESU:


## Inspect a few rows

In [None]:
print(df_fatec.at[17, 'Text Paragraph'])

## Export to a file

In [31]:
df_fatec.to_json(f"{output_directory}/cl_st1_ph1_fernanda.jsonl", orient='records', lines=True)

In [32]:
df_fatec.to_excel(f"{output_directory}/cl_st1_ph1_fernanda.xlsx", index=False)