<center>
<img src="https://laelgelcpublic.s3.sa-east-1.amazonaws.com/lael_50_years_narrow_white.png.no_years.400px_96dpi.png" width="300" alt="LAEL 50 years logo">
<h3>APPLIED LINGUISTICS GRADUATE PROGRAMME (LAEL)</h3>
</center>
<hr>

# Corpus Linguistics - Study 1 - Phase  - Fernanda

This phase aims at:

- Compiling the target corpus for a pilot Lexical Multi-Dimensional Analysis.

## Required Python packages

- pandas
- nltk

## Import the required libraries

In [1]:
import os
import sys
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
import matplotlib.pyplot as plt

## Define input variables

In [2]:
input_directory = 'cl_st1_ph1_output'
output_directory = 'cl_st1_ph2_output'

## Create output directory

In [3]:
# Check if the output directory already exists. If it does, do nothing. If it doesn't exist, create it.
if os.path.exists(output_directory):
    print('Output directory already exists.')
else:
    try:
        os.makedirs(output_directory)
        print('Output directory successfully created.')
    except OSError as e:
        print('Failed to create the directory:', e)
        sys.exit(1)

Output directory successfully created.


## Import the data into a DataFrame

In [4]:
df_fatec_2 = pd.read_json(f"{input_directory}/cl_st1_ph1_fernanda.jsonl", lines=True)

In [5]:
df_fatec_2

Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara, as ativ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
3556,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3557,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3558,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3559,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso, é importante reconhecer o impacto ..."


In [6]:
df_fatec_2.dtypes

Root Directory     object
Document Type      object
Year               object
Branch             object
Unit               object
File               object
File Path          object
Text ID            object
Section            object
Paragraph          object
Word Count NLTK     int64
Text Paragraph     object
dtype: object

## Drop short paragraphs

### Shorter than 10 words

In [7]:
mask_short = df_fatec_2['Word Count NLTK'] <= 10
df_short_paragraphs = df_fatec_2.loc[mask_short, ['Text Paragraph']]
df_short_paragraphs

Unnamed: 0,Text Paragraph
916,
2580,Atender a NR-5 que regulamenta a constituição ...
2883,ATIVIDADES NÃO REALIZADAS E JUSTIFICATIVAS
2884,Implantação da Revista eletrônica da Fatec Mauá.
2959,ATIVIDADES NÃO REALIZADAS E JUSTIFICATIVAS Não...
3007,RELATÓRIO ANUAL DE ATIVIDADES – RAA. FATEC IPI...
3023,ATIVIDADES REALIZADAS
3034,ATIVIDADES NÃO REALIZADAS E JUSTIFICATIVAS
3060,11. Realização do Exame TOIC;
3065,RELATÓRIO ANUAL DE ATIVIDADES - RAA Unidade: F...


#### Drop the paragraphs

In [8]:
# Drop rows from df_fatec_2 where mask_short is True
initial_count = len(df_fatec_2)
removed_count = int(mask_short.sum())

df_fatec_2 = df_fatec_2.loc[~mask_short].reset_index(drop=True)

print(f"Dropped {removed_count} short paragraphs; remaining rows: {len(df_fatec_2)}")
df_fatec_2


Dropped 22 short paragraphs; remaining rows: 3539


Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara, as ativ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
3534,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3535,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3536,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3537,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso, é importante reconhecer o impacto ..."


In [9]:
df_paragraphs_per_document_type = (
    df_fatec_2
    .groupby('Document Type', dropna=False)
    .size()
    .reset_index(name='Paragraph Count')
    .sort_values(['Paragraph Count', 'Document Type'], ascending=[False, True])
    .reset_index(drop=True)
)
df_paragraphs_per_document_type

Unnamed: 0,Document Type,Paragraph Count
0,cpa,1313
1,pga,1060
2,raa,679
3,pdi,415
4,rade,72
