<center>
<img src="https://laelgelcpublic.s3.sa-east-1.amazonaws.com/lael_50_years_narrow_white.png.no_years.400px_96dpi.png" width="300" alt="LAEL 50 years logo">
<h3>APPLIED LINGUISTICS GRADUATE PROGRAMME (LAEL)</h3>
</center>
<hr>

# Corpus Linguistics - Study 1 - Phase 2 - Fernanda

This phase aims at:

- Compiling the target corpus for a pilot Lexical Multi-Dimensional Analysis.

## Prerequisites

Make sure the prerequisites in [CL_LMDA_prerequisites](https://github.com/laelgelc/laelgelc/blob/main/CL_LMDA_prerequisites.ipynb) are satisfied.

## Required Python packages

- pandas

## Import the required libraries

In [1]:
import os
import sys
import pandas as pd
import re

## Define input variables

In [2]:
input_directory = 'cl_st1_ph1_output'
output_directory = 'cl_st1_ph2_output'

## Create output directory

In [3]:
# Check if the output directory already exists. If it does, do nothing. If it doesn't exist, create it.
if os.path.exists(output_directory):
    print('Output directory already exists.')
else:
    try:
        os.makedirs(output_directory)
        print('Output directory successfully created.')
    except OSError as e:
        print('Failed to create the directory:', e)
        sys.exit(1)

Output directory successfully created.


## Import the data into a DataFrame

In [3]:
df_fatec_2 = pd.read_json(f"{input_directory}/cl_st1_ph1_fernanda.jsonl", lines=True)

In [4]:
df_fatec_2

Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara, as ativ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
3556,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3557,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3558,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3559,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso, é importante reconhecer o impacto ..."


In [5]:
df_fatec_2.dtypes

Root Directory     object
Document Type      object
Year               object
Branch             object
Unit               object
File               object
File Path          object
Text ID            object
Section            object
Paragraph          object
Word Count NLTK     int64
Text Paragraph     object
dtype: object

## Data wrangling

### Drop short paragraphs

#### Shorter than 10 words

In [6]:
mask_short = df_fatec_2['Word Count NLTK'] <= 10
df_short_paragraphs = df_fatec_2.loc[mask_short, ['Text Paragraph']]
df_short_paragraphs

Unnamed: 0,Text Paragraph
916,
2580,Atender a NR-5 que regulamenta a constituição ...
2883,ATIVIDADES NÃO REALIZADAS E JUSTIFICATIVAS
2884,Implantação da Revista eletrônica da Fatec Mauá.
2959,ATIVIDADES NÃO REALIZADAS E JUSTIFICATIVAS Não...
3007,RELATÓRIO ANUAL DE ATIVIDADES – RAA. FATEC IPI...
3023,ATIVIDADES REALIZADAS
3034,ATIVIDADES NÃO REALIZADAS E JUSTIFICATIVAS
3060,11. Realização do Exame TOIC;
3065,RELATÓRIO ANUAL DE ATIVIDADES - RAA Unidade: F...


#### Drop the paragraphs

In [7]:
# Drop rows from df_fatec_2 where mask_short is True
initial_count = len(df_fatec_2)
removed_count = int(mask_short.sum())

df_fatec_2 = df_fatec_2.loc[~mask_short].reset_index(drop=True)

print(f"Dropped {removed_count} short paragraphs; remaining rows: {len(df_fatec_2)}")
df_fatec_2

Dropped 22 short paragraphs; remaining rows: 3539


Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara, as ativ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
3534,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3535,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3536,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3537,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso, é importante reconhecer o impacto ..."


### Drop duplicate paragraphs

#### Identify duplicate paragraphs

In [8]:
mask_dupes = df_fatec_2['Text Paragraph'].notna() & df_fatec_2['Text Paragraph'].duplicated(keep=False)
df_fatec_2.loc[mask_dupes, ['Text Paragraph']].sort_values('Text Paragraph')

Unnamed: 0,Text Paragraph
3236,2- Alunos que evidenciam o sentimento de perte...
3210,2- Alunos que evidenciam o sentimento de perte...
3237,3- Projetos pedagógicos como meio privilegiado...
3211,3- Projetos pedagógicos como meio privilegiado...
3238,4- Responsabilidade Social ✓ Manutenção do Pro...
...,...
3291,Vestibular: A Fatec Rubens Lara continua sendo...
2940,"f) Auxiliar e incentivar o aluno, por meio de ..."
3126,"f) Auxiliar e incentivar o aluno, por meio de ..."
3129,i) Implementar parcerias com empresas da regiã...


#### Drop the paragraphs

In [9]:
# Drop duplicate paragraphs, keeping the first occurrence
mask_drop_dupes = df_fatec_2['Text Paragraph'].duplicated(keep='first')
removed_dupes = int(mask_drop_dupes.sum())

df_fatec_2 = df_fatec_2.loc[~mask_drop_dupes].reset_index(drop=True)

print(f"Dropped {removed_dupes} duplicate paragraphs; remaining rows: {len(df_fatec_2)}")
df_fatec_2

Dropped 285 duplicate paragraphs; remaining rows: 3254


Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara, as ativ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
3249,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3250,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3251,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3252,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso, é importante reconhecer o impacto ..."


### Determining the `Paragraph Count` per `Document Type`

In [10]:
df_paragraphs_per_document_type = (
    df_fatec_2
    .groupby('Document Type', dropna=False)
    .size()
    .reset_index(name='Paragraph Count')
    .sort_values(['Paragraph Count', 'Document Type'], ascending=[False, True])
    .reset_index(drop=True)
)
df_paragraphs_per_document_type

Unnamed: 0,Document Type,Paragraph Count
0,cpa,1183
1,pga,979
2,raa,605
3,pdi,415
4,rade,72


### Export to a file

In [11]:
df_fatec_2.to_json(f"{output_directory}/cl_st1_ph1_tc_fernanda.jsonl", orient='records', lines=True)

In [12]:
df_fatec_2.to_excel(f"{output_directory}/cl_st1_ph1_tc_fernanda.xlsx", index=False)

## Importing the Target Corpus into a DataFrame

In [13]:
df_fatec_tc = pd.read_json(f"{output_directory}/cl_st1_ph1_tc_fernanda.jsonl", lines=True)

In [14]:
df_fatec_tc

Unnamed: 0,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara, possui..."
1,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara, as ativ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
3249,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3250,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3251,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3252,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso, é importante reconhecer o impacto ..."


### Identify occurrences of the `pipe` character in the `Text Paragraph` column

Further on, a few columns of the DataFrame are going to be exported into the file `tweets.txt` whose columns need to be delimited by the `pipe` character. Therefore, it is recommended that any occurrences of the `pipe` character in the `Text Paragraph` column are replaced by another character.

In [15]:
mask_pipe = df_fatec_tc['Text Paragraph'].str.contains(r'\|', na=False)
df_with_pipe = df_fatec_tc.loc[mask_pipe, ['Text Paragraph']]
df_with_pipe

Unnamed: 0,Text Paragraph


## Tokenising

Please refer to [What is tokenization in NLP?](https://www.analyticsvidhya.com/blog/2020/05/what-is-tokenization-nlp/).

### Inspect one row

In [16]:
print(df_fatec_tc.at[17, 'Text Paragraph'])

Para a efetivação do cronograma destaca-se algumas das ações para a realização dos procedimentos de autoavaliação. 1. divulgação no site (pop up), facebook, Instagram e linkedIn da Fatec Mauá através da arte abaixo: 2. envio de e-mail para professores, alunos e pessoal técnico-administrativo. 3. Espaço da aula destinado para preenchimento do Websai; 4. Notificação via Teams aos professores; 5. Mensagens de whatsapp (individual) nos dias finais do processo; 6. Reforço aos alunos por representantes dos alunos da CPA e por representantes de sala; 7. Ingresso dos Coordenadores em aulas para sensibilizar alunos sobre o WebSAI; 8. Envio de mensagem pelos Coordenadores ao e-mail institucional dos alunos.


### Tokenise

In [17]:
# Defining a function to tokenise a string
def tokenise_string(input_line):
    # Replace URLs with placeholders
    url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+\b'
    placeholder = '<URL>'  # Choose a unique placeholder
    urls = re.findall(url_pattern, input_line)
    tokenised_line = re.sub(url_pattern, placeholder, input_line)  # Replace URLs with placeholders

    # Replace curly quotes with straight ones
    tokenised_line = tokenised_line.replace('“', '"').replace('”', '"').replace("‘", "'").replace("’", "'")
    # Separate common punctuation marks with spaces
    tokenised_line = re.sub(r'([.\!?,"\'/()])', r' \1 ', tokenised_line)
    # Add a space before '#'
    tokenised_line = re.sub(r'(?<!\s)#', r' #', tokenised_line)  # Add a space before '#' if it is not already preceded by one
    # Reduce extra spaces by a single space
    tokenised_line = re.sub(r'\s+', ' ', tokenised_line)

    # Replace the placeholders with the respective URLs
    for url in urls:
        tokenised_line = tokenised_line.replace(placeholder, url, 1)

    return tokenised_line

# Tokenising the strings
df_fatec_tc['Text Paragraph'] = df_fatec_tc['Text Paragraph'].apply(tokenise_string)

### Reinspect the row

In [18]:
print(df_fatec_tc.at[17, 'Text Paragraph'])

Para a efetivação do cronograma destaca-se algumas das ações para a realização dos procedimentos de autoavaliação . 1 . divulgação no site ( pop up ) , facebook , Instagram e linkedIn da Fatec Mauá através da arte abaixo: 2 . envio de e-mail para professores , alunos e pessoal técnico-administrativo . 3 . Espaço da aula destinado para preenchimento do Websai; 4 . Notificação via Teams aos professores; 5 . Mensagens de whatsapp ( individual ) nos dias finais do processo; 6 . Reforço aos alunos por representantes dos alunos da CPA e por representantes de sala; 7 . Ingresso dos Coordenadores em aulas para sensibilizar alunos sobre o WebSAI; 8 . Envio de mensagem pelos Coordenadores ao e-mail institucional dos alunos . 


## Creating the files `file_index.txt` and `tweets.txt`

### Creating column `text_id`

In [19]:
df_fatec_tc['text_id'] = 'fat' + df_fatec_tc.index.astype(str).str.zfill(6)

### Creating column `conversation`

In [20]:
df_fatec_tc['conversation'] = (
        'v:' +
        df_fatec_tc['Text ID'].fillna('').astype(str) + ' ' +
        df_fatec_tc['Section'].fillna('').astype(str) + ' ' +
        df_fatec_tc['Paragraph'].fillna('').astype(str)
)

#### Replacing space by the `_` character

**Important**: Since the strings in the original columns contain spaces, Pandas creates `file_index.txt` with the columns enclosed with `"` - this caracter causes issues in `examples.sh` when it is executed. Therefore, spaces should be replaced by another character such as underscore.

In [21]:
# Defining a function to replace space by the '_' character
def replace_space_with_underscore(input_string):
    modified_string = re.sub(r' ', '_', input_string)
    return modified_string

In [22]:
# Replacing space by the '_' character
df_fatec_tc['conversation'] = df_fatec_tc['conversation'].apply(replace_space_with_underscore)

### Creating column `date`

In [23]:
df_fatec_tc['date'] = 'd:' + df_fatec_tc['Year'].fillna('').astype(str)

### Creating column `text_url`

No URL was considered for all texts.

In [24]:
df_fatec_tc['text_url'] = 'url:' + 'No_URL'

### Creating column `user`

In [25]:
df_fatec_tc['user'] = (
        'u:' +
        df_fatec_tc['Branch'].fillna('').astype(str) + '_' +
        df_fatec_tc['Unit'].fillna('').astype(str)
)

### Creating column `content`

In [26]:
df_fatec_tc['content'] = 'c:' + df_fatec_tc['Text Paragraph'].astype(str)

### Reorder the created columns

Please refer to:
- [Python - List Comprehension 1](https://www.w3schools.com/python/python_lists_comprehension.asp)
- [Python - List Comprehension 2](https://treyhunner.com/2015/12/python-list-comprehensions-now-in-color/)

In [27]:
reordered_columns = [
    'text_id',
    'conversation',
    'date',
    'text_url',
    'user',
    'content'
]

In [28]:
df_fatec_tc = df_fatec_tc[reordered_columns + [col for col in df_fatec_tc.columns if col not in reordered_columns]]

In [29]:
df_fatec_tc

Unnamed: 0,text_id,conversation,date,text_url,user,content,Root Directory,Document Type,Year,Branch,Unit,File,File Path,Text ID,Section,Paragraph,Word Count NLTK,Text Paragraph
0,fat000000,v:t000000_1_INTRODUÇÃO_Paragraph_1,d:22-23,url:No_URL,u:r06_u005,"c:A Fatec Baixada Santista – Rubens Lara , pos...",cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 1,38,"A Fatec Baixada Santista – Rubens Lara , possu..."
1,fat000001,v:t000000_1_INTRODUÇÃO_Paragraph_2,d:22-23,url:No_URL,u:r06_u005,c:Por meio do desenvolvimento do presente rela...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,1 INTRODUÇÃO,Paragraph 2,81,Por meio do desenvolvimento do presente relató...
2,fat000002,v:t000000_2_SENSIBILIZAÇÃO_Paragraph_1,d:22-23,url:No_URL,u:r06_u005,c:Para a efetivação do cronograma destacam-se ...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 1,77,Para a efetivação do cronograma destacam-se al...
3,fat000003,v:t000000_2_SENSIBILIZAÇÃO_Paragraph_2,d:22-23,url:No_URL,u:r06_u005,c:Cabe ressaltar que as atividades de sensibil...,cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 2,39,Cabe ressaltar que as atividades de sensibiliz...
4,fat000004,v:t000000_2_SENSIBILIZAÇÃO_Paragraph_3,d:22-23,url:No_URL,u:r06_u005,"c:Na FATEC Baixada Santista Rubens Lara , as a...",cl_st1_ph1_fernanda_folders,cpa,22-23,r06,u005,CPA 2023 Fatec Baixada Santista.pdf,cl_st1_ph1_fernanda_folders\cpa\22-23\r06\u005...,t000000,2 SENSIBILIZAÇÃO,Paragraph 3,147,"Na FATEC Baixada Santista Rubens Lara , as ati..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3249,fat003249,v:t000112_4_CONSIDERAÇÕES_GERAIS_Paragraph_2,d:23-24,url:No_URL,u:r06_u270,c:Recomenda-se a implementação de abordagens I...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 2,24,Recomenda-se a implementação de abordagens Ira...
3250,fat003250,v:t000112_4_CONSIDERAÇÕES_GERAIS_Paragraph_3,d:23-24,url:No_URL,u:r06_u270,c:Outro aspecto examinado foi o perfil emergen...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 3,75,Outro aspecto examinado foi o perfil emergente...
3251,fat003251,v:t000112_4_CONSIDERAÇÕES_GERAIS_Paragraph_4,d:23-24,url:No_URL,u:r06_u270,c:A iniciativa de preparar os alunos para o Ex...,cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 4,57,A iniciativa de preparar os alunos para o Exam...
3252,fat003252,v:t000112_4_CONSIDERAÇÕES_GERAIS_Paragraph_5,d:23-24,url:No_URL,u:r06_u270,"c:Além disso , é importante reconhecer o impac...",cl_st1_ph1_fernanda_folders,rade,23-24,r06,u270,RADE e2022_r2024 Fatec_Cotia v.02.pdf,cl_st1_ph1_fernanda_folders\rade\23-24\r06\u27...,t000112,4 CONSIDERAÇÕES GERAIS,Paragraph 5,61,"Além disso , é importante reconhecer o impacto..."


### Creating the file `file_index.txt`

In [30]:
df_fatec_tc[['text_id', 'conversation', 'date', 'text_url']].to_csv('file_index.txt', sep=' ', index=False, header=False, encoding='utf-8', lineterminator='\n')

### Creating the file `tweets.txt`

In [31]:
folder = 'tweets'
try:
    os.mkdir(folder)
    print(f'Folder {folder} created!')
except FileExistsError:
    print(f'Folder {folder} already exists')

Folder tweets created!


Note: The parameters `doublequote=False` and `escapechar=' '` are required to avoid that the column content is doublequoted with '"' in sentences that use characters that need to be escaped such as double quote '"' itself - this causes a malformed response from TreeTagger.

In [32]:
df_fatec_tc[['text_id', 'conversation', 'date', 'user', 'content']].to_csv(f'{folder}/tweets.txt', sep='|', index=False, header=False, encoding='utf-8', lineterminator='\n', doublequote=False, escapechar=' ')