<center>
<img src="https://laelgelcpublic.s3.sa-east-1.amazonaws.com/lael_50_years_narrow_white.png.no_years.400px_96dpi.png" width="300" alt="LAEL 50 years logo">
<h3>APPLIED LINGUISTICS GRADUATE PROGRAMME (LAEL)</h3>
</center>
<hr>

# Extracting text from WebVTT caption files with `webvtt-py`

## What is WebVTT?

The **Web Video Text Tracks Format (WebVTT)** is a format for displaying timed text tracks (such as subtitles or captions) using the HTML <track> element.

Please refer to:
- [Web Video Text Tracks Format (WebVTT)](https://developer.mozilla.org/en-US/docs/Web/API/WebVTT_API)
- [WebVTT: The Web Video Text Tracks Format](https://www.w3.org/TR/webvtt1/)

## Prerequisites

`webvtt-py` is a Python package for reading/writing WebVTT caption files.

Please refer to:
- [webvtt-py](https://pypi.org/project/webvtt-py/)

## Installing `webvtt-py` on Anacoda Distribution

As `webvtt-py` is not available in any of the conda channels, the following procedure should be followed on `Anaconda Prompt` to install it in the required environment, in this case `Env20240401`:

Note: You have to download and open this Jupyter Notebook on JupyterLab (provided as part of Anaconda Distribution) to visualise the procedure.

## Importing the required libraries

In [1]:
import webvtt
import pandas as pd

## Extracting text

In [2]:
# Defining the input and output files
#webvtt_file = '023 - EU PROVO! O BRASIL VIVE UMA DITADURA.pt.vtt'
#caption_file = '023 - EU PROVO! O BRASIL VIVE UMA DITADURA.pt.txt'
webvtt_file = '290 - PREPARE-SE PARA VIVER COM DEUS ETERNAMENTE ｜ SILAS MALAFAIA – MOTIVACIONAL.pt.vtt'
caption_file = '290 - PREPARE-SE PARA VIVER COM DEUS ETERNAMENTE ｜ SILAS MALAFAIA – MOTIVACIONAL.pt.txt'

vtt = webvtt.read(webvtt_file)

# Writing the text of the caption to an opened file
with open(caption_file, 'w', encoding='utf-8') as f:
    f.write('text' + '\n') # Includes the header that will be used in the dataframe
    for caption in vtt:
        f.write(caption.text + '\n')

In [3]:
df = pd.read_table(caption_file)

In [4]:
df.dtypes

text    object
dtype: object

In [5]:
df

Unnamed: 0,text
0,ele quer estar com você por toda a
1,ele quer estar com você por toda a
2,eternidade
3,eternidade
4,eternidade
...,...
124,você pode e você pode glorificar esse
125,Deus que quer se manifestar você
126,Deus que quer se manifestar você
127,Deus que quer se manifestar você


### Identifying rows that are empty in column `text`

In [6]:
print(df['text'].isnull().sum())

0


### Removing duplicates

In [7]:
df.drop_duplicates(subset='text', keep='first', inplace=True)
df = df.reset_index(drop=True)

In [8]:
df

Unnamed: 0,text
0,ele quer estar com você por toda a
1,eternidade
2,João 17 dois dias que a vida eterna é
3,esta que te conheçam a ti como único
4,Deus e a Jesus Cristo a quem tu em
5,viagem João Capítulo 14 diz assim não se
6,turbe o vosso coração crede em Deus e
7,crede também em mim na casa de meu pai
8,há muitas moradas se não fosse assim eu
9,não vou não teria dito mas agora eu vou


In [9]:
# Creating a single string containing all 'text' values separated by spaces
text_line = ' '.join(df['text'])

# Writing the string to a text file
with open(caption_file, 'w', encoding='utf-8') as f:
    f.write(text_line)

print('Extracted!')

Extracted!
