### Text Processing: Handling Amharic text, tokenization, and preprocessing techniques.

To preprocess the scraped Amharic text data for tasks like tokenization, normalization, and handling Amharic-specific linguistic features, we need to follow several preprocessing steps tailored for the language. 

HereРђЎs how we can approach this task:

**Steps to Preprocess Amharic Text**

- **Tokenization**: Tokenization is the process of splitting text into individual units such as words or subwords. Since Amharic uses a different script and has some unique linguistic features, tokenizing might need adjustments. 
    - Use specialized libraries that handle Amharic text or a custom rule-based tokenizer.

- **Normalization**: This step involves cleaning and converting the text into a standard format:

    - Remove special characters, punctuation, and numbers.
    - Normalize similar-looking characters.
    - Convert text to a standard form (for example, removing diacritics if necessary).

- **Handling Amharic-Specific Features:**

    - Amharic, like other Semitic languages, has specific features such as root-and-pattern morphology.

    - Handling unique orthographic variants and considering suffixes, prefixes, and infixes in the language.

    - Identifying verb conjugations, plural forms, and possessives for better tokenization.

In [None]:

# Import necessary libraries
import pandas as pd
import logging
import os, sys
import matplotlib.pyplot as plt
from matplotlib import font_manager
from collections import Counter
# Add the 'scripts' directory to the Python path for module imports
sys.path.append(os.path.abspath(os.path.join('..', 'scripts')))
# Import data preprocessor class
from amharic_text_processor import AmharicTextPreprocessor
from amharic_labeler import AmharicNERLabeler

# Set max rows and columns to display
pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 200)

# Configure logging
logging.basicConfig(level=logging.INFO, 
                    format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

logger.info("Imported libraries and configured logging.")

2024-09-30 09:48:35,104 - INFO - Imported libraries and configured logging.


**Load the scraped Telegram data**

In [None]:
# Read the data
data = pd.read_csv('../data/telegram_data.csv')
# Explore the first five rows
data.head()

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path
0,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5822,­Ъї╝­Ъї╝­Ъї╝­Ъћ┤рІГрѕЁріЋ рѕўрЇЇрїФ ріерѕЂрѕЅрѕЮ рІерЅ░рѕ╗рѕѕ рѕєріќ ріарїЇріЮрЅ░ріљрІІрѕЇРЮЌ№ИЈkitchen expe...,2024-09-26 09:27:56+00:00,
1,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5820,РїЏ­ЪњД­Ъї╝­Ъї╝­Ъї╝Telescopic Stainless Steel Majic Mop\n\nРюћ...,2024-09-26 05:49:13+00:00,
2,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5819,­Ъћа­Ъћа­Ъћа­Ъћа­ЪћаSiliver crest РъА№ИЈBrand┬а рЅБрѕѕ1 ріЦріЊ рЅБрѕѕ┬а 2 рЅ░рЅй рѕхрЅХ...,2024-09-25 17:39:49+00:00,
3,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5818,­Ъћа­Ъћа­Ъћа­ЪћарѕХрѕхрЅх рЇЇрѕг рІерІ│рЅд ріЦріЊ рІерігріГ рЅЁрѕГрїй рѕЏрІЇрїФ ( рѕўрїІрїѕрѕфрІФ рЇЊрЅхрѕФ )\n\...,2024-09-25 10:38:58+00:00,
4,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5817,­ЪД│­ЪД│­ЪД│HIGH PRESSURE WATER GUN HEAD SET\n­ЪЉЅ 360┬░ рІерѕџ...,2024-09-25 07:44:47+00:00,


In [None]:
# Check the last five rows
data.tail()

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path
1668,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,148,рІГрѕўрЅ╗рЅ╣ рЇѕрЅ│ рІФрѕѕ рѕЮрѕйрЅх рЅ░рѕўріўрѕЂ,2018-10-25 13:09:24+00:00,
1669,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,136,,2018-10-20 12:46:15+00:00,
1670,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,70,,2018-09-04 15:28:25+00:00,
1671,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,55,,2018-08-23 20:18:56+00:00,
1672,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,1,,2018-08-02 07:30:19+00:00,


In [None]:
data.shape

(1673, 6)

In [None]:
# Let's check the missing values
data.isnull().sum()

Channel Title         0
Channel Username      0
ID                    0
Message             704
Date                  0
Media Path          548
dtype: int64

In [None]:
# Preprocess and tokenizes the amharic message
if __name__ == "__main__":
    # Amharic text sample
    amharic_text = "рѕ░рѕІрѕЮ ріЦріЋрІ┤рЅх ріљрѕЁ? ріЦріЋрі│ріЋ рІ░рѕЁріЊ рѕўрїБрѕЁрЇб"

    preprocessor = AmharicTextPreprocessor()

    # Preprocess the text
    tokens = preprocessor.preprocess_dataframe(data, 'Message')
    display(tokens)


Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path,preprocessed_message
0,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5822,­Ъї╝­Ъї╝­Ъї╝­Ъћ┤рІГрѕЁріЋ рѕўрЇЇрїФ ріерѕЂрѕЅрѕЮ рІерЅ░рѕ╗рѕѕ рѕєріќ ріарїЇріЮрЅ░ріљрІІрѕЇРЮЌ№ИЈkitchen expe...,2024-09-26 09:27:56+00:00,,рІГрѕЁріЋ рѕўрЇЇрїФ ріерѕЂрѕЅрѕЮ рІерЅ░рѕ╗рѕѕ рѕєріќ ріарїЇріЮрЅ░ріљрІІрѕЇ 1 ріарѕхрЅ░рѕЏрѕЏріЮ рІерѕєріљ рІЋрЅЃ рЅа...
1,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5820,РїЏ­ЪњД­Ъї╝­Ъї╝­Ъї╝Telescopic Stainless Steel Majic Mop\n\nРюћ...,2024-09-26 05:49:13+00:00,,рѕЏрїѓріГ рѕўрІѕрѕЇрІѕрІФ рІЇрѕЃ рЅаріерЇЇрЅ░ріЏ рІ░рѕерїЃ рІГрѕўрїБрѕЇ рЅарѕФрѕ▒ рІГрїерѕЮрЅЃрѕЇ ріеріЦрїЁ ріЋріфріф ...
2,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5819,­Ъћа­Ъћа­Ъћа­Ъћа­ЪћаSiliver crest РъА№ИЈBrand┬а рЅБрѕѕ1 ріЦріЊ рЅБрѕѕ┬а 2 рЅ░рЅй рѕхрЅХ...,2024-09-25 17:39:49+00:00,,рЅБрѕѕ1 ріЦріЊ рЅБрѕѕ 2 рЅ░рЅй рѕхрЅХрЅГ рїЇрІюрІјріЋ ріЦріЊ рїЅрѕЇрЅарЅхрІјріЋ рІерѕџрЅєрїЦрЅЦ рЇѕрїБріЋ рѕхрЅХ...
3,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5818,­Ъћа­Ъћа­Ъћа­ЪћарѕХрѕхрЅх рЇЇрѕг рІерІ│рЅд ріЦріЊ рІерігріГ рЅЁрѕГрїй рѕЏрІЇрїФ ( рѕўрїІрїѕрѕфрІФ рЇЊрЅхрѕФ )\n\...,2024-09-25 10:38:58+00:00,,рѕХрѕхрЅх рЇЇрѕг рІерІ│рЅд ріЦріЊ рІерігріГ рЅЁрѕГрїй рѕЏрІЇрїФ рѕўрїІрїѕрѕфрІФ рЅхрѕФ рЅхрѕЇрЅЂ 3 24 26...
4,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,5817,­ЪД│­ЪД│­ЪД│HIGH PRESSURE WATER GUN HEAD SET\n­ЪЉЅ 360┬░ рІерѕџ...,2024-09-25 07:44:47+00:00,,360 рІерѕџрІърѕГ рЅарЅђрѕІрѕЅ рІерІЇрѕЃ рЅ▒рЅд рѕІрІГ рІерѕџрїѕрїарѕЮ рѕѕрѕўріфріЊ ріЦрїЦрЅарЅх рЅ░рѕўрѕФрїГ ріа...
...,...,...,...,...,...,...,...
1668,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,148,рІГрѕўрЅ╗рЅ╣ рЇѕрЅ│ рІФрѕѕ рѕЮрѕйрЅх рЅ░рѕўріўрѕЂ,2018-10-25 13:09:24+00:00,,рІГрѕўрЅ╗рЅ╣ рЇѕрЅ│ рІФрѕѕ рѕЮрѕйрЅх рЅ░рѕўріўрѕЂ
1669,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,136,,2018-10-20 12:46:15+00:00,,
1670,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,70,,2018-09-04 15:28:25+00:00,,
1671,рѕЇрІЕ ріЦрЅЃ,@Leyueqa,55,,2018-08-23 20:18:56+00:00,,


In [None]:
# Drop NaN 

data.dropna(subset='Message', inplace=True)

In [None]:
list(data['preprocessed_message'])

['рІГрѕЁріЋ рѕўрЇЇрїФ ріерѕЂрѕЅрѕЮ рІерЅ░рѕ╗рѕѕ рѕєріќ ріарїЇріЮрЅ░ріљрІІрѕЇ 1 ріарѕхрЅ░рѕЏрѕЏріЮ рІерѕєріљ рІЋрЅЃ рЅаріцрѕїріГрЅхрѕфріГ рІерѕџрѕ░рѕФ рІерѕйріЋріЕрѕГрЅх рІерѕхрїІ рІерїерїЊрѕФ рѕўрЇЇрїФ рЅа 15 рѕ░ріеріЋрІХрЅй рІЅрѕхрїЦ рІхрЅЁрЅЁ ріарІхрѕГрїј рІерѕџрЇѕрїГ рѕЮрѕІрїГ рЅа 3 рѕірЅхрѕГ ріЦріЊ 5рѕірЅхрѕГ рЇѕрїБріЋ рІерѕєріЉ 3рѕірЅхрѕГ 2100 5рѕірЅхрѕГ 2600 рІе1 ріарѕўрЅх рІІрѕхрЅхріЊ рІФрѕІрЅИрІЅ рЅарїБрѕЮ рІерѕџрІФрѕхрІ░рѕхрЅх рІЋрЅЃ рІ░рІЅрѕѕрІЅ рѕЏрІўрІЮ рІГрЅйрѕІрѕЅ рІГрѕЁріЋ рІЋрЅЃ ріЦріЊ рѕїрѕІ 1 ріЦрЅЃ рїерѕЮрѕерІЅ рѕ▓рїѕрІЎ 1 рѕЮрѕГрїЦ рЅбрѕІ рЅаріљрЇЃ ріарІхрѕФрѕ╗ рЅЂрїЦрѕГ 1 рѕЇрІ░рЅ│ рІѕрІ░ рЅБрѕЇрЅ╗ рѕєрѕхрЅ│рѕЇ рїѕрЅБ рЅЦрѕј ріарѕЁрѕўрІх рѕЁріЋрЇЃ рѕІрІГ 1ріЏрЇјрЅЁ 105 рЅЂрїЦрѕГ 2 22 ріарІЇрѕФрѕфрѕх рѕєрЅ┤рѕЇ ріарїарїѕрЅЦ рЅарЇђрїІ рѕЁріЋрЇЃ 3ріЏ рЇј рЅЁ ріе рѕірЇЇрЅ▒ рЅа рїЇрѕФ рІерѕ▒рЅЁ рЅЂрїЦрѕГ 10 рІГрІ░рІЅрѕЅрѕЇріЋ рЅБрѕЅрЅарЅх рІФрѕѕрЅ░рїерѕЏрѕф ріГрЇЇрІФ рѕЏрІўрІЮ рІГрЅйрѕІрѕЅ ріГрЇЇрІФрІјріЋрЅарѕърЅБрІГрѕЇрЅБріЋріфріЋрїЇрѕўрЇѕрЇђрѕЮрѕЮрІГрЅйрѕІрѕЅ рЅарЅ░рїе

In [None]:
# Ensure there are no NaN values in the preprocessed column
preprocessed_texts = tokens['preprocessed_message'].dropna().tolist()
df = pd.Series(preprocessed_texts).reset_index(name='message')


In [None]:
# Initialize the labeler

labeler = AmharicNERLabeler()

# Ensure there are no NaN values in the preprocessed column
preprocessed_texts = tokens['preprocessed_message'].dropna().tolist()
df = pd.Series(preprocessed_texts).reset_index(name='message')
# df = df.iloc[10:15]
df['Tokenized'] = df['message'].apply(lambda x: x.split())
# Label the tokens in the DataFrame
labeled_df = labeler.label_dataframe(df, 'Tokenized')


# Save to CoNLL format
labeler.save_conll_format(labeled_df, '../labeled_data_conll.conll')



In [None]:
labeled_df.drop(columns=['index'], inplace=True)

In [None]:
labeled_df['message'].duplicated().sum()

np.int64(271)