### Importing the Necessary Packages

In [1]:
import pandas as pd
import re


In [70]:
df = pd.read_csv(r'C:\Users\Blen\OneDrive\Desktop\10Academy\LLM\data\cleaned_v4.csv')

In [71]:
df.head()

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path
0,ምርጥ ዕቃ,@MerttEka,6815,ይሄንን ./ ተጭነው ያድርጉ፣ ቤተሰብ,2024-09-27 18:15:44+00:00,
1,ምርጥ ዕቃ,@MerttEka,6811,የእናት ጡት ወተት ማጠራቀሚያ\n ከውስጥ ልብስዎ ጋር አብረው የሚለብሱትና...,2024-09-27 18:14:53+00:00,photos\@MerttEka_6811.jpg
2,ምርጥ ዕቃ,@MerttEka,6810,በቻርጅ የሚሰራ የጃር ውሃ ፓምፕ\n ለሁሉም ዓይነት የውሃ ጃሮች ይሆ...,2024-09-27 14:19:03+00:00,
3,ምርጥ ዕቃ,@MerttEka,6806,2 1 \n\n የልብስ መተኮሻ\n በእንፏሎት የሚሰራ ባለ 3 ወፍራም ምሶሶ...,2024-09-27 11:42:32+00:00,photos\@MerttEka_6806.jpg
4,ምርጥ ዕቃ,@MerttEka,6805,ይሄንን ./ ተጭነው ያድርጉ፣ ቤተሰብ ይሁኑ,2024-09-26 16:38:22+00:00,


### Checking for Missing Values

In [72]:
print("Checking for NaN values in the 'Message' column:")
nan_count = df['Message'].isnull().sum()
print(f"Number of NaN values in 'Message' column: {nan_count}")

Checking for NaN values in the 'Message' column:
Number of NaN values in 'Message' column: 544


### Handling Missing Values

In [73]:
df = df.dropna(subset=['Message'])

# Print the shape of the dataset after dropping NaN values in the "Message" column
print(f"Dataset shape after dropping NaN values in 'Message' column: {df.shape}")

Dataset shape after dropping NaN values in 'Message' column: (3617, 6)


### Removing unwanted phrases from the dataset

In [74]:
unwanted_phrases = [
    'ይሄንን ./ ተጭነው  ያድርጉ፣ ቤተሰብ ይሁኑ',
    'ይሄንን ./ ተጭነው  ያድርጉ፣ ቤተሰብ'
    
]

def remove_unwanted_phrases(message):
    for phrase in unwanted_phrases:
        message = message.replace(phrase, '')  
    return message  



In [75]:
df['Message'] = df['Message'].apply(remove_unwanted_phrases)

In [77]:

df.head()

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path
0,ምርጥ ዕቃ,@MerttEka,6815,,2024-09-27 18:15:44+00:00,
1,ምርጥ ዕቃ,@MerttEka,6811,የእናት ጡት ወተት ማጠራቀሚያ\n ከውስጥ ልብስዎ ጋር አብረው የሚለብሱትና...,2024-09-27 18:14:53+00:00,photos\@MerttEka_6811.jpg
2,ምርጥ ዕቃ,@MerttEka,6810,በቻርጅ የሚሰራ የጃር ውሃ ፓምፕ\n ለሁሉም ዓይነት የውሃ ጃሮች ይሆ...,2024-09-27 14:19:03+00:00,
3,ምርጥ ዕቃ,@MerttEka,6806,2 1 \n\n የልብስ መተኮሻ\n በእንፏሎት የሚሰራ ባለ 3 ወፍራም ምሶሶ...,2024-09-27 11:42:32+00:00,photos\@MerttEka_6806.jpg
4,ምርጥ ዕቃ,@MerttEka,6805,,2024-09-26 16:38:22+00:00,


### Removing everything outside Amharic characters from the first line

In [80]:
# Function to remove everything outside Amharic characters from the first line
def clean_first_line(text):
    # Split the text by lines
    lines = text.split('\n')
    
    if not lines:
        return text  # If there are no lines, return the original text
    
    # Regex to match only Amharic characters and common punctuation (optional)
    # \u1200-\u137F: Amharic Unicode block
    # \s: whitespace
    # You can include more punctuation if necessary
    amharic_only = re.sub(r'[^\u1200-\u137F\s]', '', lines[0]).strip()
    
    # Check if the cleaned first line is empty
    if amharic_only:
        # If not empty, replace the first line with the cleaned version
        # If there are more lines, join them with the cleaned first line
        if len(lines) > 1:
            cleaned_message = amharic_only + '\n' + '\n'.join(lines[1:])
        else:
            cleaned_message = amharic_only
    else:
        # If empty, remove the first line and join the remaining lines
        if len(lines) > 1:
            cleaned_message = '\n'.join(lines[1:]).lstrip('\n')  # Remove leading newlines
        else:
            cleaned_message = ''  # If there's only one line and it's empty, return empty string
    
    return cleaned_message

In [81]:
# Apply the function to the 'messages' column
df['Messages_cleaned'] = df['Message'].apply(clean_first_line)

In [82]:
df.head()

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path,Messages_cleaned
0,ምርጥ ዕቃ,@MerttEka,6815,,2024-09-27 18:15:44+00:00,,
1,ምርጥ ዕቃ,@MerttEka,6811,የእናት ጡት ወተት ማጠራቀሚያ\n ከውስጥ ልብስዎ ጋር አብረው የሚለብሱትና...,2024-09-27 18:14:53+00:00,photos\@MerttEka_6811.jpg,የእናት ጡት ወተት ማጠራቀሚያ\n ከውስጥ ልብስዎ ጋር አብረው የሚለብሱትና...
2,ምርጥ ዕቃ,@MerttEka,6810,በቻርጅ የሚሰራ የጃር ውሃ ፓምፕ\n ለሁሉም ዓይነት የውሃ ጃሮች ይሆ...,2024-09-27 14:19:03+00:00,,በቻርጅ የሚሰራ የጃር ውሃ ፓምፕ\n ለሁሉም ዓይነት የውሃ ጃሮች ይሆ...
3,ምርጥ ዕቃ,@MerttEka,6806,2 1 \n\n የልብስ መተኮሻ\n በእንፏሎት የሚሰራ ባለ 3 ወፍራም ምሶሶ...,2024-09-27 11:42:32+00:00,photos\@MerttEka_6806.jpg,የልብስ መተኮሻ\n በእንፏሎት የሚሰራ ባለ 3 ወፍራም ምሶሶ መቆሚያ ያለ...
4,ምርጥ ዕቃ,@MerttEka,6805,,2024-09-26 16:38:22+00:00,,


In [83]:
df.tail(100)

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path,Messages_cleaned
4059,ምርጥ ዕቃ,@MerttEka,332,. ሩዝ ወይንም መንኛውንም ነገር በእንፏሎት የሚያበስል። በተለይ ደሞ የህ...,2020-08-21 13:44:46+00:00,photos\@MerttEka_332.jpg,ሩዝ ወይንም መንኛውንም ነገር በእንፏሎት የሚያበስል። በተለይ ደሞ የህክም...
4060,ምርጥ ዕቃ,@MerttEka,331,ለምግብ ዝግጅት አስፈላጊ የሆነ ዲጂታል ሚዛን። እስከ 5 ኪሎ መመዘን የሚ...,2020-08-20 13:08:36+00:00,photos\@MerttEka_331.jpg,ለምግብ ዝግጅት አስፈላጊ የሆነ ዲጂታል ሚዛን። እስከ ኪሎ መመዘን የሚች...
4061,ምርጥ ዕቃ,@MerttEka,330,የኬክ ወይንም ማቅረቢያ \nየቱርክ ስሪት የሆነ ቆንጆ ዕቃ። 1000 ብር ...,2020-08-20 13:05:31+00:00,photos\@MerttEka_330.jpg,የኬክ ወይንም ማቅረቢያ\nየቱርክ ስሪት የሆነ ቆንጆ ዕቃ። 1000 ብር ብ...
4062,ምርጥ ዕቃ,@MerttEka,322,በቻርጅ የሚሰራ 381ሚሊ ጁስ የሚይዝ ለአያያዝ ምቹ የሆነ የጁስ መፍጫ። ...,2020-08-13 20:47:47+00:00,,በቻርጅ የሚሰራ ሚሊ ጁስ የሚይዝ ለአያያዝ ምቹ የሆነ የጁስ መፍጫ። በመኪ...
4063,ምርጥ ዕቃ,@MerttEka,317,. 12 ስኒ ቡና በፍጥነት ጨምቆ ያፈላል። ለቤት ወይም ለቢሮ አስፈላጊ የ...,2020-08-13 20:15:53+00:00,photos\@MerttEka_317.jpg,ስኒ ቡና በፍጥነት ጨምቆ ያፈላል። ለቤት ወይም ለቢሮ አስፈላጊ የቡና ማፍ...
...,...,...,...,...,...,...,...
4156,ምርጥ ዕቃ,@MerttEka,44,2500,2019-11-13 10:01:12+00:00,,
4157,ምርጥ ዕቃ,@MerttEka,43,ዋጋ 2500\n0983063957,2019-11-13 10:00:40+00:00,,ዋጋ\n0983063957
4158,ምርጥ ዕቃ,@MerttEka,32,የሙያ ባለቤት መሆን መሠልጠን ነው።\nቀለም ቀቢ ሳያስፈልግዎ ቤትዎን ወይ...,2019-11-09 04:44:54+00:00,,የሙያ ባለቤት መሆን መሠልጠን ነው።\nቀለም ቀቢ ሳያስፈልግዎ ቤትዎን ወይ...
4159,ምርጥ ዕቃ,@MerttEka,30,ቤትና ግቢዎን እንዲሁም የብረት እና የእንጨት ቁሳቁስዎን ቀለም ቀቢ ሳያስ...,2019-10-31 07:06:25+00:00,,ቤትና ግቢዎን እንዲሁም የብረት እና የእንጨት ቁሳቁስዎን ቀለም ቀቢ ሳያስ...


### Replacing :: with a Newline

In [84]:
# Function to replace ። with a newline character
def replace_full_stop_with_newline(text):
    return text.replace('።', '\n')

# Apply the function to the 'messages' column
df['Messages_cleaned'] = df['Messages_cleaned'].apply(replace_full_stop_with_newline)

In [85]:
df.tail(100)

Unnamed: 0,Channel Title,Channel Username,ID,Message,Date,Media Path,Messages_cleaned
4059,ምርጥ ዕቃ,@MerttEka,332,. ሩዝ ወይንም መንኛውንም ነገር በእንፏሎት የሚያበስል። በተለይ ደሞ የህ...,2020-08-21 13:44:46+00:00,photos\@MerttEka_332.jpg,ሩዝ ወይንም መንኛውንም ነገር በእንፏሎት የሚያበስል\n በተለይ ደሞ የህክ...
4060,ምርጥ ዕቃ,@MerttEka,331,ለምግብ ዝግጅት አስፈላጊ የሆነ ዲጂታል ሚዛን። እስከ 5 ኪሎ መመዘን የሚ...,2020-08-20 13:08:36+00:00,photos\@MerttEka_331.jpg,ለምግብ ዝግጅት አስፈላጊ የሆነ ዲጂታል ሚዛን\n እስከ ኪሎ መመዘን የሚ...
4061,ምርጥ ዕቃ,@MerttEka,330,የኬክ ወይንም ማቅረቢያ \nየቱርክ ስሪት የሆነ ቆንጆ ዕቃ። 1000 ብር ...,2020-08-20 13:05:31+00:00,photos\@MerttEka_330.jpg,የኬክ ወይንም ማቅረቢያ\nየቱርክ ስሪት የሆነ ቆንጆ ዕቃ\n 1000 ብር ...
4062,ምርጥ ዕቃ,@MerttEka,322,በቻርጅ የሚሰራ 381ሚሊ ጁስ የሚይዝ ለአያያዝ ምቹ የሆነ የጁስ መፍጫ። ...,2020-08-13 20:47:47+00:00,,በቻርጅ የሚሰራ ሚሊ ጁስ የሚይዝ ለአያያዝ ምቹ የሆነ የጁስ መፍጫ\n በመ...
4063,ምርጥ ዕቃ,@MerttEka,317,. 12 ስኒ ቡና በፍጥነት ጨምቆ ያፈላል። ለቤት ወይም ለቢሮ አስፈላጊ የ...,2020-08-13 20:15:53+00:00,photos\@MerttEka_317.jpg,ስኒ ቡና በፍጥነት ጨምቆ ያፈላል\n ለቤት ወይም ለቢሮ አስፈላጊ የቡና ማ...
...,...,...,...,...,...,...,...
4156,ምርጥ ዕቃ,@MerttEka,44,2500,2019-11-13 10:01:12+00:00,,
4157,ምርጥ ዕቃ,@MerttEka,43,ዋጋ 2500\n0983063957,2019-11-13 10:00:40+00:00,,ዋጋ\n0983063957
4158,ምርጥ ዕቃ,@MerttEka,32,የሙያ ባለቤት መሆን መሠልጠን ነው።\nቀለም ቀቢ ሳያስፈልግዎ ቤትዎን ወይ...,2019-11-09 04:44:54+00:00,,የሙያ ባለቤት መሆን መሠልጠን ነው\n\nቀለም ቀቢ ሳያስፈልግዎ ቤትዎን ወ...
4159,ምርጥ ዕቃ,@MerttEka,30,ቤትና ግቢዎን እንዲሁም የብረት እና የእንጨት ቁሳቁስዎን ቀለም ቀቢ ሳያስ...,2019-10-31 07:06:25+00:00,,ቤትና ግቢዎን እንዲሁም የብረት እና የእንጨት ቁሳቁስዎን ቀለም ቀቢ ሳያስ...


In [86]:
df = df.drop(columns=['Message'])

In [87]:
df.head()

Unnamed: 0,Channel Title,Channel Username,ID,Date,Media Path,Messages_cleaned
0,ምርጥ ዕቃ,@MerttEka,6815,2024-09-27 18:15:44+00:00,,
1,ምርጥ ዕቃ,@MerttEka,6811,2024-09-27 18:14:53+00:00,photos\@MerttEka_6811.jpg,የእናት ጡት ወተት ማጠራቀሚያ\n ከውስጥ ልብስዎ ጋር አብረው የሚለብሱትና...
2,ምርጥ ዕቃ,@MerttEka,6810,2024-09-27 14:19:03+00:00,,በቻርጅ የሚሰራ የጃር ውሃ ፓምፕ\n ለሁሉም ዓይነት የውሃ ጃሮች ይሆ...
3,ምርጥ ዕቃ,@MerttEka,6806,2024-09-27 11:42:32+00:00,photos\@MerttEka_6806.jpg,የልብስ መተኮሻ\n በእንፏሎት የሚሰራ ባለ 3 ወፍራም ምሶሶ መቆሚያ ያለ...
4,ምርጥ ዕቃ,@MerttEka,6805,2024-09-26 16:38:22+00:00,,


In [91]:
df = df[df['Messages_cleaned'] != '']

In [92]:
df.head()

Unnamed: 0,Channel Title,Channel Username,ID,Date,Media Path,Messages_cleaned
1,ምርጥ ዕቃ,@MerttEka,6811,2024-09-27 18:14:53+00:00,photos\@MerttEka_6811.jpg,የእናት ጡት ወተት ማጠራቀሚያ\n ከውስጥ ልብስዎ ጋር አብረው የሚለብሱትና...
2,ምርጥ ዕቃ,@MerttEka,6810,2024-09-27 14:19:03+00:00,,በቻርጅ የሚሰራ የጃር ውሃ ፓምፕ\n ለሁሉም ዓይነት የውሃ ጃሮች ይሆ...
3,ምርጥ ዕቃ,@MerttEka,6806,2024-09-27 11:42:32+00:00,photos\@MerttEka_6806.jpg,የልብስ መተኮሻ\n በእንፏሎት የሚሰራ ባለ 3 ወፍራም ምሶሶ መቆሚያ ያለ...
5,ምርጥ ዕቃ,@MerttEka,6802,2024-09-26 16:16:51+00:00,photos\@MerttEka_6802.jpg,የመኪና መዓዛ\n በፀሃይ ብርሃን ስለሚሰራ ቻርጅ ማድረግ አይፈልግም\n ሁ...
6,ምርጥ ዕቃ,@MerttEka,6801,2024-09-26 12:31:45+00:00,photos\@MerttEka_6801.jpg,የፀጉር ማድረቂያ ፎን\n6000 በጣም ፈጣን\nማበጠሪያ ያለው\n ሶኬቱ ...


In [93]:
df.to_csv('cleaned_V6.csv', index=False)  # Save without index