### Introduction
Text cleaning is an essential step when preparing raw data for applications such as Natural Language Processing (NLP) and text analysis. Raw text data often includes noise, such as unwanted symbols, excessive whitespace, or inconsistent formatting. These issues can negatively impact the quality and performance of analytical models.

In this notebook, we will cover text cleaning techniques using two approaches:

Manual Cleaning: Writing systematic code to handle specific issues in text.
Using the re Library (Regular Expressions): Employing regular expressions for more efficient and flexible text cleaning.
The notebook is structured to first introduce manual methods for handling textual data, providing foundational insights, and then transition to the use of re to streamline the process and address complex patterns. The aim is to give you practical knowledge for cleaning text in a robust and efficient manner.

In [1]:
T='''
Wikidata is a free and open knowledge base that can be read and edited by both humans and machines.

Wikidata acts as central storage for the structured data of its Wikimedia sister projects including Wikipedia, Wikivoyage, Wiktionary, Wikisource, and others.

Wikidata also provides support to many other sites and services beyond just Wikimedia projects! The content of Wikidata is available under a free license, exported using standard formats, and can be interlinked to other open data sets on the linked data web.

نادي الزمالك للألعاب الرياضية أو كَما يُعرف اختصارًا بِاسم نادي الزمالك، هو نادٍ رياضي مصري محترف يلعب في الدوري المصري الممتاز، ومقره في الجيزة، وهو واحد من سبعة أندية على مستوى العالم لم تهبط للدرجة الأدنى والوحيد في مصر بجانب النادي الأهلي الذي لم يهبط إلى دوري الدرجة الثانية.

تأسس نادي الزمالك للألعاب الرياضية بتاريخ 5 يناير 1911 على يد البلجيكي جورج مرزباخ ليضم في عضويته المصريين والأجانب معًا، وسريعًا قام أعضاء النادي المصريون بثورتهم لتمصير النادي وإبعاد الأجانب عن مجلس الإدارة. أثبت الزمالك نفسه كأحد القوتين الرئيسيتين في كرة القدم المصرية خلال عشرينيات القرن الماضي، حيث أنه أول فريق مصري يفوز بلقب رسمي على الإطلاق عندما فاز ببطولة كأس السلطان حسين عام 1921، كما أنه أول فريق يفوز بكأس مصر عام 1922، وأول فريق يفوز بدوري منطقة القاهرة موسم 1922-23. نادي الزمالك هو ثاني أكثر الأندية نجاحًا في تاريخ كرة القدم المصرية من حيث عدد البطولات المحلية، فقد حصل على درع الدوري المصري الممتاز 14 مرة، وكأس مصر 28 مرة وكأس السوبر 4 مرات ودوري منطقة القاهرة 14 مرة وكأس السلطان حسين مرتين وكأس أكتوبر مرة وكأس الصداقة المصرية مرة وكأس الاتحاد المصري التنشيطية مرة. يحمل النادي منافسة طويلة الأمد مع الأهلي، وتسمى مبارياتهما بـ «مباراة القمة»، أو «ديربي القاهرة».'''

In [2]:
len(T)

1690

In [3]:
len(T.split())

283

In [4]:
print(set(T))


{'ة', 'h', '«', 'l', 'ت', '5', 'k', 'u', 'c', 'ر', 'د', 'ب', 'i', 'و', '\n', 'w', 'ذ', 'خ', ',', 'ُ', 'ه', '9', 'ي', 'ح', 's', '.', 'ف', 'أ', 't', 'r', 'p', 'م', 'b', 'x', 'ٍ', 'f', 'ث', 'س', '-', '3', 'ن', 'ط', 'ج', 'ش', 'ض', 'َ', 'ً', '،', 'ص', 'n', 'ى', '2', 'ـ', 'g', 'ع', 'v', 'a', ' ', 'm', 'y', 'ز', '1', 'e', '!', 'ئ', '»', '8', 'ل', 'إ', 'ك', 'j', 'T', '4', 'ِ', 'W', 'ا', 'ق', 'ء', 'd', 'o'}


In [5]:
import pandas as pd

In [6]:
pd.Series([i for i in T]).value_counts()

     278
ا    127
ل    100
ي     86
م     69
    ... 
َ      1
8      1
ـ      1
!      1
x      1
Name: count, Length: 80, dtype: int64

In [7]:
CleanedT = ''.join([ i for i in T if i.lower() in '1234567890wertyuiopasdfghjklzxcvbnm '])
CleanedT

'Wikidata is a free and open knowledge base that can be read and edited by both humans and machinesWikidata acts as central storage for the structured data of its Wikimedia sister projects including Wikipedia Wikivoyage Wiktionary Wikisource and othersWikidata also provides support to many other sites and services beyond just Wikimedia projects The content of Wikidata is available under a free license exported using standard formats and can be interlinked to other open data sets on the linked data web                                                      5  1911                                                        1921         1922        192223                         14    28    4     14                                '

In [8]:
set(CleanedT)

{' ',
 '1',
 '2',
 '3',
 '4',
 '5',
 '8',
 '9',
 'T',
 'W',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y'}

In [9]:
CleanedT = ''.join([ i for i in T if i.lower() in 'ضصثقفغعهخحشسيبلاتنمكط\دئءؤرلاىةوزظذ '])
CleanedT

'                                                                               نادي الزمالك لللعاب الرياضية و كما يعرف اختصارا باسم نادي الزمالك هو ناد رياضي مصري محترف يلعب في الدوري المصري الممتاز ومقره في اليزة وهو واحد من سبعة ندية على مستوى العالم لم تهبط للدرة الدنى والوحيد في مصر بانب النادي الهلي الذي لم يهبط لى دوري الدرة الثانيةتسس نادي الزمالك لللعاب الرياضية بتاريخ  يناير  على يد البليكي ور مرزباخ ليضم في عضويته المصريين والانب معا وسريعا قام عضاء النادي المصريون بثورتهم لتمصير النادي وبعاد الانب عن ملس الدارة ثبت الزمالك نفسه كحد القوتين الرئيسيتين في كرة القدم المصرية خلال عشرينيات القرن الماضي حيث نه ول فريق مصري يفوز بلقب رسمي على الطلاق عندما فاز ببطولة كس السلطان حسين عام  كما نه ول فريق يفوز بكس مصر عام  وول فريق يفوز بدوري منطقة القاهرة موسم  نادي الزمالك هو ثاني كثر الندية ناحا في تاريخ كرة القدم المصرية من حيث عدد البطولات المحلية فقد حصل على درع الدوري المصري الممتاز  مرة وكس مصر  مرة وكس السوبر  مرات ودوري منطقة القاهرة  مرة وكس السلطان حسين مرتين وكس كتوبر مرة

In [10]:
set(CleanedT)

{' ',
 'ء',
 'ئ',
 'ا',
 'ب',
 'ة',
 'ت',
 'ث',
 'ح',
 'خ',
 'د',
 'ذ',
 'ر',
 'ز',
 'س',
 'ش',
 'ص',
 'ض',
 'ط',
 'ع',
 'ف',
 'ق',
 'ك',
 'ل',
 'م',
 'ن',
 'ه',
 'و',
 'ى',
 'ي'}

## re 

In [11]:
import re
# re.sub(pattern, replacement_text, text)
url_text = "This is one type of url: https://www.wikipedia.com and the other url is http://www.wikipedia.com"
print(re.sub("(http\S+)", "HIDDEN LINK", url_text))

This is one type of url: HIDDEN LINK and the other url is HIDDEN LINK


In [12]:
email_text = "Please contact us at priyanka-madiraju7445@company.com or priyanka.madiraju@company.com or on the phone number"
print(re.sub("([\w\.\-\_]+@[\w\.\-\_]+)", "", email_text))

Please contact us at  or  or on the phone number


In [13]:
numbers_text = "Phone Numbers are 33635353 and 9383777"
print(re.sub("(\d+)", "", numbers_text))

Phone Numbers are  and 


In [14]:
newline_text = "And I in going, madam, weep o'er my father's death\n\n anew: but I must attend his majesty's command, to \n whom I am now in ward, evermore in subjection."
print(re.sub("(\n+)", "", newline_text))

And I in going, madam, weep o'er my father's death anew: but I must attend his majesty's command, to  whom I am now in ward, evermore in subjection.


In [15]:
url_text_output = "This is one type of url:  and      the other url is "
print(re.sub("(\s){2,}", " ", url_text_output))

This is one type of url: and the other url is 


In [16]:
url_text_output = "This is one type of url: And the other url is 341531351 زسيرةسير"
# print(re.sub("([^a-zA-Z\s])", "", url_text_output))
print(re.sub("([^a-z\s])", "", url_text_output))

his is one type of url nd the other url is  


In [17]:
import re

url_text_output = "Hello,  World! my name is khaled el     zablawy 16@."

# تنظيف النص من الرموز غير الأحرف والمسافات
cleaned_text = re.sub("([^a-zA-Z\s])", "", url_text_output)

# تحويل المسافات المتعددة إلى مسافة واحدة
final_text = re.sub("\s+", " ", cleaned_text).strip()

print(final_text)


Hello World my name is khaled el zablawy


In [18]:
T = 'skldf;vsdvjk63541564654ln خالد مهندس ذكاء اصطناعي '
print(re.sub("([^ضصثقفغعهخحجدشسيبلاتنمكطئءؤرلاىةوزظذ\s])", "", T))


 خالد مهندس ذكاء اصطناعي 


In [19]:
trailing_leading_text = "   I am  living in the quiet of shadows but within me lies a sleeping beast Beware of awakening it for the calm you see now is merely the calm before the storm"
# print(trailing_leading_text.strip())
# print(trailing_leading_text.lstrip())
print(trailing_leading_text.rstrip())

   I am  living in the quiet of shadows but within me lies a sleeping beast Beware of awakening it for the calm you see now is merely the calm before the storm


In [20]:
example_text = "This word or substring can be removed"
print(example_text.replace("word", ""))

This  or substring can be removed


In [21]:
example_text = "This word or substring can be removed but not words"
print(example_text.replace("word", ""))

This  or substring can be removed but not s


In [22]:
print(re.sub(r"(\bword\b)", "", example_text))

This  or substring can be removed but not words


In [23]:
T = 'I love hearing music and classic bands'

print(T.replace('and',''))
print(re.sub(r"(\band\b)", "", T))

I love hearing music  classic bs
I love hearing music  classic bands


In [24]:
' '.join([i for i in T.split() if  i!='and'])

'I love hearing music classic bands'

In [25]:
# Removing HTML tags:
import re
text = "<p>This is a paragraph with HTML tags.</p>"
clean_text = re.sub(r"<.*?>", "", text)
print(clean_text)

This is a paragraph with HTML tags.


In [26]:
# This code will remove all HTML tags from the text and print the following output:

# This is a paragraph with HTML tags.
# Removing punctuation:

import re
text = "This is a sentence with punctuation!???()+-*						⛩️	⛪️						⛰️	⛱️	⛲️	⛳️	⛴️	"
clean_text = re.sub(r"[^\w\s]", "", text)
print(clean_text)

This is a sentence with punctuation																		


In [27]:
# This code will remove all stop words from the text and print the following output:

# Converting text to lowercase:
import re
text = "This Is A Sentence With Mixed Case."
clean_text = re.sub(r"[A-Z]", lambda m: m.group(0).lower(), text)
print(clean_text)

this is a sentence with mixed case.


In [28]:
# This code will convert all uppercase letters in the text to lowercase and print the following output:
# this is a sentence with mixed case.
# Removing extra whitespace:

import re
text = " This is   a sentence  with extra whitespace. "
clean_text = re.sub(r"\s+", " ", text)
print(clean_text)

 This is a sentence with extra whitespace. 


In [29]:
text = "My telephone number is 010-9621-4238 and mohamed`s phone is 856-987-6632 "
phone = re.search(r'\d\d\d-\d\d\d\d-\d\d\d\d',text)
phone.group()

'010-9621-4238'

In [30]:
re.search(r'\d{3}-\d{4}-\d{4}',text)


<re.Match object; span=(23, 36), match='010-9621-4238'>

In [31]:
re.search(r'\d{3}-\d{3}-\d{4}',text)


<re.Match object; span=(60, 72), match='856-987-6632'>

In [32]:
phone_pattern =(r'(\d{3})-(\d{3})-(\d{4})')
results = re.search(phone_pattern,text)
results.group()

'856-987-6632'

In [33]:
results.group(1), results.group(2) , results.group(3)

('856', '987', '6632')

In [34]:
re.search(r"man|woman","This man was here.")

<re.Match object; span=(5, 8), match='man'>

In [35]:
re.findall(r".at","The cat in the hat sat here.")

['cat', 'hat', 'sat']

In [36]:
re.findall(r"kh.....","khaled ashraf is a good man ")

['khaled ']

In [37]:
re.findall(r'\S+at',"The bat went splat *plat")

['bat', 'splat', '*plat']

In [38]:
re.findall(r'\d$','This ends with a number 28')

['8']

In [39]:
''.join(re.findall(r'[^\d]','1 is the loneliest number.'))

' is the loneliest number.'

In [40]:
re.findall(r'^\d','1 is the loneliest number.')

['1']

In [41]:
phrase = "there are 3 numbers 34 inside 5 this sentence."
re.findall(r'[^\d]+',phrase)

['there are ', ' numbers ', ' inside ', ' this sentence.']

In [42]:
import re
text = "<p>This is a paragraph with HTML tags.</p>"
clean_text = re.sub(r"[^<.*?>]", "", text)
print(clean_text)

<>.<>


In [43]:
phrase = 'قاد جورج مسافة 50 كيلو متر  من الساعة 8 الي الساعة 10'
re.findall(r'[\d]+',phrase)

['50', '8', '10']

In [44]:
phrase = 'قاد جورج مسافة 50 كيلو متر  من الساعة 8 الي الساعة 10'
re.findall(r'[^\d]+',phrase)

['قاد جورج مسافة ', ' كيلو متر  من الساعة ', ' الي الساعة ']

In [45]:
text = 'ذهبت الي مدينة نيو-يورك ,  و منها الي سان-فرانسيسكو'

re.findall(r'[\w]+-[\w]+',text)

['نيو-يورك', 'سان-فرانسيسكو']

In [46]:
test_phrase = ' ماذا ؟ ؟  كيف تجرؤ !! , هل تتخيل عاقبة هذا الأمر ؟ ؟  , ويل له . '
re.findall('[^؟,!. ]+',test_phrase)

['ماذا', 'كيف', 'تجرؤ', 'هل', 'تتخيل', 'عاقبة', 'هذا', 'الأمر', 'ويل', 'له']

In [47]:
clean = ' '.join(re.findall('[^؟,!. ]+',test_phrase))
print(clean)

ماذا كيف تجرؤ هل تتخيل عاقبة هذا الأمر ويل له
