In [1]:
# import needed libraries.
import pandas as pd
import numpy as np 
import re 

In [2]:
# load orignal data.
smart = pd.read_csv('amazon.csv')

In [3]:
# make a copy of the data to work with it to avoide any lose.
df = smart.copy()

In [4]:
# show data size.
df.shape

(590, 4)

In [5]:
# get data information.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 590 entries, 0 to 589
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   name     490 non-null    object
 1   price    420 non-null    object
 2   rating   450 non-null    object
 3   reviews  440 non-null    object
dtypes: object(4)
memory usage: 18.6+ KB


In [6]:
# determining the columns to change types.
col = ['price','rating','reviews']

In [7]:
# change types from string to integer.
df[col] = df[col].replace({',': ''}, regex=True).apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)


In [8]:
# cheek for the change in types.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 590 entries, 0 to 589
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   name     490 non-null    object
 1   price    590 non-null    int32 
 2   rating   590 non-null    int32 
 3   reviews  590 non-null    int32 
dtypes: int32(3), object(1)
memory usage: 11.7+ KB


In [9]:
# drop non-complete rows that contain NA.
df.dropna(inplace=True)

In [10]:
# reindex the data.
df= df.reset_index(drop=True)

In [11]:
# cheek if their is any missing data.
df.isnull().sum()

name       0
price      0
rating     0
reviews    0
dtype: int64

In [12]:
# recheek the shape.
df.shape

(490, 4)

In [13]:
# make a list of the column we need to extract information from it.
s = []
for i in df['name']:
    i.split('،')
    s.append({'name':i})

In [14]:
# print all information to determine what we will extract.
s

[{'name': 'موبايل سمارت سامسونج جالاكسي A55 الجيل الخامس 5G، نظام أندرويد، ثنائي شرائح الاتصال، ذاكرة رام 8 جيجابايت، ذاكرة تخزين 256 جيجابايت، اوسام نيفي'},
 {'name': 'موبايل سمارت سامسونج جالاكسي A55 الجيل الخامس 5G، نظام أندرويد، ثنائي شرائح الاتصال، ذاكرة رام 8 جيجابايت، ذاكرة تخزين 256 جيجابايت، اوسام نيفي'},
 {'name': 'موبايل سامسونج جالاكسي A05 LTE، هاتف ذكي يعمل بنظام اندرويد، بشريحتين اتصال، ذاكرة RAM سعة 4 جيحا، وذاكرة تخزين 64 جيجا، أسود'},
 {'name': 'موبايل ريدمي نوت 12 ثنائي شرائح الاتصال من شاومي بذاكرة RAM 4 جيجابايت وذاكرة ROM 128 جيجابايت (6.67 بوصة) (4G LTE) - (اونيكس جراي)، رمادي'},
 {'name': 'موبايل سامسونج جالاكسي A05 LTE بشريحتي اتصال، نظام تشغيل اندرويد، سعة تخزينية 128 جيجابايت، ذاكرة رام 6 جيجابايت، أسود'},
 {'name': 'موبايل سمارت سامسونج جالاكسي A55 الجيل الخامس 5G، نظام أندرويد، ثنائي شرائح الاتصال، ذاكرة رام 8 جيجابايت، ذاكرة تخزين 256 جيجابايت، اوسام ايس بلو'},
 {'name': 'موبايل سامسونج جالاكسي A05s، يعمل بنظام اندرويد، بشريحتين اتصال، ذاكرة رام سعة 4 جيحا،

In [15]:
# # search for the RAM  to add it in new column.
data = []
for i in df['name']:
    y= re.search(r"رام \d{1,2}|RAM \d{1,2}|سعة \d{1,2} (جيجا|جيحا)",i)
    if y:
        data.append(y.group())
    else:
        data.append(None)

In [16]:
# add new column contain new feature of products.
df['ram']=data

In [17]:
# search for the storage  to add it in new column.
data = []
for i in df['name']:
    y= re.search(r"ذاكرة تخزين \d{2,3}|ذاكرة ROM \d{2,3}|تخزينية \d{2,3}|سعة \d{2,3}|تخزين \d{2,3}|روم \d{2,3}|ROM\\u200f \d{2,3}|\d{2,3}GB|\d{2,3} جيجا|\d{2,3} GB",i)
    if y:
        data.append(y.group())
    else:
        data.append(None)

In [18]:
# add new column contain new feature of products.
df['hard']=data

In [19]:
# drop columns we will not use.
df=df.drop(columns='name')

In [20]:
# show the data to descide what will do next.
df.head()

Unnamed: 0,price,rating,reviews,ram,hard
0,18599,3,61,رام 8,ذاكرة تخزين 256
1,18599,3,61,رام 8,ذاكرة تخزين 256
2,4500,3,86,سعة 4 جيحا,ذاكرة تخزين 64
3,5777,4,23765,RAM 4,ذاكرة ROM 128
4,5199,3,17,رام 6,تخزينية 128


In [21]:
# cheek for missing values.
df.isnull().sum()

price        0
rating       0
reviews      0
ram        151
hard        92
dtype: int64

In [22]:
# drop missing values.
df=df.dropna().reset_index(drop=True)

In [23]:
# cheek again for missing values.
df.isnull().sum()

price      0
rating     0
reviews    0
ram        0
hard       0
dtype: int64

In [24]:
# make the column of RAM contain numbers only.
data = []
for i in df['ram']:
    y= re.search(r"\d{1,2}",i)
    if y:
        data.append(y.group())
    else:
        data.append(None)
        
df['ram']= data

In [25]:
# make the column of RAM contain numbers only.
data = []
for i in df['hard']:
    y= re.search(r"\d{2,3}",i)
    if y:
        data.append(y.group())
    else:
        data.append(None)

df['hard']=data

In [26]:
# cheeck data types.
df.dtypes

price       int32
rating      int32
reviews     int32
ram        object
hard       object
dtype: object

In [27]:
# convert ram and hard columns to integers.
col=['ram','hard']
df[col] = df[col].replace({',': ''}, regex=True).apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)

In [28]:
# cheeck data types.
df.dtypes

price      int32
rating     int32
reviews    int32
ram        int32
hard       int32
dtype: object

In [29]:
df.head()

Unnamed: 0,price,rating,reviews,ram,hard
0,18599,3,61,8,256
1,18599,3,61,8,256
2,4500,3,86,4,64
3,5777,4,23765,4,128
4,5199,3,17,6,128


In [30]:
df = df[df['price'] != 0]

In [31]:
df.shape

(280, 5)

In [32]:
df.to_csv('cleaned_amazon.csv',index=False)