### Import the necessary modules

In [1]:
import pandas as pd
import numpy as np

### Filter the dataframe columns

In [2]:
df_computer = pd.read_csv('computer.csv')

main_cols = ['ASIN', 'Bağlantı Türü', 'Bellek Teknolojisi', 'Bilgisayar Bellek Türü',
       'Desteklenen Maksimum Bellek', 'Ekran Boyutu', 'Ekran Kartı Arayüzü',
       'Ekran Kartı Açıklaması', 'Form Faktör', 'Grafik RAM Türü',
       'Grafik İşlemci Üreticisi', 'Lityum Batarya Enerji İçeriği',
       'Lityum Batarya Paketi', 'Lityum İyon Hücre Sayısı', 'Marka',
       'Optik Sürücü Türü', 'Ortalama Pil Ömrü (saat)', 'Paket Boyutları',
       'Piller Dahil mi?', 'Piller:', 'Price', 'RAM Boyutu',
       'Sabit Disk Açıklaması', 'Score', 'Seri',
       'USB 3.0 Bağlantı Noktası Sayısı', 'Çözünürlük', 'Üretici',
       'Ürün Ağırlığı', 'İşlemci Hızı', 'İşlemci Markası', 'İşlemci Sayısı',
       'İşlemci Türü', 'İşletim Sistemi', 'Grafik Yardımcı İşlemcisi', 'Renk',
       'Sabit Sürücü Arabirimi', 'Sabit Sürücü Boyutu',
       'USB 2.0 Bağlantı Noktası Sayısı', 'Ürün Boyutları',
       'Donanım Platformu', 'Ekran Kartı Bellek Boyutu', 'Ürün Model Numarası',
       'HDMI Bağlantı Noktası Sayısı', 'Kablosuz Türü',
       'Bellek Saat Hızı', 'Üretici Artık Üretmiyor', 'Donanım Arayüzü',
       'Ekran Teknolojisi', 'Ortalama Pil Ömrü', 'RAM Bellek Teknolojisi', 'Model', 'Lityum Batarya Ağırlığı']

df_computer = df_computer[main_cols]

### Replace dictionaries

In [3]:
ram_technology = {'Ddr': 'DDR', 'Ddr_3': 'DDR3', 'Ddr_4': 'DDR4', 'Lpddr_3': 'LPDDR3', 'Lpddr_4': 'LPDDR4'}
ram_type = {'Bilinmeyen': np.nan}
ram_max_support = {' GB': ''} # regex
screen_size = {' İnç': ''} # regex
screen_card_interface = {'Bilinmeyen': np.nan}
graphic_ram_type = {'Bilinmeyen': np.nan}
graphic_processor_producer = {'Amd': 'AMD', 'Nvidia': 'NVIDIA', 'NVidia': 'NVIDIA'}
brand = {'ASUS Computer': 'Asus'}
optical_drive = {'Optik Sürücü Yok': 'Yok', 'Hayır': 'Yok', 'No Optical Drive': 'Yok', 'Kein optisches Laufwerk': 'Yok', 'Keine': 'Yok'}
battery_life = {' Saat': ''} # regex
harddisk_desc = {'Katı Hal Sürücüsü \(SSD\)': 'SSD', 'Katı hal sürücüsü \(ssd\)': 'SSD', 'Mekanik Sabit Sürücü \(HDD\)': 'HDD'} # regex
score = {' / 5 yıldız': '', ',': '.'} # regex
resolution = {' ': '', '\*': 'x', 'Pixels': '', 'piksel': '', 'Unbekannt': np.nan, '1080p': '1920x1080', 'Full': '', 'HD': ''} # regex
producer = {'hp': 'HP', 'Hp': 'HP', 'Üretici : ': '', 'lenov': 'Lenovo', 'LENOVO': 'Lenovo', 'HUAWEI': 'Huawei', 'excaibur': 'Excalibur', 'Excallibur': 'Excalibur', 'MONSTER': 'Monster'} # regex
product_weight = {' kg': '', ' Kilogram': '', ' g': ''} # regex
cpu_speed = {' GHz': '', ' MHz': '', ' Hz': '', ' Pages per month': '', '270': '2.7'} # regex
cpu_brand = {'Intel ®': 'Intel'}
cpu_type = {'Yok': np.nan}
operating_system = {'FreeDos': 'FreeDOS', 'Işletim_sistemi_yok': 'FreeDOS', 'Işletim sistemi yok': 'FreeDOS', 'Freedos': 'FreeDOS', 'YOK': 'FreeDOS', 'Yok': 'FreeDOS'}
color = {'Grey': 'Gri', 'GRİ': 'Gri', 'Gray': 'Gri'}
harddisk_interface = {'Bilinmeyen': np.nan}
harddisk_space = {' GB': '', ' TB': '000'} # regex
hardware_platform = {'No Operating System': 'Dos'}
memory_clock_speed = {' MHz': '', 'GHz': ''} # regex
average_battery_life = {' Saat': ''} # regex
lithium_battery_weight = {' gram': '', ' miligram': ''} # regex

### Apply functions

In [4]:
def price(x):
    return x[1:-3].replace('.', '')

def lithium_battery_energy_content(x):
    if x == None or type(x) is float:
        return x
    elif x[-9:] == ' Vat Saat':
        x = float(x[:-9])
    elif x[-15:] == ' Miliamper Saat':
        x = float(x[:-15]) / 1000
    return x

def ram_size(x):
    if x is None or type(x) is float:
        return x
    elif x[-2:] == 'GB':
        return int(x[:-2])
    elif x[-2:] == 'MB':
        return int(x[:-2]) // 1024
    
def graphic_memory_size(x):
    if x is None or type(x) is float:
        return x
    elif x[-2:] == 'GB':
        return int(x[:-3])
    elif x[-2:] == 'MB':
        return int(x[:-3]) // 1024

### Standardization

In [5]:
df_computer['Bellek Teknolojisi'].replace(ram_technology, inplace=True)
df_computer['Bilgisayar Bellek Türü'].replace(ram_type, inplace=True)
df_computer['Desteklenen Maksimum Bellek'] = df_computer['Desteklenen Maksimum Bellek'].replace(regex=ram_max_support).astype('float')
df_computer['Ekran Boyutu'].replace(regex=screen_size, inplace=True)
df_computer['Ekran Kartı Arayüzü'].replace(screen_card_interface, inplace=True)
df_computer['Grafik RAM Türü'].replace(graphic_ram_type, inplace=True)
df_computer['Grafik İşlemci Üreticisi'].replace(graphic_processor_producer, inplace=True)
df_computer['Marka'].replace(brand, inplace=True)
df_computer['Optik Sürücü Türü'].replace(optical_drive, inplace=True)
df_computer['Ortalama Pil Ömrü (saat)'] = df_computer['Ortalama Pil Ömrü (saat)'].replace(regex=battery_life).astype('float')
df_computer['Sabit Disk Açıklaması'].replace(regex=harddisk_desc, inplace=True)
df_computer['Score'] = df_computer['Score'].replace(regex=score).astype('float')
df_computer['Çözünürlük'].replace(regex=resolution, inplace=True)
df_computer['Üretici'].replace(regex=producer, inplace=True)
df_computer['Ürün Ağırlığı'] = df_computer['Ürün Ağırlığı'].replace(regex=product_weight).astype('float')
df_computer['İşlemci Hızı'] = df_computer['İşlemci Hızı'].replace(regex=cpu_speed).astype('float')
df_computer['İşlemci Markası'].replace(cpu_brand, inplace=True)
df_computer['İşlemci Türü'].replace(cpu_type, inplace=True)
df_computer['İşletim Sistemi'].replace(operating_system, inplace=True)
df_computer['Renk'].replace(color, inplace=True)
df_computer['Sabit Sürücü Arabirimi'].replace(harddisk_interface, inplace=True)
df_computer['Sabit Sürücü Boyutu'] = df_computer['Sabit Sürücü Boyutu'].replace(regex=harddisk_space).astype('float')
df_computer['Donanım Platformu'].replace(regex=hardware_platform, inplace=True)
df_computer['Bellek Saat Hızı'] = df_computer['Bellek Saat Hızı'].replace(regex=memory_clock_speed).astype('float')
df_computer['Ortalama Pil Ömrü'] = df_computer['Ortalama Pil Ömrü'].replace(regex=average_battery_life).astype('float')
df_computer['Lityum Batarya Ağırlığı'] = df_computer['Lityum Batarya Ağırlığı'].replace(regex=lithium_battery_weight).astype('float')
df_computer['Price'] = df_computer['Price'].apply(price).astype('float')
df_computer['Lityum Batarya Enerji İçeriği'] = df_computer['Lityum Batarya Enerji İçeriği'].apply(lithium_battery_energy_content)
df_computer['RAM Boyutu'] = df_computer['RAM Boyutu'].apply(ram_size)
df_computer['Ekran Kartı Bellek Boyutu'] = df_computer['Ekran Kartı Bellek Boyutu'].apply(graphic_memory_size)

### Save the standardized dataframe

In [6]:
df_computer.to_csv('computer_filtered.csv', index=False)