In [1]:
import pandas as pd
import re
import string
import emoji

In [4]:
# cleaning function
def cleaning(text):
    
    # hapus urls
    text = re.sub(r'http\S+|www\.\S+', '', text)

    # Hapus mention
    text = re.sub(r'@\w+', '', text)

    # Hapus hashtag, hanya menyimpan kata setelah tanda #
    text = re.sub(r'#', '', text)

    # Hapus tanda baca
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Hapus emoji
    text = emoji.replace_emoji(text, replace='')

    # Hapus whitespace berlebih
    text = re.sub(r'\s+', ' ', text).strip()

    # Ubah menjadi huruf kecil
    text = text.lower()

    return text


In [3]:
# import data
data = pd.read_csv(r"D:\Willy's Project\Project\Magang Diskominfo\data\dataset_concat.csv")
data.head(5)

Unnamed: 0,title,url,stars,name,reviewUrl,text
0,RS Brayat Minulya,https://www.google.com/maps/search/?api=1&quer...,5,,,Was admitted here for a few days in Maria 3 wa...
1,RS Brayat Minulya,https://www.google.com/maps/search/?api=1&quer...,5,,,"Bersih dan rapi\nPetugas peeawat,dokter ditany..."
2,RS Brayat Minulya,https://www.google.com/maps/search/?api=1&quer...,5,,,Terimakasih atas pelayanan dan perawatan ibu s...
3,RS Brayat Minulya,https://www.google.com/maps/search/?api=1&quer...,5,,,Pelayanan diruang Yosef bagus. Perawat ramah r...
4,RS Brayat Minulya,https://www.google.com/maps/search/?api=1&quer...,5,,,"Tempatnya bagus,rapi , nyaman sekali ruangan n..."


In [6]:
# pastika kolom text adalah string
data['text'] = data['text'].astype(str)

In [8]:
# cleaning data
data['cleaned'] = data['text'].apply(cleaning)

In [10]:
print(data['cleaned'])

0       was admitted here for a few days in maria 3 wa...
1       bersih dan rapi petugas peeawatdokter ditanya ...
2       terimakasih atas pelayanan dan perawatan ibu s...
3       pelayanan diruang yosef bagus perawat ramah ra...
4       tempatnya bagusrapi nyaman sekali ruangan nya ...
                              ...                        
7667              hospital yg sangat rapi pelayanan bagus
7668                                          khusus paru
7669                                                     
7670                                              rs paru
7671    rumah sakit untuk menangani penyakit paru dan ...
Name: cleaned, Length: 7672, dtype: object


In [12]:
# simpan data sebagai checkpoint
data.to_csv(r"D:\Willy's Project\Project\Magang Diskominfo\data\dataset_cleaned.csv", index=False)

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7672 entries, 0 to 7671
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   title      7672 non-null   object 
 1   url        7672 non-null   object 
 2   stars      7672 non-null   int64  
 3   name       0 non-null      float64
 4   reviewUrl  0 non-null      float64
 5   text       7672 non-null   object 
 6   cleaned    7672 non-null   object 
dtypes: float64(2), int64(1), object(4)
memory usage: 419.7+ KB


In [14]:
# hapus beberapa kolom yang tidak diperlukan sebagai dataset final
data = data.drop(columns=['url', 'name', 'reviewUrl', 'text'])

In [16]:
# ubah nama kolom cleaned menjadi text
data = data.rename(columns={'cleaned': 'text'})

In [18]:
# simpan sebagai dataset final
data.to_csv(r"D:\Willy's Project\Project\Magang Diskominfo\data\dataset_final.csv", index=False)

In [20]:
import deep_translator
from deep_translator import GoogleTranslator

In [21]:
def translate_to_indonesian(text):
    try:
        translated = GoogleTranslator(source='auto', target='id').translate(text)
        return translated
    except Exception as e:
        return text  

In [22]:
# apply translation
data['text_translation'] = data['text'].apply(translate_to_indonesian)

In [23]:
data

Unnamed: 0,title,stars,text,text_translation
0,RS Brayat Minulya,5,was admitted here for a few days in maria 3 wa...,telah dirawat di sini selama beberapa hari di ...
1,RS Brayat Minulya,5,bersih dan rapi petugas peeawatdokter ditanya ...,bersih dan rapi petugas peeawatdokter ditanya ...
2,RS Brayat Minulya,5,terimakasih atas pelayanan dan perawatan ibu s...,terimakasih atas pelayanan dan perawatan ibu s...
3,RS Brayat Minulya,5,pelayanan diruang yosef bagus perawat ramah ra...,pelayanan diruang yosef bagus perawat ramah ra...
4,RS Brayat Minulya,5,tempatnya bagusrapi nyaman sekali ruangan nya ...,tempatnya bagusrapi nyaman sekali ruangan nya ...
...,...,...,...,...
7667,Rumah Sakit Umum Pusat Surakarta,4,hospital yg sangat rapi pelayanan bagus,hospital yg sangat rapi pelayanan bagus
7668,Rumah Sakit Umum Pusat Surakarta,4,khusus paru,khusus paru
7669,Rumah Sakit Umum Pusat Surakarta,4,,
7670,Rumah Sakit Umum Pusat Surakarta,5,rs paru,rs paru
