# Sentiment Analysis using Regex on Riliv App Reviews

This notebook demonstrates how to apply regular expressions (regex) to extract important words from app reviews for sentiment analysis.

### Dataset Overview:
We are using review data from the Riliv Mental Health app, with columns such as:
- `content`: Review text
- `score`: Rating score
- `sentiment_rating`: Sentiment (Positive/Negative)
- `wordCount`: Number of words before stopword removal
- `tweet_with_stopwords`: Review text with stopwords
- `wordCount_after_stopwords`: Number of words after stopword removal
- `tweet_stemmed`: Review text after stemming

### Regex Examples:
Below are some examples of regex patterns applied to the reviews.

1. **Words starting with a capital letter**:
   - `^[A-Z]\w+`

2. **Finding mental health-related terms**:
   - `(terapi|psikolog|depresi|cemas|stres|mental)`

3. **Positive sentiment words**:
   - `(baik|membantu|efektif|mudah|puas|bagus)`

4. **Negative sentiment words**:
   - `(buruk|sulit|tidak puas|mengecewakan|jelek)`

5. **Numeric values (e.g., ratings or durations)**:
   - `\b\d+\b`

6. **Phrases containing 'tidak' followed by another word**:
   - `tidak \w+`

7. **Questions (sentences ending with '?')**:
   - `\w+\?`

8. **Terms related to app features**:
   - `(fitur|aplikasi|fungsi|antarmuka|login)`

9. **Abbreviations (e.g., BPJS, NIK)**:
   - `\b[A-Z]{2,}\b`

10. **Quoted phrases**:
   - `\"[^\"]+\"`


In [None]:
import pandas as pd

# Load the dataset
df_rilivrev = pd.read_csv('/content/rilivrev_final.csv', sep=';')

# Display the first few rows of the dataset
df_rilivrev.head()

Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
0,"riliv keren, karena kasih aku banyak pengalama...",5,Positive,23,riliv keren kasih pengalaman pelajaran kesehat...,10,riliv keren kasih pengalaman pelajaran kesehat...
1,bagus!!! aplikasi nya bagus banget gak ada cac...,5,Positive,20,bagus aplikasi bagus gak cacat recommended,6,bagu aplikasi bagu gak cacat recommend
2,ok,5,Positive,1,ok,1,ok
3,apk bagus,5,Positive,2,apk bagus,2,apk bagu
4,"membantu sekalii, di hari harii",5,Positive,6,membantu sekalii harii,3,membantu sekalii harii


In [None]:
import re

# Example: Find reviews that mention 'terapi', 'psikolog', 'depresi', etc.
mental_health_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(terapi|psikolog|depresi|cemas|stres|mental)', case=False, na=False)]

# Display the first few matching reviews
mental_health_reviews.head()


  mental_health_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(terapi|psikolog|depresi|cemas|stres|mental)', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
0,"riliv keren, karena kasih aku banyak pengalama...",5,Positive,23,riliv keren kasih pengalaman pelajaran kesehat...,10,riliv keren kasih pengalaman pelajaran kesehat...
12,adanya apk ini cukup membantu bagi saya. menu ...,5,Positive,28,apk membantu menu fitur beragam tenaga psikol...,14,apk membantu menu fitur beragam tenaga psikolo...
20,aplikasi yang sangat luar biasa. membantu meri...,5,Positive,23,aplikasi membantu meringankan tips tips meng...,9,aplikasi membantu meringankan tip tip menguran...
27,sangat membantu untuk kesehatan mental,5,Positive,5,membantu kesehatan mental,3,membantu kesehatan mental
33,riliv membantu sekali untuk dealing with menta...,5,Positive,12,riliv membantu dealing with mental issue cepat...,8,riliv membantu deal with mental issu cepat mudah


In [None]:
# Example: Find reviews that contain positive words like 'baik', 'membantu', etc.
positive_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(baik|membantu|efektif|mudah|puas|bagus)', case=False, na=False)]
positive_reviews.head()


  positive_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(baik|membantu|efektif|mudah|puas|bagus)', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
1,bagus!!! aplikasi nya bagus banget gak ada cac...,5,Positive,20,bagus aplikasi bagus gak cacat recommended,6,bagu aplikasi bagu gak cacat recommend
3,apk bagus,5,Positive,2,apk bagus,2,apk bagu
4,"membantu sekalii, di hari harii",5,Positive,6,membantu sekalii harii,3,membantu sekalii harii
5,"sangat baik,membantuku",5,Positive,4,membantuku,1,membantuku
6,bener bener sangat membantu,5,Positive,4,bener bener membantu,3,bener bener membantu


In [None]:
# Example: Find reviews that contain negative words like 'buruk', 'sulit', etc.
negative_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(buruk|sulit|tidak puas|mengecewakan|jelek)', case=False, na=False)]
negative_reviews.head()


  negative_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(buruk|sulit|tidak puas|mengecewakan|jelek)', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
41,bagus sih aplikasi nya bisa mencari berbagai b...,5,Positive,37,bagus aplikasi mencari bantuan membayar mencar...,14,bagu aplikasi mencari bantuan membayar mencari...
85,"aplikasi ini sangat bagus,saya ingin berterima...",5,Positive,18,aplikasi bagus berterimakasiih riliv membantu ...,7,aplikasi bagu berterimakasiih riliv membantu m...
94,apl nya bagus sangat membantu saya yg kesulita...,5,Positive,16,apl bagus membantu kesulitan apresiasi terimak...,8,apl bagu membantu kesulitan apresiasi terimaka...
116,jelek banget aplikasi nya lama banget bales ny...,1,Negative,27,jelek aplikasi bales buang buang duit lega bik...,14,jelek aplikasi bale buang buang duit lega biki...
217,"mohon maaf sebelumnya, tapi untuk pengalaman p...",1,Negative,33,mohon maaf pengalaman pribadi aplikasi memili...,16,mohon maaf pengalaman pribadi aplikasi memilik...


In [None]:
# Example: Find reviews that contain numeric values
numeric_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\b\d+\b', na=False)]
numeric_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
109,"masih belum bisa memberikan bintang 5, karena ...",4,Positive,15,bintang fitur layanan,3,bintang fitur layanan
124,udah bayar sesi konseling sesi cuma 40 menit t...,1,Negative,27,udah bayar sesi konseling sesi menit tp blm d...,14,udah bayar sesi konsel sesi menit tp blm dires...
140,coba untuk saat ini saya kasih bintang 3 dlu ya.,3,Neutral,11,coba kasih bintang dlu,4,coba kasih bintang dlu
146,bintang 1 dulu karena baru pertama pakai semog...,1,Negative,10,bintang pakai semoga membantu,4,bintang pakai semoga membantu
165,jika aku memberikan bintang 5 berarti apk ini ...,5,Positive,33,bintang apk bagus meditasi kondisi psikologis...,12,bintang apk bagu meditasi kondisi psikolog fit...


In [None]:
# Example: Find reviews that contain 'tidak' followed by another word
negation_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'tidak \w+', case=False, na=False)]
negation_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
24,hallo... saya sering sekali mendengar meditasi...,5,Positive,40,hallo mendengar meditasi lelap riliv saran k...,20,hallo mendengar meditasi lelap riliv saran kua...
41,bagus sih aplikasi nya bisa mencari berbagai b...,5,Positive,37,bagus aplikasi mencari bantuan membayar mencar...,14,bagu aplikasi mencari bantuan membayar mencari...
42,aplikasi yang benar-benar mendukung bagi orang...,5,Positive,12,aplikasi benarbenar mendukung orangorang baik,5,aplikasi benarbenar mendukung orangorang baik
89,tidak auto refresh saat ada chat baru! sering ...,4,Positive,19,auto refresh chat masuk masuk chatnya,6,auto refresh chat masuk masuk chatnya
156,"aplikasinya sangat membantu, mempermudah pengg...",5,Positive,75,aplikasinya membantu mempermudah pengguna pen...,28,aplikasinya membantu mempermudah pengguna peng...


In [None]:
# Example: Find reviews that end with a question mark
question_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\w+\?', na=False)]
question_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
32,kak ini kenapa ya koq aplikasi ke tutup sendir...,4,Positive,17,kak koq aplikasi tutup liat riwayat konseling,7,kak koq aplikasi tutup liat riwayat konsel
200,bayar ta app nya??,4,Positive,6,bayar ta app,3,bayar ta app
210,berawal mau resechedule jadwal psikolog ga bis...,1,Negative,62,resechedule jadwal psikolog ga uninstall pas ...,32,resechedul jadwal psikolog ga uninstal pa lg m...
250,ini gbisa untuk anak 14-16?? pembayaran jg cmn...,5,Positive,33,gbisa anak pembayaran jg cmn doang plis nj...,21,gbisa anak pembayaran jg cmn doang pli njayi s...
309,kaka ga bisa masuk room kenapa???????? baru se...,5,Positive,21,kaka ga masuk room sesi ga pakai,7,kaka ga masuk room sesi ga pakai


In [None]:
# Example: Find reviews that mention app features like 'fitur', 'aplikasi', etc.
feature_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(fitur|aplikasi|fungsi|antarmuka|login)', case=False, na=False)]
feature_reviews.head()


  feature_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(fitur|aplikasi|fungsi|antarmuka|login)', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
1,bagus!!! aplikasi nya bagus banget gak ada cac...,5,Positive,20,bagus aplikasi bagus gak cacat recommended,6,bagu aplikasi bagu gak cacat recommend
9,aplikasi riliv sangat bagus dan bermanfaat bag...,5,Positive,16,aplikasi riliv bagus bermanfaat kondisi keseha...,6,aplikasi riliv bagu bermanfaat kondisi kesehatan
12,adanya apk ini cukup membantu bagi saya. menu ...,5,Positive,28,apk membantu menu fitur beragam tenaga psikol...,14,apk membantu menu fitur beragam tenaga psikolo...
16,aku yg ga punya tempat cerita jadi merasa dipe...,5,Positive,20,ga cerita dipeduliin aplikasi thanks for ever...,8,ga cerita dipeduliin aplikasi thank for everyt...
18,aplikasi nya bagus bisa curhat,5,Positive,5,aplikasi bagus curhat,3,aplikasi bagu curhat


In [None]:
# Example: Find reviews that contain abbreviations like BPJS, NIK, etc.
abbreviation_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\b[A-Z]{2,}\b', na=False)]
abbreviation_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed


In [None]:
# Example: Find reviews that contain quoted phrases
quoted_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\"[^\"]+\"', na=False)]
quoted_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
210,berawal mau resechedule jadwal psikolog ga bis...,1,Negative,62,resechedule jadwal psikolog ga uninstall pas ...,32,resechedul jadwal psikolog ga uninstal pa lg m...
242,aplikasinya bagus tapi load-nya lamaaaaaaaaa b...,1,Negative,30,aplikasinya bagus loadnya lamaaaaaaaaa jaringa...,15,aplikasinya bagu loadnya lamaaaaaaaaa jaringan...
245,"bufferingnya parah sekali selalu ada tulisan ""...",2,Negative,19,bufferingnya parah tulisan proses gagal jari...,9,bufferingnya parah tulisan prose gagal jaringa...
248,halo riliv! aplikasi kalian sebenarnya bagus. ...,1,Negative,63,halo riliv aplikasi bagus really appreciated...,27,halo riliv aplikasi bagu realli appreci disaya...
249,setelah download selesai & waktu pertama kali ...,2,Negative,20,selesai kali daftar google email muncul pesan...,10,selesai kali daftar googl email muncul pesan p...


In [None]:
# Example: Find reviews containing more than 2 negative words
negative_words = r'\b(buruk|sulit|tidak puas|mengecewakan|jelek)\b'
multiple_negative_reviews = df_rilivrev[df_rilivrev['content'].str.contains(rf'({negative_words}.*){2,}', case=False, na=False)]
multiple_negative_reviews.head()


  multiple_negative_reviews = df_rilivrev[df_rilivrev['content'].str.contains(rf'({negative_words}.*){2,}', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed


In [None]:
# Example: Find reviews containing 'tidak' followed by an adjective
adjectives = r'(baik|buruk|bagus|jelek|efektif|sulit|mudah|puas|membantu)'
negation_with_adjective_reviews = df_rilivrev[df_rilivrev['content'].str.contains(rf'tidak\s+{adjectives}', case=False, na=False)]
negation_with_adjective_reviews.head()


  negation_with_adjective_reviews = df_rilivrev[df_rilivrev['content'].str.contains(rf'tidak\s+{adjectives}', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
42,aplikasi yang benar-benar mendukung bagi orang...,5,Positive,12,aplikasi benarbenar mendukung orangorang baik,5,aplikasi benarbenar mendukung orangorang baik
1513,kalo buat pengangguran seperti saya bagaimna b...,1,Negative,48,kalo pengangguran bagaimna curhat blom curhat...,22,kalo pengangguran bagaimna curhat blom curhat ...
1709,kok loading terus ya gak bisa kebuka cuman iko...,1,Negative,17,loading gak kebuka cuman ikon aplikasi doang m...,9,load gak kebuka cuman ikon aplikasi doang meny...
1814,tidak buruk,3,Neutral,2,buruk,1,buruk


In [None]:
# Example: Find reviews with 'tetapi' or 'namun' indicating sentiment shift
sentiment_shift_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\b(tetapi|namun)\b', case=False, na=False)]
sentiment_shift_reviews.head()


  sentiment_shift_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\b(tetapi|namun)\b', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
61,aplikasi ini sangat membantu dan responnya cuk...,5,Positive,21,aplikasi membantu responnya bagus kali ngebug...,10,aplikasi membantu responnya bagu kali ngebug b...
307,"sebenernya aplikasi ini bagus, namun gak tau k...",3,Neutral,21,sebenernya aplikasi bagus gak tau knp gk akses...,11,sebenernya aplikasi bagu gak tau knp gk aks fi...
374,"sudah lama instal aplikasi ini, tetapi baru me...",5,Positive,23,instal aplikasi menyadari maksimalkan aplikasi...,8,instal aplikasi menyadari maksimalkan aplikasi...
823,assalamualaikum.... terima kasih riliv aplikas...,5,Positive,68,assalamualaikum terima kasih riliv aplikasi m...,27,assalamualaikum terima kasih riliv aplikasi me...
858,"belum satu hari saya menginstal aplikasi ini, ...",5,Positive,28,menginstal aplikasi nyaman berharap kedepanny...,8,menginst aplikasi nyaman berharap kedepannya n...


In [None]:
# Example: Find reviews that compare two things (X better/worse than Y)
comparison_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'lebih\s+(baik|buruk)\s+dari', case=False, na=False)]
comparison_reviews.head()


  comparison_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'lebih\s+(baik|buruk)\s+dari', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
156,"aplikasinya sangat membantu, mempermudah pengg...",5,Positive,75,aplikasinya membantu mempermudah pengguna pen...,28,aplikasinya membantu mempermudah pengguna peng...
313,"aplikasi ini sangat membatuku, i love you rili...",5,Positive,38,aplikasi membatuku i love you riliv aplikasi i...,21,aplikasi membatuku i love you riliv aplikasi i...
826,"saya senang sekali dengan aplikasi ini, karna ...",5,Positive,21,senang aplikasi karna merasakan sebelumnyauntu...,9,senang aplikasi karna merasakan sebelumnyauntu...


In [None]:
# Example: Find reviews with superlative words like 'paling' or 'sangat'
superlative_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\b(paling|sangat)\b', case=False, na=False)]
superlative_reviews.head()


  superlative_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\b(paling|sangat)\b', case=False, na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
5,"sangat baik,membantuku",5,Positive,4,membantuku,1,membantuku
6,bener bener sangat membantu,5,Positive,4,bener bener membantu,3,bener bener membantu
9,aplikasi riliv sangat bagus dan bermanfaat bag...,5,Positive,16,aplikasi riliv bagus bermanfaat kondisi keseha...,6,aplikasi riliv bagu bermanfaat kondisi kesehatan
14,sangat membantu karena sering malas journaling.,5,Positive,7,membantu malas journaling,3,membantu mala journal
19,lebih lengkap sangat membantu,5,Positive,4,lengkap membantu,2,lengkap membantu


In [None]:
# Example: Find reviews with double negation like 'tidak pernah tidak'
double_negation_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'tidak\s+\w+\s+tidak', case=False, na=False)]
double_negation_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed


In [None]:
# Example: Find reviews containing URLs or email addresses
url_or_email_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(https?://\S+|\w+@\w+\.\w+)', na=False)]
url_or_email_reviews.head()


  url_or_email_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'(https?://\S+|\w+@\w+\.\w+)', na=False)]


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed


In [None]:
# Example: Find reviews that consist of a single word
single_word_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'^\w+$', na=False)]
single_word_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
2,ok,5,Positive,1,ok,1,ok
7,bagys,5,Positive,1,bagys,1,bagi
13,sukak,5,Positive,1,sukak,1,sukak
23,top,5,Positive,1,top,1,top
25,bagus,5,Positive,1,bagus,1,bagu


In [None]:
# Example: Find reviews with repeated exclamation marks for emphasis
repeated_exclamation_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'!{2,}', na=False)]
repeated_exclamation_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
1,bagus!!! aplikasi nya bagus banget gak ada cac...,5,Positive,20,bagus aplikasi bagus gak cacat recommended,6,bagu aplikasi bagu gak cacat recommend
87,seru bgt gratis n gaada iklann!!!,5,Positive,9,seru gratis n gaada iklann,5,seru grati n gaada iklann
183,"aplikasi nya lumayan membantu , cuma ada beber...",4,Positive,47,aplikasi lumayan membantu kekurangan gak berpe...,19,aplikasi lumayan membantu kekurangan gak berpe...
469,saya pribadi sangat menyukai aplikasi ini keti...,5,Positive,83,pribadi menyukai aplikasi malas jurnaling buku...,35,pribadi menyukai aplikasi mala jurnal buku mud...
709,panduan meditasi yang baik!! terimakasih,5,Positive,7,panduan meditasi terimakasih,3,panduan meditasi terimakasih


In [None]:
# Example: Find reviews with unusually long words (potential typos or spam)
long_word_reviews = df_rilivrev[df_rilivrev['content'].str.contains(r'\w{15,}', na=False)]
long_word_reviews.head()


Unnamed: 0,content,score,sentiment_rating,wordCount,tweet_with_stopwords,wordCount_after_stopwords,tweet_stemmed
85,"aplikasi ini sangat bagus,saya ingin berterima...",5,Positive,18,aplikasi bagus berterimakasiih riliv membantu ...,7,aplikasi bagu berterimakasiih riliv membantu m...
210,berawal mau resechedule jadwal psikolog ga bis...,1,Negative,62,resechedule jadwal psikolog ga uninstall pas ...,32,resechedul jadwal psikolog ga uninstal pa lg m...
278,"sangat membantu sekali, disaat gapunya temen c...",5,Positive,19,membantu disaat gapunya temen cerita aplikasi ...,10,membantu disaat gapunya temen cerita aplikasi ...
613,aplikasi yang sangat membantu dalam menenangka...,5,Positive,29,aplikasi membantu menenangkan pikiran i like i...,14,aplikasi membantu menenangkan pikiran i like i...
784,tambahin juga ya min kayak kita bercerita di p...,3,Neutral,69,tambahin min kayak bercerita publik gitu komen...,19,tambahin min kayak bercerita publik gitu komen...
