# PostNord Trustpilot Reviews

## Structure of the code

1. Combine header and text column
2. Anonymisation
    - Remove names
    - Remove dates
    - Create unique ids for each person
    - Use review and url to remove repeated comments
    - Remove urls
3. Cleaning and processing
    - If a comment was only punctuation => remove that row
4. Balance data (around 17,000 per category)

## Initial code

In [95]:
# import packages
import pandas as pd
import os
import re

In [96]:
# define path
path = os.path.join("..", "in", "postnord_trustpilot_reviews.csv")

In [110]:
# read csv
df = pd.read_csv(path)
# fill empty columns with arbitrary symbol
df.fillna("|", inplace = True)
# rename columns
df.columns = ['order', 'name', 'date', 'rating', 'text', 'profile_link', 'review_count', 'header']

In [112]:
sm

Unnamed: 0,order,name,date,rating,text,profile_link,review_count,header
0,0,Kim A,2021-10-26,5,|,/users/6177b3531f562700128d8ed2,1,Hurtig levering.
1,11,Ellen Fauerby,2021-10-26,5,|,/users/6177a9ae359f4b00120453c5,1,Altid pakker til tiden
2,1,Johanna I.U.Aamand Al Tebarani,2021-10-26,5,Som s√¶dvanlig er min pakke leveret p√• bedste m...,/users/52c66bc700006400015cac69,28,Som s√¶dvanlig er min pakke leveret p√•‚Ä¶
3,19,Glenn,2021-10-26,5,"Alt fungerede, hurtig levering-taküòÄ",/users/5909b6ad0000ff000a93dc46,3,Hurtig behandling
4,18,Thomas Frovin Jensen,2021-10-26,5,"Pakkepost, n√•r den er bedst!",/users/4fd8ce6c00006400011b20c9,16,Forbilledligt
5,17,Elizabeth Hansen,2021-10-26,5,|,/users/55ba28920000ff0001d06998,20,Hurtig levering nem afhentning
6,16,Tomm,2021-10-26,4,|,/users/59b631390000ff000ac7244e,8,Alt gik som forventet.
7,14,Dwi,2021-10-26,5,Hurtigt levering og pakker som det skal v√¶re.,/users/59a3d8230000ff000ac0ff0c,16,Hurtigt levering og pakker som det skal‚Ä¶
8,13,Lone Knoblauch,2021-10-26,5,Pakken blev leveret dagen efter jeg bestilte,/users/5fd07babce11b00019dc872c,2,Pakken blev leveret dagen efter jeg‚Ä¶
9,12,Per S√∏rensen,2021-10-26,5,!!!!!!!!!!!!!!!!!!!!,/users/577f36590000ff000a2feff7,10,!!!!!!!!!!


In [118]:
sm = df[:20].copy(deep = True)

## Combination of header and text column

Hvis headeren er identisk med teksten eller hvis headerens l√¶ngde er identisk med det tilsvarende vindue i teksten
    
```df['review'] = df['text']```

Ellers: `df['review'] = df['header'] + " " + df['text']`

_Kan ogs√• omvendes_

In [99]:
# base code
# df["period"] = df["Year"] + df["quarter"]

In [113]:
review = []

for index, row in sm.iterrows():
    txt = row["text"]
    pattern
    head = row["header"]
    x = re.search(f"^{head}", txt)
    if x:
        review.append(row['text'])
    else:
        review.append(row['header'] + " " + row['text'])

In [101]:
len(review)

20

In [102]:
len(sm)

20

In [105]:
review

['Hurtig levering. |',
 'Altid pakker til tiden |',
 'Som s√¶dvanlig er min pakke leveret p√•‚Ä¶ Som s√¶dvanlig er min pakke leveret p√• bedste m√•de og jeg er yderst tilfreds med pakkens tilstand, venlig og hurtig levering, s√• absolut at anbefale Postnord. Mvh. Johanna',
 'Hurtig behandling Alt fungerede, hurtig levering-taküòÄ',
 'Forbilledligt Pakkepost, n√•r den er bedst!',
 'Hurtig levering nem afhentning |',
 'Alt gik som forventet. |',
 'Hurtigt levering og pakker som det skal‚Ä¶ Hurtigt levering og pakker som det skal v√¶re.',
 'Pakken blev leveret dagen efter jeg‚Ä¶ Pakken blev leveret dagen efter jeg bestilte',
 '!!!!!!!!!!!!!!!!!!!!',
 'Godt som s√¶dvanligt. |',
 'Fin service, hurtigt',
 'Hurtig levering |',
 'Godt og hurtigt God og hurtig service :)',
 'Havde det v√¶ret muligt at give 0 havde‚Ä¶ Havde det v√¶ret muligt at give 0 havde jeg gjort det. At aflevere en pakke et helt andet sted end aftalt langt fra min bop√¶l er ganske urimeligt. Det var aftalt at pakke skulle 

In [119]:
sm['newcol'] = 'test'

In [120]:
se = pd.Series(review)
sm['review'] = review

In [121]:
sm

Unnamed: 0,order,name,date,rating,text,profile_link,review_count,header,newcol,review
0,0,Kim A,2021-10-26,5,|,/users/6177b3531f562700128d8ed2,1,Hurtig levering.,test,Hurtig levering. |
1,11,Ellen Fauerby,2021-10-26,5,|,/users/6177a9ae359f4b00120453c5,1,Altid pakker til tiden,test,Altid pakker til tiden |
2,1,Johanna I.U.Aamand Al Tebarani,2021-10-26,5,Som s√¶dvanlig er min pakke leveret p√• bedste m...,/users/52c66bc700006400015cac69,28,Som s√¶dvanlig er min pakke leveret p√•‚Ä¶,test,Som s√¶dvanlig er min pakke leveret p√•‚Ä¶ Som s√¶d...
3,19,Glenn,2021-10-26,5,"Alt fungerede, hurtig levering-taküòÄ",/users/5909b6ad0000ff000a93dc46,3,Hurtig behandling,test,"Hurtig behandling Alt fungerede, hurtig leveri..."
4,18,Thomas Frovin Jensen,2021-10-26,5,"Pakkepost, n√•r den er bedst!",/users/4fd8ce6c00006400011b20c9,16,Forbilledligt,test,"Forbilledligt Pakkepost, n√•r den er bedst!"
5,17,Elizabeth Hansen,2021-10-26,5,|,/users/55ba28920000ff0001d06998,20,Hurtig levering nem afhentning,test,Hurtig levering nem afhentning |
6,16,Tomm,2021-10-26,4,|,/users/59b631390000ff000ac7244e,8,Alt gik som forventet.,test,Alt gik som forventet. |
7,14,Dwi,2021-10-26,5,Hurtigt levering og pakker som det skal v√¶re.,/users/59a3d8230000ff000ac0ff0c,16,Hurtigt levering og pakker som det skal‚Ä¶,test,Hurtigt levering og pakker som det skal‚Ä¶ Hurti...
8,13,Lone Knoblauch,2021-10-26,5,Pakken blev leveret dagen efter jeg bestilte,/users/5fd07babce11b00019dc872c,2,Pakken blev leveret dagen efter jeg‚Ä¶,test,Pakken blev leveret dagen efter jeg‚Ä¶ Pakken bl...
9,12,Per S√∏rensen,2021-10-26,5,!!!!!!!!!!!!!!!!!!!!,/users/577f36590000ff000a2feff7,10,!!!!!!!!!!,test,!!!!!!!!!!!!!!!!!!!!
