# PostNord Trustpilot Reviews

## Structure of the code

1. Combine header and text column
2. Anonymisation
    - Remove names
    - Remove dates
    - Create unique ids for each person
    - Use review and url to remove repeated comments
    - Remove urls
3. Cleaning and processing
    - If a comment was only punctuation => remove that row
4. Balance data (around 17,000 per category)

## Initial code

In [95]:
# import packages
import pandas as pd
import os
import re

In [96]:
# define path
path = os.path.join("..", "in", "postnord_trustpilot_reviews.csv")

In [110]:
# read csv
df = pd.read_csv(path)
# fill empty columns with arbitrary symbol
df.fillna("|", inplace = True)
# rename columns
df.columns = ['order', 'name', 'date', 'rating', 'text', 'profile_link', 'review_count', 'header']

In [112]:
sm

Unnamed: 0,order,name,date,rating,text,profile_link,review_count,header
0,0,Kim A,2021-10-26,5,|,/users/6177b3531f562700128d8ed2,1,Hurtig levering.
1,11,Ellen Fauerby,2021-10-26,5,|,/users/6177a9ae359f4b00120453c5,1,Altid pakker til tiden
2,1,Johanna I.U.Aamand Al Tebarani,2021-10-26,5,Som sædvanlig er min pakke leveret på bedste m...,/users/52c66bc700006400015cac69,28,Som sædvanlig er min pakke leveret på…
3,19,Glenn,2021-10-26,5,"Alt fungerede, hurtig levering-tak😀",/users/5909b6ad0000ff000a93dc46,3,Hurtig behandling
4,18,Thomas Frovin Jensen,2021-10-26,5,"Pakkepost, når den er bedst!",/users/4fd8ce6c00006400011b20c9,16,Forbilledligt
5,17,Elizabeth Hansen,2021-10-26,5,|,/users/55ba28920000ff0001d06998,20,Hurtig levering nem afhentning
6,16,Tomm,2021-10-26,4,|,/users/59b631390000ff000ac7244e,8,Alt gik som forventet.
7,14,Dwi,2021-10-26,5,Hurtigt levering og pakker som det skal være.,/users/59a3d8230000ff000ac0ff0c,16,Hurtigt levering og pakker som det skal…
8,13,Lone Knoblauch,2021-10-26,5,Pakken blev leveret dagen efter jeg bestilte,/users/5fd07babce11b00019dc872c,2,Pakken blev leveret dagen efter jeg…
9,12,Per Sørensen,2021-10-26,5,!!!!!!!!!!!!!!!!!!!!,/users/577f36590000ff000a2feff7,10,!!!!!!!!!!


In [118]:
sm = df[:20].copy(deep = True)

## Combination of header and text column

Hvis headeren er identisk med teksten eller hvis headerens længde er identisk med det tilsvarende vindue i teksten
    
```df['review'] = df['text']```

Ellers: `df['review'] = df['header'] + " " + df['text']`

_Kan også omvendes_

In [99]:
# base code
# df["period"] = df["Year"] + df["quarter"]

In [113]:
review = []

for index, row in sm.iterrows():
    txt = row["text"]
    pattern
    head = row["header"]
    x = re.search(f"^{head}", txt)
    if x:
        review.append(row['text'])
    else:
        review.append(row['header'] + " " + row['text'])

In [101]:
len(review)

20

In [102]:
len(sm)

20

In [105]:
review

['Hurtig levering. |',
 'Altid pakker til tiden |',
 'Som sædvanlig er min pakke leveret på… Som sædvanlig er min pakke leveret på bedste måde og jeg er yderst tilfreds med pakkens tilstand, venlig og hurtig levering, så absolut at anbefale Postnord. Mvh. Johanna',
 'Hurtig behandling Alt fungerede, hurtig levering-tak😀',
 'Forbilledligt Pakkepost, når den er bedst!',
 'Hurtig levering nem afhentning |',
 'Alt gik som forventet. |',
 'Hurtigt levering og pakker som det skal… Hurtigt levering og pakker som det skal være.',
 'Pakken blev leveret dagen efter jeg… Pakken blev leveret dagen efter jeg bestilte',
 '!!!!!!!!!!!!!!!!!!!!',
 'Godt som sædvanligt. |',
 'Fin service, hurtigt',
 'Hurtig levering |',
 'Godt og hurtigt God og hurtig service :)',
 'Havde det været muligt at give 0 havde… Havde det været muligt at give 0 havde jeg gjort det. At aflevere en pakke et helt andet sted end aftalt langt fra min bopæl er ganske urimeligt. Det var aftalt at pakke skulle afleveres i Kvickly ves

In [119]:
sm['newcol'] = 'test'

In [120]:
se = pd.Series(review)
sm['review'] = review

In [121]:
sm

Unnamed: 0,order,name,date,rating,text,profile_link,review_count,header,newcol,review
0,0,Kim A,2021-10-26,5,|,/users/6177b3531f562700128d8ed2,1,Hurtig levering.,test,Hurtig levering. |
1,11,Ellen Fauerby,2021-10-26,5,|,/users/6177a9ae359f4b00120453c5,1,Altid pakker til tiden,test,Altid pakker til tiden |
2,1,Johanna I.U.Aamand Al Tebarani,2021-10-26,5,Som sædvanlig er min pakke leveret på bedste m...,/users/52c66bc700006400015cac69,28,Som sædvanlig er min pakke leveret på…,test,Som sædvanlig er min pakke leveret på… Som sæd...
3,19,Glenn,2021-10-26,5,"Alt fungerede, hurtig levering-tak😀",/users/5909b6ad0000ff000a93dc46,3,Hurtig behandling,test,"Hurtig behandling Alt fungerede, hurtig leveri..."
4,18,Thomas Frovin Jensen,2021-10-26,5,"Pakkepost, når den er bedst!",/users/4fd8ce6c00006400011b20c9,16,Forbilledligt,test,"Forbilledligt Pakkepost, når den er bedst!"
5,17,Elizabeth Hansen,2021-10-26,5,|,/users/55ba28920000ff0001d06998,20,Hurtig levering nem afhentning,test,Hurtig levering nem afhentning |
6,16,Tomm,2021-10-26,4,|,/users/59b631390000ff000ac7244e,8,Alt gik som forventet.,test,Alt gik som forventet. |
7,14,Dwi,2021-10-26,5,Hurtigt levering og pakker som det skal være.,/users/59a3d8230000ff000ac0ff0c,16,Hurtigt levering og pakker som det skal…,test,Hurtigt levering og pakker som det skal… Hurti...
8,13,Lone Knoblauch,2021-10-26,5,Pakken blev leveret dagen efter jeg bestilte,/users/5fd07babce11b00019dc872c,2,Pakken blev leveret dagen efter jeg…,test,Pakken blev leveret dagen efter jeg… Pakken bl...
9,12,Per Sørensen,2021-10-26,5,!!!!!!!!!!!!!!!!!!!!,/users/577f36590000ff000a2feff7,10,!!!!!!!!!!,test,!!!!!!!!!!!!!!!!!!!!
