# "Tvarkau miestą" report data

This notebook performs some basic data cleaning of the "Tvarkau miestą" programme reports data. The dataset contains a lot of duplicate rows, and even after removing duplicates along the provided `ID` column, there are still multiple duplicated reports (same user, same timestamp, same report description).

Relevant links:
* [Dataset](https://opendata.vilnius.lt/dataset/tvarkau-miesta-reports)
* [Tvarkau miestą](https://tvarkaumiesta.lt/)


In [1]:
import pandas as pd
pd.set_option('display.max_colwidth', 100)


In [2]:
# setting a browser-like user agent
# because otherwise the request gets rejected with 403
url = "https://opendata.vilnius.lt/dataset/21e86787-094b-4665-a5f2-16c9268fc778/resource/5e46c742-4ff7-49e7-8cc1-ab49a2087dd2/download/data.csv"
storage_opts = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
}
df = pd.read_csv(url, storage_options=storage_opts)
print(df.shape[0])
print(df["ID"].nunique())

599582
254670


In [3]:
df = df.drop_duplicates()
df.shape

(254670, 15)

In [4]:
# temporary id because the one given in the dataset is unreliable (see below)
df["unique_report_id"] = df["report_registration_date"].astype(str) + df["user_id_hash"]

df["report_registration_time"] = pd.to_datetime(df["report_registration_date"], format="mixed")
df["report_registration_date"] = df["report_registration_time"].dt.date


In [5]:
df["ID"].nunique() == df["unique_report_id"].nunique()

False

In [6]:
df["unique_report_id"].value_counts()

unique_report_id
2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb    6
2021-03-15T21:21:434ad2d4317e04f0b64dc39564a64a1796990a271b    6
2021-03-20T19:16:314ad2d4317e04f0b64dc39564a64a1796990a271b    5
2021-03-20T19:15:194ad2d4317e04f0b64dc39564a64a1796990a271b    5
2021-03-20T19:17:464ad2d4317e04f0b64dc39564a64a1796990a271b    5
                                                              ..
2022-01-01T14:00:4999924107e14d4d9001cda0708e96b40966fbe64a    1
2022-01-01T14:03:46424c6c7d74e5622270873fd36bd7e588e864f1f5    1
2022-01-01T14:05:13424c6c7d74e5622270873fd36bd7e588e864f1f5    1
2022-01-01T14:07:42424c6c7d74e5622270873fd36bd7e588e864f1f5    1
2025-01-11T01:38c43f8a6d51bb6b857c3069dd3a668e4dda2c9af2       1
Name: count, Length: 254257, dtype: int64

In [7]:
df[df["unique_report_id"] == "2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb"]

Unnamed: 0,ID,city_id,city_label,version,report_address,report_description,report_registration_date,report_completion_date,report_answer,lattitude,longitude,report_type,status,division_name,user_id_hash,unique_report_id,report_registration_time
562136,390801,1,"Vilnius,Grigiškės",Android,"Sutemų gatvė, Vilnius, Vilniaus m. sav., Lietuva","Laba diena, \nLazdynėlių vakarinės dalies gyventojai, gyvenantys Pažagiškių, Vakaro, Lūkesčių ir...",2024-10-03,,,54.664707,25.188335,Gatvių apšvietimas,Registruota,Infrastruktūros grupė,c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03 12:22:30
562138,390802,1,"Vilnius,Grigiškės",Android,"Sutemų gatvė, Vilnius, Vilniaus m. sav., Lietuva","Laba diena, \nLazdynėlių vakarinės dalies gyventojai, gyvenantys Pažagiškių, Vakaro, Lūkesčių ir...",2024-10-03,,,54.664707,25.188335,Gatvių apšvietimas,Registruota,Infrastruktūros grupė,c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03 12:22:30
562140,390803,1,"Vilnius,Grigiškės",Android,"Sutemų gatvė, Vilnius, Vilniaus m. sav., Lietuva","Laba diena, \nLazdynėlių vakarinės dalies gyventojai, gyvenantys Pažagiškių, Vakaro, Lūkesčių ir...",2024-10-03,,,54.664707,25.188335,Gatvių apšvietimas,Registruota,Infrastruktūros grupė,c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03 12:22:30
562142,390804,1,"Vilnius,Grigiškės",Android,"Sutemų gatvė, Vilnius, Vilniaus m. sav., Lietuva","Laba diena, \nLazdynėlių vakarinės dalies gyventojai, gyvenantys Pažagiškių, Vakaro, Lūkesčių ir...",2024-10-03,,,54.664707,25.188335,Gatvių apšvietimas,Registruota,Infrastruktūros grupė,c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03 12:22:30
562144,390805,1,"Vilnius,Grigiškės",Android,"Sutemų gatvė, Vilnius, Vilniaus m. sav., Lietuva","Laba diena, \nLazdynėlių vakarinės dalies gyventojai, gyvenantys Pažagiškių, Vakaro, Lūkesčių ir...",2024-10-03,,,54.664707,25.188335,Gatvių apšvietimas,Registruota,Infrastruktūros grupė,c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03 12:22:30
562146,390806,1,"Vilnius,Grigiškės",Android,"Sutemų gatvė, Vilnius, Vilniaus m. sav., Lietuva","Laba diena, \nLazdynėlių vakarinės dalies gyventojai, gyvenantys Pažagiškių, Vakaro, Lūkesčių ir...",2024-10-03,,,54.664707,25.188335,Gatvių apšvietimas,Registruota,Infrastruktūros grupė,c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03T12:22:30c87b30b555aecbdadfdf6706b698c9a9458edcfb,2024-10-03 12:22:30


In [8]:
# .drop_duplicates() did not remove all duplicates
# we could deduplicate by the provided ID column, but it seems unreliable
# there are several hundred cases where the same user created multiple reports on the same second
# and those reports get assigned unique report IDs 
# even though they have identical descriptions as the example above indicates
df = df.sort_values("ID").groupby("unique_report_id").first().reset_index().drop(columns="unique_report_id")
df.shape[0]

254257