# ROAD COST ANALYSIS 

## PART I - DATA PREPARATION


### Introduction
Continuing data analysis project we will look at the cost of road construction in Poland. It is said that road construction in Poland is much more expensive than in neighboring countries and the quality of the new routes does not meet the requirements of users.

We will check the list of elements of newly build or rebuilt roads and what road elements contribute the most to the high cost of roads in Poland and what does it look like from the inside.

The analysis will be carried out on the basis of real data for which the names of the roads covered by the analysis have been changed.

The input material are pdf files obtained from a reputable polish construction company, the explanation of which is presented below.

The original data contains the following columns:

* 'Lp.': Ordinal number
* 'CPV': Central Product Classification code
* 'Numer Specyfikacji Technicznej': Technical Specification code
* 'Elementy rozliczeniowe': Billing elements
* 'Jednostka': Measure unit
* 'Ilosc': Quantity
* 'Cena jedn': Unit price
* 'Wartosc calkowita': Total value
* 'Droga': Road number
* 'Rok': Year of construction
* 'Kategoria': Category of construction works

# **Import Libraries**

In [1]:
import pandas as pd
import numpy as np

from functions.pdf_tools import pdf_reader, pdf_cleaner, match_category

**Read pdf files**

In [2]:
road_data = pdf_reader('..\Projekt_Analiza_Danych\DATA\*.pdf')

**Initial data clean**

**Checking the basic informations of the DataFrame**

In [3]:
road_data = pdf_cleaner(road_data)

In [4]:
road_data.head()

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.0,280864.2,280764.2,DK12ZW,2019,WARUNKI OGÓLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.0,33703.7,33603.7,DK12ZW,2019,WARUNKI OGÓLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.0,224691.36,224591.36,DK12ZW,2019,WARUNKI OGÓLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.0,33703.7,33603.7,DK12ZW,2019,WARUNKI OGÓLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.0,28086.42,27986.42,DK12ZW,2019,WARUNKI OGÓLNE


In [5]:
road_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2105 entries, 3 to 15
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Elementy_rozliczeniowe  2105 non-null   object
 1   Jednostka               2105 non-null   object
 2   Ilosc                   2105 non-null   object
 3   Cena_jedn               2105 non-null   object
 4   Wartosc_calkowita       2105 non-null   object
 5   Droga                   2105 non-null   object
 6   Rok                     2105 non-null   object
 7   Kategoria               2105 non-null   object
dtypes: object(8)
memory usage: 148.0+ KB


In [6]:
road_data.describe()

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria
count,2105,2105,2105.0,2105.0,2105.0,2105,2105,2105
unique,646,12,1482.0,769.0,1967.0,19,7,14
top,"Tablice ""E""",m2,1.0,16851.85,16751.85,DK77,2021,ROBOTY PRZYGOTOWAWCZE
freq,19,731,130.0,16.0,20.0,156,538,563


In [7]:
set(road_data['Cena_jedn'].map(type))

{str}

In [8]:
set(road_data['Ilosc'].map(type))

{str}

In [9]:
set(road_data['Wartosc_calkowita'].map(type))

{str}

In [10]:
set(road_data['Rok'].map(type))

{str}

In [11]:
road_data['Kategoria'].value_counts()

ROBOTY PRZYGOTOWAWCZE                                 563
OZNAKOWANIA DRÓG I URZĄDZENIA BEZPIECZEŃSTWA RUCHU    343
PODBUDOWY                                             272
NAWIERZCHNIE                                          205
ZIELEŃ DROGOWA                                        169
ELEMENTY ULIC                                         151
ROBOTY WYKOŃCZENIOWE                                  139
WARUNKI OGÓLNE                                         93
ROBOTY ZIEMNE                                          83
ODWODNIENIE KORPUSU DROGOWEGO                          46
INNE ROBOTY                                            36
WYMAGANIA OGÓLNE                                        3
WARSTWA MROZOOCHRONNA Z MIESZANKI NIEZWIĄZANEJ          1
OZNAKOWANIA DRÓG I URZĄDZENIA                           1
Name: Kategoria, dtype: int64

**Note**

As you can see above,the "Ilosc, Cena_jedn, Wartosc_calkowita, Dlugosc_drogi and Rok" columns contains wrong data type, we will convert them to float and DateTime data type. What is more the "Kategoria" column contain incomplete category names. In the next few steps we will fix these errors.

**Cleaning the "Kategoria" column**

In [12]:
road_data['Kategoria_robot'] = road_data['Kategoria'].apply(match_category)

In [13]:
road_data.drop('Kategoria', inplace=True, axis=1)

In [14]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_robot
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280764.20,DK12ZW,2019,WARUNKI OGOLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019,WARUNKI OGOLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224591.36,DK12ZW,2019,WARUNKI OGOLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019,WARUNKI OGOLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,27986.42,DK12ZW,2019,WARUNKI OGOLNE
...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,50.00,5000.00,DW919SK,2015,ZIELEN DROGOWA
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1024.40,52244.40,DW919SK,2015,INNE ROBOTY
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,274.30,2194.40,DW919SK,2015,INNE ROBOTY
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,246.34,6198.04,DW919SK,2015,INNE ROBOTY


In [15]:
road_data['Ilosc'] = pd.to_numeric(road_data['Ilosc'],errors='coerce')

**Cleaning the "Ilosc", "Cena_jedn", "Wartosc_calkowita" and "Dlugosc_drogi"columns**

In [16]:
road_data['Ilosc'] = pd.to_numeric(road_data['Ilosc'],errors='coerce')

In [17]:
set(road_data['Ilosc'].map(type))

{float}

In [18]:
road_data['Cena_jedn'] = pd.to_numeric(road_data['Cena_jedn'],errors='coerce')

In [19]:
road_data['Wartosc_calkowita'] = pd.to_numeric(road_data['Wartosc_calkowita'],errors='coerce')

In [20]:
# road_data['Dlugosc_drogi'] = pd.to_numeric(road_data['Dlugosc_drogi'],errors='coerce')

**Cleaning the "Rok" column**

In [21]:
road_data['Rok'] = pd.to_numeric(road_data['Rok'],errors='coerce')

In [22]:
road_data['Rok'] = pd.to_datetime(road_data['Rok'],format='%Y')

In [23]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_robot
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280764.20,DK12ZW,2019-01-01,WARUNKI OGOLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224591.36,DK12ZW,2019-01-01,WARUNKI OGOLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,27986.42,DK12ZW,2019-01-01,WARUNKI OGOLNE
...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,50.00,5000.00,DW919SK,2015-01-01,ZIELEN DROGOWA
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1024.40,52244.40,DW919SK,2015-01-01,INNE ROBOTY
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,274.30,2194.40,DW919SK,2015-01-01,INNE ROBOTY
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,246.34,6198.04,DW919SK,2015-01-01,INNE ROBOTY


In [24]:
road_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2105 entries, 3 to 15
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   Elementy_rozliczeniowe  2105 non-null   object        
 1   Jednostka               2105 non-null   object        
 2   Ilosc                   2103 non-null   float64       
 3   Cena_jedn               2105 non-null   float64       
 4   Wartosc_calkowita       2103 non-null   float64       
 5   Droga                   2105 non-null   object        
 6   Rok                     2105 non-null   datetime64[ns]
 7   Kategoria_robot         2105 non-null   object        
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 148.0+ KB


In [25]:
road_data['Kategoria_drogi'] = road_data['Droga'].str[0:2].apply(lambda x:
                                                                 ('Powiatowa' if x=='DP'
                                                                  else 'Krajowa' if x=='DK'
                                                                  else 'Wojewodzka'))

In [26]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_robot,Kategoria_drogi
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280764.20,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224591.36,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,27986.42,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa
...,...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,50.00,5000.00,DW919SK,2015-01-01,ZIELEN DROGOWA,Wojewodzka
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1024.40,52244.40,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,274.30,2194.40,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,246.34,6198.04,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka


In [27]:
road_data['Kategoria_drogi'].value_counts()

Wojewodzka    1307
Krajowa        696
Powiatowa      102
Name: Kategoria_drogi, dtype: int64

**New column with road lengths**

For further analysis we need to make column with road length

In [28]:
road_elem_df = road_data[road_data['Elementy_rozliczeniowe'].str.contains("Odtworzenie trasy i punktów wysokościowych")]['Droga']

In [29]:
road_quant_df = road_data[road_data['Elementy_rozliczeniowe'].str.contains("Odtworzenie trasy i punktów wysokościowych")]['Ilosc']

In [30]:
road_length_dict = dict(zip(road_elem_df,road_quant_df))

In [31]:
road_length_dict

{'DK12ZW': 24.24,
 'DK33WR': 6.26,
 'DK35WY': 6.34,
 'DK77': 10.0,
 'DK99': 12.88,
 'DP55818': 9.9,
 'DW258': 3.9,
 'DW323R': 12.27,
 'DW534C': 12.82,
 'DW555': 19.47,
 'DW606SLK': 0.8,
 'DW614SK': 16.64,
 'DW659': 7.08,
 'DW741': 10.39,
 'DW763B': 12.46,
 'DW777SX': 18.05,
 'DW789': 2.0,
 'DW878RT': 10.78,
 'DW919SK': 12.98}

In [32]:
road_data['Dlugosc_drogi'] = road_data['Droga'].map(road_length_dict)

In [33]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_robot,Kategoria_drogi,Dlugosc_drogi
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280764.20,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224591.36,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,27986.42,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
...,...,...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,50.00,5000.00,DW919SK,2015-01-01,ZIELEN DROGOWA,Wojewodzka,12.98
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1024.40,52244.40,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,274.30,2194.40,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,246.34,6198.04,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98


**Note**

It can be seen that the product of the "Ilosc" and "Cena_jedn" columns does not equal to the values in the column "Wartosc_calkowita", let's fix that.

In [34]:
road_data['Wartosc_calkowita'] = road_data['Ilosc'] * road_data['Cena_jedn']

In [35]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_robot,Kategoria_drogi,Dlugosc_drogi
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280864.2000,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33703.7000,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224691.3600,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33703.7000,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,28086.4200,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24
...,...,...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,50.00,5000.0000,DW919SK,2015-01-01,ZIELEN DROGOWA,Wojewodzka,12.98
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1024.40,52244.4000,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,274.30,2194.4000,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,246.34,6197.9144,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98


**Note**

We still dont know the lenght of analized roads, so their cost not reliable. Let's bring all the costs down to the cost of the 1 km of the road

We know that the cells that contains sentence "Odtworzenie trasy i punktów wysokościowych..." in column "Elementy_rozliczenione" contains information about the lenght of the analized roads. We used it at the begining (def pdf_reader) to bring all the costs down to the cost of the 1 km of the road

In [36]:
road_data['Cena_jedn_per_km'] = road_data['Cena_jedn'] / road_data['Dlugosc_drogi']

In [37]:
road_data['Wartosc_calkowita_per_km'] = road_data['Wartosc_calkowita'] / road_data['Dlugosc_drogi']

In [38]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_robot,Kategoria_drogi,Dlugosc_drogi,Cena_jedn_per_km,Wartosc_calkowita_per_km
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280864.2000,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24,11586.806931,11586.806931
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33703.7000,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24,1390.416667,1390.416667
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224691.3600,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24,9269.445545,9269.445545
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33703.7000,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24,1390.416667,1390.416667
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,28086.4200,DK12ZW,2019-01-01,WARUNKI OGOLNE,Krajowa,24.24,1158.680693,1158.680693
...,...,...,...,...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,50.00,5000.0000,DW919SK,2015-01-01,ZIELEN DROGOWA,Wojewodzka,12.98,3.852080,385.208012
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1024.40,52244.4000,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98,78.921418,4024.992296
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,274.30,2194.4000,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98,21.132512,169.060092
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,246.34,6197.9144,DW919SK,2015-01-01,INNE ROBOTY,Wojewodzka,12.98,18.978428,477.497257


**Note**

Okey we finished our data preparation let's save it to excel file for further data analysis in second part of the project.

In [39]:
road_data.to_excel('..\Projekt_Analiza_Danych\DATA\Road_cost_analysis.xlsx',
                                             sheet_name='Road_cost_analysis',
                                             index=False)