# ROAD COST ANALYSIS 

## PART I - DATA PREPARATION


### Introduction

In this data analysis project we will look at the cost of road construction in Poland. It is said that road construction in Poland is much more expensive than in neighboring countries and the quality of the new routes does not meet the requirements of users.

We will check the list of elements of newly build or rebuilt roads and what road elements contribute the most to the high cost of roads in Poland and what does it look like from the inside.

The analysis will be carried out on the basis of real data for which the names of the roads covered by the analysis have been changed.

The input material are pdf files obtained from a reputable polish construction company, the explanation of which is presented below.

The data contains the following columns:

* 'Lp.': Ordinal number
* 'CPV': Central Product Classification code
* 'Numer Specyfikacji Technicznej': Technical Specification code
* 'Elementy rozliczeniowe': Billing elements
* 'Jednostka': Measure unit
* 'Ilosc': quantity
* 'Cena jedn': Unit price
* 'Wartosc calkowita': Total value
* 'Droga': Road number
* 'Rok': Year of construction
* 'Kategoria': Category of construction works
 


**Import Libraries**

In [1]:
import pandas as pd

from functions.pdf_tools import pdf_reader, pdf_cleaner, match_category

**Read pdf files**

In [2]:
road_data = pdf_reader('..\Projekt_Analiza_Danych\DATA\*.pdf')

**Initial data clean**

In [3]:
road_data = pdf_cleaner(road_data)

**Checking the basic informations of the DataFrame.**

In [4]:
road_data.head()

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.0,280 864.20,280 764.20,DK12ZW,2019,WARUNKI OGÓLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.0,33 703.70,33 603.70,DK12ZW,2019,WARUNKI OGÓLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.0,224 691.36,224 591.36,DK12ZW,2019,WARUNKI OGÓLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.0,33 703.70,33 603.70,DK12ZW,2019,WARUNKI OGÓLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.0,28 086.42,27 986.42,DK12ZW,2019,WARUNKI OGÓLNE


In [5]:
road_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1170 entries, 3 to 35
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Elementy_rozliczeniowe  1170 non-null   object
 1   Jednostka               1170 non-null   object
 2   Ilosc                   1170 non-null   object
 3   Cena_jedn               1170 non-null   object
 4   Wartosc_calkowita       1170 non-null   object
 5   Droga                   1170 non-null   object
 6   Rok                     1170 non-null   object
 7   Kategoria               1170 non-null   object
dtypes: object(8)
memory usage: 82.3+ KB


In [6]:
road_data.describe()

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria
count,1170,1170,1170.0,1170,1170.0,1170,1170,1170
unique,509,11,894.0,539,1090.0,9,5,27
top,Znaki wraz z konstrukcjami wsporczymi w grupac...,m2,1.0,16 851.85,22369.14,DK77,2021,ROBOTY PRZYGOTOWAWCZE
freq,9,390,92.0,13,11.0,158,512,149


In [7]:
type(road_data['Cena_jedn'].iloc[0])

str

In [8]:
type(road_data['Wartosc_calkowita'].iloc[0])

str

In [9]:
type(road_data['Wartosc_calkowita'].iloc[0])

str

In [10]:
type(road_data['Rok'].iloc[0])

str

In [11]:
road_data['Kategoria'].value_counts()

ROBOTY PRZYGOTOWAWCZE                                   149
ROBOTY PRZYGOTO                                         149
ZIELEŃ DROGOWA                                          129
OZNAKOWANIA DRÓG                                        110
PODBUDOWY                                               105
NAWIERZCHNIE                                             96
ELEMENTY ULIC                                            72
WARUNKI OGÓLNE                                           66
OZNAKOWANIA DRÓG I URZĄDZENIA BEZPIECZEŃSTWA RUCHU       59
ROBOTY ZIEMNE                                            49
ROBOTY WYKOŃCZE                                          36
ROBOTY WYKOŃCZENIOWE                                     27
ODWODNIENIE                                              24
OZNAKOWANIA DRÓG I                                       23
ODWODNIENIE KORPUSU DROGOWEGO                            21
ROBOTY WYKOŃCZ                                           16
INNE ROBOTY                             

**Note**

As you can see above,the "Ilosc, Cena_jedn, Wartosc_calkowita and Rok" columns contains wrong data type, we will them to float and DateTime data type. What is more the "Kategoria" column contain incomplete category names. In the next few steps we will fixx these errors.

**Cleaning the "Kategoria" column**

In [12]:
road_data['Kategoria_fixed'] = road_data['Kategoria'].apply(match_category)

In [14]:
road_data.drop('Kategoria', inplace=True, axis=1)

In [15]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_fixed
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280 864.20,280 764.20,DK12ZW,2019,WARUNKI OGOLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33 703.70,33 603.70,DK12ZW,2019,WARUNKI OGOLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224 691.36,224 591.36,DK12ZW,2019,WARUNKI OGOLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33 703.70,33 603.70,DK12ZW,2019,WARUNKI OGOLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28 086.42,27 986.42,DK12ZW,2019,WARUNKI OGOLNE
...,...,...,...,...,...,...,...,...
28,Klon zwyczajny (Acer platanoides) - Pa. w form...,szt.,9.00,5 617.28,50455.56,DW763B,2022,ZIELEN DROGOWA
29,Brzoza omszona (Betula pubescens) - Pa. w for...,szt.,47.00,5 617.28,263912.35,DW763B,2022,ZIELEN DROGOWA
33,Wykonanie schodów i zejść z elementów betonowy...,m2,27.80,500.89,13824.83,DW763B,2022,INNE ROBOTY
34,Wykonanie balustrady przy schodach terenowych,m,28.00,251.36,6938.14,DW763B,2022,INNE ROBOTY


In [17]:
road_data['Kategoria_fixed'].value_counts()

ROBOTY PRZYGOTOWAWCZE            300
OZNAKOWANIA DROG                 193
ZIELEN DROGOWA                   134
PODBUDOWY                        105
NAWIERZCHNIE                     104
ROBOTY WYKONCZENIOWE              89
ELEMENTY ULIC                     72
WARUNKI OGOLNE                    66
ROBOTY ZIEMNE                     49
ODWODNIENIE                       25
ODWODNIENIE KORPUSU DROGOWEGO     21
INNE ROBOTY                       12
Name: Kategoria_fixed, dtype: int64