# ROAD COST ANALYSIS 

## PART I - DATA PREPARATION


### Introduction

In this data analysis project we will look at the cost of road construction in Poland. It is said that road construction in Poland is much more expensive than in neighboring countries and the quality of the new routes does not meet the requirements of users.

We will check the list of elements of newly build or rebuilt roads and what road elements contribute the most to the high cost of roads in Poland and what does it look like from the inside.

The analysis will be carried out on the basis of real data for which the names of the roads covered by the analysis have been changed.

The input material are pdf files obtained from a reputable polish construction company, the explanation of which is presented below.

The data contains the following columns:

* 'Lp.': Ordinal number
* 'CPV': Central Product Classification code
* 'Numer Specyfikacji Technicznej': Technical Specification code
* 'Elementy rozliczeniowe': Billing elements
* 'Jednostka': Measure unit
* 'Ilosc': quantity
* 'Cena jedn': Unit price
* 'Wartosc calkowita': Total value
* 'Droga': Road number
* 'Rok': Year of construction
* 'Kategoria': Category of construction works
 


**Import Libraries**

In [1]:
import pandas as pd

from functions.pdf_tools import pdf_reader, pdf_cleaner, match_category

**Read pdf files**

In [2]:
road_data = pdf_reader('..\Projekt_Analiza_Danych\DATA\*.pdf')

**Initial data clean**

In [3]:
road_data = pdf_cleaner(road_data)

**Checking the basic informations of the DataFrame.**

In [4]:
road_data.head()

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.0,280864.2,280764.2,DK12ZW,2019,WARUNKI OGÓLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.0,33703.7,33603.7,DK12ZW,2019,WARUNKI OGÓLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.0,224691.36,224591.36,DK12ZW,2019,WARUNKI OGÓLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.0,33703.7,33603.7,DK12ZW,2019,WARUNKI OGÓLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.0,28086.42,27986.42,DK12ZW,2019,WARUNKI OGÓLNE


In [5]:
road_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1901 entries, 3 to 15
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Elementy_rozliczeniowe  1901 non-null   object
 1   Jednostka               1901 non-null   object
 2   Ilosc                   1901 non-null   object
 3   Cena_jedn               1901 non-null   object
 4   Wartosc_calkowita       1901 non-null   object
 5   Droga                   1901 non-null   object
 6   Rok                     1901 non-null   object
 7   Kategoria               1901 non-null   object
dtypes: object(8)
memory usage: 133.7+ KB


In [6]:
road_data.describe()

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria
count,1901,1901,1901.0,1901.0,1901.0,1901,1901,1901
unique,639,12,1211.0,655.0,1499.0,17,7,13
top,"Tablice ""E""",m2,0.0,0.0,-100.0,DK77,2021,ROBOTY PRZYGOTOWAWCZE
freq,17,657,198.0,81.0,279.0,156,538,505


In [7]:
set(road_data['Cena_jedn'].map(type))

{str}

In [8]:
set(road_data['Ilosc'].map(type))

{str}

In [9]:
set(road_data['Wartosc_calkowita'].map(type))

{str}

In [10]:
set(road_data['Rok'].map(type))

{str}

In [11]:
road_data['Kategoria'].value_counts()

ROBOTY PRZYGOTOWAWCZE                                 505
OZNAKOWANIA DRÓG I URZĄDZENIA BEZPIECZEŃSTWA RUCHU    313
PODBUDOWY                                             223
NAWIERZCHNIE                                          174
ZIELEŃ DROGOWA                                        161
ELEMENTY ULIC                                         135
ROBOTY WYKOŃCZENIOWE                                  125
WARUNKI OGÓLNE                                         87
ROBOTY ZIEMNE                                          77
ODWODNIENIE KORPUSU DROGOWEGO                          69
INNE ROBOTY                                            29
WYMAGANIA OGÓLNE                                        2
WARSTWA MROZOOCHRONNA Z MIESZANKI NIEZWIĄZANEJ          1
Name: Kategoria, dtype: int64

**Note**

As you can see above,the "Ilosc, Cena_jedn, Wartosc_calkowita and Rok" columns contains wrong data type, we will convert them to float and DateTime data type. What is more the "Kategoria" column contain incomplete category names. In the next few steps we will fix these errors.

**Cleaning the "Kategoria" column**

In [12]:
road_data['Kategoria_fixed'] = road_data['Kategoria'].apply(match_category)

In [13]:
road_data.drop('Kategoria', inplace=True, axis=1)

In [14]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_fixed
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280764.20,DK12ZW,2019,WARUNKI OGOLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019,WARUNKI OGOLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224591.36,DK12ZW,2019,WARUNKI OGOLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019,WARUNKI OGOLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,27986.42,DK12ZW,2019,WARUNKI OGOLNE
...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,56.17,5517.28,DW919SK,2015,ZIELEN DROGOWA
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1150.87,58594.33,DW919SK,2015,INNE ROBOTY
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,308.16,2365.31,DW919SK,2015,INNE ROBOTY
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,276.75,6863.23,DW919SK,2015,INNE ROBOTY


In [15]:
road_data['Ilosc'] = pd.to_numeric(road_data['Ilosc'],errors='coerce')

**Cleaning the "Ilosc", "Cena_jedn" and "Wartosc_calkowita" columns**

In [16]:
road_data['Ilosc'] = pd.to_numeric(road_data['Ilosc'],errors='coerce')

In [17]:
road_data['Cena_jedn'] = pd.to_numeric(road_data['Cena_jedn'],errors='coerce')

In [19]:
road_data['Wartosc_calkowita'] = pd.to_numeric(road_data['Wartosc_calkowita'],errors='coerce')

**Cleaning the "Rok" column**

In [20]:
road_data['Rok'] = pd.to_numeric(road_data['Rok'],errors='coerce')

In [22]:
road_data['Rok'] = pd.to_datetime(road_data['Rok'], format='%Y')

In [23]:
road_data

Unnamed: 0,Elementy_rozliczeniowe,Jednostka,Ilosc,Cena_jedn,Wartosc_calkowita,Droga,Rok,Kategoria_fixed
3,Koszt dostosowania się do wymagań ogólnych zaw...,ryczałt,1.00,280864.20,280764.20,DK12ZW,2019-01-01,WARUNKI OGOLNE
4,Dokumentacja realizacyjno-technologiczna i dok...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE
5,"Koszt utrzymania dróg, po których odbywać się ...",ryczałt,1.00,224691.36,224591.36,DK12ZW,2019-01-01,WARUNKI OGOLNE
6,Saperskie sprawdzenie terenu pod kątem niewypa...,ryczałt,1.00,33703.70,33603.70,DK12ZW,2019-01-01,WARUNKI OGOLNE
7,Nadzór archeologiczny wraz z wykonaniem ratown...,ryczałt,1.00,28086.42,27986.42,DK12ZW,2019-01-01,WARUNKI OGOLNE
...,...,...,...,...,...,...,...,...
6,Mieszanka roślin rabatowych,m2,100.00,56.17,5517.28,DW919SK,2015-01-01,ZIELEN DROGOWA
10,"Ścianki oporowe typu ""L"" - gr 25 cm, wysokość ...",m,51.00,1150.87,58594.33,DW919SK,2015-01-01,INNE ROBOTY
11,"Ścianki oporowe typu ""L"" - gr. 10 cm, wysokość...",m,8.00,308.16,2365.31,DW919SK,2015-01-01,INNE ROBOTY
13,Wykonanie schodów i zejść do posesji z element...,m2,25.16,276.75,6863.23,DW919SK,2015-01-01,INNE ROBOTY


In [24]:
road_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1901 entries, 3 to 15
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   Elementy_rozliczeniowe  1901 non-null   object        
 1   Jednostka               1901 non-null   object        
 2   Ilosc                   1899 non-null   float64       
 3   Cena_jedn               1901 non-null   float64       
 4   Wartosc_calkowita       1899 non-null   float64       
 5   Droga                   1901 non-null   object        
 6   Rok                     1901 non-null   datetime64[ns]
 7   Kategoria_fixed         1901 non-null   object        
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 133.7+ KB
