# Provjera i brisanja krivih podataka

## Import potrebnih library-a i pronalazak lokacije dataseta

In [9]:
import os, sys
import pandas as pd
from pathlib import Path
curr = Path.cwd().parent.parent
parr = str(curr)
parr += '/data_process/processed.parquet'


## Otvaramo dataset sa dohvacene lokacije

In [10]:
df = pd.read_parquet(parr)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119210 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   hotel_id                       119210 non-null  int32         
 1   datum_dolaska                  119210 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    119210 non-null  datetime64[ns]
 3   datum_odjave                   119210 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  44199 non-null   object        
 5   broj_odraslih_gostiju          119210 non-null  int64         
 6   broj_djece_gostiju             119210 non-null  float64       
 7   zemlja_gosta                   119210 non-null  object        
 8   kanal_prodaje_id               119210 non-null  int32         
 9   tip_sobe_id                    119210 non-null  int32         
 10  cijena_nocenja                 119210 non-null  float64       
 11  

Pretvraranje stupca datuma otkazivanja u datetime

In [11]:
df['datum_otkazivanja_rezervacije'] = pd.to_datetime(df['datum_otkazivanja_rezervacije'], errors='coerce')

## Brisanje podataka kojima je datum dolaska prije datuma kreiranja.

In [12]:
df = df[df["datum_dolaska"] >= df["datum_kreiranja_rezervacije"]]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119210 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   hotel_id                       119210 non-null  int32         
 1   datum_dolaska                  119210 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    119210 non-null  datetime64[ns]
 3   datum_odjave                   119210 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  44199 non-null   datetime64[ns]
 5   broj_odraslih_gostiju          119210 non-null  int64         
 6   broj_djece_gostiju             119210 non-null  float64       
 7   zemlja_gosta                   119210 non-null  object        
 8   kanal_prodaje_id               119210 non-null  int32         
 9   tip_sobe_id                    119210 non-null  int32         
 10  cijena_nocenja                 119210 non-null  float64       
 11  

## Brisanje greska kada je datum kreiranja poslije datuma brisanja rezervacije

In [13]:
df = df[ (df["datum_kreiranja_rezervacije"] <= df["datum_otkazivanja_rezervacije"] ) | (df["datum_otkazivanja_rezervacije"].isna()) ]
a = set(df["datum_otkazivanja_rezervacije"])
df.info()
#print(a)

<class 'pandas.core.frame.DataFrame'>
Index: 96589 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96589 non-null  int32         
 1   datum_dolaska                  96589 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96589 non-null  datetime64[ns]
 3   datum_odjave                   96589 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21578 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96589 non-null  int64         
 6   broj_djece_gostiju             96589 non-null  float64       
 7   zemlja_gosta                   96589 non-null  object        
 8   kanal_prodaje_id               96589 non-null  int32         
 9   tip_sobe_id                    96589 non-null  int32         
 10  cijena_nocenja                 96589 non-null  float64       
 11  status_rezervacije 

## Brisanje podataka gdje je broj odraslih 0

In [14]:
df = df[df["broj_odraslih_gostiju"] > 0]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96418 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96418 non-null  int32         
 1   datum_dolaska                  96418 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96418 non-null  datetime64[ns]
 3   datum_odjave                   96418 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21546 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96418 non-null  int64         
 6   broj_djece_gostiju             96418 non-null  float64       
 7   zemlja_gosta                   96418 non-null  object        
 8   kanal_prodaje_id               96418 non-null  int32         
 9   tip_sobe_id                    96418 non-null  int32         
 10  cijena_nocenja                 96418 non-null  float64       
 11  status_rezervacije 

## Brisanje podataka gdje je cijena nocenja 0 (nista nije izbaceno)

In [15]:
df = df[df["cijena_nocenja"] > 0]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96418 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96418 non-null  int32         
 1   datum_dolaska                  96418 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96418 non-null  datetime64[ns]
 3   datum_odjave                   96418 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21546 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96418 non-null  int64         
 6   broj_djece_gostiju             96418 non-null  float64       
 7   zemlja_gosta                   96418 non-null  object        
 8   kanal_prodaje_id               96418 non-null  int32         
 9   tip_sobe_id                    96418 non-null  int32         
 10  cijena_nocenja                 96418 non-null  float64       
 11  status_rezervacije 

Brisanje onih kojima je datum odjave prije datuma dolaska(nista nije izbaceno)

In [16]:
df = df[df["datum_dolaska"] <= df["datum_odjave"]]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96418 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96418 non-null  int32         
 1   datum_dolaska                  96418 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96418 non-null  datetime64[ns]
 3   datum_odjave                   96418 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21546 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96418 non-null  int64         
 6   broj_djece_gostiju             96418 non-null  float64       
 7   zemlja_gosta                   96418 non-null  object        
 8   kanal_prodaje_id               96418 non-null  int32         
 9   tip_sobe_id                    96418 non-null  int32         
 10  cijena_nocenja                 96418 non-null  float64       
 11  status_rezervacije 

## Brisanje onih kojima je datum otkazivanja nakon datuma odjave

In [17]:
df = df[ (df["datum_otkazivanja_rezervacije"] < df["datum_odjave"]) | (df["datum_otkazivanja_rezervacije"].isna())  ]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 94478 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       94478 non-null  int32         
 1   datum_dolaska                  94478 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    94478 non-null  datetime64[ns]
 3   datum_odjave                   94478 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  19606 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          94478 non-null  int64         
 6   broj_djece_gostiju             94478 non-null  float64       
 7   zemlja_gosta                   94478 non-null  object        
 8   kanal_prodaje_id               94478 non-null  int32         
 9   tip_sobe_id                    94478 non-null  int32         
 10  cijena_nocenja                 94478 non-null  float64       
 11  status_rezervacije 

# Micanje onih sa neispravnim drzavama

In [18]:
a = set(df["zemlja_gosta"])
print(a)
#jedina neispravna je 0
df = df[df["zemlja_gosta"] != '0']
df.info()

{'ARM', 'BOL', 'EST', 'SEN', 'GLP', 'GTM', 'IRL', 'ITA', 'UGA', 'KHM', 'TUR', 'PRT', 'DEU', 'ALB', 'GUY', 'CIV', 'MRT', 'CMR', 'GGY', 'CHN', 'GAB', 'DOM', 'AGO', 'DMA', 'IDN', 'BRB', 'SAU', 'UKR', 'BHR', 'LKA', 'MEX', 'TWN', 'NLD', 'BRA', 'ISR', 'DNK', 'CYM', 'SRB', 'AUT', 'ESP', 'COM', 'FRA', 'KEN', 'GBR', 'TJK', 'MOZ', 'BEN', 'MLI', 'BWA', 'MNE', 'SDN', 'MLT', 'AZE', 'KWT', 'NOR', 'PAK', 'SYC', 'NGA', 'POL', 'THA', 'TMP', 'FRO', 'ISL', 'PRI', 'IRQ', 'PAN', 'NZL', 'URY', 'SYR', 'MCO', 'ZAF', 'MWI', 'BGR', 'GHA', 'CYP', 'RUS', 'QAT', 'LIE', 'HKG', 'SMR', 'LBY', 'BEL', 'RWA', 'GRC', 'NAM', 'ASM', 'SGP', 'AND', 'LBN', 'VGB', 'ARE', 'MDV', 'LUX', 'OMN', 'CPV', 'UZB', 'CAF', 'ATF', '0', 'COL', 'JPN', 'ETH', 'USA', 'HUN', 'FJI', 'LVA', 'CZE', 'JAM', 'GIB', 'TGO', 'GEO', 'MMR', 'PHL', 'CHE', 'FIN', 'TUN', 'KAZ', 'ZWE', 'VEN', 'MKD', 'LTU', 'AUS', 'JEY', 'IND', 'BDI', 'TZA', 'ATA', 'PYF', 'BIH', 'CN', 'MAC', 'DJI', 'SWE', 'CRI', 'PRY', 'MDG', 'VNM', 'SVN', 'ECU', 'LAO', 'SUR', 'JOR', 'DZA', '

# Provjera stausa rezervacije

In [19]:
a = set(df["status_rezervacije"])
print(a)

{'Canceled', 'No-Show', 'Check-Out'}


# Spremanje ociscenih podataka u datoteku

In [20]:
df.to_csv('cleaned_data.csv')