# Provjera i brisanja krivih podataka

## Import potrebnih library-a i pronalazak lokacije dataseta

In [44]:
import os, sys
import pandas as pd
curr = os.getcwd()
parr = os.path.dirname(curr)
parr += '/data_process/processed.parquet'
print(parr)

/home/matijak/Documents/lumen/data_process/processed.parquet


## Otvaramo dataset sa dohvacene lokacije

In [45]:
df = pd.read_parquet(parr)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119210 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   hotel_id                       119210 non-null  int32         
 1   datum_dolaska                  119210 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    119210 non-null  datetime64[ns]
 3   datum_odjave                   119210 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  44199 non-null   object        
 5   broj_odraslih_gostiju          119210 non-null  int64         
 6   broj_djece_gostiju             119210 non-null  float64       
 7   zemlja_gosta                   119210 non-null  object        
 8   kanal_prodaje_id               119210 non-null  int32         
 9   tip_sobe_id                    119210 non-null  int32         
 10  cijena_nocenja                 119210 non-null  float64       
 11  

Pretvraranje stupca datuma otkazivanja u datetime

In [46]:
df['datum_otkazivanja_rezervacije'] = pd.to_datetime(df['datum_otkazivanja_rezervacije'], errors='coerce')

## Brisanje podataka kojima je datum dolaska prije datuma kreiranja.

In [47]:
df = df[df["datum_dolaska"] >= df["datum_kreiranja_rezervacije"]]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119210 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   hotel_id                       119210 non-null  int32         
 1   datum_dolaska                  119210 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    119210 non-null  datetime64[ns]
 3   datum_odjave                   119210 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  44199 non-null   datetime64[ns]
 5   broj_odraslih_gostiju          119210 non-null  int64         
 6   broj_djece_gostiju             119210 non-null  float64       
 7   zemlja_gosta                   119210 non-null  object        
 8   kanal_prodaje_id               119210 non-null  int32         
 9   tip_sobe_id                    119210 non-null  int32         
 10  cijena_nocenja                 119210 non-null  float64       
 11  

## Brisanje greska kada je datum kreiranja poslije datuma brisanja rezervacije

In [48]:
df = df[ (df["datum_kreiranja_rezervacije"] <= df["datum_otkazivanja_rezervacije"] ) | (df["datum_otkazivanja_rezervacije"].isna()) ]
a = set(df["datum_otkazivanja_rezervacije"])
df.info()
#print(a)

<class 'pandas.core.frame.DataFrame'>
Index: 96589 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96589 non-null  int32         
 1   datum_dolaska                  96589 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96589 non-null  datetime64[ns]
 3   datum_odjave                   96589 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21578 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96589 non-null  int64         
 6   broj_djece_gostiju             96589 non-null  float64       
 7   zemlja_gosta                   96589 non-null  object        
 8   kanal_prodaje_id               96589 non-null  int32         
 9   tip_sobe_id                    96589 non-null  int32         
 10  cijena_nocenja                 96589 non-null  float64       
 11  status_rezervacije 

## Brisanje podataka gdje je broj odraslih 0

In [49]:
df = df[df["broj_odraslih_gostiju"] > 0]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96418 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96418 non-null  int32         
 1   datum_dolaska                  96418 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96418 non-null  datetime64[ns]
 3   datum_odjave                   96418 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21546 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96418 non-null  int64         
 6   broj_djece_gostiju             96418 non-null  float64       
 7   zemlja_gosta                   96418 non-null  object        
 8   kanal_prodaje_id               96418 non-null  int32         
 9   tip_sobe_id                    96418 non-null  int32         
 10  cijena_nocenja                 96418 non-null  float64       
 11  status_rezervacije 

## Brisanje podataka gdje je cijena nocenja 0 (nista nije izbaceno)

In [50]:
df = df[df["cijena_nocenja"] > 0]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96418 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96418 non-null  int32         
 1   datum_dolaska                  96418 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96418 non-null  datetime64[ns]
 3   datum_odjave                   96418 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21546 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96418 non-null  int64         
 6   broj_djece_gostiju             96418 non-null  float64       
 7   zemlja_gosta                   96418 non-null  object        
 8   kanal_prodaje_id               96418 non-null  int32         
 9   tip_sobe_id                    96418 non-null  int32         
 10  cijena_nocenja                 96418 non-null  float64       
 11  status_rezervacije 

Brisanje onih kojima je datum odjave prije datuma dolaska(nista nije izbaceno)

In [51]:
df = df[df["datum_dolaska"] <= df["datum_odjave"]]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96418 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       96418 non-null  int32         
 1   datum_dolaska                  96418 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    96418 non-null  datetime64[ns]
 3   datum_odjave                   96418 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  21546 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          96418 non-null  int64         
 6   broj_djece_gostiju             96418 non-null  float64       
 7   zemlja_gosta                   96418 non-null  object        
 8   kanal_prodaje_id               96418 non-null  int32         
 9   tip_sobe_id                    96418 non-null  int32         
 10  cijena_nocenja                 96418 non-null  float64       
 11  status_rezervacije 

## Brisanje onih kojima je datum otkazivanja nakon datuma odjave

In [52]:
df = df[ (df["datum_otkazivanja_rezervacije"] < df["datum_odjave"]) | (df["datum_otkazivanja_rezervacije"].isna())  ]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 94478 entries, 0 to 119209
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   hotel_id                       94478 non-null  int32         
 1   datum_dolaska                  94478 non-null  datetime64[ns]
 2   datum_kreiranja_rezervacije    94478 non-null  datetime64[ns]
 3   datum_odjave                   94478 non-null  datetime64[ns]
 4   datum_otkazivanja_rezervacije  19606 non-null  datetime64[ns]
 5   broj_odraslih_gostiju          94478 non-null  int64         
 6   broj_djece_gostiju             94478 non-null  float64       
 7   zemlja_gosta                   94478 non-null  object        
 8   kanal_prodaje_id               94478 non-null  int32         
 9   tip_sobe_id                    94478 non-null  int32         
 10  cijena_nocenja                 94478 non-null  float64       
 11  status_rezervacije 

# Micanje onih sa neispravnim drzavama

In [53]:
a = set(df["zemlja_gosta"])
print(a)
#jedina neispravna je 0
df = df[df["zemlja_gosta"] != '0']
df.info()

{'IRN', 'CIV', 'DJI', '0', 'GBR', 'BEN', 'AGO', 'MRT', 'BRA', 'KWT', 'SDN', 'SGP', 'COL', 'CHN', 'JAM', 'HRV', 'PRY', 'MDV', 'TMP', 'ARE', 'DMA', 'DEU', 'LUX', 'TUN', 'GEO', 'PHL', 'KIR', 'BWA', 'GIB', 'STP', 'NOR', 'EGY', 'MAC', 'SUR', 'NZL', 'KNA', 'USA', 'IRL', 'IRQ', 'AUT', 'LVA', 'KAZ', 'NPL', 'HKG', 'CAF', 'LKA', 'ARG', 'EST', 'MNE', 'IDN', 'UZB', 'CHE', 'ISR', 'ASM', 'COM', 'GAB', 'LTU', 'ZAF', 'FRO', 'ARM', 'OMN', 'LAO', 'DNK', 'PRI', 'DZA', 'GHA', 'ROU', 'ATF', 'CN', 'SWE', 'LBY', 'MDG', 'HUN', 'MWI', 'SYC', 'CYM', 'QAT', 'AND', 'GGY', 'ABW', 'MCO', 'SLV', 'TZA', 'TWN', 'BLR', 'MKD', 'KHM', 'NGA', 'CHL', 'PLW', 'MAR', 'BRB', 'JEY', 'VGB', 'MMR', 'NAM', 'PER', 'VNM', 'MOZ', 'MLT', 'PAN', 'ATA', 'CZE', 'UKR', 'ALB', 'ITA', 'PYF', 'FJI', 'BOL', 'AUS', 'ZMB', 'PRT', 'BHR', 'MUS', 'LBN', 'POL', 'SEN', 'KEN', 'SVN', 'BGD', 'CPV', 'PAK', 'SVK', 'GTM', 'BGR', 'UGA', 'BIH', 'GNB', 'IND', 'CRI', 'SYR', 'TUR', 'ESP', 'CUB', 'LCA', 'FRA', 'MEX', 'ISL', 'JOR', 'THA', 'LIE', 'ECU', 'MYS', '

# Provjera stausa rezervacije

In [55]:
a = set(df["status_rezervacije"])
print(a)

{'No-Show', 'Canceled', 'Check-Out'}


# Spremanje ociscenih podataka u datoteku

In [35]:
df.to_csv('cleaned_data.csv')