<a href="https://colab.research.google.com/github/Vektor79/Zadania_samodzielne/blob/main/petrol_prices.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import seaborn as sns
from google.colab import drive

## Ceny paliw w Indiach

W tym zeszycie będziemy omawiać zestawienie zbiorów danych dostępnych na platformie kaggle.

Dane zostały udostępnione na podstawie licencji CC0 na [tej stronie kaggle](https://www.kaggle.com/syedjaferk/petrol-price-data-by-district).

Zapoznajmy się z materiałem dostępnym w notebooku i na podstawie instrukcji przygotujmy dane, które będą potrzebne podczas zajęć.

**Uwaga.** Wracając do dokumentu, pamiętaj o ponownym wywołaniu komórek z kodem.

### Zawartość zbioru danych

W tym przypadku importujemy informacje dotyczące:

*   **city** - miasta, dla którego odnotowano wskazaną cenę,
*   **date** - daty, kiedy odnotowano daną cenę,
*   **rate** - ceny paliwa,
*   **district** - dysktryktu Indii, w którym znajduje się miasto.



Potrzebne nam dane zostały udostępnione wraz z dokumentem - poniższy kod importuje plik.

In [2]:
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
petrol_prices = pd.read_csv('/content/drive/My Drive/Vis/04_Petrol_Prices/petrol_prices.csv')
petrol_prices

Unnamed: 0,city,date,rate,district
0,Chittoor,2016-07-01,70.75,Andhra Pradesh
1,Chittoor,2016-07-15,68.43,Andhra Pradesh
2,Chittoor,2016-08-01,67.06,Andhra Pradesh
3,Chittoor,2016-08-15,66.08,Andhra Pradesh
4,Chittoor,2016-09-01,69.56,Andhra Pradesh
...,...,...,...,...
21679,Kadapa,2021-02-25,96.12,Andhra Pradesh
21680,Kadapa,2021-02-26,96.12,Andhra Pradesh
21681,Kadapa,2021-02-27,96.36,Andhra Pradesh
21682,Kadapa,2021-02-28,96.36,Andhra Pradesh


## Przygotowanie zeszytu

Na początku chcemy upewnić się, że dane zostały poprawnie rozpoznane i dokonać potrzebnych konwersji.

Na podstawie podglądu danych powyżej spodziewamy się, że pierwsza kolumna zawiera informacje tekstowe, podobnie jest w przypadku kolumny ostatniej. Kolumna **date** zakładamy, że powinna zawierać wyłącznie daty, zaś **rate** wartości numeryczne.

Sprawdźmy, co w rzeczywistości znajduje się w zestawie.

### Sprawdzenie typów danych

Poniżej potrzebujemt wykonać dołączone instrukcje, aby otrzymać ramki danych wykorzystywane na zajęciach.

Najpierw sprawdźmy, jak zostały rozpoznane dane podczas importu.

In [None]:
petrol_prices.dtypes

Unnamed: 0,0
city,object
date,object
rate,float64
district,object


Podobnie jak w przypadku pozostałych zbiorów, określmy, czy w danych znajdują się rekordy, dla których brakuje informacji w którejkolwiek z kolumn.

In [None]:
"complete records: " + str(len(petrol_prices.dropna(how="any"))) + "; total records: " + str(len(petrol_prices))

'complete records: 21684; total records: 21684'

### Konwersja daty

W przypadku kolumny **date** potrzebujemy dokonać konwersji danych tak, by zostały one rozpoznane jako poprawne daty.

In [None]:
petrol_prices["date"] = pd.to_datetime(petrol_prices["date"])

Określmy jeszcze, czy każda z dat występuje w zbiorze tę samą liczbę razy - jeśli nie, spodziewamy się, że w przypadku pewnych miast nie będziemy posiadali informacji dla pełnego okresu.

In [None]:
petrol_prices["date"].value_counts()

Unnamed: 0_level_0,count
date,Unnamed: 1_level_1
2019-08-27,25
2016-11-06,25
2016-11-16,25
2017-10-04,25
2020-02-27,24
...,...
2019-08-12,1
2019-07-12,1
2019-07-11,1
2019-03-29,1


### Identyfikacja nazw miast w zbiorze

W następnej kolejności przyjrzyjmy się zawartości kolumny **city**.

In [None]:
petrol_prices["city"].value_counts()

Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
Chandigarh,1044
Hyderabad,1036
Silvassa,964
Daman,964
Itanagar,920
Port Blair,916
Vizag,880
Guntur,880
Golaghat,880
Ambikapur,880


Zauważmy, że w zbiorze znajdują się grupy miast, dla których posiadamy podobne liczby obserwacji. Możemy spodziewać się, że ciekawe wnioski możemy otrzymać, zestawiając ze sobą obserwacje dla:
*   Chandigarh i Hyderabad,
*   Silvassa i Daman,
*   Itanagar i Port Blair,
*   Vizag, Guntur, Araria, Golaghat i Ambikapur,
*   Grupy miast, dla których posiadamy 876 obserwacji,

o ile mówimy w tych przypadkach o zbliżonych okresach.


### Identyfikacja nazw dystryktów w zbiorze

Kolejną kolumną, której przyjrzymy się bliżej jest **district**.

In [None]:
petrol_prices["district"].value_counts()

Unnamed: 0_level_0,count
district,Unnamed: 1_level_1
Andhra Pradesh,12428
Assam,2632
Chandigarh,1044
Dadra and Nagar Haveli,964
Daman and Diu,964
Arunachal Pradesh,920
Andaman and Nicobar Islands,916
Chhattisgarh,880
Bihar,880
Delhi,56


W tym przypadku zmienimy typ danych na kategoryczny.

In [None]:
petrol_prices["district"] = petrol_prices["district"].astype("category")

### Statystyki cen

Na koniec przyjrzyjmy się statystykom obserwowanych cen.

In [None]:
petrol_prices.describe()

Unnamed: 0,date,rate
count,21684,21684.0
mean,2019-07-19 17:19:25.467625984,77.714397
min,2011-11-16 00:00:00,48.6
25%,2018-09-17 00:00:00,73.65
50%,2019-11-05 00:00:00,77.15
75%,2020-07-19 00:00:00,83.62
max,2021-03-01 00:00:00,97.85
std,,7.312926


## Zadania