In [None]:
import pandas as pd
import seaborn as sns
from google.colab import drive

## Ceny paliw w Indiach

W tym zeszycie będziemy omawiać zestawienie zbiorów danych dostępnych na platformie kaggle.

Dane zostały udostępnione na podstawie licencji CC0 na [tej stronie kaggle](https://www.kaggle.com/syedjaferk/petrol-price-data-by-district).

Zapoznajmy się z materiałem dostępnym w notebooku i na podstawie instrukcji przygotujmy dane, które będą potrzebne podczas zajęć.

**Uwaga.** Wracając do dokumentu, pamiętaj o ponownym wywołaniu komórek z kodem.

### Zawartość zbioru danych

W tym przypadku importujemy informacje dotyczące:

*   **city** - miasta, dla którego odnotowano wskazaną cenę,
*   **date** - daty, kiedy odnotowano daną cenę,
*   **rate** - ceny paliwa,
*   **district** - dysktryktu Indii, w którym znajduje się miasto.



Potrzebne nam dane zostały udostępnione wraz z dokumentem - poniższy kod importuje plik.

In [None]:
drive.mount('/content/drive')

In [None]:
petrol_prices = pd.read_csv('/content/drive/My Drive/Vis/Petrol Prices/petrol_prices.csv')
petrol_prices

## Przygotowanie zeszytu

Na początku chcemy upewnić się, że dane zostały poprawnie rozpoznane i dokonać potrzebnych konwersji.

Na podstawie podglądu danych powyżej spodziewamy się, że pierwsza kolumna zawiera informacje tekstowe, podobnie jest w przypadku kolumny ostatniej. Kolumna **date** zakładamy, że powinna zawierać wyłącznie daty, zaś **rate** wartości numeryczne.

Sprawdźmy, co w rzeczywistości znajduje się w zestawie.

### Sprawdzenie typów danych

Poniżej potrzebujemt wykonać dołączone instrukcje, aby otrzymać ramki danych wykorzystywane na zajęciach.

Najpierw sprawdźmy, jak zostały rozpoznane dane podczas importu.

In [None]:
petrol_prices.dtypes

Podobnie jak w przypadku pozostałych zbiorów, określmy, czy w danych znajdują się rekordy, dla których brakuje informacji w którejkolwiek z kolumn.

In [None]:
"complete records: " + str(len(petrol_prices.dropna(how="any"))) + "; total records: " + str(len(petrol_prices))

### Konwersja daty

W przypadku kolumny **date** potrzebujemy dokonać konwersji danych tak, by zostały one rozpoznane jako poprawne daty.

In [None]:
petrol_prices["date"] = pd.to_datetime(petrol_prices["date"])

Określmy jeszcze, czy każda z dat występuje w zbiorze tę samą liczbę razy - jeśli nie, spodziewamy się, że w przypadku pewnych miast nie będziemy posiadali informacji dla pełnego okresu.

In [None]:
petrol_prices["date"].value_counts()

### Identyfikacja nazw miast w zbiorze

W następnej kolejności przyjrzyjmy się zawartości kolumny **city**.

In [None]:
petrol_prices["city"].value_counts()

Zauważmy, że w zbiorze znajdują się grupy miast, dla których posiadamy podobne liczby obserwacji. Możemy spodziewać się, że ciekawe wnioski możemy otrzymać, zestawiając ze sobą obserwacje dla:
*   Chandigarh i Hyderabad,
*   Silvassa i Daman,
*   Itanagar i Port Blair,
*   Vizag, Guntur, Araria, Golaghat i Ambikapur,
*   Grupy miast, dla których posiadamy 876 obserwacji,

o ile mówimy w tych przypadkach o zbliżonych okresach.


### Identyfikacja nazw dystryktów w zbiorze

Kolejną kolumną, której przyjrzymy się bliżej jest **district**.

In [None]:
petrol_prices["district"].value_counts()

W tym przypadku zmienimy typ danych na kategoryczny.

In [None]:
petrol_prices["district"] = petrol_prices["district"].astype("category")

### Statystyki cen

Na koniec przyjrzyjmy się statystykom obserwowanych cen.

In [None]:
petrol_prices.describe()

## Zadania