In [None]:
import pandas as pd
import seaborn as sns
from google.colab import drive

## Zbiory danych kaggle

W tym zeszycie będziemy omawiać zestawienie zbiorów danych dostępnych na platformie kaggle.

Dane zostały udostępnione na podstawie licencji CC0 na [tej stronie kaggle](https://www.kaggle.com/canggih/voted-kaggle-dataset) i wstępnie przez nas przygotowane.

Zapoznajmy się z materiałem dostępnym w notebooku i na podstawie instrukcji przygotujmy dane, które będą potrzebne podczas zajęć.

**Uwaga.** Wracając do dokumentu, pamiętaj o ponownym wywołaniu komórek z kodem.

### Zawartość zbioru danych

W zbiorze znajdują się informacje o:

*   **Title** - nazwie zbioru danych,
*   **Data Type** - formie, w jakiej zbiór został udostępniony,
*   **Licence** - licencji na podstawie, której dopuszczone jest korzystanie ze zbioru,
*   **Votes** - liczbie głosów oddanych na zbiór,
*   **Views** - liczbie wyświetleń zbioru,
*   **Downloads** - liczbie pobrań zbioru,
*   **Kernels** - liczbie materiałów stworzonych w oparciu o zbiór,
*   **Topics** - liczbie tematów.







Potrzebne nam dane zostały udostępnione wraz z dokumentem - poniższy kod importuje plik.

In [None]:
drive.mount('/content/drive')

In [None]:
kaggle = pd.read_csv('kaggle-ds.csv')
kaggle

## Przygotowanie zeszytu

Na początku chcemy upewnić się, że dane zostały poprawnie rozpoznane i dokonać potrzebnych konwersji.

Na podstawie podglądu danych powyżej spodziewamy się, że pierwsza kolumna zawiera informacje tekstowe pozwalające na odróżnienie poszczególnych zbiorów danych. W przypadku kolumn **Data Type** i **Licence** spodziewamy się, że przechowują w postaci tekstowej informacje o kategoriach.

Pozostałe kolumny zakładamy, że są kolumnami numerycznymi. Sprawdźmy jak faktycznie wyglądają dane w zestawie.

### Sprawdzenie typów danych

Poniżej potrzebujemy wykonać dołączone instrukcje, aby otrzymać ramki danych wykorzystywane na zajęciach.

Na początek sprawdźmy, jak zostały rozpoznane dane podczas importu.

In [None]:
kaggle.dtypes

Określmy, czy w danych znajdują się rekordy, dla których brakuje informacji w którejkolwiek z kolumn.

In [None]:
"complete records: " + str(len(kaggle.dropna(how="any"))) + "; total records: " + str(len(kaggle))

## Konwersja typów zbiorów danych

Przyjrzyjmy się informacjom dotyczącym typów zbiorów danych w kolumnie **Data Type**.

In [None]:
kaggle["Data Type"].value_counts()

W tym przypadku jedynie rozpoznamy typ danych jako kategoryczny.

In [None]:
kaggle["Data Type"] = kaggle["Data Type"].astype("category")

### Konwersja licencji do kategorii

W następnej kolejności spójrzmy, jakie typy licencji występują w kolumnie **Licence**.

In [None]:
kaggle["License"].value_counts()

Tu również wystarczy nam, jeśli dane zostaną rozpozane jako kategoria.

In [None]:
kaggle["License"] = kaggle["License"].astype("category")

### Analiza zmiennych numerycznych

Poświęćmy jeszcze chwilę na przegląd podstawowych statystyk dla zmiennych numerycznych.

In [None]:
kaggle.describe()

Zauważmy, że we wszystkich przypadkach obserwujemy wielokrotnie wyższe wartości maksymalne od wartości średnich, jednocześnie w przypadku wszystkich statystyk z wyjątkiem **Topics** odchylenie standardowe wielokrotnie przekracza wielkość średniej.

Spodziewamy się, że w tym zestawieniu znajdują się zbiory znacząco odstające od większości rekordów.

## Zadania