# Big Data w biznesie

## Pierwszy notebook

In [None]:
from IPython.core.display import HTML

def _set_css_style(css_file_path):
   """
   Read the custom CSS file and load it into Jupyter.
   Pass the file path to the CSS file.
   """

   styles = open(css_file_path, "r").read()
   s = '<style>%s</style>' % styles
   return HTML(s)
_set_css_style("../custom.css")

Pierwszym krokiem, który zazwyczaj wykonujemy, jest zaimportowanie potrzebnych nam bibliotek.

In [None]:
import numpy as np
import pandas as pd

# Zapisywanie i wczytywanie

Funkcja `read_csv("./lokalizacja_pliku/nazwa_pliku.csv")` w bibliotece Pandas odczytuje plik CSV (Comma Separated Values) i tworzy obiekt typu DataFrame Pandas.

Argument funkcji jest ścieżką do pliku CSV.

Funkcja `pd.read_csv` załaduje dane z pliku do DataFrame Pandas, a rezultat powinien zostać przypisany do zmiennej.

In [None]:
df = pd.read_csv("./cars.csv")

Możesz także stworzyć swój własny obiekt typu DataFrame w bibliotece pandas.

Możesz użyć do tego funkcji `pd.DataFrame()`.

Na przykład:

In [None]:
data = {"Name": ["John", "Jane", "Jim", "Joan"],
        "Age": [32, 28, 40, 38],
        "Occupation": pd.Categorical(["Engineer", "Doctor", "Teacher", "Lawyer"]),
        "City": pd.Categorical(["New York", "London", "Paris", "Berlin"]),
        "Salary": [100000, 115000, 90000, 125000],
        "Year of Experience": [5, 7, 8, 12],
        "Employed": [True, True, False, True],
        "Date of Application": pd.Timestamp("20230208", "20221218", "20230131", "20230228")}
df_created = pd.DataFrame(data)

Funkcje `df.to_csv` to narzędzie do eksportowania danych z obiektu DataFrame do pliku CSV.

In [None]:
df_created.to_csv("random_index.csv")

In [None]:
df_created.to_csv("random_noindex.csv", index=False)

Funkcja `df.to_csv("random_index.csv")` eksportuje dane z DataFrame, zachowując indeks w pliku wyjściowym.

Funkcja `df.to_csv("random_noindex.csv", index = False)` eksportuje dane z DataFrame bez zachowywania indeksu w pliku wyjściowym.

Często, indeks jest używany jako identyfikator wiersza w DataFrame i nie jest przypisany do danych ani nie jest ich częścią. W takim przypadku, zachowanie indeksu w pliku CSV może prowadzić do nieporozumień, jeśli jest on używany jako kolumna w danych. Z tego powodu, często jest wygodne, aby wyeksportować plik CSV bez indeksu, aby uniknąć nieporozumień i upewnić się, że dane są przechowywane jako czysta tabela bez informacji o indeksie.

# Szybka analiza danych

Gdy chcemy szybko zobaczyć, jak wyglądają dane, funkcje `df.head()` oraz `df.tail()` są przydatne i często używane jako pierwszy krok w analizie danych.

Funkcje te mogą przyjmować opcjonalny argument liczbowy, który określa, ile wierszy chcemy zobaczyć. W tym przypadku argumenty wynoszą odpowiednio 5 oraz 10.

In [None]:
df.head(5)

In [None]:
df.tail(10)

Czasami chcemy się dowiedzieć więcej o naszych danych.

Funkcja `df.info()` wyświetla informacje o każdej kolumnie w DataFrame, w tym liczbę niezerowych wartości, typ danych i zużycie pamięci.

Funkcja `df.describe()` wyświetla statystyki opisowe dla kolumn numerycznych.

Opcjonalny argument `include = "all"` oznacza, że statystyki opisowe będą obliczone dla wszystkich typów danych, w tym tekstowych.

Statystyki opisowe zawierają informacje takie jak średnia, odchylenie standardowe, minimum, maksimum, kwartyle i inne.

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.describe(include = "all")

Istnieje wiele funkcji, które dostarczają nam informacji o naszym obiekcie DataFrame.

Funkcja `df.dtypes` zwraca typ danych każdej kolumny w DataFrame. Dzięki temu możemy łatwo określić, czy kolumna zawiera liczby, czy tekst, co jest ważne przy wykonywaniu różnych operacji na danych.

Funkcja `df.shape` zwraca kształt DataFrame jako parę liczb, która odpowiada liczbie wierszy i liczbie kolumn. Ta informacja jest przydatna do określenia rozmiaru danych, co jest ważne przy planowaniu operacji i algorytmów, które będą wykonywane na danych.

In [None]:
df.dtypes

In [None]:
df.shape

# Odwoływanie się do podzbiorów

Funkcja `df.columns` zwraca nazwy wszystkich kolumn w DataFrame jako Index. Dzięki temu możemy łatwo uzyskać dostęp do kolumn poprzez ich nazwy, co jest wygodne w wielu sytuacjach, takich jak wybieranie określonych kolumn lub zmiana nazw kolumn.

Aby użyć nazw kolumn, możemy po prostu użyć ich jako kluczy w DataFrame tak jak w przypadku słownika w Pythonie. Na przykład, jeśli mamy kolumnę o nazwie `"nazwisko"`, możemy uzyskać dostęp do niej, używając `df["nazwisko"]`.

Ta sama operacja może być wykonana za pomocą składni `df.nazwisko`, ale jest to mniej preferowane, ponieważ może być łatwo mylące w przypadku kolumn o takich samych nazwach jak nazwy zmiennych.


In [None]:
df.columns

In [None]:
df['model_name']

In [None]:
df.model_name

Składania `df.nazwisko` nie zadziała, jeśli w nazwie kolumny występuje znak spacji.

Oprócz tego, nazwy kolumn nie powinny zawierać spacji, ponieważ spacje mogą powodować problemy z odczytem danych, a także z interpretacją i przetwarzaniem danych. W niektórych językach programowania, takich jak Python, spacje są używane jako separatory. Dlatego, w takich językach, nazwy kolumn zawierające spacje powodują, że nazwy stają się niepoprawne i nie da się z nich korzystać w kodzie. Ponadto, w wielu programach do analizy danych, spacje są automatycznie zamieniane na podkreślenia lub inne znaki, co może powodować nieporozumienia i błędy. W związku z tym najlepiej jest unikać stosowania spacji w nazwach kolumn.

Funkcje `df[["manufacturer_name", "model_name"]]` i `df.loc[2000:3000, ['engine_capacity']]` oraz `df.iloc[10000:20000, 0:2]` umożliwiają tworzenie podzbiorów DataFrame, czyli wybieranie określonych wierszy i kolumn z całego DataFrame.

Metoda `df[["manufacturer_name", "model_name"]]` pozwala na wybieranie kolumn o określonych nazwach i tworzenie nowego DataFrame, który zawiera tylko wybrane kolumny.

Metoda `df.loc[2000:3000:19511, ['engine_capacity']]` pozwala na wybieranie wierszy z określonego zakresu za pomocą indeksu i kolumn o określonych nazwach, a następnie tworzenie nowego DataFrame, który zawiera wybrane wiersze i kolumny.

Metoda `df.iloc[10000:20000, 0:2]` pozwala na wybieranie wierszy i kolumn za pomocą ich pozycji numerycznej. W tym przypadku wybieramy wiersze z zakresu od 10000 do 20000 i kolumny od 0 do 2.

W każdym przypadku możemy użyć nowo utworzonego DataFrame jak normalnego DataFrame, do wykonywania operacji, takich jak analiza danych, wizualizacja lub przekształcanie danych.

In [None]:
df[["manufacturer_name", "model_name"]]

In [None]:
df.loc[2000:3000, ['engine_capacity']]

In [None]:
df.iloc[10000:20000, 0:2]

Różnica pomiędzy `df.loc` i `df.iloc` polega na tym, jakie indeksy są używane do wybierania wierszy i kolumn w DataFrame.

`df.loc` używa indeksu etykietowanego, aby wybrać wiersze i kolumny. Możesz użyć etykiety wiersza lub nazwy kolumny, aby wybrać dane.

`df.iloc` używa indeksu numerycznego, aby wybrać wiersze i kolumny. Oznacza to, że musisz użyć pozycji numerycznej wiersza i kolumny, aby wybrać dane.

W skrócie, jeśli chcesz wybrać dane na podstawie etykiet lub nazw, użyj `df.loc`, a jeśli chcesz wybrać dane na podstawie pozycji numerycznej, użyj `df.iloc`.

Aby utworzyć twardą kopię w bibliotece pandas, można użyć metody `df.copy()`.

In [None]:
subset_copy = df.copy()

Tworzenie twardej kopii w bibliotece pandas jest zalecane, ponieważ miękka kopia nie jest całkowicie niezależna od oryginalnego obiektu i może powodować nieoczekiwane zmiany.

Jeśli użyjesz miękkiej kopii, a następnie zmodyfikujesz skopiowany obiekt, zmiany te również wpłyną na oryginalny obiekt. W przypadku twardej kopii tego problemu nie ma, ponieważ twarda kopia jest całkowicie niezależna od oryginalnego obiektu i zmiany wprowadzone do skopiowanego obiektu nie wpłyną na oryginalny obiekt.

Funkcja `df.sample(n = liczba)` służy do wyboru losowych wierszy z ramki danych (DataFrame). Argument `n` określa liczbę losowych wierszy, które mają zostać wybrane i zwrócone jako nowa ramka danych. Jeśli argument `n` nie jest określony, funkcja `df.sample()` zwraca jeden losowy wiersz.

Przykład:
`df.sample(n = 5)` zwróci 5 losowych wierszy z ramki danych df.

In [None]:
df_subset = df.sample(n=3853).copy()

Jeśli chcemy potem manipulować stworzonym w ten sposób obiektem, warto stworzyć twardą kopię.

# Typy danych

W bibliotece Pandas najczęściej używane typy danych to:

1. int64 - reprezentuje liczby całkowite
2. float64 - reprezentuje liczby zmiennoprzecinkowe
3. object - reprezentuje tekst lub ciągi znaków
4. datetime - reprezentuje daty i czas
5. bool - reprezentuje wartości logiczne (prawda/fałsz)
6. category - reprezentuje dane kategorialne

Chociaż te typy danych są najczęściej używane, biblioteka Pandas oferuje również inne typy danych, takie jak timedelta, complex i Categorical.

Aby sprawdzić typ danych w kolumnie, można skorzystać z atrybutu dtypes ramki danych:

`df['column_name'].dtypes`

Aby zmienić typ danych w kolumnie, można skorzystać z metody `df.astype()`:


`df['column_name'] = df['column_name'].astype(np.int64)`

Gdzie `np.int64` jest typem danych, na jaki chcesz zmienić dane w kolumnie.

Pierwsza funkcja `df_subset['transmission'].dtype` zwraca typ danych w kolumnie 'transmission' w ramce danych `df_subset`.

Druga funkcja `df_subset['transmission'] = df_subset['transmission'].astype('category')` zmienia typ danych w kolumnie 'transmission' w ramce danych `df_subset` na typ `'category'`. Typ `'category'` jest specjalnym typem danych w bibliotece Pandas, który jest używany do reprezentowania danych kategorialnych i jest często używany do optymalizacji pamięci.

In [None]:
df_subset['transmission'].dtype

In [None]:
df_subset['transmission'] = df_subset['transmission'].astype('category')

Po tej operacji typ danych w kolumnie 'transmission' w ramce danych `df_subset` powinien zostać zmieniony na `category`.

Typ danych `category` jest lepszy od `object` w wielu sytuacjach, ponieważ:

1. Efektywniej wykorzystuje pamięć: Typ danych `category` zajmuje mniej pamięci niż `object`, ponieważ wartości kategorii są zapisywane jako indeksy, a nie jako pełne ciągi znaków.

2. Szybsze wykonywanie operacji: Operacje na danych typu `category` są szybsze niż na danych typu `object`, ponieważ Pandas może użyć optymalizacji wewnętrznych dla danych typu `category`.

3. Łatwiejsze wizualizacje danych: Typ danych `category` jest łatwiejszy w wizualizacji danych, ponieważ Pandas może automatycznie użyć etykiet kategorii zamiast wartości ciągów znaków.

Ogólnie, warto użyć danych typu `category` wtedy, gdy kolumna zawiera wartości kategorii, takie jak kolory, marki, typy itp. i liczba unikalnych wartości jest niewielka.
Typ `category` jest również użyteczny, gdy kolumna jest duża i chcesz zaoszczędzić pamięć lub przyspieszyć operacje.

Metoda `df.unique()` jest używana do wyświetlenia unikalnych wartości w kolumnie DataFrame. Zwraca tablicę wartości, które występują w danej kolumnie.

In [None]:
df['transmission'].unique()

# Sortowanie danych

Funkcja `df.sort_index()` sortuje wiersze w DataFrame zgodnie z indeksem. Funkcja ta nie zmienia oryginalnego DataFrame, ale zwraca posortowany DataFrame jako wynik działania.

Domyślnie, sortowanie jest wykonywane w kolejności rosnącej.
Można również sortować w kolejności malejącej, określając parametr ascending jako False.

Argument axis określa, czy sortowanie ma być wykonane po wierszach (axis = 0) czy po kolumnach (axis = 1). Domyślnie jest to axis = 0.

In [None]:
df.sort_index(axis=1)

In [None]:
df.sort_index(axis=0)

Funkcja `df.sort_values` służy do sortowania danych w DataFrame. Domyślnie sortuje dane wg wartości w kolumnach, ale można też sortować wg indeksu, używając argumentu by i wpisując tam axis = 0. Funkcja sort_values pozwala sortować dane po jednej lub kilku kolumnach i można określić, czy mają być posortowane rosnąco (domyślnie) czy malejąco, używając argumentu ascending.

In [None]:
df.sort_values('engine_capacity')

Funkcja `df.sort_index` sortuje wiersze w DataFrame w zależności od indeksów, natomiast `df.sort_values` sortuje wiersze na podstawie wartości w określonych kolumnach. Można sortować w kolejności rosnącej lub malejącej, a także po kilku kolumnach jednocześnie. Funkcja `df.sort_index` jest używana, gdy chcemy posortować DataFrame według indeksów, a funkcja `df.sort_values` jest używana, gdy chcemy posortować DataFrame według wartości w kolumnach.

# Format zapisu

Biblioteka pandas wspiera wiele formatów danych, w tym CSV, Excel, JSON, SQL, SAS, Stata i HDF5.

 Można wczytywać i zapisywać dane w tych formatach przy użyciu funkcji takich jak read_csv, read_excel, read_json, read_sql, read_sas, read_stata i read_hdf, odpowiednio.

Analogicznie, dane można zapisywać w tych formatach przy użyciu funkcji takich jak to_csv, to_excel, to_json, to_sql, to_sas, to_stata i to_hdf.

Pandas obsługuje wiele formatów danych, w tym:

- CSV
- Excel
- JSON
- HTML
- SAS
- STATA
- HDF5
- Parquet
- Feather
- Msgpack
- Google BigQuery

Oprócz tych istnieją także biblioteki, które umożliwiają ładowanie danych z innych źródeł, takich jak bazy danych SQL i plików tekstowych, np. biblioteka SQLAlchemy i biblioteka PySpark.

Różne formaty plików mają różne wady i zalety. Najważniejsze formaty, takie jak CSV, Excel, JSON i SQL, mają następujące zalety i wady:

<b>CSV (Comma Separated Values)</b>

Zalety:

- Prosty w odczycie i zapisie
- Ma dobrą kompatybilność z innymi narzędziami analitycznymi

Wady:

- Może wystąpić nieporozumienie, jeśli niektóre kolumny zawierają przecinki

<b>Excel</b>

Zalety:

- Łatwe w odczycie i zapisie
- Interaktywne narzędzie analityczne

Wady:

- Ograniczona skalowalność
- Otwieranie dużych plików może być powolne

<b>JSON (JavaScript Object Notation)</b>

Zalety:

- Może być używany do przechowywania i wymiany danych w różnych językach programowania
- Łatwy do odczytania przez ludzi

Wady:

- Może być powolny w przypadku dużych zestawów danych

<b>SQL</b>

Zalety:

- Optymalizowane do pracy z dużymi zestawami danych
- Proste i efektywne zarządzanie danymi

Wady:

- Wymaga znajomości języka SQL

Wybór formatu powinien być uzależniony od wymagań dotyczących przechowywania i udostępniania danych.