# Big Data w biznesie

## Pierwszy notebook rozwiązania

In [3]:
from IPython.core.display import HTML

def _set_css_style(css_file_path):
   """
   Read the custom CSS file and load it into Jupyter.
   Pass the file path to the CSS file.
   """

   styles = open(css_file_path, "r").read()
   s = '<style>%s</style>' % styles
   return HTML(s)
_set_css_style("./custom.css")

#### Zaimportuj biblioteki numpy i pandas.

In [5]:
import numpy as np
import pandas as pd

#### Załaduj plik csv.
***
Do zmiennej `df` załaduj plik `cars.csv`.

In [None]:
df = pd.read_csv("./cars.csv")

W ten sposób otrzymujemy obiekt typu Dataframe.

#### Wyświetl pierwsze 5 linijek obiektu ''df''.

In [None]:
df.head(5)

#### Wyświetl ostatnie 20 linijek obiektu obiektu ''df''.

In [None]:
df.tail(10)

#### Wyświetl podstawowe informacje o naszych danych.

In [None]:
df.info()

#### Wyświetl wymiary obiektu "df".

In [None]:
df.shape()

#### Jak otrzymać informacje o danych liczbowych znajdujących się w naszym pliku?

In [None]:
df.describe()

#### Jak otrzymać informacje o wszystkich danych znajdujących się w naszym pliku?
***
Funkcja potrzebuje parametru `include = "all"`.

In [None]:
df.describe(include = "all")

#### Wyświetl wszystkie kolumny znajdujące się w naszym obiekcie.

In [None]:
df.columns

#### Wyświetl typy danych jakie występują w poszczególnych kolumnach obiektu "df".

In [None]:
df.dtypes

#### Wyświetl dane z konkretnej kolumny.
***

Wyświetl dane z kolumny `'model_name'` na dwa sposoby.

In [None]:
df['model_name']

In [None]:
df.model_name

#### Stwórz podzbiór, który zawiera tylko wymienione kolumny.
***
Obiekt o nazwie `subset` powinien zawierać tylko kolumny `'manufacturer_name'` i `'model_name'`.

In [None]:
subset = df[["manufacturer_name", "model_name"]]

#### Skopiuj podzbiór do nowego obiektu.
***
Stwórz tzw. "hard copy" obiektu `subset` do obiektu `subset_copy`.

In [None]:
subset_copy = subset.copy()

#### Stwórz pozdbiór zawierający losowe dane i skopiuj do nowego obiektu.
***
Nowy obiekt `random_subset` powinien zawierać 3000 losowo wybranych wierszy z obiektu "df" i powinien być tzw. "hard copy".

In [None]:
df_subset = df.sample(n=3853).copy()

#### Zmień typ danych.
***
W obiekcie `df_subset`, sprawdź typ danych w  kolumnie `'transmission'`, a następnie zmień go na typ `'category'`.

In [None]:
df_subset['transmission'].dtype

In [None]:
df_subset['transmission'] = df['transmission'].astype('category')

#### Wyeksportuj obiekt do pliku .csv.
***
Zapisz dwa razy obiekt `df_subset` w formacie csv. Raz bez dodatkowych parametrów, oprócz nazwy, a drugi raz z parametrem `index = False`. Użyj dwóch różnych nazw!

In [None]:
df.to_csv("cars_index.csv")

In [None]:
df.to_csv("cars_noindex.csv", index = False)

#### Wczytaj zapisane obiekty.
***
Wczytaj do dwóch różnych obiektów (nazwy obiektów inne niż "df") i wyświetl wyeksportowane obiekty. Czy jest między nimi jakaś różnica?

In [None]:
df_index = pd.read_csv("./cars_index.csv")
df_index

In [None]:
df_noindex = pd.read_csv("./cars_noindex.csv")
df_noindex

#### Sprawdź, który typ danych jest naszybciej czytany i zapisywany
***
Poniżej znajduje się kod do tworzenia losowych danych i nadawania im odpowiednich typów.
```python
def get_dataset(size):
    df = pd.DataFrame()
    df['size'] = np.random.choice(['big','medium','small'], size)
    df['age'] = np.random.randint(1, 50, size)
    df['color'] = np.random.choice(['red','blue','yellow','green'], size)
    df['win'] = np.random.choice(['yes','no'], size)
    dates = pd.date_range('2020-01-01', '2022-12-31')
    df['date'] = np.random.choice(dates, size)
    df['probability'] = np.random.uniform(0, 1, size)
    return df

def set_dtypes(df):
    df['size'] = df['size'].astype('category')
    df['color'] = df['color'].astype('category')
    df['age'] = df['age'].astype('int16')
    df['win'] = df['win'].map({'yes':True, 'no': False})
    df['probability'] = df['probability'].astype('float32')
    return df
```
Użyj tych funkcji do stworzenia i nadania typu danym (size = 5 000 000). <br>
Następnie przy pomocy funkcji `%time` zmierz czas potrzebny do zapisania i wczytania tych danych w różnych formatach m.in.:
- csv
- pickle
- parquet
- feather

Przykład kodu:

```python
print('Reading and writing CSV')
df = get_dataset(5_000_000)
df = set_dtypes(df)
%time df.to_csv('test.csv')
%time df_csv = pd.read_csv('test.csv')
```
***

In [None]:
def get_dataset(size):
    
    df = pd.DataFrame()
    df['size'] = np.random.choice(['big','medium','small'], size)
    df['age'] = np.random.randint(1, 50, size)
    df['color'] = np.random.choice(['red','blue','yellow','green'], size)
    df['win'] = np.random.choice(['yes','no'], size)
    dates = pd.date_range('2020-01-01', '2022-12-31')
    df['date'] = np.random.choice(dates, size)
    df['probability'] = np.random.uniform(0, 1, size)
    return df

def set_dtypes(df):
    df['size'] = df['size'].astype('category')
    df['color'] = df['color'].astype('category')
    df['age'] = df['age'].astype('int16')
    df['win'] = df['win'].map({'yes':True, 'no': False})
    df['probability'] = df['probability'].astype('float32')
    return df

In [None]:
print('Reading and writing CSV')
df = get_dataset(5_000_000)
df = set_dtypes(df)
%time df.to_csv('test.csv')
%time df_csv = pd.read_csv('test.csv')

In [None]:
print('Reading and writing Pickle')
df = get_dataset(5_000_000)
df = set_dtypes(df)
%time df.to_pickle('test.pickle')
%time df_pickle = pd.read_pickle('test.pickle')

In [None]:
print('Reading and writing Parquet')
df = get_dataset(5_000_000)
df = set_dtypes(df)
%time df.to_parquet('test.parquet')
%time df_parquet = pd.read_parquet('test.parquet')

In [None]:
print('Reading and writing Feather')
df = get_dataset(5_000_000)
df = set_dtypes(df)
%time df.to_feather('test.feather')
%time df_feather = pd.read_feather('test.feather')

#### Posortuj indeksy po kolumnach, a następnie po wierszach.
***
Różnica w wartości parametru `axis`.

In [None]:
df.sort_index(axis=1)

In [None]:
df.sort_index(axis=0)

#### Posortuj dane po wartościach w danej kolumnie.
***
Posortuj i wyświetl dane po wartościach w kolumnie `'engine_capacity'`.

In [None]:
df.sort_values('engine_capacity')

#### Wyświetl ile różnych wartości przyjmują dane w konkretnej kolumnie?
***
Ile różnych wartości znajduje się w kolumnie `'engine_type'`?

In [None]:
df['engine_type'].unique()

#### Znajdź dane, które znajdują się między konkretnymi indeksami i w konkretnej kolumnie.
***
Wyświetl dane o indeksie między 100, a 1000 i w kolumnie `'model_type'`.

In [None]:
df.loc[10054:19511, ['engine_capacity']]

Następnie wyświetl dane o indeksie między 10000, a 20000 i w kolumnach od 0 do 2.

In [None]:
df.iloc[10000:20000, 0:2]

#### Stwórz własny obiekty typu DataFrame i wprowadź do niego różne typy danych.
***
Stwórz i wyświetl obiekt `my_df` zawierający cztery kolumny:
- kolumna "A" powinna zwierać dane typu `float32`,
- kolumna "B" powinna zawierać dane typu `category` o wartościach `'kółko'` albo `'krzyżyk'`,
- kolumna "C" powinna zwierać napis `'Witaj Świecie!'`,
- kolumna "D" powinna zwierać dane typu `Timestamp` z dzisiejszą datą.

In [None]:
df_my = pd.DataFrame(

    {

        "A": 1.0,
        
        "B": pd.Categorical(['kółko', 'krzyżyk', 'kółko', 'krzyżyk']),
        
        "C": 'Witaj Świecie!',

        "D": pd.Timestamp("20230208"),


    }

)