# Big Data w biznesie

## Drugi notebook

In [None]:
from IPython.core.display import HTML

def _set_css_style(css_file_path):
   """
   Read the custom CSS file and load it into Jupyter.
   Pass the file path to the CSS file.
   """

   styles = open(css_file_path, "r").read()
   s = '<style>%s</style>' % styles
   return HTML(s)
_set_css_style("../custom.css")

Pierwszym krokiem, jak zawsze, jest zaimportowanie potrzebnych nam bibliotek.

In [None]:
import numpy as np
import pandas as pd

# Zapisywanie i wczytywanie z opcjami

Funkcja `read_csv("./lokalizacja_pliku/nazwa_pliku.csv")` zazwyczaj stara się określić typ danych na podstawie zawartości poszczególnych kolumn. Jednak w niektórych przypadkach może to prowadzić do nieprawidłowych typów danych, szczególnie jeśli dane są niejednoznaczne lub niedostatecznie reprezentatywne.

Szczególnie w przypadku danych kategorycznych może być konieczne ręczne określenie typów danych. Po wczytaniu danych warto sprawdzić i ewentualnie poprawić typy danych w DataFrame.

Aby zapewnić poprawność typów danych, można skorzystać z innych narzędzi i technik, takich jak ręczne określenie typów danych za pomocą parametru `dtype` lub późniejsza zmiana typu danych kolumn za pomocą metody `astype()`.


Na przykład zmiana typu danych w kolumnie `'color'` może wyglądać następująco:

In [None]:
df = pd.read_csv("./cars.csv")
df['color'] = df['color'].astype('category')

In [None]:
df = pd.read_csv("./cars.csv", dtype = {'color' :'category'})

Jesteśmy też w stanie zmienić nazwę kolumny.

Na przykład, jeśli uznamy, że kolumna `'drivetrain'` (rodzaj napędu) powinna nazywać się po prostu `'drive'` możemy to zrobić w następujący sposób:

In [None]:
df = df.rename(columns={'drivetrain':'drive'})

# Funkcje i obliczenia na wszystkich kolumnach

Aby wykonywać działania na kolumnach w pandas, można wykorzystać operatory arytmetyczne (+, -, *, /, ** itp.) lub funkcje z biblioteki numpy (np.sqrt(), np.exp(), np.logical_or itp.). Można również definiować własne funkcje i zastosować je do kolumn za pomocą metody apply().

Żeby dodać wartości dwóch kolumn i utworzyć nową kolumnę, można użyć następującego kodu:

`df['sum'] = df['column1'] + df['column2']`

Na przykład, jeśli chciałbym w nowej kolumnie poznać sumę roku produkcji i odczytu z licznika, wyglądałoby to następująco:

In [None]:
df['sum_of_year_and_odometer'] = df['year_produced'] + df['odometer_value']

Podobnie, aby pomnożyć wartości kolumny razy dwa, można użyć operatora * lub funkcji np.multiply():

- `df['column_2_times'] = df['column'] * 2`


- `df['column_2_times'] = np.multiply(df['column'], 2)`


- `df['column_2_times'] = df['column'].apply(lambda x: x*2)`

Można również stosować bardziej skomplikowane operacje i funkcje do kolumn, w zależności od potrzeb.


Na przykład możemy sprawdzić, czy dany samochód jest moim wymarzonym samochodem. Taki samochód musi spełniać trzy warunki:
- posiadać czarny kolor,
- posiadać automatyczną skrzynię biegów,
- mieć pojemność silnika powyżej 3.5 l.

Możemy to sprawdzić w następujący sposób:


In [None]:
df['is_dream_car'] = np.logical_and(df['color'] == 'black', df['transmission'] == 'automatic', df['engine_capacity'] > 3.5)

W ten sposób dostanę nową kolumnę z wartościami `'True'` albo `'False'`.

Jednak do tego typu zadań, czyli szukania danych spełniających konkretne warunki lepiej nadaje się funkcja `df.query()`.

Funkcja `df.query()` służy do filtrowania wierszy w ramach danego DataFrame na podstawie warunków logicznych określonych w łańcuchu znaków. W praktyce funkcja ta działa tak, jakbyśmy przekazali do niej wyrażenie warunkowe, które zwróci wartości `True` dla wierszy, które chcemy wybrać.

Przykładowo, jeśli chcemy wybrać wiersze z kolumny `'Age'` w ramach DataFrame, w których wartość jest większa niż 18, możemy użyć funkcji `df.query()` w następujący sposób:


`df.query('Age > 18')`

Funkcja `df.query()` umożliwia także odwoływanie się do zmiennych, które zostały zdefiniowane wcześniej w skrypcie. Na przykład, jeśli chcemy użyć wartości granicznej jako zmienną, możemy to zrobić w ten sposób:

`threshold = 18`
`df.query('Age > @threshold')`

Funkcja `df.query()` umożliwia również wykorzystanie operatorów logicznych takich jak `and`, `or` i `not` w warunkach, co pozwala na bardziej skomplikowane zapytania.


Wracając do moje wymarzonego samochodu, zapytanie o taki samochód może wyglądać następująco:

In [None]:
min_capacity = 3.5
best_color = 'black'
df.query('color == @best_color and transmission == "automatic" and engine_capacity > @min_capacity')

Jest jeszcze jeden ważny sposób działania bezpośrednio na kolumnach.

Metoda `df.str` jest dostępna dla obiektów typu Series i służy do operacji na wartościach typu tekstowego (string) w kolumnie.

Niektóre z metod związanych z metodą `df.str` to:

 - `df.str.contains()`: zwraca wartości True lub False dla każdego wiersza w kolumnie, w zależności od tego, czy dany łańcuch znaków zawiera podany wzorzec.
 - `df.str.replace()`: zastępuje określony łańcuch znaków innym łańcuchem.
 - `df.str.split()`: dzieli łańcuch znaków na listę łańcuchów na podstawie określonego separatora.
 - `df.str.strip()`: usuwa białe znaki z początku i końca każdego łańcucha znaków.
 - `df.str.upper()`: zamienia wszystkie litery w łańcuchu na wielkie litery.
 - `df.str.lower()`: zamienia wszystkie litery w łańcuchu na małe litery.

Metoda `df.str` może być wykorzystywana do wielu innych operacji na łańcuchach znaków.

Kilka przykładów zastosowania.

Wyobraźmy sobie, że marka Fiat zmieniła nazwę na Ferrari. W celu zachowania spójności w kolumnie z markami samochodów chcemy zmienić każdy napis 'Fiat' na 'Ferrari'.

In [None]:
df.query('manufacturer_name == "Fiat"')

In [None]:
df['manufacturer_name'] = df['manufacturer_name'].str.replace('Fiat', 'Ferrari')

In [None]:
df.query('manufacturer_name == "Ferrari"')

Możemy też chcieć stworzyć nową kolumnę, w której wszystkie nazwy modelu są zapisane wielkimi literami.

In [None]:
df['model_name_upper'] = df['model_name'].str.upper()

In [None]:
df['model_name_upper']

To, co łączy te wszystkie metody to, że wykonywane są bezpośrednio na kolumnach i ich wartościach.

Przeciwieństwem takiego podejścia jest iterowanie po kolumnach lub indeksach, którego za wszelką cenę powinniśmy unikać z kilku powodów:

 - Wydajność: iterowanie po każdym elemencie kolumny lub indeksu jest czasochłonne i może spowodować duże obciążenie pamięci, szczególnie dla dużych zbiorów danych. Zamiast tego, w Pandas zaleca się wykorzystywanie wbudowanych metod, które pozwalają na wykonanie operacji na całych kolumnach lub wierszach, co zazwyczaj jest znacznie bardziej wydajne.

 - Trudność w utrzymaniu: iterowanie po kolumnach lub indeksach może być trudne w utrzymaniu i prowadzić do błędów w kodzie, szczególnie gdy zbiór danych ulega zmianie.

 - Brak funkcjonalności: iterowanie po kolumnach lub indeksach ogranicza naszą zdolność do korzystania ze wbudowanych funkcjonalności w Pandas, takich jak indeksowanie, filtrowanie, grupowanie, sortowanie i łączenie danych.

Zamiast iteracji po kolumnach lub indeksach w Pandas, zaleca się wykorzystywanie wbudowanych metod, takich jak:
- `loc`,
- `iloc`,
- `apply`,
- `applymap`,
- `map`,
- `groupby`,
- `merge` i wiele innych.

Pozwalają one na wykonanie złożonych operacji na całych kolumnach lub wierszach, co jest znacznie bardziej wydajne i łatwiejsze do utrzymania.

# Działania na części danych


Wspominaliśmy pobieżnie o `df.loc`. Funkcja `df.loc` służy do wybierania wierszy i kolumn z DataFrame za pomocą etykiet (nazw) indeksu oraz etykiet nazw kolumn.

Funkcja ta przyjmuje dwa argumenty: pierwszy argument określa wybrane wiersze, drugi argument określa wybrane kolumny. Możliwe wartości pierwszego argumentu to:

 - pojedyncza etykieta indeksu (nazwa wiersza) - zwraca wybrany wiersz
 - lista etykiet indeksu - zwraca wybrane wiersze
 - obiekt typu slice (np. slice('2022-01-01', '2022-12-31')) - zwraca wiersze zawierające się w przedziale

Możliwe wartości drugiego argumentu to:

 - pojedyncza etykieta kolumny - zwraca wybraną kolumnę
 - lista etykiet kolumn - zwraca wybrane kolumny
 - obiekt typu slice - zwraca kolumny zawierające się w przedziale
 wyrażenie boolowskie (np. `df['column_name'] > 5`) - zwraca kolumny spełniające określone warunki

Przykłady użycia funkcji `df.loc`:


   `# zwraca wiersz o indeksie '3'`
   `df.loc['3']`

   `# zwraca wiersze o indeksach '1' i '2'`
   `df.loc[['1', '2']]`

   `# zwraca wiersze od '2022-01-01' do '2022-12-31' (włącznie)`
   `df.loc['2022-01-01':'2022-12-31']`

   `# zwraca kolumnę 'column_name'`
   `df.loc[:, 'column_name']`

   `# zwraca kolumny 'column_name1' i 'column_name2'`
   `df.loc[:, ['column_name1', 'column_name2']]`

   `# zwraca kolumny od 'column_name1' do 'column_name3' (włącznie)`
   `df.loc[:, 'column_name1':'column_name3']`

   `# zwraca wiersze, gdzie wartość w kolumnie 'column_name' jest większa niż 5`
   `df.loc[df['column_name'] > 5]`



Poniżej przedstawię kilka przykładów ciekawych zastosowań tej funkcji, które mogą być bardzo przydatne w różnych przypadkach.

Funkcja `df.describe(include = "all")` w bibliotece Pandas zwraca statystyki opisowe dla wszystkich kolumn w DataFrame.

In [None]:
df.describe(include='all')

Wyobraźmy sobie, że chcemy poznać liczbę unikalnych wartości w każdej kolumnie. Ta informacja jest przechowywana pod indeksem 'unique' i można się do niej odwołać przy użyciu metody `df.loc`.

In [None]:
df_unique = df.describe(include='all').loc['unique', :]
df_unique

Jeżeli ilość unikalnych wartości w każdej kolumnie jest niewielka, warto rozważyć zmianę typu danych na `'category'`. Możemy to zrobić za pomocą funkcji `df.loc`, która pozwala na wyświetlanie kolumn lub wierszy spełniających określone warunki boolowskie (`'True'` albo `'False'`). W tym przypadku poszukujemy nazw kolumn, dla których istnieje mniej niż 20 unikalnych wartości.

In [None]:
df_unique.loc[df_unique < 20]

Funkcja `df.loc` umożliwia odwoływanie się do konkretnych wierszy i/lub kolumn w DataFrame, a jej argumentami są etykiety indeksów i/lub nazwy kolumn.

In [None]:
df_copy = df.copy()
df_sample = df_copy.sample(n = 10)
df_sample.index

Metoda `df.index` zwraca listę etykiet indeksów, które służą do odwoływania się do konkretnych wierszy w DataFrame. Przykładem może być użycie funkcji `df.loc`, w której etykiety indeksów są używane jako pierwszy argument. Powyżej wygenerowaliśmy listę etykiet indeksów tylko dla 10 wylosowanych wierszy, a teraz wykorzystamy ją do zmiany wartości kolumny `'odometer_value'` na 0 dla tych wierszy.

In [None]:
df_copy.loc[df_sample.index, 'odometer_value'] = 0

 W ten sposób, `df_copy.loc[df_sample.index, 'odometer_value']` odwołuje się tylko do kolumny `'odometer_value'` dla wierszy, których etykiety indeksów znajdują się w `df_sample.index`. Następnie przypisuje wartość 0 dla tych wierszy i tej kolumny, co oznacza, że wartość `'odometer_value'` zostanie wyzerowana tylko dla wylosowanych 10 wierszy, a pozostałe wiersze pozostaną bez zmian.


Ostatnie zastosowanie funkcji df.loc może się przydać podczas łączenia kolumn lub DataFrame'ów w Pandas.

Polega na połączeniu danych z dwóch lub więcej kolumn/DataFrame'ów w jeden większy DataFrame.

Można to zrobić na kilka sposobów, w zależności od potrzeb. Najczęściej wykorzystuje się funkcje:
- concat() -  łączy DataFrame'y poprzez dodanie kolejnych kolumn,
- merge() - umożliwia łączenie na podstawie klucza,
- join() - łączy po indeksie lub kolumnie.

Wszystkie te funkcje pozwalają na ustawienie różnych parametrów, takich jak rodzaj łączenia (inner, outer, left, right), typ łączenia (column-wise, row-wise), sposób sortowania danych itp.

W wyniku łączenia DataFrame'ów może pojawić się sytuacja, gdzie niektóre kolumny będą zduplikowane. Zdarza się to gdy oba DataFrame'y posiadają kolumny o identycznych nazwach lub w wyniku nieprawidłowego przetwarzania danych.

Tutaj połączymy ze sobą dwa identyczne DataFrame'y, co spowoduje powstanie wynikowego DataFrame'a zawierającego wszystkie kolumny zduplikowane.

In [None]:
df_copy_1 = df.copy()
df_copy_2 = df.copy()
df_copy = pd.concat([df_copy_1, df_copy_2], axis=1)
print('Liczba kolumn w obiekcie df wynosi: {0}, a w obiekcie df_copy wynosi {1}.'.format(len(df.columns), len(df_copy.columns)))
df_copy['manufacturer_name']

Za pomocą funkcji df.loc możemy usunąć zduplikowane kolumny z df_copy.

Funkcja df_copy.columns.duplicated() zwraca listę wartości logicznych określających, które kolumny są zduplikowane, a znak tyldy (~) służy do zanegowania tych wartości.

Ostatecznie możemy odwołać do wszytskich kolumn, które nie są duplikatem i w ten sposób otrzymamy DataFrame z każdą kolumną występującą tylko raz.


Dzięki funkcji `df.loc` możemy usunąć zduplikowane kolumny z DataFrame `df_copy`.

Wykorzystujemy funkcję `df_copy.columns.duplicated()`, która zwraca listę wartości logicznych określających, które kolumny są zduplikowane.

W celu usunięcia tych kolumn wykorzystujemy operator `~`, aby zanegować te wartości i wybrać tylko kolumny, które nie są zduplikowane.

W ten sposób otrzymujemy DataFrame `df_copy` zawierający tylko unikalne kolumny.

In [None]:
df_copy = df_copy.loc[:,~df_copy.columns.duplicated()]
print('Liczba kolumn w obiekcie df wynosi: {0}, a w obiekcie df_copy wynosi {1}.'.format(len(df.columns), len(df_copy.columns)))
df_copy['manufacturer_name']

# Grupowanie danych

Grupowanie danych w analizie danych służy do agregacji i przekształcania danych w taki sposób, aby uzyskać wgląd w związki między różnymi zmiennymi lub kategoriami danych. Grupowanie umożliwia analizę danych w sposób bardziej zrozumiały i bardziej przystępny dla użytkowników, którzy mogą szukać wzorców, trendów, relacji lub innych istotnych informacji w danych. Grupowanie jest często stosowane w dziedzinach takich jak biznes, nauka, finanse i wiele innych, gdzie istnieje potrzeba analizy dużych zbiorów danych.

Funkcja `df.groupby()` służy do grupowania danych w DataFrame'ie na podstawie wartości w określonej kolumnie lub kolumnach. W wyniku zastosowania funkcji `df.groupby()`, dane są dzielone na grupy, które następnie można analizować lub przetwarzać w różny sposób.

Funkcja `df.groupby()` jest często wykorzystywana w analizie danych, w szczególności do agregacji danych, czyli łączenia ich w grupy i obliczania statystyk dla każdej grupy. Na przykład, jeśli mamy DataFrame z danymi sprzedażowymi, możemy zgrupować dane według kategorii produktów i obliczyć średnią, sumę lub inne statystyki sprzedaży dla każdej kategorii.

Przykład wykorzystania funkcji `df.groupby()` w pandas:

In [None]:
# Grupowanie danych według kolumny 'manufacturer_name' i 'model_name'.
car_group = df.groupby(['manufacturer_name','model_name'])

# Obliczanie sumy sprzedaży dla każdej grupy
mean_price = car_group['price_usd'].mean()

print(mean_price)

Dane zostały podzielone na grupy ze względu na markę oraz model i obliczona została średnia cena sprzedaży dla każdej grupy.

Istnieje możliwość pobrania grupy z ramki danych, która została wcześniej podzielona na grupy za pomocą metody `df.get_group()`. Metoda ta pobiera i zwraca grupę o określonym kluczu.

Na przykład, jeśli interesuje nas grupa z marką `'Merceden-Benz'` i modelem `'Sprinter'` możemy wykonać to w następujący sposób.

In [None]:
car_group.get_group(('Mercedes-Benz', 'Sprinter'))

Na grupie można wykorzystać wiele funkcji, między innymi:

- Agregujące (np. sum, mean, count, min, max, median) - służą do łączenia wielu wartości w jedną wartość dla każdej grupy.
- Transformujące (np. apply) - umożliwiają stosowanie dowolnej funkcji na każdej grupie i zwracają wynik tej samej długości, co grupa.
- Filtrujące - pozwalają na wybór podzbioru danych na podstawie określonych warunków, np. zwracanie tylko grup, które spełniają określone kryteria.

Istnieje wiele innych funkcji, które można stosować na grupie w zależności od potrzeb i rodzaju analizowanych danych.

Na przykład jest to funkcja `df.agg()`. Funkcja ta umożliwia grupowanie wierszy DataFrame według wartości w określonej kolumnie lub kolumnach, a następnie wykonywanie na każdej grupie dowolnych operacji agregujących, takich jak np. sumowanie, obliczanie średniej, minimalnej i maksymalnej wartości itp.

Funkcja `df.agg()` przyjmuje słownik, który mapuje nazwy kolumn na listę funkcji agregujących, które mają zostać wykonane dla tej kolumny. Na przykład, chcemy obliczyć trzy funkcje agregujące do każdej grupy:

- liczbę wierszy w każdej grupie, co odpowiada liczbie wystąpień danego modelu danej marki.
- sumę wartości w kolumnie `'duration_listed'` w każdej grupie, co odpowiada łącznemu czasowi trwania ogłoszeń dla danego modelu danej marki.
- najmniejszą wartość w kolumnie `'year_produced'` w każdej grupie, co odpowiada najwcześniejszemu roku produkcji danego modelu danej marki.

In [None]:
car_group = df.groupby(['manufacturer_name','model_name']).agg({'model_name': 'count', 'duration_listed': 'sum', 'year_produced': 'min'})

W efekcie uzyskujemy DataFrame zawierający informacje o liczbie wystąpień, czasie trwania ogłoszeń oraz najwcześniejszym roku produkcji dla każdego modelu danej marki.

Jak już wspominaliśmy, iterowanie po wierszach lub kolumnach i stosowanie funkcji w pętli zwykle jest najmniej wydajnym rozwiązaniem przy operacjach na całym DataFrame, lub grupach wierszy. Dlatego funkcja `df.agg()` jest często stosowana w połączeniu z funkcjami agregującymi, takimi jak `sum`, `mean`, `max`, `min`, `count` i wiele innych, co pozwala na szybkie i łatwe obliczenie wielu statystyk dla danych.

W przypadku bardziej złożonych operacji, które nie mogą być łatwo wykonane za pomocą funkcji agregujących, konieczne może być iterowanie po wierszach lub kolumnach. W takim przypadku warto jednak unikać pętli w Pythonie i stosować wektoryzację NumPy lub funkcje wbudowane w Pandas, takie jak `apply`, `map`, `transform`.

# Standaryzacja i normalizacja

Standaryzacja i normalizacja to techniki przetwarzania danych służące do skalowania wartości numerycznych w celu poprawy jakości analizy danych i modelowania. Standaryzacja odnosi się do przekształcenia danych numerycznych w sposób, który przesuwa średnią do zera i skaluje wartości wokół tej średniej przy użyciu odchylenia standardowego.

Oto przykładowy kod wykonujący standaryzację kolumny `'duration_listed'`:

In [None]:
mean_duration = df['duration_listed'].mean()
std_duration = df['duration_listed'].std()
df['duration_listed_standardized'] = (df['duration_listed'] - mean_duration) / std_duration

W tym kodzie, do standaryzacji kolumny `'duration_listed'` używamy średniej (`mean`) i odchylenia standardowego (`std`) wyliczonych na podstawie tej kolumny. Następnie używamy tych wartości do przeskalowania wartości w kolumnie do wartości standardowych.

Normalizacja natomiast odnosi się do przekształcenia danych numerycznych w sposób, który przeskalowuje wartości w przedziale od 0 do 1 lub od -1 do 1, co pozwala na porównywanie i analizę danych z różnych skal.

Oto przykładowy kod wykonujący normalizację kolumny `'year_produced'`:

In [None]:
min_year = df['year_produced'].min()
max_year = df['year_produced'].max()
df['year_produced_normalized'] = (df['year_produced'] - min_year) / (max_year - min_year)

Do normalizacji kolumny `'year_produced'` używamy minimalnej (`min`) i maksymalnej (`max`) wartości z kolumny, aby przeskalować wartości do przedziału od 0 do 1.

Standaryzacja i normalizacja są szczególnie przydatne w przypadku analizy danych numerycznych zawierających wiele zmiennych o różnych jednostkach i skalach. Wiele algorytmów uczenia maszynowego i statystycznych działa lepiej, gdy dane są w pewien sposób przetworzone, a normalizacja i standaryzacja to popularne techniki tego przetwarzania.

# Zapisywanie do listy

Czasami potrzebujemy przekształcić obiekt DataFrame albo Series na listę.
Służy do tego metoda df.tolist() i może być wywoływana na poszczególnych kolumnach lub wierszach w celu uzyskania ich wartości w postaci listy. Na przykład, wywołanie df['column_name'].tolist() zwróci listę wartości w danej kolumnie, a wywołanie df.iloc[row_index].tolist() zwróci listę wartości w danym wierszu.

Jak ta funkcja może zostać użyta, prześledzimy na przykładzie szukania kolumn, które zawierają jakieś brakujące wartości.

Funkcja df.isnull() zwraca tabelę boolean, w której wartości True odpowiadają brakującym wartościom (NaN) w DataFrame.

In [None]:
df.isnull()

Nie będziemy musieli przeszukiwać tabeli ręcznie, aby znaleźć wartości prawdziwe.

Zamiast tego, możemy skorzystać z funkcji `df.value_counts()`, która zwraca serię zawierającą informacje o liczbie wystąpień unikalnych wartości w danej kolumnie. Wynik jest posortowany malejąco, co oznacza, że najczęściej występujące wartości będą znajdowały się na początku serii.

Przykładowo, można użyć tej funkcji do zliczenia i wyświetlenia liczby i rodzaju wartości występujących w kolumnie `'transmission'`:

In [None]:
df['transmission'].value_counts()

Interesują nas oddzielne statystyki dla każdej kolumny, dlatego policzymy, ile jest rekordów z wartością `True` i `False` dla każdej kolumny przy pomocy metody `df.apply()` i `df.value_counts()` na każdej kolumnie:

In [None]:
df.apply(lambda x: x.isnull().value_counts())

Potem przy użyciu funkcji `df.loc` wybierzemy tylko wartości `True`, ponieważ interesują nas tylko brakujące dane:

In [None]:
df_bad = df.apply(lambda x: x.isnull().value_counts()).loc[True,:]
df_bad

Mamy już informacje na temat ilości brakujących wartości w każdej kolumnie.

Jednak interesują nas tylko kolumny, w których brakuje jakichś wartości (czyli te, w których liczba brakujących wartości jest większa od zera). Do wyboru tych kolumn ponownie wykorzystamy funkcję df.loc:

In [None]:
df_bad.loc[df_bad > 0]

Na końcu chcemy uzyskać listę nazw kolumn, w których występują brakujące wartości.

Wykorzystamy do tego atrybut `df.index`, który zwraca indeks wartości brakujących (zwróć uwagę, że nazwy kolumn z oryginalnego obiektu `df` są nazwami indeksów w nowym obiekcie `df_bad`), a funkcja `df.tolist()` przekonwertuje te wartości do listy.

In [None]:
list_of_missing = df_bad.loc[df_bad > 0].index.tolist()

Jeśli chcemy uzyskać indeksy wszystkich rekordów w obiekcie `df`, które zawierają przynajmniej jedną brakującą wartość, możemy wykorzystać następujący kod:

In [None]:
list_of_missing_index = df.isnull().loc[df.isnull().any(axis=1), :].index.tolist()
list_of_missing_index

Jedyną nową funkcją jest tutaj`df.any()`. Funkcja ta zwraca wartość boolowską (`True` lub `False`) dla każdej kolumny. W przypadku kolumny, jeśli przynajmniej jedna wartość w kolumnie jest `True`, to cała kolumna jest uznawana za `True`, a w przeciwnym przypadku za `False`. Dzięki temu można sprawdzić, czy w kolumnie znajdują się jakieś wartości `True`, co może być przydatne w analizie danych lub filtrowaniu DataFrame'a.

# Uzupełnianie danych

Brakujące dane mogą przeszkadzać w analizie danych, ponieważ mogą prowadzić do niepełnych lub błędnych wyników. Brakujące dane mogą wprowadzić szumy do analizy danych, zaburzając wyniki statystyczne lub modele predykcyjne. Dlatego ważne jest, aby umiejętnie radzić sobie z brakującymi danymi, np. poprzez uzupełnianie ich lub usuwanie w zależności od kontekstu i charakteru danych.

Oto kilka możliwych sposobów postępowania z brakującymi wartościami:

- Usunięcie rekordów z brakującymi wartościami - w przypadku małej liczby brakujących wartości, które nie wpływają znacząco na analizę danych, możemy usunąć rekordy zawierające te braki. Jednak w przypadku większej liczby braków może to prowadzić do znacznego zmniejszenia liczby rekordów i utraty ważnych informacji.

- Zastąpienie brakujących wartości średnią lub medianą - jeśli brakuje niewielka liczba wartości, które można uzupełnić, można użyć średniej lub mediany z pozostałych wartości w kolumnie. Ten sposób może być dobrym wyborem, gdy nie zależy nam na precyzyjnym odwzorowaniu brakującej wartości.

- Zastąpienie brakujących wartości wartością domyślną - w przypadku niektórych zmiennych, takich jak płci lub stan cywilny, brakującą wartość można zastąpić wartością domyślną, taką jak "nieznany" lub "brak danych".

- Uzupełnienie brakujących wartości na podstawie innych zmiennych - można użyć innych zmiennych, które mają wartości, aby uzupełnić brakujące wartości. Na przykład, jeśli brakuje daty urodzenia, można użyć wieku i daty bieżącej, aby określić datę urodzenia.

- Użycie modeli predykcyjnych do uzupełnienia brakujących wartości - można użyć modeli predykcyjnych, takich jak regresja liniowa lub maszyny wektorów nośnych, aby przewidzieć brakujące wartości na podstawie innych zmiennych.

Ostatecznie wybór sposobu postępowania z brakującymi wartościami zależy od kontekstu danych i celów analizy.

Załóżmy, że w kolumnie `'odometer_value'` i `'transmission'` występują brakujące wartości. Aby ich nie usuwać, postanawiamy je zastąpić wartościami reprezentatywnymi dla danej kolumny.

W przypadku `'odometer_value'` wykorzystamy średnią wartość z całej kolumny, którą można obliczyć przy użyciu metody `df.mean()`.

In [None]:
avg_odometer_value = df['odometer_value'].astype("float").mean(axis=0)
print("Average of odometer :", avg_odometer_value)

Aby zastąpić brakujące wartości, użyjemy metody `df.replace()` i podamy jej jako argument słownik, który określa wartości, jakie mają zostać zastąpione dla danego klucza.

In [None]:
df["odometer_value"] = df["odometer_value"].replace(np.nan, avg_odometer_value)

Dla kolumny `'transmission'`  zastosujemy wartość modalną, czyli wartość, która pojawia się najczęściej w danych. Są to dane opisowe, więc nie możemy policzyć dla nich ani średniej, ani mediany.

In [None]:
max_transmission_value = df['transmission'].mode().item()
#max_transmission_value = df['transmission'].value_counts().idxmax() #alternatywnie
print("Max value of transmission:", max_transmission_value)

Następnie, tak samo, jak dla `'odometer_value'`, zastąpimy brakujące wartości metodą `df.replace()`.

In [None]:
df['transmission'] = df['transmission'].replace(np.nan, max_transmission_value)

Jeśli istnieją brakujące wartości, których nie da się uzupełnić, na przykład brakuje ceny samochodu, musimy je usunąć.

Możemy to zrobić za pomocą metody `df.dropna()`, która usuwa wiersze lub kolumny, w zależności od ustawionego argumentu axis.

Aby usunąć tylko wiersze z brakującymi wartościami, możemy ustawić `axis=0`.

Po usunięciu brakujących wartości można zresetować indeksy za pomocą metody `df.reset_index()`.

In [None]:
df = df.dropna(subset=['price_usd'], axis=0)
df = df.reset_index(drop=True)