# Przygotowanie danych

[Oryginalne źródło notebooka z *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio autorstwa Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Eksploracja informacji o `DataFrame`

> **Cel nauki:** Po zakończeniu tej części powinieneś swobodnie znajdować ogólne informacje o danych przechowywanych w pandas DataFrames.

Gdy załadujesz swoje dane do pandas, najprawdopodobniej będą one w formacie `DataFrame`. Jednak jeśli zestaw danych w Twoim `DataFrame` zawiera 60 000 wierszy i 400 kolumn, od czego zacząć, aby zrozumieć, z czym pracujesz? Na szczęście pandas oferuje kilka wygodnych narzędzi, które pozwalają szybko uzyskać ogólne informacje o `DataFrame`, a także zobaczyć kilka pierwszych i ostatnich wierszy.

Aby zbadać tę funkcjonalność, zaimportujemy bibliotekę Python scikit-learn i użyjemy ikonicznego zestawu danych, który każdy data scientist widział setki razy: zestawu danych *Iris* brytyjskiego biologa Ronalda Fishera, użytego w jego pracy z 1936 roku "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Załadowaliśmy zbiór danych Iris do zmiennej `iris_df`. Zanim zagłębimy się w dane, warto wiedzieć, ile punktów danych posiadamy oraz jaki jest ogólny rozmiar zbioru danych. Przydatne jest spojrzenie na ilość danych, z którymi mamy do czynienia.


In [2]:
iris_df.shape

(150, 4)

Mamy do czynienia z 150 wierszami i 4 kolumnami danych. Każdy wiersz reprezentuje jeden punkt danych, a każda kolumna odpowiada pojedynczej cesze związanej z ramką danych. Czyli zasadniczo mamy 150 punktów danych, z których każdy zawiera 4 cechy.

`shape` tutaj jest atrybutem ramki danych, a nie funkcją, dlatego nie kończy się parą nawiasów.


### `DataFrame.columns`
Przejdźmy teraz do 4 kolumn danych. Co dokładnie każda z nich reprezentuje? Atrybut `columns` pozwoli nam uzyskać nazwy kolumn w dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Jak widzimy, są cztery (4) kolumny. Atrybut `columns` informuje nas o nazwach kolumn i w zasadzie o niczym więcej. Ten atrybut nabiera znaczenia, gdy chcemy zidentyfikować cechy zawarte w zbiorze danych.


### `DataFrame.info`
Ilość danych (podana przez atrybut `shape`) oraz nazwy cech lub kolumn (podane przez atrybut `columns`) mówią nam coś o zestawie danych. Teraz chcielibyśmy zagłębić się bardziej w zestaw danych. Funkcja `DataFrame.info()` jest bardzo przydatna w tym celu.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Na podstawie tego możemy poczynić kilka obserwacji:
1. Typ danych każdej kolumny: W tym zbiorze danych wszystkie dane są przechowywane jako 64-bitowe liczby zmiennoprzecinkowe.
2. Liczba wartości niepustych: Radzenie sobie z wartościami pustymi to ważny krok w przygotowaniu danych. Zostanie to omówione później w notatniku.


### DataFrame.describe()
Załóżmy, że mamy dużo danych numerycznych w naszym zbiorze danych. Jednowymiarowe obliczenia statystyczne, takie jak średnia, mediana, kwartyle itp., mogą być wykonywane na każdej kolumnie osobno. Funkcja `DataFrame.describe()` dostarcza nam statystyczne podsumowanie numerycznych kolumn w zbiorze danych.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Powyższy wynik pokazuje całkowitą liczbę punktów danych, średnią, odchylenie standardowe, minimum, dolny kwartyl (25%), medianę (50%), górny kwartyl (75%) oraz maksymalną wartość każdej kolumny.


### `DataFrame.head`
Dzięki wszystkim powyższym funkcjom i atrybutom uzyskaliśmy ogólny obraz zestawu danych. Wiemy, ile jest punktów danych, ile jest cech, jaki jest typ danych każdej cechy oraz ile wartości niepustych przypada na każdą cechę.

Teraz czas przyjrzeć się samym danym. Zobaczmy, jak wyglądają pierwsze kilka wierszy (pierwsze kilka punktów danych) naszego `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Na podstawie wyników tutaj widzimy pięć (5) wpisów w zestawie danych. Jeśli spojrzymy na indeks po lewej stronie, dowiadujemy się, że są to pierwsze pięć wierszy.


### Ćwiczenie:

Na podstawie powyższego przykładu widać, że domyślnie `DataFrame.head` zwraca pierwsze pięć wierszy `DataFrame`. Czy w poniższej komórce kodu potrafisz znaleźć sposób na wyświetlenie więcej niż pięciu wierszy?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Innym sposobem przeglądania danych może być spojrzenie od końca (zamiast od początku). Odpowiednikiem `DataFrame.head` jest `DataFrame.tail`, który zwraca ostatnie pięć wierszy `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


W praktyce przydatne jest łatwe przeglądanie pierwszych kilku wierszy lub ostatnich kilku wierszy `DataFrame`, szczególnie gdy szukasz wartości odstających w uporządkowanych zbiorach danych.

Wszystkie funkcje i atrybuty pokazane powyżej za pomocą przykładów kodu pomagają nam uzyskać wgląd w dane.

> **Wniosek:** Nawet samo spojrzenie na metadane dotyczące informacji w `DataFrame` lub na pierwsze i ostatnie kilka wartości pozwala szybko zorientować się w rozmiarze, kształcie i zawartości danych, z którymi pracujesz.


### Brakujące dane
Przyjrzyjmy się brakującym danym. Brakujące dane pojawiają się, gdy w niektórych kolumnach nie jest zapisane żadne wartości.

Weźmy przykład: załóżmy, że ktoś jest świadomy swojej wagi i nie wypełnia pola dotyczącego wagi w ankiecie. Wtedy wartość wagi dla tej osoby będzie brakować.

W większości przypadków w rzeczywistych zbiorach danych występują brakujące wartości.

**Jak Pandas radzi sobie z brakującymi danymi**

Pandas obsługuje brakujące wartości na dwa sposoby. Pierwszy sposób, który widziałeś wcześniej w poprzednich sekcjach, to `NaN`, czyli Not a Number. Jest to w rzeczywistości specjalna wartość będąca częścią specyfikacji IEEE dla liczb zmiennoprzecinkowych i jest używana wyłącznie do wskazywania brakujących wartości zmiennoprzecinkowych.

W przypadku brakujących wartości innych niż liczby zmiennoprzecinkowe, pandas używa obiektu `None` z Pythona. Chociaż może wydawać się to mylące, że spotkasz dwa różne rodzaje wartości oznaczające zasadniczo to samo, istnieją uzasadnione programistyczne powody dla takiego wyboru projektowego. W praktyce takie podejście pozwala pandas na osiągnięcie dobrego kompromisu w zdecydowanej większości przypadków. Niemniej jednak zarówno `None`, jak i `NaN` mają ograniczenia, o których należy pamiętać w kontekście ich użycia.


### `None`: brakujące dane nie będące liczbami zmiennoprzecinkowymi
Ponieważ `None` pochodzi z Pythona, nie może być używane w tablicach NumPy i pandas, które nie mają typu danych `'object'`. Pamiętaj, że tablice NumPy (oraz struktury danych w pandas) mogą zawierać tylko jeden typ danych. To właśnie daje im ogromną moc w pracy z dużymi zbiorami danych i obliczeniami, ale jednocześnie ogranicza ich elastyczność. Takie tablice muszą być "podniesione" do „najniższego wspólnego mianownika”, czyli typu danych, który obejmie wszystko w tablicy. Gdy w tablicy znajduje się `None`, oznacza to, że pracujesz z obiektami Pythona.

Aby zobaczyć to w praktyce, rozważ poniższą przykładową tablicę (zwróć uwagę na jej `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Rzeczywistość związana z podnoszeniem typów danych niesie ze sobą dwa skutki uboczne. Po pierwsze, operacje będą wykonywane na poziomie interpretowanego kodu Python, a nie skompilowanego kodu NumPy. W praktyce oznacza to, że wszelkie operacje obejmujące `Series` lub `DataFrames` zawierające `None` będą wolniejsze. Chociaż prawdopodobnie nie zauważysz tego spadku wydajności, w przypadku dużych zbiorów danych może to stać się problemem.

Drugi skutek uboczny wynika z pierwszego. Ponieważ `None` zasadniczo sprowadza `Series` lub `DataFrame` z powrotem do świata zwykłego Pythona, użycie agregacji NumPy/pandas, takich jak `sum()` czy `min()` na tablicach zawierających wartość ``None`` zazwyczaj spowoduje błąd:


In [10]:
example1.sum()

TypeError: ignored

**Kluczowa uwaga**: Dodawanie (i inne operacje) między liczbami całkowitymi a wartościami `None` jest niezdefiniowane, co może ograniczać możliwości pracy z zestawami danych, które je zawierają.


### `NaN`: brakujące wartości zmiennoprzecinkowe

W przeciwieństwie do `None`, NumPy (a co za tym idzie pandas) obsługuje `NaN` w swoich szybkich, wektorowych operacjach i funkcjach ufunc. Zła wiadomość jest taka, że każda operacja arytmetyczna wykonana na `NaN` zawsze daje wynik `NaN`. Na przykład:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobra wiadomość: agregacje uruchamiane na tablicach zawierających `NaN` nie generują błędów. Zła wiadomość: wyniki nie są jednolicie użyteczne:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Ćwiczenie:


In [11]:
# What happens if you add np.nan and None together?


Pamiętaj: `NaN` jest tylko dla brakujących wartości zmiennoprzecinkowych; nie ma odpowiednika `NaN` dla liczb całkowitych, ciągów znaków ani wartości logicznych.


### `NaN` i `None`: wartości null w pandas

Chociaż `NaN` i `None` mogą zachowywać się nieco inaczej, pandas zostało zaprojektowane tak, aby obsługiwać je zamiennie. Aby zobaczyć, o co chodzi, rozważ `Series` liczb całkowitych:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Ćwiczenie:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Podczas procesu podnoszenia typów danych w celu zapewnienia jednolitości danych w `Series` i `DataFrame`, pandas bez problemu zamienia brakujące wartości między `None` a `NaN`. Ze względu na tę cechę projektową warto myśleć o `None` i `NaN` jako o dwóch różnych odmianach "null" w pandas. W rzeczywistości niektóre z podstawowych metod, które będziesz używać do obsługi brakujących wartości w pandas, odzwierciedlają tę ideę w swoich nazwach:

- `isnull()`: Tworzy maskę logiczną wskazującą brakujące wartości
- `notnull()`: Przeciwieństwo `isnull()`
- `dropna()`: Zwraca przefiltrowaną wersję danych
- `fillna()`: Zwraca kopię danych z uzupełnionymi lub imputowanymi brakującymi wartościami

To są kluczowe metody, które warto opanować i dobrze zrozumieć, więc omówmy je szczegółowo.


### Wykrywanie wartości null

Teraz, gdy zrozumieliśmy znaczenie brakujących wartości, musimy je wykryć w naszym zbiorze danych, zanim zaczniemy je obsługiwać. Zarówno `isnull()`, jak i `notnull()` są podstawowymi metodami do wykrywania danych null. Obie zwracają maski logiczne dla Twoich danych.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Przyjrzyj się uważnie wynikom. Czy coś Cię zaskakuje? Chociaż `0` jest arytmetycznym zerem, to wciąż jest pełnoprawną liczbą całkowitą i pandas traktuje go właśnie w ten sposób. `''` jest nieco bardziej subtelne. Chociaż używaliśmy tego w Sekcji 1 do reprezentowania pustej wartości tekstowej, to nadal jest to obiekt typu string, a nie reprezentacja null w rozumieniu pandas.

Teraz odwróćmy sytuację i użyjmy tych metod w sposób bardziej zbliżony do praktycznego zastosowania. Możesz używać masek logicznych bezpośrednio jako indeksu ``Series`` lub ``DataFrame``, co może być przydatne, gdy próbujesz pracować z izolowanymi brakującymi (lub obecnymi) wartościami.

Jeśli chcemy uzyskać całkowitą liczbę brakujących wartości, możemy po prostu wykonać sumę na masce wygenerowanej przez metodę `isnull()`.


In [19]:
example3.isnull().sum()

2

### Ćwiczenie:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Kluczowa informacja**: Zarówno metody `isnull()` jak i `notnull()` dają podobne wyniki, gdy używasz ich w DataFrame'ach: pokazują wyniki oraz indeks tych wyników, co będzie niezwykle pomocne podczas pracy z danymi.


### Radzenie sobie z brakującymi danymi

> **Cel nauki:** Po zakończeniu tej sekcji powinieneś wiedzieć, jak i kiedy zastępować lub usuwać brakujące wartości w DataFrames.

Modele uczenia maszynowego nie potrafią samodzielnie radzić sobie z brakującymi danymi. Dlatego przed przekazaniem danych do modelu musimy zająć się tymi brakującymi wartościami.

Sposób radzenia sobie z brakującymi danymi wiąże się z subtelnymi kompromisami, które mogą wpłynąć na ostateczną analizę i wyniki w rzeczywistych zastosowaniach.

Istnieją głównie dwa sposoby radzenia sobie z brakującymi danymi:

1.   Usunięcie wiersza zawierającego brakującą wartość
2.   Zastąpienie brakującej wartości inną wartością

Omówimy obie te metody oraz ich zalety i wady w szczegółach.


### Usuwanie wartości null

Ilość danych, które przekazujemy do naszego modelu, ma bezpośredni wpływ na jego wydajność. Usuwanie wartości null oznacza, że zmniejszamy liczbę punktów danych, a tym samym rozmiar zbioru danych. Dlatego zaleca się usuwanie wierszy z wartościami null, gdy zbiór danych jest dość duży.

Innym przypadkiem może być sytuacja, gdy określony wiersz lub kolumna ma wiele brakujących wartości. Wtedy można je usunąć, ponieważ nie wniosą one dużej wartości do naszej analizy, gdy większość danych dla tego wiersza/kolumny jest brakująca.

Oprócz identyfikowania brakujących wartości, pandas oferuje wygodny sposób na usuwanie wartości null z `Series` i `DataFrame`. Aby zobaczyć to w praktyce, wróćmy do `example3`. Funkcja `DataFrame.dropna()` pomaga w usuwaniu wierszy z wartościami null.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Zauważ, że powinno to wyglądać jak wynik z `example3[example3.notnull()]`. Różnica polega na tym, że zamiast indeksować tylko na podstawie zamaskowanych wartości, `dropna` usunął te brakujące wartości z `Series` `example3`.

Ponieważ DataFrames mają dwa wymiary, oferują więcej opcji usuwania danych.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Czy zauważyłeś, że pandas zmienił typ dwóch kolumn na float, aby uwzględnić `NaN`?)

Nie można usunąć pojedynczej wartości z `DataFrame`, więc trzeba usunąć całe wiersze lub kolumny. W zależności od tego, co robisz, możesz chcieć wybrać jedną z tych opcji, dlatego pandas daje możliwość obu. Ponieważ w nauce o danych kolumny zazwyczaj reprezentują zmienne, a wiersze obserwacje, częściej usuwa się wiersze danych; domyślne ustawienie dla `dropna()` polega na usunięciu wszystkich wierszy zawierających jakiekolwiek wartości null:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jeśli to konieczne, możesz usunąć wartości NA z kolumn. Użyj `axis=1`, aby to zrobić:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Zauważ, że może to spowodować usunięcie dużej ilości danych, które być może chciałbyś zachować, szczególnie w przypadku mniejszych zbiorów danych. Co jeśli chcesz usunąć tylko wiersze lub kolumny, które zawierają kilka lub nawet wszystkie wartości null? Możesz określić te ustawienia w `dropna` za pomocą parametrów `how` i `thresh`.

Domyślnie `how='any'` (jeśli chcesz sprawdzić samodzielnie lub zobaczyć, jakie inne parametry ma ta metoda, uruchom `example4.dropna?` w komórce kodu). Możesz alternatywnie określić `how='all'`, aby usunąć tylko wiersze lub kolumny, które zawierają wszystkie wartości null. Rozszerzmy nasz przykład `DataFrame`, aby zobaczyć to w działaniu w następnym ćwiczeniu.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Kluczowe informacje:  
1. Usuwanie wartości null jest dobrym pomysłem tylko wtedy, gdy zbiór danych jest wystarczająco duży.  
2. Całe wiersze lub kolumny można usunąć, jeśli większość ich danych jest brakująca.  
3. Metoda `DataFrame.dropna(axis=)` pomaga w usuwaniu wartości null. Argument `axis` określa, czy mają być usunięte wiersze, czy kolumny.  
4. Można również użyć argumentu `how`. Domyślnie jest ustawiony na `any`, co oznacza, że usuwane są tylko te wiersze/kolumny, które zawierają jakiekolwiek wartości null. Można go ustawić na `all`, aby określić, że usunięte zostaną tylko te wiersze/kolumny, w których wszystkie wartości są null.  


### Ćwiczenie:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametr `thresh` daje bardziej szczegółową kontrolę: ustawiasz liczbę *niepustych* wartości, które wiersz lub kolumna musi mieć, aby zostać zachowanym:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tutaj pierwsza i ostatnia wiersz zostały usunięte, ponieważ zawierają tylko dwie niepuste wartości.


### Wypełnianie wartości null

Czasami warto wypełnić brakujące wartości takimi, które mogą być uznane za prawidłowe. Istnieje kilka technik wypełniania wartości null. Pierwszą z nich jest wykorzystanie wiedzy dziedzinowej (wiedzy na temat tematu, na którym opiera się zestaw danych), aby w pewien sposób oszacować brakujące wartości.

Możesz użyć `isnull`, aby zrobić to bezpośrednio, ale może to być czasochłonne, szczególnie jeśli masz wiele wartości do wypełnienia. Ponieważ jest to tak powszechne zadanie w analizie danych, pandas oferuje funkcję `fillna`, która zwraca kopię `Series` lub `DataFrame` z brakującymi wartościami zastąpionymi wybranymi przez Ciebie. Stwórzmy kolejny przykład `Series`, aby zobaczyć, jak to działa w praktyce.


### Dane kategoryczne (nienumeryczne)
Najpierw rozważmy dane nienumeryczne. W zestawach danych mamy kolumny zawierające dane kategoryczne, np. płeć, Prawda lub Fałsz itp.

W większości takich przypadków zastępujemy brakujące wartości `modą` kolumny. Na przykład, mamy 100 punktów danych, z czego 90 wskazało Prawda, 8 wskazało Fałsz, a 2 nie wypełniły. Wówczas możemy uzupełnić te 2 brakujące wartości jako Prawda, biorąc pod uwagę całą kolumnę.

Tutaj również możemy wykorzystać wiedzę dziedzinową. Rozważmy przykład uzupełniania braków za pomocą mody.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Teraz najpierw znajdźmy modę, zanim wypełnimy wartość `None` modą.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Więc zastąpimy None wartością True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Jak widzimy, wartość null została zastąpiona. Nie trzeba dodawać, że mogliśmy wpisać cokolwiek zamiast `'True'` i zostałoby to podstawione.


### Dane numeryczne
Przejdźmy teraz do danych numerycznych. W tym przypadku mamy dwa popularne sposoby zastępowania brakujących wartości:

1. Zastąpienie medianą wiersza  
2. Zastąpienie średnią wiersza  

Zastępujemy medianą w przypadku danych skośnych z wartościami odstającymi. Dzieje się tak, ponieważ mediana jest odporna na wartości odstające.

Gdy dane są znormalizowane, możemy użyć średniej, ponieważ w takim przypadku średnia i mediana będą do siebie bardzo zbliżone.

Najpierw weźmy kolumnę, która jest rozkładem normalnym, i uzupełnijmy brakujące wartości średnią z tej kolumny.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Średnia kolumny wynosi


In [33]:
np.mean(fill_with_mean[0])

0.0

Wypełnianie średnią


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Jak widzimy, brakująca wartość została zastąpiona jej średnią.


Teraz spróbujmy innego dataframe, a tym razem zastąpimy wartości None medianą kolumny.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Mediana drugiej kolumny to


In [36]:
fill_with_median[1].median()

4.0

Wypełnianie medianą


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Jak widzimy, wartość NaN została zastąpiona medianą kolumny


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Możesz wypełnić wszystkie puste wpisy jedną wartością, taką jak `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Kluczowe wnioski:
1. Uzupełnianie brakujących wartości powinno być wykonywane, gdy danych jest niewiele lub istnieje strategia ich uzupełnienia.
2. Wiedza domenowa może być wykorzystana do przybliżonego uzupełnienia brakujących wartości.
3. W przypadku danych kategorycznych brakujące wartości najczęściej zastępuje się modą kolumny.
4. W przypadku danych numerycznych brakujące wartości zazwyczaj uzupełnia się średnią (dla znormalizowanych zbiorów danych) lub medianą kolumn.


### Ćwiczenie:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Możesz **uzupełnić w przód** wartości null, czyli użyć ostatniej prawidłowej wartości do wypełnienia null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Możesz również **uzupełnić wstecz**, aby propagować następne prawidłowe wartości wstecz w celu wypełnienia null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Jak możesz się domyślić, działa to tak samo z DataFrames, ale możesz również określić `axis`, wzdłuż którego wypełniane są wartości null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Zauważ, że gdy poprzednia wartość nie jest dostępna do uzupełnienia, wartość null pozostaje.


### Ćwiczenie:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Możesz być kreatywny w użyciu `fillna`. Na przykład, spójrzmy ponownie na `example4`, ale tym razem wypełnijmy brakujące wartości średnią wszystkich wartości w `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Zauważ, że kolumna 3 nadal nie ma wartości: domyślnym kierunkiem jest wypełnianie wartości wierszami.

> **Wniosek:** Istnieje wiele sposobów radzenia sobie z brakującymi wartościami w zbiorach danych. Konkretna strategia, którą zastosujesz (usuwanie, zastępowanie lub sposób zastępowania), powinna być uzależniona od specyfiki danych. Im więcej będziesz pracować z zestawami danych, tym lepiej zrozumiesz, jak radzić sobie z brakującymi wartościami.


### Kodowanie danych kategorycznych

Modele uczenia maszynowego operują wyłącznie na liczbach i wszelkiego rodzaju danych numerycznych. Nie są w stanie rozróżnić "Tak" od "Nie", ale potrafią odróżnić 0 od 1. Dlatego po uzupełnieniu brakujących wartości musimy zakodować dane kategoryczne w formie numerycznej, aby model mógł je zrozumieć.

Kodowanie można przeprowadzić na dwa sposoby. Omówimy je w dalszej części.


**KODOWANIE ETYKIET**

Kodowanie etykiet polega na zamianie każdej kategorii na liczbę. Na przykład, załóżmy, że mamy zbiór danych pasażerów linii lotniczych, a jedna z kolumn zawiera ich klasę spośród następujących ['klasa biznesowa', 'klasa ekonomiczna', 'pierwsza klasa']. Jeśli zastosujemy kodowanie etykiet, zostanie to przekształcone na [0,1,2]. Zobaczmy przykład w kodzie. Ponieważ będziemy uczyć się `scikit-learn` w nadchodzących notatnikach, tutaj go nie użyjemy.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Aby wykonać kodowanie etykiet w pierwszej kolumnie, musimy najpierw opisać mapowanie każdej klasy na liczbę, zanim dokonamy zamiany


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Jak widzimy, wynik odpowiada temu, czego się spodziewaliśmy. Kiedy więc stosujemy kodowanie etykiet? Kodowanie etykiet stosuje się w jednym lub obu z poniższych przypadków:
1. Gdy liczba kategorii jest duża
2. Gdy kategorie są uporządkowane.


**JEDNOZNACZNE KODOWANIE**

Innym rodzajem kodowania jest Jednoznaczne Kodowanie (One Hot Encoding). W tym typie kodowania każda kategoria z kolumny zostaje dodana jako osobna kolumna, a każdy punkt danych otrzymuje wartość 0 lub 1 w zależności od tego, czy zawiera daną kategorię. Jeśli więc istnieje n różnych kategorii, do ramki danych zostanie dodanych n kolumn.

Na przykład, weźmy ten sam przykład klas w samolocie. Kategorie to: ['business class', 'economy class', 'first class']. Jeśli zastosujemy jednoznaczne kodowanie, do zestawu danych zostaną dodane następujące trzy kolumny: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Wykonajmy kodowanie one hot na pierwszej kolumnie


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Każda zakodowana kolumna zawiera 0 lub 1, co określa, czy dana kategoria istnieje dla danego punktu danych.


Kiedy używamy kodowania one hot? Kodowanie one hot stosuje się w jednym lub obu z poniższych przypadków:

1. Gdy liczba kategorii i rozmiar zbioru danych są niewielkie.
2. Gdy kategorie nie mają określonego porządku.


> Najważniejsze informacje:
1. Kodowanie służy do przekształcania danych nienumerycznych na dane numeryczne.
2. Istnieją dwa rodzaje kodowania: kodowanie etykiet oraz kodowanie One Hot, które można zastosować w zależności od wymagań zestawu danych.


## Usuwanie zduplikowanych danych

> **Cel nauki:** Po zakończeniu tej części powinieneś swobodnie identyfikować i usuwać zduplikowane wartości z DataFrames.

Oprócz brakujących danych, w rzeczywistych zestawach danych często napotkasz zduplikowane dane. Na szczęście pandas oferuje łatwy sposób wykrywania i usuwania zduplikowanych wpisów.


### Identyfikacja duplikatów: `duplicated`

Możesz łatwo wykryć zduplikowane wartości za pomocą metody `duplicated` w pandas, która zwraca maskę logiczną wskazującą, czy wpis w `DataFrame` jest duplikatem wcześniejszego. Stwórzmy kolejny przykład `DataFrame`, aby zobaczyć to w praktyce.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Usuwanie duplikatów: `drop_duplicates`
`drop_duplicates` po prostu zwraca kopię danych, dla których wszystkie wartości oznaczone jako `duplicated` są `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Zarówno `duplicated`, jak i `drop_duplicates` domyślnie uwzględniają wszystkie kolumny, ale możesz określić, że mają analizować tylko podzbiór kolumn w Twoim `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Wniosek:** Usuwanie zduplikowanych danych jest kluczowym elementem niemal każdego projektu z zakresu nauki o danych. Zduplikowane dane mogą zmienić wyniki analiz i prowadzić do nieprawidłowych rezultatów!


## Kontrole jakości danych w rzeczywistych zastosowaniach

> **Cel nauki:** Po zakończeniu tej sekcji powinieneś swobodnie wykrywać i poprawiać typowe problemy z jakością danych w rzeczywistych zastosowaniach, takie jak niespójne wartości kategorii, nietypowe wartości numeryczne (wartości odstające) oraz duplikaty encji z wariacjami.

Chociaż brakujące wartości i dokładne duplikaty są częstymi problemami, rzeczywiste zestawy danych często zawierają bardziej subtelne trudności:

1. **Niespójne wartości kategorii**: Ta sama kategoria zapisana w różny sposób (np. "USA", "U.S.A", "United States")
2. **Nietypowe wartości numeryczne**: Ekstremalne wartości odstające wskazujące na błędy wprowadzania danych (np. wiek = 999)
3. **Prawie identyczne wiersze**: Rekordy reprezentujące tę samą encję z drobnymi różnicami

Przyjrzyjmy się technikom wykrywania i radzenia sobie z tymi problemami.


### Tworzenie przykładowego "zanieczyszczonego" zestawu danych

Najpierw stwórzmy przykładowy zestaw danych, który zawiera typowe problemy, z jakimi często spotykamy się w danych rzeczywistych:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Wykrywanie niespójnych wartości kategorii

Zauważ, że kolumna `country` zawiera różne reprezentacje tych samych krajów. Zidentyfikujmy te niespójności:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Standaryzacja wartości kategorycznych

Możemy stworzyć mapowanie, aby ujednolicić te wartości. Prostym podejściem jest konwersja na małe litery i utworzenie słownika mapowania:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatywa: Użycie dopasowania przybliżonego**

W bardziej złożonych przypadkach możemy użyć dopasowania przybliżonego ciągów znaków za pomocą biblioteki `rapidfuzz`, aby automatycznie wykrywać podobne ciągi:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Wykrywanie nietypowych wartości liczbowych (odchylenia)

Przyglądając się kolumnie `age`, zauważamy podejrzane wartości, takie jak 199 i -5. Skorzystajmy z metod statystycznych, aby wykryć te odchylenia.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Korzystanie z metody IQR (Interquartile Range)

Metoda IQR to solidna technika statystyczna do wykrywania wartości odstających, która jest mniej wrażliwa na wartości skrajne:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Korzystanie z metody Z-score

Metoda Z-score identyfikuje wartości odstające na podstawie odchyleń standardowych od średniej:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Obsługa wartości odstających

Po ich wykryciu, wartości odstające można obsłużyć na kilka sposobów:
1. **Usuń**: Usuń wiersze zawierające wartości odstające (jeśli są błędami)
2. **Ogranicz**: Zastąp wartościami granicznymi
3. **Zastąp NaN**: Potraktuj jako brakujące dane i zastosuj techniki imputacji
4. **Zachowaj**: Jeśli są to uzasadnione wartości ekstremalne


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Wykrywanie prawie identycznych wierszy

Zauważ, że nasz zestaw danych zawiera wiele wpisów dla "John Smith" z nieco różniącymi się wartościami. Zidentyfikujmy potencjalne duplikaty na podstawie podobieństwa nazw.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Znajdowanie prawie identycznych elementów za pomocą dopasowania rozmytego

Do bardziej zaawansowanego wykrywania duplikatów możemy użyć dopasowania rozmytego, aby znaleźć podobne nazwy:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Obsługa duplikatów

Po zidentyfikowaniu, musisz zdecydować, jak obsłużyć duplikaty:
1. **Zachowaj pierwsze wystąpienie**: Użyj `drop_duplicates(keep='first')`
2. **Zachowaj ostatnie wystąpienie**: Użyj `drop_duplicates(keep='last')`
3. **Agreguj informacje**: Połącz informacje z duplikowanych wierszy
4. **Ręczna weryfikacja**: Oznacz do przeglądu przez człowieka


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Podsumowanie: Kompletny Proces Czyszczenia Danych

Połączmy wszystko w jeden kompleksowy proces czyszczenia danych:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Ćwiczenie Wyzwanie

Teraz Twoja kolej! Poniżej znajduje się nowy wiersz danych z wieloma problemami jakościowymi. Czy potrafisz:

1. Zidentyfikować wszystkie problemy w tym wierszu
2. Napisać kod, aby naprawić każdy problem
3. Dodać oczyszczony wiersz do zestawu danych

Oto problematyczne dane:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Kluczowe Wnioski

1. **Niespójne kategorie** są częstym problemem w danych rzeczywistych. Zawsze sprawdzaj unikalne wartości i standaryzuj je za pomocą mapowań lub dopasowania przybliżonego.

2. **Wartości odstające** mogą znacząco wpłynąć na Twoją analizę. Wykorzystaj wiedzę domenową w połączeniu z metodami statystycznymi (IQR, Z-score), aby je wykryć.

3. **Prawie duplikaty** są trudniejsze do wykrycia niż dokładne duplikaty. Rozważ użycie dopasowania przybliżonego oraz normalizację danych (zmiana na małe litery, usuwanie spacji), aby je zidentyfikować.

4. **Czyszczenie danych jest procesem iteracyjnym**. Może być konieczne zastosowanie wielu technik i przegląd wyników przed ostatecznym zakończeniem procesu czyszczenia danych.

5. **Dokumentuj swoje decyzje**. Zapisuj, jakie kroki czyszczenia danych zostały zastosowane i dlaczego, ponieważ jest to ważne dla odtwarzalności i przejrzystości.

> **Najlepsza praktyka:** Zawsze zachowaj kopię swoich oryginalnych "brudnych" danych. Nigdy nie nadpisuj plików źródłowych - twórz oczyszczone wersje z jasnymi konwencjami nazewnictwa, np. `data_cleaned.csv`.



---

**Zastrzeżenie**:  
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż staramy się zapewnić dokładność, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego języku źródłowym powinien być uznawany za autorytatywne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.
