# Eksplorowanie danych za pomocą bibliotek NumPy i Pandas
Analitycy danych mogą używać różnych narzędzi i technik do eksplorowania, wizualizowania i manipulowania danymi. Jednym z najpopularniejszych sposobów, w jaki analitycy danych pracują z danymi, jest użycie języka Python i niektórych określonych pakietów do przetwarzania danych.

# Co to jest biblioteka NumPy?
NumPy to biblioteka języka Python, która zapewnia funkcje porównywalne z narzędziami matematycznymi, takimi jak MATLAB i R. Chociaż biblioteka NumPy znacznie upraszcza środowisko użytkownika, oferuje również kompleksowe funkcje matematyczne.

# Co to jest biblioteka Pandas?
Pandas to niezwykle popularna biblioteka języka Python do analizy danych i manipulowania nimi. Biblioteka Pandas jest jak aplikacja arkusza kalkulacyjnego dla języka Python, zapewniając łatwą w użyciu funkcję tabel danych.

![Pandas](2-pandas-df.png)

Diagram ramki danych biblioteki Pandas.

Eksplorowanie danych w notesie
Notatniki to popularny sposób uruchamiania podstawowych skryptów za pomocą przeglądarki internetowej. Zazwyczaj te notesy są jedną stroną internetową podzieloną na sekcje tekstowe i sekcje kodu, które można uruchamiać indywidualnie.

Testowanie hipotez
Eksploracja i analiza danych jest zazwyczaj procesem iteracyjnym , w którym analityk danych pobiera próbkę danych i wykonuje następujące rodzaje zadań do analizowania i testowania hipotez:

- Czyszczenie danych w celu obsługi błędów, brakujących wartości i innych problemów.
- Zastosuj techniki statystyczne, aby lepiej zrozumieć dane i sposób, w jaki próbka może być oczekiwana do reprezentowania rzeczywistej populacji danych, co pozwala - na losowe zmiany.
- Wizualizuj dane w celu określenia relacji między zmiennymi, a w przypadku projektu uczenia maszynowego zidentyfikuj funkcje , które są potencjalnie predykcyjne - etykiety.
- Zrewiduj hipotezę i powtórz ten proces

## Eksplorowanie danych za pomocą bibliotek NumPy i Pandas

Zacznijmy od prostych danych.

Załóżmy, że profesor uczelni pobiera próbkę ocen studentów z klasy do analizy.

Uruchom kod w poniższej komórce, klikając przycisk **&#9658; Run**, aby zobaczyć dane.

In [None]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

Dane zostały załadowane do struktury **list** w Pythonie, która jest dobrym typem danych do ogólnej manipulacji danymi, ale nie jest zoptymalizowana do analizy numerycznej. Do tego celu użyjemy pakietu **NumPy**, który zawiera specyficzne typy danych i funkcje do pracy z *Num*erami w *Py*thonie.

Uruchom poniższą komórkę, aby załadować dane do tablicy **NumPy**.

In [None]:
import numpy as np

grades = np.array(data)
print(grades)

Jeśli zastanawiasz się nad różnicami między **listą** a tablicą **NumPy**, porównajmy, jak te typy danych zachowują się, gdy użyjemy ich w wyrażeniu mnożącym je przez dwa.

In [None]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

Zauważ, że pomnożenie listy przez dwa tworzy nową listę o podwójnej długości z powtórzoną oryginalną sekwencją elementów listy. Natomiast pomnożenie tablicy NumPy wykonuje obliczenia element po elemencie, gdzie tablica zachowuje się jak *wektor*, więc otrzymujemy tablicę o tym samym rozmiarze, w której każdy element został pomnożony przez dwa.

Kluczowy wniosek jest taki, że tablice NumPy są specjalnie zaprojektowane do obsługi operacji matematycznych na danych numerycznych, co czyni je bardziej przydatnymi do analizy danych niż zwykła lista.

Mogłeś zauważyć, że typ klasy poprzedniej tablicy NumPy to **numpy.ndarray**. **nd** oznacza, że jest to struktura, która może składać się z wielu *wymiarów*. (Może mieć *n* wymiarów.) Nasza konkretna instancja ma jeden wymiar ocen studentów.

Uruchom poniższą komórkę, aby wyświetlić **kształt** tablicy.

In [None]:
print(grades.shape)

Kształt potwierdza, że ta tablica ma tylko jeden wymiar, który zawiera 22 elementy. (W oryginalnej liście jest 22 oceny.) Możesz uzyskać dostęp do poszczególnych elementów tablicy przez ich pozycję porządkową liczoną od zera. Pobierzmy pierwszy element (ten na pozycji 0).

In [None]:
print(grades[0])

Teraz, gdy znasz tablice NumPy, czas wykonać analizę danych ocen.

Możesz stosować agregacje na elementach tablicy, więc znajdźmy prostą średnią ocenę (innymi słowy, wartość *średniej* oceny).

In [None]:
print(grades.mean())

Więc średnia ocena wynosi około 50, mniej więcej w środku możliwego zakresu od 0 do 100.

Dodajmy drugi zestaw danych dla tych samych studentów. Tym razem zarejestrujemy typową liczbę godzin tygodniowo poświęconych na naukę.

In [None]:
# Define an array of study hours
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Create a 2D array (an array of arrays)
student_data = np.array([study_hours, grades])

# display the array
print(student_data)

Teraz dane składają się z tablicy dwuwymiarowej; tablicy tablic. Sprawdźmy jej kształt.

In [None]:
# Show shape of 2D array
print(student_data.shape)

Tablica **student_data** zawiera dwa elementy, z których każdy jest tablicą zawierającą 22 elementy.

Aby nawigować po tej strukturze, musisz określić pozycję każdego elementu w hierarchii. Tak więc, aby znaleźć pierwszą wartość w pierwszej tablicy (która zawiera dane o godzinach nauki), możesz użyć następującego kodu.

In [None]:
# Show the first element of the first element
print(student_data[0][0])

Teraz masz wielowymiarową tablicę zawierającą zarówno czas nauki studentów, jak i informacje o ocenach, której możesz użyć do porównania czasu nauki z oceną studenta.

In [None]:
# Get the mean value of each sub-array
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

## Eksploracja danych tabelarycznych z Pandas

NumPy zapewnia wiele funkcjonalności i narzędzi potrzebnych do pracy z liczbami, takich jak tablice wartości numerycznych. Jednak gdy zaczynasz pracę z dwuwymiarowymi tabelami danych, pakiet **Pandas** oferuje wygodniejszą strukturę do pracy: **DataFrame**.

Uruchom poniższą komórkę, aby zaimportować bibliotekę Pandas i utworzyć DataFrame z trzema kolumnami. Pierwsza kolumna to lista imion studentów, a druga i trzecia kolumna to tablice NumPy zawierające dane o czasie nauki i ocenach.

In [None]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

print(df_students)

Zauważ, że oprócz określonych kolumn, DataFrame zawiera *indeks* do unikalnej identyfikacji każdego wiersza. Mogliśmy jawnie określić indeks i przypisać dowolną odpowiednią wartość (na przykład adres e-mail). Jednak ponieważ nie określiliśmy indeksu, został utworzony z unikalną wartością całkowitą dla każdego wiersza.

### Znajdowanie i filtrowanie danych w DataFrame

Możesz użyć metody **loc** DataFrame do pobierania danych dla określonej wartości indeksu, tak jak poniżej.

In [None]:
# Get the data for index value 5
print(df_students.loc[5])

Możesz również pobrać dane z zakresu wartości indeksu, tak jak poniżej:

In [None]:
# Get the rows with index values from 0 to 5
print(df_students.loc[0:5])

Oprócz możliwości użycia metody **loc** do znajdowania wierszy na podstawie indeksu, możesz użyć metody **iloc** do znajdowania wierszy na podstawie ich pozycji porządkowej w DataFrame (niezależnie od indeksu):

In [None]:
# Get data in the first five rows
print(df_students.iloc[0:5])

Przyjrzyj się uważnie wynikom `iloc[0:5]` i porównaj je z wynikami `loc[0:5]` uzyskanymi wcześniej. Czy zauważasz różnicę?

Metoda **loc** zwróciła wiersze z *etykietą* indeksu z listy wartości od *0* do *5*, co obejmuje *0*, *1*, *2*, *3*, *4* i *5* (sześć wierszy). Jednak metoda **iloc** zwraca wiersze na *pozycjach* zawartych w zakresie od 0 do 5. Ponieważ zakresy liczb całkowitych nie zawierają górnej granicy, obejmuje to pozycje *0*, *1*, *2*, *3* i *4* (pięć wierszy).

**iloc** identyfikuje wartości danych w DataFrame według *pozycji*, co rozciąga się nie tylko na wiersze, ale także na kolumny. Na przykład możesz go użyć do znalezienia wartości dla kolumn na pozycjach 1 i 2 w wierszu 0, tak jak poniżej:

In [None]:
print(df_students.iloc[0,[1,2]])

Wróćmy do metody **loc** i zobaczmy, jak działa z kolumnami. Pamiętaj, że używasz **loc** do lokalizowania elementów danych na podstawie wartości indeksu, a nie pozycji. W przypadku braku jawnej kolumny indeksu, wiersze w naszym DataFrame są indeksowane jako wartości całkowite, ale kolumny są identyfikowane przez nazwę:

In [None]:
print(df_students.loc[0,'Grade'])

Oto kolejna przydatna sztuczka. Możesz użyć metody **loc** do znajdowania indeksowanych wierszy na podstawie wyrażenia filtrującego, które odwołuje się do nazwanych kolumn innych niż indeks, tak jak poniżej:

In [None]:
print(df_students.loc[df_students['Name']=='Aisha'])

W rzeczywistości nie musisz jawnie używać metody **loc**, aby to zrobić. Możesz po prostu zastosować wyrażenie filtrujące DataFrame, tak jak poniżej:

In [None]:
print(df_students[df_students['Name']=='Aisha'])

Dla kompletności możesz osiągnąć te same wyniki, używając metody **query** DataFrame, tak jak poniżej:

In [None]:
print(df_students.query('Name=="Aisha"'))

Trzy poprzednie przykłady podkreślają mylącą prawdę o pracy z Pandas. Często istnieje wiele sposobów osiągnięcia tych samych wyników. Innym przykładem jest sposób odwoływania się do nazwy kolumny DataFrame. Możesz określić nazwę kolumny jako nazwaną wartość indeksu (jak w przykładach `df_students['Name']`, które widzieliśmy do tej pory), lub możesz użyć kolumny jako właściwości DataFrame, tak jak poniżej:

In [None]:
print(df_students[df_students.Name == 'Aisha'])

### Ładowanie DataFrame z pliku

Skonstruowaliśmy DataFrame z istniejących tablic. Jednak w wielu rzeczywistych scenariuszach dane są ładowane ze źródeł takich jak pliki. Zastąpmy DataFrame ocen studentów zawartością pliku tekstowego.

Uruchom następną komórkę, aby załadować dane z pliku do DataFrame.

In [None]:
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
print(df_students.head())

Metoda **read_csv** DataFrame służy do ładowania danych z plików tekstowych. Jak widać w przykładowym kodzie, możesz określić opcje takie jak separator kolumn i który wiersz (jeśli w ogóle) zawiera nagłówki kolumn. (W tym przypadku separatorem jest przecinek, a pierwszy wiersz zawiera nazwy kolumn. To są domyślne ustawienia, więc mogliśmy pominąć parametry.)


### Obsługa brakujących wartości

Jednym z najczęstszych problemów, z którymi muszą się zmierzyć naukowcy zajmujący się danymi, są niekompletne lub brakujące dane. Jak więc możemy dowiedzieć się, że DataFrame zawiera brakujące wartości? Możesz użyć metody **isnull** do identyfikacji, które poszczególne wartości są null, tak jak poniżej:

In [None]:
print(df_students.isnull())

Oczywiście przy większym DataFrame byłoby nieefektywne przeglądanie wszystkich wierszy i kolumn indywidualnie, więc możemy uzyskać sumę brakujących wartości dla każdej kolumny w ten sposób:

In [None]:
print(df_students.isnull().sum())

Teraz wiemy, że jest jedna brakująca wartość **StudyHours** i dwie brakujące wartości **Grade**.

Aby zobaczyć je w kontekście, możemy przefiltrować DataFrame, aby uwzględnić tylko wiersze, w których którakolwiek z kolumn (oś 1 DataFrame) ma wartość null.

In [None]:
print(df_students[df_students.isnull().any(axis=1)])

Gdy DataFrame jest pobierany, brakujące wartości numeryczne wyświetlają się jako **NaN** (*not a number* - nie liczba).

Skoro już znaleźliśmy wartości null, co możemy z nimi zrobić?

Jednym z powszechnych podejść jest *imputacja* wartości zastępczych. Na przykład, jeśli brakuje liczby godzin nauki, możemy po prostu założyć, że student uczył się przez średnią ilość czasu i zastąpić brakującą wartość średnią godzin nauki. Aby to zrobić, możemy użyć metody **fillna**, tak jak poniżej:

In [None]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
print(df_students)

Alternatywnie może być ważne, aby upewnić się, że używasz tylko danych, o których wiesz, że są absolutnie poprawne. W tym przypadku możesz usunąć wiersze lub kolumny zawierające wartości null, używając metody **dropna**. Na przykład usuniemy wiersze (oś 0 DataFrame), gdzie którakolwiek z kolumn zawiera wartości null:

In [None]:
df_students = df_students.dropna(axis=0, how='any')
print(df_students)

### Eksploracja danych w DataFrame

Teraz, gdy oczyściliśmy brakujące wartości, jesteśmy gotowi do eksploracji danych w DataFrame. Zacznijmy od porównania średniego czasu nauki i ocen.

In [None]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

OK, przefiltrujmy DataFrame, aby znaleźć tylko studentów, którzy uczyli się więcej niż średnia ilość czasu.

In [None]:
# Get students who studied for the mean or more hours
print(df_students[df_students.StudyHours > mean_study])

Zauważ, że przefiltrowany wynik sam w sobie jest DataFrame, więc możesz pracować z jego kolumnami jak z każdym innym DataFrame.

Na przykład znajdźmy średnią ocenę dla studentów, którzy poświęcili więcej niż średnią ilość czasu na naukę.

In [None]:
# What was their mean grade?
print(df_students[df_students.StudyHours > mean_study].Grade.mean())

Załóżmy, że próg zaliczenia kursu to 60.

Możemy użyć tej informacji, aby dodać nową kolumnę do DataFrame, która wskazuje, czy każdy student zdał, czy nie.

Najpierw utworzymy Pandas **Series** zawierającą wskaźnik zdał/nie zdał (True lub False), a następnie połączymy tę serię jako nową kolumnę (oś 1) w DataFrame.

In [None]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

print(df_students)

DataFrames są zaprojektowane do danych tabelarycznych i możesz ich używać do wykonywania wielu tych samych operacji analizy danych, które możesz wykonać w relacyjnej bazie danych, takich jak grupowanie i agregowanie tabel danych.

Na przykład możesz użyć metody **groupby** do grupowania danych studentów na podstawie kolumny **Pass**, którą dodałeś wcześniej, i policzenia liczby imion w każdej grupie. Innymi słowy, możesz określić, ilu studentów zdało, a ilu nie zdało.

In [None]:
print(df_students.groupby(df_students.Pass).Name.count())

Możesz agregować wiele pól w grupie, używając dowolnej dostępnej funkcji agregującej. Na przykład możesz znaleźć średni czas nauki i ocenę dla grup studentów, którzy zdali i nie zdali kursu.

In [None]:
print(df_students.groupby(df_students.Pass)[['StudyHours', 'Grade']].mean())

DataFrames są niezwykle wszechstronne i ułatwiają manipulowanie danymi. Wiele operacji DataFrame zwraca nową kopię DataFrame, więc jeśli chcesz zmodyfikować DataFrame, ale zachować istniejącą zmienną, musisz przypisać wynik operacji do istniejącej zmiennej. Na przykład poniższy kod sortuje dane studentów malejąco według oceny i przypisuje wynikowy posortowany DataFrame do oryginalnej zmiennej **df_students**.

In [None]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
print(df_students)

## Podsumowanie

NumPy i DataFrames są końmi roboczymi nauki o danych w Pythonie. Zapewniają nam sposoby ładowania, eksplorowania i analizowania danych tabelarycznych. Jak dowiemy się w kolejnych modułach, nawet zaawansowane metody analizy zazwyczaj polegają na NumPy i Pandas w tych ważnych rolach.