# Wizualizowanie danych

Analitycy danych wizualizować dane, aby lepiej je zrozumieć. Mogą skanować nieprzetworzone dane, badać miary podsumowania, takie jak średnie lub grafować dane. Grafy to zaawansowany sposób wizualizowania danych, a analitycy danych często używają wykresów do szybkiego rozpoznawania umiarkowanie złożonych wzorców.

## Reprezentacja danych wizualnie

Grafowanie jest wykonywane w celu zapewnienia szybkiej jakościowej oceny naszych danych, co może być przydatne do zrozumienia wyników, znalezienia wartości odstających, zbadania sposobu dystrybucji liczb itd.

Chociaż czasami wiemy z wyprzedzeniem, jaki rodzaj grafu będzie najbardziej przydatny, czasami używamy grafów w eksploracyjny sposób. Aby zrozumieć możliwości wizualizacji danych, rozważ następujące dane: lokalizację (x,y) samochodu samojezdnego. W postaci pierwotnej danych trudno jest zobaczyć wszelkie rzeczywiste wzorce. Średnia lub średnia informuje nas, że ścieżka samochodu była wyśrodkowana wokół x=0,2 i y=0,3, a zakres liczb wydaje się wynosić od około -2 do 2.

**Tabela: Reprezentacja danych wizualnie**

| Czas | Lokalizacja-X | Lokalizacja-Y |
|---:|---:|---:|
| 0 | 0 | 2 |
| 1 | 1.682942 | 1.080605 |
| 2 | 1.818595 | -0.83229 |
| 3 | 0.28224 | -1.97998 |
| 100 | -1.5136 | -1.30729 |
| 5 | -1.91785 | 0.567324 |
| 6 | -0.55883 | 1.920341 |
| 7 | 1.313973 | 1.507805 |
| 12 | 0.00001 | 0.00001 |
| 13 | 0.840334 | 1.814894 |
| 14 | 1.981215 | 0.273474 |
| 15 | 1.300576 | -1.51938 |
| 16 | -0.57581 | -1.91532 |
| 17 | -1.92279 | -0.55033 |
| 18 | -1.50197 | 1.320633 |
| 19 | 0.299754 | 1.977409 |
| 20 | 1.825891 | 0.816164 |

Jeśli teraz wykreślimy wartość Location-X z upływem czasu, możemy zobaczyć, że mamy brakujące wartości z przedziału od 7 do 12.

![Wykres współrzędnych Location-X wykreślił względem czasu.](4-x-coordinates.png)

Jeśli grafu X i Y, kończymy się mapą miejsca, w którym samochód jechał. To natychmiast oczywiste, że samochód jechał w kółko i w pewnym momencie pojechał do środka tego koła.

![Wykres współrzędnych Location-X i Location-Y nakreślonych.](4-x-y-coordinates.png)

Wykresy nie są ograniczone do wykresów punktowych 2D, takich jak te powyżej. Mogą one służyć do eksplorowania innych aspektów danych; na przykład proporcje (wykresy kołowe i skumulowane wykresy słupkowe) oraz sposób rozprzestrzeniania się danych (histogramy i wykresy wąsowe typu box-and-whisker). Często, gdy próbujemy zrozumieć nieprzetworzone dane lub wyniki, możemy eksperymentować z różnymi typami grafów, dopóki nie napotkamy takiego, który wyjaśnia dane w wizualnie intuicyjny sposób.




# Eksploracja danych w Pythonie — wizualizacja

W tym notatniku zastosujemy kilka technik do analizy danych przy użyciu podstawowych statystyk i wizualizacji za pomocą wykresów.

## Ładowanie danych
Zanim zaczniemy, załadujmy te same dane o godzinach nauki, które analizowaliśmy w poprzednim notatniku. Ponownie obliczymy również, kto zaliczył zajęcia, w ten sam sposób jak wcześniej.

In [None]:
import pandas as pd

# Load data from a text file
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')

# Remove any rows with missing data
df_students = df_students.dropna(axis=0, how='any')

# Calculate who passed, assuming '60' is the grade needed to pass
passes  = pd.Series(df_students['Grade'] >= 60)

# Save who passed to the Pandas dataframe
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)


# Print the result out into this notebook
print(df_students)

## Wizualizacja danych za pomocą Matplotlib

DataFrame'y to świetny sposób na eksplorację i analizę danych tabelarycznych, ale czasami obraz mówi więcej niż tysiąc wierszy i kolumn. Biblioteka **Matplotlib** dostarcza podstaw do tworzenia wykresów, które znacząco ułatwiają analizę danych.

Zacznijmy od prostego wykresu słupkowego pokazującego ocenę każdego studenta.

**Uwaga**: Ten pierwszy wykres może zająć jedną–dwie minuty do wyrenderowania. Kolejne będą renderować szybciej.

In [None]:
from matplotlib import pyplot as plt

# Create a bar plot of name vs grade
plt.bar(x=df_students.Name, height=df_students.Grade)

# Display the plot
plt.show()

To zadziałało, ale wykres można ulepszyć, aby był czytelniejszy.

Zwróć uwagę, że użyliśmy klasy **pyplot** z Matplotlib do narysowania wykresu. Klasa ta udostępnia wiele sposobów poprawy elementów wizualnych wykresu. Na przykład poniższy kod:

- Określa kolor wykresu słupkowego.
- Dodaje tytuł wykresu (żeby wiedzieć, co przedstawia)
- Dodaje etykiety osi X i Y (żeby wiedzieć, która oś pokazuje jakie dane)
- Dodaje siatkę (ułatwiającą odczyt wartości słupków)
- Obraca etykiety osi X (żeby można je było odczytać)

In [None]:
# Create a bar plot of name vs grade
plt.bar(x=df_students.Name, height=df_students.Grade, color='orange')

# Customize the chart
plt.title('Student Grades')
plt.xlabel('Student')
plt.ylabel('Grade')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xticks(rotation=90)

# Display the plot
plt.show()

Wykres jest technicznie zawarty w obiekcie **Figure**. W poprzednich przykładach figura była tworzona automatycznie, ale możesz ją utworzyć jawnie. Na przykład poniższy kod tworzy figurę o określonym rozmiarze.

In [None]:
# Create a Figure
fig = plt.figure(figsize=(8,3))

# Create a bar plot of name vs grade
plt.bar(x=df_students.Name, height=df_students.Grade, color='orange')

# Customize the chart
plt.title('Student Grades')
plt.xlabel('Student')
plt.ylabel('Grade')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xticks(rotation=90)

# Show the figure
plt.show()

Figura może zawierać wiele podwykresów, z których każdy ma własną oś (*axis*).

Na przykład poniższy kod tworzy figurę z dwoma podwykresami: jeden to wykres słupkowy pokazujący oceny studentów, a drugi to wykres kołowy porównujący liczbę zaliczeń i niezaliczeń.

In [None]:
# Create a figure for 2 subplots (1 row, 2 columns)
fig, ax = plt.subplots(1, 2, figsize = (10,4))

# Create a bar plot of name vs grade on the first axis
ax[0].bar(x=df_students.Name, height=df_students.Grade, color='orange')
ax[0].set_title('Grades')
ax[0].set_xticklabels(df_students.Name, rotation=90)

# Create a pie chart of pass counts on the second axis
pass_counts = df_students['Pass'].value_counts()
ax[1].pie(pass_counts, labels=pass_counts)
ax[1].set_title('Passing Grades')
ax[1].legend(pass_counts.keys().tolist())

# Add a title to the Figure
fig.suptitle('Student Data')

# Show the figure
fig.show()

Do tej pory używaliśmy metod obiektu `Matplotlib.pyplot` do rysowania wykresów. Jednak Matplotlib jest tak fundamentalny dla grafiki w Pythonie, że wiele pakietów, w tym Pandas, udostępnia metody abstrakcyjne upraszczające rysowanie. Na przykład DataFrame udostępnia własne metody do tworzenia wykresów, jak w poniższym przykładzie, który rysuje wykres słupkowy czasu nauki.

In [None]:
df_students.plot.bar(x='Name', y='StudyHours', color='teal', figsize=(6,4))

## Wprowadzenie do analizy statystycznej

Teraz, gdy wiesz, jak używać Pythona do manipulowania i wizualizacji danych, możesz zacząć je analizować.

Wiele z nauki o danych opiera się na *statystyce*, więc przejrzymy kilka podstawowych technik statystycznych.

> **Uwaga**: Ta sekcja nie ma na celu nauczania statystyki — to temat zbyt obszerny jak na ten notatnik. Wprowadzi jednak kilka koncepcji i technik statystycznych używanych przy eksploracji danych przed modelowaniem uczenia maszynowego.

### Statystyki opisowe i rozkład danych

Przy badaniu *zmiennej* (np. próbek ocen studentów) analitycy szczególnie interesują się jej *rozkładem* (innymi słowy, jak wartości danej zmiennej rozkładają się w próbce). Punktem wyjścia jest często wizualizacja danych jako histogram i sprawdzenie, jak często występują poszczególne wartości.

In [None]:
# Get the variable to examine
var_data = df_students['Grade']

# Create a Figure
fig = plt.figure(figsize=(10,4))

# Plot a histogram
plt.hist(var_data)

# Add titles and labels
plt.title('Data Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')

# Show the figure
fig.show()

Histogram ocen ma kształt symetryczny — najczęściej występujące oceny koncentrują się w środku zakresu (około 50), a rzadziej występują wartości skrajne.

**Miary tendencji centralnej**

Aby lepiej zrozumieć rozkład, możemy przyjrzeć się tzw. *miarom tendencji centralnej*, czyli statystykom opisującym "środek" danych. Celem tej analizy jest znalezienie "typowej" wartości. Do typowych miar należą:

- *Średnia* (mean): prosta średnia arytmetyczna wartości w próbce.
- *Mediana* (median): wartość środkowa w uporządkowanym zbiorze próbek.
- *Dominanta* (mode): najczęściej występująca wartość w próbce<sup>+</sup>.

Obliczmy te wartości oraz minimum i maksimum do porównania i wyświetlmy je na histogramie.

> <sup>+</sup>W niektórych próbach może wystąpić remis na najczęściej występującą wartość — wtedy mówimy o rozkładzie dwumodalnym lub wielomodalnym.

In [None]:
# Get the variable to examine
var = df_students['Grade']

# Get statistics
min_val = var.min()
max_val = var.max()
mean_val = var.mean()
med_val = var.median()
mod_val = var.mode()[0]

print('Minimum:{:.2f}\nMean:{:.2f}\nMedian:{:.2f}\nMode:{:.2f}\nMaximum:{:.2f}\n'.format(min_val,
                                                                                        mean_val,
                                                                                        med_val,
                                                                                        mod_val,
                                                                                        max_val))

# Create a Figure
fig = plt.figure(figsize=(10,4))

# Plot a histogram
plt.hist(var)

# Add lines for the statistics
plt.axvline(x=min_val, color = 'gray', linestyle='dashed', linewidth = 2)
plt.axvline(x=mean_val, color = 'cyan', linestyle='dashed', linewidth = 2)
plt.axvline(x=med_val, color = 'red', linestyle='dashed', linewidth = 2)
plt.axvline(x=mod_val, color = 'yellow', linestyle='dashed', linewidth = 2)
plt.axvline(x=max_val, color = 'gray', linestyle='dashed', linewidth = 2)

# Add titles and labels
plt.title('Data Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')

# Show the figure
fig.show()

Dla danych o ocenach średnia, mediana i dominanta znajdują się mniej więcej w środku zakresu, około 50.

Innym sposobem wizualizacji rozkładu zmiennej jest wykres *box* (box-and-whiskers). Stwórzmy taki wykres dla ocen.

In [None]:
# Get the variable to examine
var = df_students['Grade']

# Create a Figure
fig = plt.figure(figsize=(10,4))

# Plot a histogram
plt.boxplot(var)

# Add titles and labels
plt.title('Data Distribution')

# Show the figure
fig.show()

Wykres box pokazuje rozkład ocen w inny sposób niż histogram. Część *box* pokazuje wewnętrzne dwa kwartyle danych. W tym przypadku połowa ocen znajduje się mniej więcej między 36 a 63. *Wąsy* rozciągające się od pudełka pokazują zewnętrzne kwartyle, więc pozostała połowa ocen mieści się albo między 0 a 36, albo między 63 a 100. Linia w pudełku wskazuje wartość *mediany*.

Dla celów dydaktycznych warto łączyć histogramy z wykresami box, zmieniając orientację boxa tak, aby wyrównać go z histogramem. (W pewnym sensie histogram można traktować jako widok "elewacji", a wykres box jako widok "z góry".)

In [None]:
# Create a function that we can re-use
def show_distribution(var_data):
    from matplotlib import pyplot as plt

    # Get statistics
    min_val = var_data.min()
    max_val = var_data.max()
    mean_val = var_data.mean()
    med_val = var_data.median()
    mod_val = var_data.mode()[0]

    print('Minimum:{:.2f}\nMean:{:.2f}\nMedian:{:.2f}\nMode:{:.2f}\nMaximum:{:.2f}\n'.format(min_val,
                                                                                            mean_val,
                                                                                            med_val,
                                                                                            mod_val,
                                                                                            max_val))

    # Create a figure for 2 subplots (2 rows, 1 column)
    fig, ax = plt.subplots(2, 1, figsize = (10,4))

    # Plot the histogram   
    ax[0].hist(var_data)
    ax[0].set_ylabel('Frequency')

    # Add lines for the mean, median, and mode
    ax[0].axvline(x=min_val, color = 'gray', linestyle='dashed', linewidth = 2)
    ax[0].axvline(x=mean_val, color = 'cyan', linestyle='dashed', linewidth = 2)
    ax[0].axvline(x=med_val, color = 'red', linestyle='dashed', linewidth = 2)
    ax[0].axvline(x=mod_val, color = 'yellow', linestyle='dashed', linewidth = 2)
    ax[0].axvline(x=max_val, color = 'gray', linestyle='dashed', linewidth = 2)

    # Plot the boxplot   
    ax[1].boxplot(var_data, vert=False)
    ax[1].set_xlabel('Value')

    # Add a title to the Figure
    fig.suptitle('Data Distribution')

    # Show the figure
    fig.show()

# Get the variable to examine
col = df_students['Grade']
# Call the function
show_distribution(col)

Wszystkie miary tendencji centralnej znajdują się mniej więcej w środku rozkładu danych, który jest symetryczny — wartości maleją w obu kierunkach od środka.

Aby zbadać rozkład bardziej szczegółowo, warto zrozumieć, że statystyka polega na pobieraniu *próbek* danych i używaniu funkcji prawdopodobieństwa do ekstrapolacji informacji o pełnej *populacji* danych.

Co to znaczy? *Próbki* to dane, które mamy, np. informacje o 22 studentach. *Populacja* to wszystkie możliwe dane, które można by zebrać, np. oceny i zwyczaje naukowe wszystkich studentów we wszystkich instytucjach. Zazwyczaj interesuje nas populacja, ale zebranie jej w całości jest niepraktyczne. Zamiast tego staramy się oszacować populację na podstawie dostępnych próbek.

Jeśli mamy wystarczającą liczbę próbek, możemy obliczyć tzw. funkcję gęstości prawdopodobieństwa (PDF), która estymuje rozkład ocen w populacji.

Klasa **pyplot** z Matplotlib udostępnia przydatną funkcję do rysowania tej gęstości.

In [None]:
def show_density(var_data):
    from matplotlib import pyplot as plt

    fig = plt.figure(figsize=(10,4))

    # Plot density
    var_data.plot.density()

    # Add titles and labels
    plt.title('Data Density')

    # Show the mean, median, and mode
    plt.axvline(x=var_data.mean(), color = 'cyan', linestyle='dashed', linewidth = 2)
    plt.axvline(x=var_data.median(), color = 'red', linestyle='dashed', linewidth = 2)
    plt.axvline(x=var_data.mode()[0], color = 'yellow', linestyle='dashed', linewidth = 2)

    # Show the figure
    plt.show()

# Get the density of Grade
col = df_students['Grade']
show_density(col)

Jak widać na podstawie histogramu, gęstość ma charakterystyczny kształt "krzywej dzwonowej" znany jako rozkład *normalny* — średnia i dominanta znajdują się w centrum, a ogony są symetryczne.

## Podsumowanie

Dobra robota! Pojawiło się tu kilka nowych koncepcji, podsumujmy je.

W tym notatniku:

1. Tworzyliśmy wykresy z użyciem Matplotlib.
2. Uczyliśmy się, jak dostosowywać wygląd wykresów.
3. Obliczyliśmy podstawowe statystyki, takie jak mediana.
4. Zbadaliśmy rozkład danych za pomocą wykresów box i histogramów.
5. Omówiliśmy próbki versus populacje.
6. Oszacowaliśmy, jak może wyglądać populacja ocen na podstawie próby.