# Analiza danych w języku Python - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi i wytyczne ogólne dotyczące uzupełniania i oceny notatnika:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce notatnika.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> `# YOUR CODE HERE`<br/> `raise NotImplementedError()`<br/> 
a odpowiedzi tekstowe w komórkach oznaczonych hasłem:<br/> 
`YOUR ANSWER HERE`<br/> 
Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz innych elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z fragmentów kodu opracowanego w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce notatnika.
- Otrzymywane wyniki i odpowiedzi mają być rezultatem wykonania napisanego kodu, odpowiedzi uzupełniane manualnie nie podlegają ocenie.
- Zadanie należy wykonać w taki sposób, aby podczas wykonywania kodu nie zostały wyświetlone żadne ostrzeżenia.
- Zawarte w notatniku automatyczne testy mają charakter poglądowy. Dotyczą one wybranych aspektów zadań i mają za zadanie wyłapać podstawowe błędy. Przejście wszystkich testów nie oznacza, że zadanie jest wykonane w całości poprawnie i zostanie ocenione na maksymalną liczbę punktów.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Uwagi i wytyczne ogólne dotyczące wizualizacji wyników:
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, posiadać odpowiednio dobrane proporcje i zakresy wartości osi.
- Wykresy oraz ich osie powinny mieć nadane tytuły. Jeżeli w obrębie figury znajduje się więcej niż jeden wykres to figura również powinna mieć nadany tytuł. 
- Figury powinny mieć ustawione białe tło, tak, aby niezależnie od ustawień notatnika wszystkie elementy wykresów były dobrze widoczne (domyślnie tło jest przeźroczyste co może powodować problemy w notatnikach z ustawionym ciemnym tłem).
- Rozmiar poziomy figur nie powinien przekraczać 20 cali.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa zespołu, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków zespołu) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$.

In [1]:
NAME = "IAD21"
COLLABORATORS = "Ewa Szewczyk 406923, Adam Piwowarski 408133"

---

## Zestaw zadań 1: Elementy statystyki opisowej 1 (Notatnik 1/4)

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import dataframe_image as dfi

In [3]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów
sns.set() 
sns.set_theme(style="whitegrid")

### Zadanie 1: Przygotowanie danych [10 pkt]

Plik raw_data.csv zawiera informacje na temat erupcji wulkanów pobrane ze strony https://volcano.si.edu/.

Zaimportuj zawarte w pliku dane do notatnika a następnie utwórz na ich podstawie tablicę `eruptions_data` wykonaną według następujących wytycznych:

- Tablica powinna zawierać wyłącznie następujące elementy:</br>
    Indeks: Eruption Number</br>
    Kolumny: Volcano Name, Eruption Category, Evidence Type, Evidence Method, VEI, Start Year, Start Month, Start Day, End Year, End Month, End Day, Evidence Type, Evidence Method</br>
    Kolumny Evidence Type i Evidence Method powstają poprzez rozbicie kolumny Evidence Method (dating) zawartej w danych wejściowych na dwie osobne kolumny. Zamień brakujące wartości w tych kolumnach (NaN) odpowiednio na 'Uncertain' i 'Unspecified'.
- Tablica nie powinna zawierać wierszy dotyczących podważanych (ang. discredited) erupcji oraz erupcji, dla których nie została określona wartość VEI (Volcanic Explosivity Index).
- Z nazw zawartych w kolumnie Eruption Category należy usunąć słowo "Eruption" pozostawiając tylko pierwsze człony zawartych w niej określeń.
- Niektóre z erupcji mają wpisane wartości miesiąca i dnia ich początku lub końca jako 0, należy zmienić te wartości na NaN.
Zapisz tablicę do pliku `eruption_data.csv`.

Wyświetl przygotowaną tablicę w taki sposób aby widoczne było po 10 pierwszych i ostatnich wierszy, a zawarte w tablicy liczby wyświetlały się bez miejsc po przecinku (przydatne funkcje: `pandas.io.formats.style.Styler.format_index()`, `pandas.io.formats.style.Styler.format()`, `pandas.io.formats.style.Styler.hide()`).

In [4]:
# wczytywanie danych
raw_data = pd.read_csv('raw_data.csv', header=1, index_col='Eruption Number')

# rozdzielanie kolumny na dwie
evidence_data = raw_data['Evidence Method (dating)'].str.split(": ", expand=True)

# wybór konkretnych kolumn
data = raw_data[['Volcano Name', 'Eruption Category', 'VEI', 'Start Year', 'Start Month', 'Start Day', 'End Year', 'End Month', 'End Day']]

# łączenie i zmiana nazw kolumn
eruptions_data = pd.concat([data, evidence_data], axis=1)
eruptions_data = eruptions_data.rename(columns={0: 'Evidence Type', 1: 'Evidence Method'})

# obsługa NaN
eruptions_data = eruptions_data.dropna(subset='VEI')
eruptions_data = eruptions_data.fillna({'Evidence Type':'Uncertain', 'Evidence Method': 'Unspecified'})

# usuwanie słowa ' Eruption' i usuwanie podważanych erupcji
eruptions_data['Eruption Category'] = eruptions_data['Eruption Category'].str.replace(' Eruption', '')
eruptions_data = eruptions_data[eruptions_data['Eruption Category'] != 'Discredited']

# zamiana wartości 0 z dat na NaN
cols = ['Start Month', 'Start Day', 'End Day', 'End Month']
eruptions_data[cols] = eruptions_data[cols].replace(0, np.nan)

# zapis do pliku
eruptions_data.to_csv('eruptions_data.csv')

# wyświetlenie wyników
format_dict = {'VEI': '{:.0f}', 'Start Year': '{:.0f}', 'Start Month': '{:.0f}', 'Start Day': '{:.0f}', 'End Year': '{:.0f}', 'End Month': '{:.0f}', 'End Day': '{:.0f}'}
eruptions_data.style.format(format_dict).hide(axis=0, subset=eruptions_data.index[10:-10])


Unnamed: 0_level_0,Volcano Name,Eruption Category,VEI,Start Year,Start Month,Start Day,End Year,End Month,End Day,Evidence Type,Evidence Method
Eruption Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
22486,Cotopaxi,Confirmed,2,2022,10.0,21.0,2022.0,12.0,19.0,Observations,Reported
22481,Taal,Confirmed,1,2022,10.0,5.0,2022.0,10.0,29.0,Observations,Reported
22458,Turrialba,Confirmed,1,2022,7.0,17.0,2022.0,7.0,17.0,Observations,Reported
22453,Ulawun,Confirmed,2,2022,6.0,2.0,2022.0,6.0,2.0,Observations,Reported
22454,Raung,Confirmed,2,2022,5.0,14.0,2022.0,9.0,27.0,Observations,Satellite (infrared)
22445,Gaua,Confirmed,1,2022,5.0,3.0,2022.0,5.0,3.0,Observations,Reported
22451,Purace,Confirmed,1,2022,3.0,29.0,2022.0,3.0,29.0,Observations,Reported
22430,Ambrym,Confirmed,1,2022,1.0,25.0,2022.0,2.0,2.0,Observations,Reported
22456,Chikurachki,Confirmed,2,2022,1.0,17.0,2022.0,10.0,17.0,Observations,Satellite (visual)
22431,Wolf,Confirmed,2,2022,1.0,6.0,2022.0,4.0,14.0,Observations,Reported


In [5]:
### Komórka testowa
# Test 1 Kształt tablicy
assert eruptions_data.shape == (8285, 11)
# Test 2 Kolumny
assert len(set(list(eruptions_data.columns)) & set(['Volcano Name', 'Eruption Category', 'VEI', 'Start Year', 'Start Month', 'Start Day',
                                                    'End Year', 'End Month', 'End Day', "Evidence Type", "Evidence Method"])) == 11
# Test 3 Indeks
assert (eruptions_data.index.name == 'Eruption Number') == True
assert eruptions_data.index.values.min() == 10018
assert eruptions_data.index.values.max() == 22488
# Test 4 Zawartość kolumn tekstowych
assert len(eruptions_data["Volcano Name"].unique()) == 714
assert np.all([eruptions_data["Eruption Category"].unique() == ['Confirmed', 'Uncertain']])
assert len(set(list(eruptions_data["Evidence Type"].unique())) & set(['Observations', 'Isotopic', 'Correlation', 'Sidereal', 'Radiogenic', 'Uncertain'])) == 6
assert len(set(list(eruptions_data["Evidence Method"].unique())) & set(['Reported', 'Satellite (infrared)', 'Satellite (visual)',
                                                    'Seismicity', 'Hydrophonic', 'Photo / Video', 'Aviation', 'Uranium-series',
                                                    'Magnetism', '14C (calibrated)', 'Tephrochronology', 'Varve Count', 'Anthropology',
                                                    'Dendrochronology', 'Ice Core', '14C (uncalibrated)', 'Cosmic Ray Exposure', 'Ar/Ar',
                                                    'Fission track', 'K/Ar', 'Thermoluminescence', 'Unspecified'])) == 22
assert eruptions_data["Evidence Method"].isna().sum()==0 or (eruptions_data["Evidence Method"]=='nan').sum()==0 or (eruptions_data["Evidence Method"]=='NaN').sum()==0
# Test 5 Wartości NaN w kolumnach liczbowych
assert eruptions_data["VEI"].isna().sum() == 0
assert eruptions_data["Start Year"].isna().sum() == 0
assert eruptions_data["Start Month"].isna().sum() == 2697
assert eruptions_data["Start Day"].isna().sum() == 3431
assert eruptions_data["End Year"].isna().sum() == 4064
assert eruptions_data["End Month"].isna().sum() == 4300
assert eruptions_data["End Day"].isna().sum() == 4743