# Analiza danych w języku Python - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi i wytyczne ogólne dotyczące uzupełniania i oceny notatnika:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce notatnika.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> `# YOUR CODE HERE`<br/> `raise NotImplementedError()`<br/> 
a odpowiedzi tekstowe w komórkach oznaczonych hasłem:<br/> 
`YOUR ANSWER HERE`<br/> 
Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz innych elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z fragmentów kodu opracowanego w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce notatnika.
- Otrzymywane wyniki i odpowiedzi mają być rezultatem wykonania napisanego kodu, odpowiedzi uzupełniane manualnie nie podlegają ocenie.
- Zadanie należy wykonać w taki sposób, aby podczas wykonywania kodu nie zostały wyświetlone żadne ostrzeżenia.
- Zawarte w notatniku automatyczne testy mają charakter poglądowy. Dotyczą one wybranych aspektów zadań i mają za zadanie wyłapać podstawowe błędy. Przejście wszystkich testów nie oznacza, że zadanie jest wykonane w całości poprawnie i zostanie ocenione na maksymalną liczbę punktów.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Uwagi i wytyczne ogólne dotyczące wizualizacji wyników:
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, posiadać odpowiednio dobrane proporcje i zakresy wartości osi.
- Wykresy oraz ich osie powinny mieć nadane tytuły. Jeżeli w obrębie figury znajduje się więcej niż jeden wykres to figura również powinna mieć nadany tytuł. 
- Figury powinny mieć ustawione białe tło, tak, aby niezależnie od ustawień notatnika wszystkie elementy wykresów były dobrze widoczne (domyślnie tło jest przeźroczyste co może powodować problemy w notatnikach z ustawionym ciemnym tłem).
- Rozmiar poziomy figur nie powinien przekraczać 20 cali.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa zespołu, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków zespołu) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$.

In [1]:
NAME = ""
COLLABORATORS = "Adam Lewiński 407657, Małgorzata Serwańska 405044"

---

## Zestaw zadań 1: Elementy statystyki opisowej

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów
sns.set() 
sns.set_theme(style="whitegrid")

### Zadanie 1: Przygotowanie danych [10 pkt]

Plik raw_data.csv zawiera informacje na temat erupcji wulkanów pobrane ze strony https://volcano.si.edu/.

Zaimportuj zawarte w pliku dane do notatnika a następnie utwórz na ich podstawie tablicę `eruptions_data` wykonaną według następujących wytycznych:

- Tablica powinna zawierać wyłącznie następujące elementy:</br>
    Indeks: Eruption Number</br>
    Kolumny: Volcano Name, Eruption Category, Evidence Type, Evidence Method, VEI, Start Year, Start Month, Start Day, End Year, End Month, End Day, Evidence Type, Evidence Method</br>
    Kolumny Evidence Type i Evidence Method powstają poprzez rozbicie kolumny Evidence Method (dating) zawartej w danych wejściowych na dwie osobne kolumny.
- Tablica nie powinna zawierać wierszy dotyczących podważanych (ang. discredited) erupcji oraz erupcji, dla których nie została określona wartość VEI (Volcanic Explosivity Index).
- Z nazw zawartych w kolumnie Eruption Category należy usunąć słowo "Eruption" pozostawiając tylko pierwsze człony zawartych w niej określeń.
- Niektóre z erupcji mają wpisane wartości miesiąca i dnia ich początku lub końca jako 0, należy zmienić te wartości na NaN.
- Każda z kolumn powinna mieć ustawiony format danych odpowiedni dla jej zawartości. Kolumny zawierające wartości NaN wymagają specjalnej uwagi.

Zapisz tablicę do pliku `eruptions_data.csv`.

Wyświetl przygotowaną tablicę.

In [4]:
# YOUR CODE HERE
df = pd.read_csv("raw_data.csv", skiprows=1)

df.set_index(["Eruption Number"], inplace=True)

df = df[['Volcano Name', 'Eruption Category', 'VEI', 'Start Year',
       'Start Month', 'Start Day', 'Evidence Method (dating)', 'End Year', 'End Month', 'End Day']]

df[['Evidence Type','Evidence Method']]=df['Evidence Method (dating)'].str.split(": ", expand=True)
df = df.drop(['Evidence Method (dating)'], axis=1)

df = df.dropna(subset=['VEI'])

df['Eruption Category']=df['Eruption Category'].replace(' Eruption',"",regex=True)

indexes = df[df["Eruption Category"] == "Discredited"].index

df = df.drop(indexes)

subdf = df[['Start Month', 'Start Day', 'End Month', 'End Day']]
subdf.replace(0, np.nan, inplace=True)
df[['Start Month', 'Start Day', 'End Month', 'End Day']] = subdf

df[['VEI', 'Start Year','Start Month', 'Start Day', 'End Year', 'End Month', 'End Day']] = df[['VEI',
        'Start Year','Start Month', 'Start Day', 'End Year', 'End Month', 'End Day']].astype('Int64')

df['Evidence Type'] = df["Evidence Type"].astype('str')
df['Evidence Method'] = df["Evidence Method"].astype('str')

df = df.astype({"Evidence Type": str})

df.to_csv("eruptions_data.csv", index_label="Eruption Number")

#eruptions_data = pd.read_csv("eruptions_data.csv", index_col = "Eruption Number")
eruptions_data = df
print(eruptions_data.head())

                Volcano Name Eruption Category  VEI  Start Year  Start Month  \
Eruption Number                                                                
22486               Cotopaxi         Confirmed    2        2022           10   
22481                   Taal         Confirmed    1        2022           10   
22458              Turrialba         Confirmed    1        2022            7   
22453                 Ulawun         Confirmed    2        2022            6   
22454                  Raung         Confirmed    2        2022            5   

                 Start Day  End Year  End Month  End Day Evidence Type  \
Eruption Number                                                          
22486                   21      2022         12       19  Observations   
22481                    5      2022         10       29  Observations   
22458                   17      2022          7       17  Observations   
22453                    2      2022          6        2  Observation

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  subdf.replace(0, np.nan, inplace=True)


In [5]:
### Komórka testowa
# Test 1 Kształt tablicy
assert eruptions_data.shape == (8285, 11)
# Test 2 Kolumny
assert len(set(list(eruptions_data.columns)) & set(['Volcano Name', 'Eruption Number', 'Eruption Category', 'VEI', 'Start Year',
                                          'Start Month', 'Start Day', 'End Year', 'End Month', 'End Day', "Evidence Type",
                                          "Evidence Method"])) == 11
# Test 3 Indeks
assert (eruptions_data.index.name == 'Eruption Number') == True
assert eruptions_data.index.values.min() == 10018
assert eruptions_data.index.values.max() == 22488
# Test 4 Zawartość kolumn tekstowych
assert len(eruptions_data["Volcano Name"].unique()) == 714
assert np.all([eruptions_data["Eruption Category"].unique() == ['Confirmed', 'Uncertain']])
assert np.all([eruptions_data["Evidence Type"].unique() == ['Observations', 'nan', 'Isotopic', 'Correlation', 'Sidereal', 'Radiogenic', 'Uncertain']])
assert np.all([eruptions_data["Evidence Method"].unique() == ['Reported', 'Satellite (infrared)', 'Satellite (visual)',
                                                    'Seismicity', 'Hydrophonic', 'nan', 'Photo / Video', 'Aviation', 'Uranium-series',
                                                    'Magnetism', '14C (calibrated)', 'Tephrochronology', 'Varve Count', 'Anthropology',
                                                    'Dendrochronology', 'Ice Core', '14C (uncalibrated)', 'Cosmic Ray Exposure', 'Ar/Ar',
                                                    'Fission track', 'None', 'K/Ar', 'Thermoluminescence']])
# Test 5 Wartości NaN w kolumnach liczbowych
assert eruptions_data["VEI"].isna().sum() == 0
assert eruptions_data["Start Year"].isna().sum() == 0
assert eruptions_data["Start Month"].isna().sum() == 2697
assert eruptions_data["Start Day"].isna().sum() == 3431
assert eruptions_data["End Year"].isna().sum() == 4064
assert eruptions_data["End Month"].isna().sum() == 4300
assert eruptions_data["End Day"].isna().sum() == 4743