# Analiza danych w języku Python - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi i wytyczne ogólne dotyczące uzupełniania i oceny notatnika:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce notatnika.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> `# YOUR CODE HERE`<br/> `raise NotImplementedError()`<br/> 
a odpowiedzi tekstowe w komórkach oznaczonych hasłem:<br/> 
`YOUR ANSWER HERE`<br/> 
Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz innych elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z fragmentów kodu opracowanego w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce notatnika.
- Otrzymywane wyniki i odpowiedzi mają być rezultatem wykonania napisanego kodu, odpowiedzi uzupełniane manualnie nie podlegają ocenie.
- Zadanie należy wykonać w taki sposób, aby podczas wykonywania kodu nie zostały wyświetlone żadne ostrzeżenia.
- Zawarte w notatniku automatyczne testy mają charakter poglądowy. Dotyczą one wybranych aspektów zadań i mają za zadanie wyłapać podstawowe błędy. Przejście wszystkich testów nie oznacza, że zadanie jest wykonane w całości poprawnie i zostanie ocenione na maksymalną liczbę punktów.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Uwagi i wytyczne ogólne dotyczące wizualizacji wyników:
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, posiadać odpowiednio dobrane proporcje i zakresy wartości osi.
- Wykresy oraz ich osie powinny mieć nadane tytuły. Jeżeli w obrębie figury znajduje się więcej niż jeden wykres to figura również powinna mieć nadany tytuł. 
- Figury powinny mieć ustawione białe tło, tak, aby niezależnie od ustawień notatnika wszystkie elementy wykresów były dobrze widoczne (domyślnie tło jest przeźroczyste co może powodować problemy w notatnikach z ustawionym ciemnym tłem).
- Rozmiar poziomy figur nie powinien przekraczać 20 cali.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa zespołu, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków zespołu) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$.

In [1]:
NAME = "IAD25"
COLLABORATORS = "Małgorzata Serwańska 405044, Adam Lewiński 407657"

---

## Zestaw zadań 2: Elementy statystyki opisowej 2 (Notatnik 1/4)

In [5]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import dataframe_image as dfi

In [None]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów

### Zadanie 1: Przygotowanie danych [10 pkt]

Pliki raw_data_1.csv, raw_data_2.csv i raw_data_3.xlsx zawierają dane pobrane ze stron:</br>
https://databank.worldbank.org/,</br>
https://unstats.un.org/UNSDWebsite/,</br>
https://datahelpdesk.worldbank.org/knowledgebase/articles/906519-world-bank-country-and-lending-groups.

Zaimportuj zawarte w plikach dane do notatnika i utwórz na ich podstawie tablicę `recession_data_1` wykonaną według następujących wytycznych:

- Tablica powinna zawierać wyłącznie następujące elementy:</br>
    Indeks: Country Code</br>
        Wiersze powinny być indeksowane trzyliterowymi kodami krajów.</br>
    Kolumny: Country Name, Country Region, Income Group, 2006, 2007, 2008, 2009, 2010, 2011 (w tej kolejności, lata w nagłówkach jako zmienne typu str)</br>
        Kolumna Income Group zawiera informację o stopniu zamożności państwa wg danych z 2008 roku.
        Kolumny 2006-2011 zawierają wartości wskaźnika GDP growth (annual %) dla poszczególnych lat.
- Zmień występujące w kolumnie Income Category kody (H, UM, LM, L) na pełne wyrażenia (High, Upper middle, Lower middle, Low).
- Tablica nie powinna zawierać wierszy, w których znajdują się wartości NaN (w dowolnej kolumnie) oraz wiersza dotyczącego Libii.

Zapisz tablicę do pliku recession_data_1.csv.

Wyświetl przygotowaną tablicę w taki sposób aby widoczne było po 5 pierwszych i ostatnich wierszy, a zawarte w tablicy liczby (za wyjątkiem lat w nagłówkach kolumn) wyświetlały się z dokładnością do 2 miejsca po przecinku.

In [85]:
# YOUR CODE HERE
dane1 = pd.read_csv("raw_data_1.csv", na_values="..")
dane2 = pd.read_csv("raw_data_2.csv", sep=";", on_bad_lines='skip')
dane3 = pd.read_excel("raw_data_3.xlsx", sheet_name="Country Analytical History")
dane3 = dane3.iloc[10:228, [0,23]]
dane3 = dane3.rename(columns={"Unnamed: 0": "Country Code"})
dane3 = dane3.set_index("Country Code")

df = pd.DataFrame()
df["Country Code"] = dane1["Country Code"].dropna()
df["Country Name"] = dane1["Country Name"]
df = df.join(dane2.set_index("ISO-alpha3 Code")["Region Name"], on="Country Code")
df = df.join(dane3, on = "Country Code")
df = df.rename(columns = {"Unnamed: 23": "Income Group"})
df = df.replace("..", np.nan)

for i in range(2006, 2012):
    df[f"{i}"] = dane1[f"{i} [YR{i}]"]
df.set_index("Country Code", inplace = True)
df = df.drop(df[df["Country Name"] == "Libya"].index)
df.dropna(inplace=True)

df.replace({"Income Group": {"L": "Low", "LM": "Lower middle", "UM": "Upper middle", "H": "High"}}, inplace = True)

recession_data_1 = df
recession_data_1.to_csv("recession_data_1.csv")
recession_data_1 = pd.read_csv("recession_data_1.csv", index_col="Country Code")

In [86]:
### Komórka testowa
# Test 1 Kształt tablicy
assert recession_data_1.shape == (198, 9)
# Test 2 Kolumny
assert len(set(list(recession_data_1.columns)) & set(['Country Name', 'Region Name', 'Income Group', '2006', '2007', '2008', '2009', '2010', '2011'])) == 9
# Test 3 Indeks
assert (recession_data_1.index.name == 'Country Code') == True
assert recession_data_1.index.values.min() == 'ABW'
assert recession_data_1.index.values.max() == 'ZWE'
assert np.all(recession_data_1.index.values != 'LBY') == True
# Test 4 Zawartość kolumn tekstowych
assert np.all([set(recession_data_1["Region Name"].unique()) == set(['Asia', 'Europe', 'Africa', 'Oceania', 'Americas'])])
assert np.all([recession_data_1["Region Name"].value_counts().values == [50, 49, 43, 40, 16]])
assert np.all([set(recession_data_1["Income Group"].unique()) == set(['Low', 'Lower middle', 'Upper middle', 'High'])])
assert np.all([recession_data_1["Income Group"].value_counts().values == [60, 53, 44, 41]])
# Test 5 Zawartość kolumn liczbowych
assert np.all(np.isclose(recession_data_1[['2006', '2007', '2008', '2009', '2010', '2011']].min().values, np.array([ -6.87146322, -6.68402778, -17.66894633,
                                                                                                                    -17.57322176, -8.92417589, -12.7148969 ]))) == True
assert np.all(np.isclose(recession_data_1[['2006', '2007', '2008', '2009', '2010', '2011']].max().values, np.array([34.5 , 24.99999985, 17.79910913, 21.39052839,
                                                                                                                    25.12275964, 21.61652888]))) == True