# Analiza statusu socjoekonomicznego państw w latach 1880-2010

### 1. Informacje dotyczące danych

Dane zostały pobrane z portalu kaggle.com (bezpośredni odnośnik do danych znajduje się pod adresem: https://www.kaggle.com/sdorius/countryses). Dane pochodzą z roku 2017.

Zbiór danych zawiera szacunki dotyczące statusu społeczno-ekonomicznego (SES) każdego ze 149 krajów w latach 1880-2010. Pomiary, które były dokonywane co 10 lat, pozwalają na analizę 130 lat zmieniającej się pozycji krajów. Wyniki SES są średnią z rankingu dochodów i wykształcenia każdego kraju i są przedstawiane jako rankingi centylowe w zakresie od 1 do 99. Jeśli kraj A ma wynik SES 55, oznacza to, że 55 procent krajów w tym zbiorze danych ma niższy średni dochód i poziom wykształcenia w rankingu.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px

In [2]:
gdp=pd.read_csv('CountrySocioeconomicStatusScores.csv',encoding='ISO-8859-1',sep=';')

In [3]:
gdp

Unnamed: 0,unid,wbid,country,year,ses,class,gdppc,yrseduc,region5,regionUN
0,100,BGR,Bulgaria,1880,73.310814,High(core),985.500000,1.9200,SE Europe,East Europe
1,100,BGR,Bulgaria,1890,72.972977,High(core),1131.000000,2.2200,SE Europe,East Europe
2,100,BGR,Bulgaria,1900,72.972977,High(core),1223.000000,2.7200,SE Europe,East Europe
3,100,BGR,Bulgaria,1910,76.689186,High(core),1456.000000,3.0400,SE Europe,East Europe
4,100,BGR,Bulgaria,1920,64.527023,Middle(semi-per),1136.272705,3.5600,SE Europe,East Europe
...,...,...,...,...,...,...,...,...,...,...
1031,894,ZMB,Zambia,1970,29.054054,Low(periphery),1073.000000,2.9747,Africa,East Africa
1032,894,ZMB,Zambia,1980,25.000000,Low(periphery),911.000000,3.6116,Africa,East Africa
1033,894,ZMB,Zambia,1990,27.702703,Low(periphery),2341.933105,4.8925,Africa,East Africa
1034,894,ZMB,Zambia,2000,28.040541,Low(periphery),2102.983154,6.2041,Africa,East Africa


#### Informacje dotyczące poszczególnych zmiennych

Poniżej zostały wymienione poszczególne zmienne zawierające się w zbiorze danych
wraz z ich krótkim opisem.
1. Kolumna 1: unid: Numeryczny kod kraju ISO (używany przez ONZ)
2. Kolumna 2: wbid: Kod kraju alfa ISO (używany przez Bank Światowy)
3. Kolumna 3: country: Krótka nazwa kraju
4. Kolumna 4: year: Rok pomiaru
5. Kolumna 5: ses: Status społeczno-ekonomiczny wyrażony liczbowo
6. Kolumna 6: class: Status społeczno-ekonomiczny wyrażony w kategoriach
7. Kolumna 7: gdppc: Wartość PKB na mieszkańca
8. Kolumna 8: yrseduc: Ukończone lata nauki w populacji dorosłych (15+)
9. Kolumna 9: region5: Schemat kodowania regionów w 5 kategoriach
10. Kolumna 10: regionUN: Schemat kodowania regionów ONZ

#### Etap czyszczenia danych

Dane wykorzystane w poniższych analizach są dobrze uporządkowane, tzn. każda kolumna odpowiada dokładnie jednej zmiennej, oraz nie występują braki danych. W zbiorze danych nie znaleziono także wartości odstających, ani błędów. W związku z tym przeprowadzenie procesu czyszczenia danych nie było konieczne. Jedyną z zastosowanych czynności mających na celu lepsze uporządkowanie danych było zaokrąglenie liczb do dwóch miejsc po przecinku.

### 2. Analiza i wizualizacja danych

In [4]:
import ipywidgets as widgets

In [7]:
plt.rcParams['figure.figsize'] = [10, 7]

#### 2.1. Rozkład procentowy klas SES poszczególnych latach

Na wykresie 1. przedstawiony jest rozkład procentowy klas SES poszczególnych latach. Wykorzystane zmienne to: klasa SES oraz zsumowana ilość państw należących do każdej z kategorii. Stworzenie wykresu oraz tabeli miało na celu przekonanie się, czy istnieje wyraźna przewaga którejś z kategorii statusu społeczno-ekonomicznego wśród państw świata.

In [8]:
print(f'Wybierz interesujący Cię rok:')
@widgets.interact(rok=(1880, 2010, 10))
def foo(rok):
    colors = ['#ff9999','#66b3ff','#ffcc99']
    explode = (0.05,0.05,0.05)
    plt.pie(gdp[gdp['year'] == rok].groupby('class')['country'].count(), labels=['High(core)', 'Low(periphery)','Middle(semi-per)'], colors = colors, explode = explode, autopct='%1.1f%%', textprops={'fontsize': 12})
    plt.title(f'Rozkład procentowy klas SES w roku {rok}', fontsize=15)
    plt.show()

Wybierz interesujący Cię rok:


interactive(children=(IntSlider(value=1940, description='rok', max=2010, min=1880, step=10), Output()), _dom_c…

#### 2.2. Zmiana wartości SES w krajach Europy Zachodniej po roku 1940

Na wykresie numer 2 przedstawiona jest zmiana wartości SES w poszczególnych krajach Europy Zachodniej po roku 1940. Wykorzystano zmienne: kraj, rok oraz wartość SES. Stworzenie wykresu oraz tabeli pozwoliło na zaobserwowanie zmian w wartości statusu ekonomiczno-społecznego w krajach Europy Zachodniej po II wojnie światowej.

In [9]:
print(f'Wybierz interesujący Cię kraj:')
@widgets.interact(kraj=gdp['country'].unique().tolist())

def foo(kraj):
    plt.plot(gdp[gdp['country'] == kraj]['year'], gdp[gdp['country'] == kraj]['ses'], marker='o', c = 'b', label = kraj)
    plt.xlabel('Rok', fontsize=12)
    plt.ylabel('Wartości SES', fontsize=12)
    plt.title('Zmiana wartości SES w krajach Europy Zachodniej po roku 1940', fontsize=15)
    plt.xticks(range(1880,2020,10))
    plt.xlim(1940,2010) 
    plt.legend()
    plt.show()

Wybierz interesujący Cię kraj:


interactive(children=(Dropdown(description='kraj', options=('Bulgaria', 'Myanmar', 'Cameroon', 'Algeria', 'Can…

#### 2.3. Średnia wartość SES w pięciu regionach świata

Na wykresie numer 3 wykorzystane zostały zmienne: region, rok oraz średnia wartość SES, obliczona jako suma wartość SES poszczególnych krajów podzielona przez ilość państw danego regionu. Wyróżnione regiony to: Afryka, Azja, Ameryka Łacińska, Europa Północno-Zachodnia oraz Europa Południowo-Wschodnia.

In [10]:
print(f'Wybierz interesujący Cię przedział czasowy:')
@widgets.interact(od =(1880, 1930, 10), do =(1940, 2010, 10))
def foo(od, do):
    sredniaData = gdp[(gdp['year'] >= od) & (gdp['year'] <= do)]    
    x = sredniaData.groupby(['region5'])['ses'].mean()
    data = x.reset_index()
    
    plt.barh(data['region5'],data['ses'], color=["#CCCCCC", "#9DACBB", "#6E8DAB", "#3F6D9B", "#104E8B"])
    plt.title(f'Średnia wartość SES w pięciu regionach świata', fontsize=15)
    plt.xlabel('Wartości SES', fontsize=12)
    plt.ylabel('Region', fontsize=12)
    plt.show()

Wybierz interesujący Cię przedział czasowy:


interactive(children=(IntSlider(value=1900, description='od', max=1930, min=1880, step=10), IntSlider(value=19…

#### 2.4. Wartość PKB na mieszkańca w wybranych regionach świata

W wykresie numer 4 zostały wykorzystane dwie zmienne: PKB na mieszkańca, oraz podział zmiennych na pięć regionów świata (Afryka, Azja, Ameryka Łacińska, Europa Północno-Zachodnia, oraz Europa Południowo-Wschodnia). Stworzenie wykresu miało na celu odpowiedzieć na pytania, czy rzeczywiście istnieją znaczące różnice w wartości PKB na mieszkańca pomiędzy poszczególnymi regionami świata.

In [11]:
print('Wybierz interesujące Cię regiony:')
gdp2 = gdp['region5'].unique().tolist()
checkboxes = [widgets.Checkbox(value=False, description=label) for label in gdp2]
output = widgets.VBox(children=checkboxes)
display(output)

Wybierz interesujące Cię regiony:


VBox(children=(Checkbox(value=False, description='SE Europe'), Checkbox(value=False, description='Asia'), Chec…

In [14]:
selected_data = []
for i in range(0, len(checkboxes)):
    if checkboxes[i].value == True:
        selected_data = selected_data + [checkboxes[i].description]

data = gdp[gdp['region5'].isin(selected_data)]
fig = px.scatter(data, x="region5", y="gdppc", color="region5", title="Wartość PKB na mieszkańca w wybranych regionach świata")
fig.show()

#### 2.5. Średnia liczby lat nauki w pięciu regionach świata w poszczególnych latach

Na wykresie numer 5 zostały wykorzystane dwie zmienne: liczba lat nauki oraz podział zmiennych na pięć regionów świata (Afryka, Azja, Ameryka Łacińska, Europa Północno-Zachodnia, oraz Europa Południowo-Wschodnia). Analiza danych miała na celu odpowiedzieć
na pytanie, czy także w kwestii liczby lat nauki istnieją znaczne różnice pomiędzy Europą Północno-Zachodnią, a resztą regionów świata. Dodatkowo obserwacje miały na celu potwierdzenie hipotezy, iż na przestrzeni lat wzrosła liczba lat nauki w każdym z badanych obszarów.

In [13]:
def two(rok, region):
    data = gdp[(gdp['region5'] == region) & (gdp['year'] == rok)]
    fig = px.box(data, x="region5", y="yrseduc", title="Średnia liczby lat nauki")
    fig.show()
    
_ = widgets.interact(
    two, 
    rok=(1880, 2010, 10), 
    region=['SE Europe', 'Asia', 'Africa', 'NW Europe', 'L America']
)

interactive(children=(IntSlider(value=1940, description='rok', max=2010, min=1880, step=10), Dropdown(descript…

### 3. Wnioski

Podsumowując, na podstawie obserwacji zebranych w powyższych wykresach potwierdzić można hipotezę, iż istnieją znaczne różnice w wielu sferach życia pomiędzy wybranymi regionami świata. Co ciekawe zaobserwować można tendencję do rosnącej przewagi Europy Północno-Zachodniej nad innymi regionami świata, pomimo znacznego spadku wartości statusu socjoekonomicznego na tym obszarze po II wojnie światowej. W przypadku Europy Północno-Zachodniej tendencje do pozycji dominującej nad innymi obszarami zaobserwować można nie tylko w kwestii wartości PKB na mieszkańca, ale także liczby lat nauki. Tendencja ta utrzymuje się już od kilku dekad, stopniowo zwiększają się także różnice pomiędzy wybranymi obszarami. Obserwacje te są więc spójne z podziałem świata na obszary wysoko, średnio oraz nisko rozwinięte pod względem gospodarczym.