<a href="https://colab.research.google.com/github/Vektor79/Zadania_samodzielne/blob/main/poverty_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import seaborn as sns
from google.colab import drive

## Statystyki ubóstwa

Dane pochodzą ze strony [SDG Tracker](https://sdg-tracker.org/no-poverty), która należy do [Our World in Data](https://ourworldindata.org/).

Inicjatywa [SDG Tracker](https://sdg-tracker.org/no-poverty) powstała aby publikować informacje na tematów Celów Zrównoważonego
Rozwoju ONZ.

To cele globalnego rozwoju przyjęte przez ONZ
we wrześniu 2015 roku, które powinny zostać osiągnięte do 2030 roku.

Zapoznajmy się z materiałem dostępnym w notebooku i na podstawie instrukcji przygotujmy dane, które będą potrzebne podczas zajęć.

**Uwaga.** Wracając do dokumentu, pamiętaj o ponownym wywołaniu komórek z kodem.

### Zawartość zbioru danych

W przypadku tego zbioru danych w zestawieniu znajdziemy informacje o:
*   kraju, dla którego podane są statystyki - **Country**,
*   trzyliterowego kodu danego kraju - **Code**,
*   kontynentu - **Continent**,
*   roku, którego dotyczy statystyka - **Year**,
*   udziału populacji żyjącego w skrajnym ubóstwie - **Share Extreme Poverty**,
*   krajowego wskaźnika ubóstwa - **Poverty Headcount Ratio**,
*   wielowymiarowego wskaźnika ubóstwa - **Share Multipoverty**,
*   udziału populacji objętej programami ubezpieczeń socjalnych - **SIP Coverage**,
*   liczby osób zmarłych, zaginionych i bezpośrednio dotkniętych skutkami naturalnych katastrof w przeliczeniu na 100 000 mieszkańców - **Disasters Deaths and Missings**,
*   liczby osób pozbawionych schronienia w wyniku naturalnych katastrof, którzy nie opuścili granic kraju - **Disasters Internally Displaced**,
*   liczby osób bezpośrednio dotkniętych skutkami naturalnych katastrof w przeliczeniu na 100 000 mieszkańców - **Disasters Directly Affected**,
*   wartości strat w wyniku naturalnych katastrof w ujęciu procentowym w odniesieniu do PKB - **Disasters Direct Economic Loss**,
*   udziału wydatków na zdrowie w wydatkach rządowych ogółem - **Gov Expenditure Health**,
*   udziału wydatków na edukację w wydatkach rządowych ogółem - **Gov Expenditure Health**.

Dane zostały wcześniej przygotowane w taki sposób, by połączyć te informacje dla poszczególnych krajów i lat i połączone z informacją o kontynencie.

Potrzebne nam dane zostały udostępnione wraz z dokumentem - poniższy kod importuje plik.

In [2]:
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
poverty_data = pd.read_csv('/content/drive/My Drive/Vis/05_Poverty_Data/poverty_statistics.csv')
poverty_data

Unnamed: 0,Country,Code,Continent,Year,SIP Coverage,Disasters Deaths and Missings,Disasters Direct Economic Loss,Gov Expenditure Education,Gov Expenditure Health,Disasters Internally Displaced,Disasters Directly Affected,Share Multipoverty,Share Extreme Poverty,Poverty Headcount Ratio
0,Afghanistan,AFG,Asia,2007,0.539037,,,,2.949193,,,,,36.3
1,Afghanistan,AFG,Asia,2011,,,,16.048429,10.174108,3000.0,,66.2,,35.8
2,Albania,ALB,Europe,1981,,,,,,,,,0.464528,
3,Albania,ALB,Europe,2002,,,,9.886920,7.192037,,,,1.570843,25.4
4,Albania,ALB,Europe,1982,,,,,,,,,0.407918,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7295,French Polynesia,PYF,Oceania,2007,,7.61275,,,,,,,,
7296,Kuwait,KWT,Asia,2020,,19.44029,,,,,,,,
7297,Lebanon,LBN,Asia,2020,,0.01465,,,,,,,,
7298,New Caledonia,NCL,Oceania,2009,,1.59948,,,,,,,,


## Przygotowanie zeszytu

Na początku potrzebujemy upewnić się, że dane zostały poprawnie rozpoznane i dokonać potrzebych konwersji.

Przyglądając się danym w podglądzie wyżej, możemy spodziewać się, że informacja o kontynencie będzie ciekawą daną kategoryczną.

W przypadku poszczególnych państw, spodziewamy się znacznej liczby różnych wartości.

W przypadku danych numerycznych, potrzebujemy określić, jak często brakuje informacji w zestawie danych, warto również poznać podstawowe informacje statystyczne.

### Sprawdzenie typów danych

Poniżej potrzebujemy wykonać dołączone instrukcje, aby otrzymać ramki danych wykorzystywane na zajęciach.

W pierwszej kolejności sprawdźmy, jak zostały rozpoznane dane w poszczególnych kolumnach podczas importu.

In [4]:
poverty_data.dtypes

Unnamed: 0,0
Country,object
Code,object
Continent,object
Year,int64
SIP Coverage,float64
Disasters Deaths and Missings,float64
Disasters Direct Economic Loss,float64
Gov Expenditure Education,float64
Gov Expenditure Health,float64
Disasters Internally Displaced,float64


Określmy również, ile spośród wszystkich rekordów posiada kompletne informacje.

In [5]:
"complete records: " + str(len(poverty_data.dropna(how="any"))) + "; total records: " + str(len(poverty_data))

'complete records: 4; total records: 7300'

W tej sytuacji zastanówmy się, w przypadku jakich kolumn posiadamy najwięcej informacji.

In [6]:
poverty_data.isnull().sum()

Unnamed: 0,0
Country,0
Code,0
Continent,0
Year,0
SIP Coverage,6903
Disasters Deaths and Missings,5961
Disasters Direct Economic Loss,6124
Gov Expenditure Education,4534
Gov Expenditure Health,3550
Disasters Internally Displaced,5949


W związku ze sposobem łączenia danych, dla wszystkich rekordów posiadamy informacje o kraju, kodzie, kontynencie i roku.

W przypadku pozostałych statystyk najwięcej danych posiadamy w kolumnie **Share Extreme Poverty**.
Większość rekordów nie posiada informacji w kolumnach **Share Multipoverty** i **SIP Coverage**.

Następne w kolejności są **Poverty Headcount Ratio** i **Disasters Direct Economic Loss**.

W przypadku tych czterech kolumn możemy przypuszczać, że badanie relacji między cechami może być utrudnione - postaramy się w tej sytuacji ustalić zestaw rekordów, w przypadku których jest to uzasadnione.

### Identyfikacja państw w zbiorze

Zastanówmy się, ilu i jakich państw dotyczy zestawienie.

In [7]:
poverty_data["Country"].value_counts()

Unnamed: 0_level_0,count
Country,Unnamed: 1_level_1
Ethiopia,41
Ghana,41
Sweden,41
Bangladesh,41
Solomon Islands,40
...,...
British Virgin Islands,1
United States Virgin Islands,1
Cayman Islands,1
Saint Martin (French part),1


Posiadamy statystyki dla 213 państw, przy czym dane są zróżnicowane ze względu na konkretne kraje. Mamy państwa, dla których posiadamy pewne dane dla 41 różnych lat, i takie, dla których posiadamy pewne informacje wyłącznie w przypadku jednego roku.

### Konwersja nazw kontynentów na kategorie

W przypadku kontynentów mamy pewność, że jest ich stosunkowo niewiele. Możemy niemal natychmiast zamienić w tym przypadku typ danych na kategorie.

In [8]:
poverty_data["Continent"].value_counts()

Unnamed: 0_level_0,count
Continent,Unnamed: 1_level_1
Africa,2045
Asia,1772
Europe,1675
North America,839
Oceania,506
South America,463


In [9]:
poverty_data["Continent"] = poverty_data["Continent"].astype("category")

## Przygotowanie ramek danych

#### Analiza wskaźnika programów socjalnych w stosunku do wydatków państwa

Wybierzmy teraz jeden rok, w przypadku którego obserwujemy względnie niewiele brakujących informacji w wybranych kolumnach.

In [10]:
years_and_nulls = pd.DataFrame(pd.Series(poverty_data["Year"].unique(), name="unique year"))
years_and_nulls["nulls"] = years_and_nulls["unique year"].apply(lambda x: poverty_data[(poverty_data["Year"]==x)].isnull().sum().sum())
years_and_nulls["records"] = years_and_nulls["unique year"].apply(lambda x: len(poverty_data[(poverty_data["Year"]==x)]))
years_and_nulls["nulls per record"] = years_and_nulls["nulls"]/years_and_nulls["records"]
years_and_nulls.sort_values(by="unique year")
years_and_nulls[years_and_nulls["nulls per record"]==years_and_nulls["nulls per record"].min()]

Unnamed: 0,unique year,nulls,records,nulls per record
8,2012,1048,198,5.292929


Wygląda na to, że warto bliżej przyjrzeć się danym dotyczącym roku 2012.

In [11]:
poverty_data_one_year =  poverty_data[poverty_data["Year"]==2012]
poverty_data_one_year

Unnamed: 0,Country,Code,Continent,Year,SIP Coverage,Disasters Deaths and Missings,Disasters Direct Economic Loss,Gov Expenditure Education,Gov Expenditure Health,Disasters Internally Displaced,Disasters Directly Affected,Share Multipoverty,Share Extreme Poverty,Poverty Headcount Ratio
8,Albania,ALB,Europe,2012,36.255063,0.27582,0.000924,,9.710531,,59.29575,,0.849754,14.3
49,Algeria,DZA,Africa,2012,,0.11468,0.000165,,9.988192,,11.91092,,0.415515,
87,Angola,AGO,Africa,2012,,0.38759,0.000198,,5.573031,6400.0,106.66125,,36.781340,
124,Argentina,ARG,South America,2012,28.969560,0.16773,0.003772,14.518260,8.741289,2000.0,542.71734,,,
136,Armenia,ARM,Asia,2012,53.362759,9.06864,0.000009,12.368970,7.438755,,115.01291,,0.916995,32.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7149,Saudi Arabia,SAU,Asia,2012,,,,,7.749074,,,,,
7168,Singapore,SGP,Asia,2012,,,,31.371750,11.098890,,,,,
7187,Aruba,ABW,North America,2012,,,,20.634081,,,,,,
7234,Hong Kong,HKG,Asia,2012,,,,18.649481,,,,,,


W tym przypadku posiadamy pewne informacje dla 198 krajów. Zastanówmy się, jakich informacji najczęściej brakuje.

In [12]:
poverty_data_one_year.isnull().sum()

Unnamed: 0,0
Country,0
Code,0
Continent,0
Year,0
SIP Coverage,159
Disasters Deaths and Missings,109
Disasters Direct Economic Loss,119
Gov Expenditure Education,89
Gov Expenditure Health,8
Disasters Internally Displaced,119


Dalej wybierzmy rekordy dotyczące 2012 roku, w przypadku których posiadamy informację o **SIP Coverage**, **Share Extreme Poverty** i **Gov Expenditure Education**.

In [13]:
selected = poverty_data[(poverty_data["Year"]==2012)& (poverty_data["Share Extreme Poverty"].isnull()==False) &
                        (poverty_data["SIP Coverage"].isnull()==False) & (poverty_data["Gov Expenditure Education"].isnull()==False)
]
SIP_extreme_poverty = selected[["Country","Continent","SIP Coverage", "Share Extreme Poverty","Gov Expenditure Education"]]
SIP_extreme_poverty

Unnamed: 0,Country,Continent,SIP Coverage,Share Extreme Poverty,Gov Expenditure Education
136,Armenia,Asia,53.362759,0.916995,12.36897
194,Belarus,Europe,47.925471,0.0,12.7523
227,Brazil,South America,28.344648,3.731201,15.72767
277,Colombia,South America,8.897965,6.247937,15.51283
287,Costa Rica,North America,15.028445,1.691766,23.50156
356,Ecuador,South America,10.67494,4.494096,11.53415
383,El Salvador,North America,5.477152,4.219873,15.27999
823,Ghana,Africa,59.520414,12.16925,37.520962
980,Guinea,Africa,2.284316,36.09346,9.46061
1040,Kyrgyzstan,Asia,41.640562,2.482169,18.195009


#### Udział skrajnego ubóstwa w Afryce i Południowej Ameryce

Aby stworzyć porównanie dla dwóch kontynentów ze względu na **Share Extreme Poverty**, potrzebujemy skorzystać z odpowiedniego filtrowania.

Ponieważ kontynent jest rozpoznawany jako kategoria, potrzebujemy również usunąć nieinteresujące nas w tym przypadku kategorie.

In [14]:
share_extreme_poverty =  poverty_data[
                                      (poverty_data["Share Extreme Poverty"].isnull()==False)
                                       & ((poverty_data["Continent"]=="Africa")  | (poverty_data["Continent"]=="South America"))
                                      ][["Country",	"Continent", "Year", "Share Extreme Poverty"]]
share_extreme_poverty["Continent"] = share_extreme_poverty["Continent"].cat.remove_unused_categories()
share_extreme_poverty

Unnamed: 0,Country,Continent,Year,Share Extreme Poverty
41,Algeria,Africa,2011,0.470209
42,Algeria,Africa,2013,0.380704
43,Algeria,Africa,2005,2.032179
44,Algeria,Africa,2006,1.745856
45,Algeria,Africa,2007,1.400125
...,...,...,...,...
6389,Zimbabwe,Africa,2013,22.473590
6390,Zimbabwe,Africa,2014,25.462180
6391,Zimbabwe,Africa,2015,28.671930
6392,Zimbabwe,Africa,2016,32.366640


### Statystyki wybranych kontynentów

Podobnie jak w powyższym przypadku, wybieramy cztery kontynenty, dla których będziemy potrzebowali stworzyć wizualizacje na zajęciach.

Jednocześnie upewniamy się, że dosowaliśmy zakres kategorii, który powinien zostać wyświetlony na wykresie.

In [15]:
selected_continents =  poverty_data[(poverty_data["Continent"]=="Africa")
| (poverty_data["Continent"]=="Europe")
| (poverty_data["Continent"]=="Asia")
| (poverty_data["Continent"]=="North America")
                                      ]
selected_continents["Continent"] = selected_continents["Continent"].cat.remove_unused_categories()
selected_continents

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_continents["Continent"] = selected_continents["Continent"].cat.remove_unused_categories()


Unnamed: 0,Country,Code,Continent,Year,SIP Coverage,Disasters Deaths and Missings,Disasters Direct Economic Loss,Gov Expenditure Education,Gov Expenditure Health,Disasters Internally Displaced,Disasters Directly Affected,Share Multipoverty,Share Extreme Poverty,Poverty Headcount Ratio
0,Afghanistan,AFG,Asia,2007,0.539037,,,,2.949193,,,,,36.3
1,Afghanistan,AFG,Asia,2011,,,,16.048429,10.174108,3000.0,,66.2,,35.8
2,Albania,ALB,Europe,1981,,,,,,,,,0.464528,
3,Albania,ALB,Europe,2002,,,,9.886920,7.192037,,,,1.570843,25.4
4,Albania,ALB,Europe,1982,,,,,,,,,0.407918,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7290,Turks and Caicos Islands,TCA,North America,2015,,,,14.262220,,,,,,
7291,Turks and Caicos Islands,TCA,North America,2018,,,,12.123300,,,,,,
7294,Equatorial Guinea,GNQ,Africa,2015,,0.32721,,,,,,,,
7296,Kuwait,KWT,Asia,2020,,19.44029,,,,,,,,


## Zadania