<img src='img/panda_2.jpg' align="left" style="height: 200px;"/>

# Robi się poważnie
### Kilka zadań na poprawę samoogarnięcia ;)

Wyciągniemy teraz nieco informacji z prawdziwych danych. <br>
Nasz dataset to informacje z monitoringu rozprzestrzeniania się epidemii COVID-19 w Polsce prowadzonego przez zaprzyjaźnione Koło Naukowe GeoSiN z Uniwersytetu Warmińsko-Mazurskiego w Olsztynie. <br>
Więcej o samym projekcie [TUTAJ](http://www.wirusnamapie.pl/), tymczasem nas interesują "surowe" dane, które w postaci pliku .csv czekają w [repozytorium](https://github.com/dtandev/coronavirus/blob/master/data/CoronavirusPL%20-%20Timeseries.csv). 

Co czeka na nas wewnątrz? Poniżej opis danych udostępniony przez autorów:
<blockquote>
  Field description

    * Timestamp: Date of communique which contains information about infection, death or recovery of the patient [DD-MM-YYYY]
    * Province: 1 of 16 polish provinces name
    * City: City where the patient comes from or where he/she was diagnosed
    * Postal code: postal code for cities which have the same name as another one
    * Infection/Death/Recovery: the patient status on the day of communique [I(nfected)/D(eath)/R(ecovered)]
    * Sex: patient's gender if available
    * Where_infected: the countries which she/he visited in the near past and where he could be infected. The column contains country iso code.
    * Who_infected: who could be the source of the infection [Friends/Family/Another patient/Travel co-passenger)
    * Age: How old is the patient? [F(emale)/M(ale)]

</blockquote>

Moglibyśmy skorzystać z możliwości jakie daje nam Pandas i wczytać plik bezpośrednio z url-a, bez pobierania go lokalnie (please, nie róbcie tego na większych danych!). Projekt (niestety..) nadal "żyje", więc dla zachowania spójności wyników pobraliśmy jego kopię (stan z 09.05.2020) <br>
Ścieżka do pliku: <br>
*"data/CoronavirusPL - Timeseries.csv"*

* Importujemy potrzebne biblioteki 

In [1]:
import pandas as pd
import numpy as np

* wczytujemy plik jako DataFrame i wyświetlamy kilka pierwszych wierszy

In [2]:
data = pd.read_csv("data/CoronavirusPL - Timeseries.csv")

In [3]:
data.head()

Unnamed: 0,Timestamp,Province,City,Postal_code,Infection/Death/Recovery,Sex,Where_infected,Who_infected,Age
0,06-03-2020,Dolnośląskie,Wrocław,,I,M,GBR,,26.0
1,08-03-2020,Dolnośląskie,Wrocław,,I,M,ITA,Family,73.0
2,09-03-2020,Dolnośląskie,Wrocław,,I,F,,Other patient,74.0
3,11-03-2020,Dolnośląskie,Wrocław,,I,F,POL,Family,
4,12-03-2020,Dolnośląskie,Wrocław,,I,M,GBR,,


* Sprawdzamy podstawowe informacje i statystyki naszych danych (wszystkie kolumny).

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18310 entries, 0 to 18309
Data columns (total 9 columns):
Timestamp                   18310 non-null object
Province                    18310 non-null object
City                        18310 non-null object
Postal_code                 179 non-null object
Infection/Death/Recovery    18310 non-null object
Sex                         9566 non-null object
Where_infected              925 non-null object
Who_infected                306 non-null object
Age                         2487 non-null float64
dtypes: float64(1), object(8)
memory usage: 1.3+ MB


In [5]:
data.describe(include="all") # Czy na podstawie tak podstawowych informacji możemy coś wywnioskować?

Unnamed: 0,Timestamp,Province,City,Postal_code,Infection/Death/Recovery,Sex,Where_infected,Who_infected,Age
count,18310,18310,18310,179,18310,9566,925,306,2487.0
unique,63,16,423,34,3,4,23,7,
top,19-04-2020,Śląskie,Wrocław,05-640,I,F,POL,Other patient,
freq,628,3648,1037,69,14583,5163,803,192,
mean,,,,,,,,,59.177724
std,,,,,,,,,22.024263
min,,,,,,,,,1.0
25%,,,,,,,,,44.0
50%,,,,,,,,,61.0
75%,,,,,,,,,78.0


* Ile województw (Province) i miast (City) znalazło się w bazie?

In [6]:
data["Province"].nunique()

16

In [7]:
data["City"].nunique()

423

* Które (10) miast pojawiło się w komunikatach najczęściej?

In [8]:
data["City"].value_counts()[:10]
# lub
# data["City"].value_counts().head(10)

Wrocław     1037
Warszawa     979
Katowice     746
Poznań       690
Łódź         654
Radom        527
Kalisz       501
Bytom        363
Kraków       342
Gdańsk       304
Name: City, dtype: int64

* Wyświetl informacje o najstarszym przypadku w bazie.

In [9]:
data[data["Age"] == data["Age"].max()]

Unnamed: 0,Timestamp,Province,City,Postal_code,Infection/Death/Recovery,Sex,Where_infected,Who_infected,Age
9018,15-04-2020,Wielkopolskie,Kalisz,,I,F,,,101.0


* Wyświetl informacje o przypadkach z miejscowości Cybinka, Mogilno i Chlewiska.

In [10]:
data[data["City"].isin(["Cybinka", "Mogilno", "Chlewiska"])]

Unnamed: 0,Timestamp,Province,City,Postal_code,Infection/Death/Recovery,Sex,Where_infected,Who_infected,Age
1755,28-03-2020,Kujawsko-pomorskie,Mogilno,88-300,I,M,,,
1800,01-04-2020,Kujawsko-pomorskie,Mogilno,,I,F,,,
2661,04-03-2020,Lubuskie,Cybinka,,I,M,DEU,,66.0
3045,27-03-2020,Mazowieckie,Chlewiska,26-510,I,,,,
15021,17-03-2020,Lubuskie,Cybinka,,R,M,DEU,,66.0


* Wypełnij brakujące wartości w kolumnie "Where_infected" wartością "POL" i wyświetl kilka pierwszych wierszy.

In [11]:
data["Where_infected"].fillna("POL", inplace=True)
data.head()

Unnamed: 0,Timestamp,Province,City,Postal_code,Infection/Death/Recovery,Sex,Where_infected,Who_infected,Age
0,06-03-2020,Dolnośląskie,Wrocław,,I,M,GBR,,26.0
1,08-03-2020,Dolnośląskie,Wrocław,,I,M,ITA,Family,73.0
2,09-03-2020,Dolnośląskie,Wrocław,,I,F,POL,Other patient,74.0
3,11-03-2020,Dolnośląskie,Wrocław,,I,F,POL,Family,
4,12-03-2020,Dolnośląskie,Wrocław,,I,M,GBR,,


* Ile zakażeń łącznie odnotowano ("Infection/Death/Recovery" == "I")?

In [12]:
data[data["Infection/Death/Recovery"] == "I"]["Infection/Death/Recovery"].count()
# lub 
# data["Infection/Death/Recovery"].value_counts()["I"]
# lub 
# sum(data["Infection/Death/Recovery"] == "I")

14583

* Ile zgonów ("Infection/Death/Recovery" == "D") zanotowano w Warszawie?

In [13]:
data[(data["Infection/Death/Recovery"] == "D") & (data["City"] == "Warszawa")]["City"].count()
# lub
# sum((data["Infection/Death/Recovery"] == "D") & (data["City"] == "Warszawa"))

117

* Jak wygląda liczba zakażeń/zgonów/ozdrowień w podziale na województwa?

In [14]:
data.groupby(["Province", "Infection/Death/Recovery"])["Timestamp"].count()

Province             Infection/Death/Recovery
Dolnośląskie         D                             57
                     I                           1722
                     R                            438
Kujawsko-pomorskie   D                             30
                     I                            561
Lubelskie            D                             14
                     I                            378
Lubuskie             I                             91
                     R                             71
Mazowieckie          D                            210
                     I                           2674
                     R                             68
Małopolskie          D                             33
                     I                           1012
Opolskie             D                             31
                     I                            450
Podkarpackie         D                             24
                     I              

<img src='img/panda_7.jpg' align="left" style="height: 200px;"/>

## Dobra robota!

Pandas daje przeogromne możliwości i trzeba dać sobie trochę czasu na ich przyswojenie (przynajmniej części). <br>
Zebrałem kilka dodatkowych źródeł, które na pewno przydadzą się nie tylko początkującym - [LINK](3_Więcej_o_Pandas.ipynb)