# Wprowadzenie

Python jest językiem nie tylko bardzo popularnym. W pażdzierniku 2023 zarówno wg. 
- PYPL PopularitY of Programming Language https://pypl.github.io/PYPL.html jak i 
- TIOBE Index https://www.tiobe.com/tiobe-index/ 
zajmował on pierwsze miejsce wśród języków programowania. Co więcej, dynamika wzrostu począwszy od 2018 roku jest największa wśród wszystkich pozostałych języków programowania. 

Python jest przede wszystkim językiem bardzo uniwersalnym, a jego rola w ogólnie rozumianej analizie i przetwarzaniu danych z roku na rok jest coraz większa.

Nic więc dziwnego, że świat Big Data, który przez lata był zarezerwowany dla Javy oraz języków, które dają się kompilować do kodu bajtowego Javy, otwiera się na Pythona (patrz Spark czy Flink). 

W ramach warsztatu postaramy się dokonać krótkiego przeglądu niektórych typów i bibliotek, które wykorzystywane są w Pythonie do przetwarzania danych.

# Dane

Aby przetwarzać jakieś dane, przydałoby się je mieć. Python zawiera niezliczone biblioteki, przydatne praktycznie w każdym przypadku. Również w kontekście dostępu do przykładowych danych. 

Przykładowe biblioteki w których można takie dane znaleźć to `PyDataset`, `seaborn` czy `sklearn` (`scikit-learn`). Te dwie ostatnie główny cel mają oczywiście inny (wizualizacja danych, ML). 

Przyglądnijmy się pierwszemu z pakietów.

In [2]:
%%sh
pip install pydataset

Collecting pydataset
  Downloading pydataset-0.2.0.tar.gz (15.9 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 15.9/15.9 MB 11.3 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: pydataset
  Building wheel for pydataset (setup.py): started
  Building wheel for pydataset (setup.py): finished with status 'done'
  Created wheel for pydataset: filename=pydataset-0.2.0-py3-none-any.whl size=15939417 sha256=5472e58a1ccede788db010a1854bf4eebd9fc6b587f9ad2952935d0c0545bef3
  Stored in directory: /home/jovyan/.cache/pip/wheels/2b/83/5c/073c3755e8b7704e4677557b2055e61026c1a2342149214c13
Successfully built pydataset
Installing collected packages: pydataset
Successfully installed pydataset-0.2.0


In [1]:
from pydataset import data

initiated datasets repo at: C:\Users\macie\.pydataset/


Zobaczmy jakie zbiory są dostępne

In [2]:
data()

Unnamed: 0,dataset_id,title
0,AirPassengers,Monthly Airline Passenger Numbers 1949-1960
1,BJsales,Sales Data with Leading Indicator
2,BOD,Biochemical Oxygen Demand
3,Formaldehyde,Determination of Formaldehyde
4,HairEyeColor,Hair and Eye Color of Statistics Students
...,...,...
752,VerbAgg,Verbal Aggression item responses
753,cake,Breakage Angle of Chocolate Cakes
754,cbpp,Contagious bovine pleuropneumonia
755,grouseticks,Data on red grouse ticks from Elston et al. 2001


Sporo tego, przydałoby się coś wybrać - dokonać jakieś selekcji tych danych. Aby to zrobić dowiedzmy się co tak naprawdę zostało wyświetlone. 

In [3]:
type(data())

pandas.core.frame.DataFrame

Do pakietu `Pandas` dojdziemy w swoim czasie, teraz skorzystamy z czegoś znacznie prostszego. 

Biblioteka `pytz` dostarcza informacje na temat stref czasowych.

In [4]:
import pytz

allTZ = list(pytz.common_timezones)

type(allTZ)

list

In [5]:
allTZ[:10]

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre']

# Listy

**Zadanie 1**<br>
Napisz funkcję `australiaZones(tzs)`, która będzie dawała w wyniku listę: 
* zawierającą elementy źródłowej listy `tzs`, których wartości rozpoczynają się od ciągu znaków „Australia/”) 
* w docelowych wartościach nie będzie posiadała początkowego fragmentu „Australia/”
* będzie posortowana alfabetycznie (załóż, że źródłowe dane nie są posortowane)

In [22]:
def australiaZones(tzs):
    a = "Australia/"
    l = list(map(lambda tz: tz[len(a):], filter(lambda tz: tz.startswith(a), tzs))) 
    l.sort()
    return l

australiaZones(pytz.common_timezones)


['Adelaide',
 'Brisbane',
 'Broken_Hill',
 'Darwin',
 'Eucla',
 'Hobart',
 'Lindeman',
 'Lord_Howe',
 'Melbourne',
 'Perth',
 'Sydney']

In [9]:
australiaZones(pytz.common_timezones)

['Australia/Adelaide',
 'Australia/Brisbane',
 'Australia/Broken_Hill',
 'Australia/Darwin',
 'Australia/Eucla',
 'Australia/Hobart',
 'Australia/Lindeman',
 'Australia/Lord_Howe',
 'Australia/Melbourne',
 'Australia/Perth',
 'Australia/Sydney']

# Słowniki

**Zadanie 2**<br>
Załóż, że każda nazwa strefy czasowej rozpoczyna się od nazwy regionu świata (ma format `RegionŚwiata/Miejsce`). <br>
Napisz funkcję `howManyZonesInRegions(tzs)`, która dla każdego regionu wyznaczy liczbę stref czasowych, które w nim funkcjonują. <br>
Koniecznie odrzuć te nazwy źródłowych stref (z `tzs`), które nie są zgodne z wzorcem (nie posiadają znaku „/”). 

In [28]:
def howManyZonesInRegions(tzs):
    d = {}
    tzwr = list(map(lambda tz: (tz[:tz.find("/")],1), filter(lambda tz: "/" in tz, tzs))) 
    for key,value in tzwr:
        d[key] = d.get(key,0) + value
    return d


In [23]:
pytz.common_timezones

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre',
 'Africa/Brazzaville',
 'Africa/Bujumbura',
 'Africa/Cairo',
 'Africa/Casablanca',
 'Africa/Ceuta',
 'Africa/Conakry',
 'Africa/Dakar',
 'Africa/Dar_es_Salaam',
 'Africa/Djibouti',
 'Africa/Douala',
 'Africa/El_Aaiun',
 'Africa/Freetown',
 'Africa/Gaborone',
 'Africa/Harare',
 'Africa/Johannesburg',
 'Africa/Juba',
 'Africa/Kampala',
 'Africa/Khartoum',
 'Africa/Kigali',
 'Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome',
 'Africa/Tripoli',
 'Africa/Tunis',
 'Africa/Wi

In [29]:
howManyZonesInRegions(pytz.common_timezones)

{'Africa': 52,
 'America': 143,
 'Antarctica': 11,
 'Arctic': 1,
 'Asia': 83,
 'Atlantic': 10,
 'Australia': 11,
 'Canada': 6,
 'Europe': 58,
 'Indian': 11,
 'Pacific': 38,
 'US': 7}

* Funkcja `pytz.country_names` zwraca słownik, który dla każdego symbolu (ISO Alpha 2 code) państwa zawiera jego nazwę. 
* Funkcja `pytz.country_timezones` zwraca słownik, który dla każdego symbolu (ISO Alpha 2 code) państwa zawiera listę stref czasowych, jakie na ich terenie obowiązują. 

**Zadanie 3**<br> 
Napisz funkcję `getCntryCode(cntryName)`, która dla nazwy państwa `cntryName` zwróci jego kod. <br>
Napisz funkcję `howManyZones(cntryName)`, która dla nazwy państwa `cntryName` zwróci liczbę stref czasowych, które na jego terenie obowiązują. Skorzystaj z funkcji `getCntryCode`.

In [32]:
def getCntryCode(cntryName):
    cns = pytz.country_names

    cntryCodes = list(cns.keys())
    cntryNames = list(cns.values())
    return cntryCodes[cntryNames.index(cntryName)]

In [33]:
getCntryCode("Poland")

'PL'

In [36]:
def howManyZones(cntryName):
    return len(pytz.country_timezones[getCntryCode(cntryName)])

In [37]:
howManyZones("Poland")

1

In [38]:
howManyZones("Canada")

23

# pandas 

W skład biblioteki `pandas` wchodzą zarówno struktury danych jak i narzędzia które służą do przetwarzania danych. 

Główne typy danych to: 
* `Series` - indeksowana tablica wartości, 
* `DataFrame` - dwuwymiarowa tabela danych.

In [39]:
data()

Unnamed: 0,dataset_id,title
0,AirPassengers,Monthly Airline Passenger Numbers 1949-1960
1,BJsales,Sales Data with Leading Indicator
2,BOD,Biochemical Oxygen Demand
3,Formaldehyde,Determination of Formaldehyde
4,HairEyeColor,Hair and Eye Color of Statistics Students
...,...,...
752,VerbAgg,Verbal Aggression item responses
753,cake,Breakage Angle of Chocolate Cakes
754,cbpp,Contagious bovine pleuropneumonia
755,grouseticks,Data on red grouse ticks from Elston et al. 2001


Za duży wybór. Zobaczmy co udostępnia nam inna z bibliotek.

In [41]:
import seaborn as sns

In [143]:
print(sns.get_dataset_names())

['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'dowjones', 'exercise', 'flights', 'fmri', 'geyser', 'glue', 'healthexp', 'iris', 'mpg', 'penguins', 'planets', 'seaice', 'taxis', 'tips', 'titanic']


In [42]:
sns.load_dataset("penguins")

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


I tym zbiorem danych się zajmiemy. <br>
https://github.com/allisonhorst/palmerpenguins

In [43]:
penguinsDF = sns.load_dataset("penguins")
penguinsDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


**Zadanie 4** <br>
Pobierz nazwy gatunków, płeć, wagę oraz wyspę, na której znajdowały się cztery najcięższe pingwiny.  

In [72]:
penguinsDF.nlargest(4,columns=["body_mass_g"])[["species","sex","body_mass_g","island"]]

Unnamed: 0,species,sex,body_mass_g,island
237,Gentoo,Male,6300.0,Biscoe
253,Gentoo,Male,6050.0,Biscoe
297,Gentoo,Male,6000.0,Biscoe
337,Gentoo,Male,6000.0,Biscoe


In [160]:
penguinsDF.

Unnamed: 0,species,sex,body_mass_g,island
237,Gentoo,Male,6300.0,Biscoe
253,Gentoo,Male,6050.0,Biscoe
297,Gentoo,Male,6000.0,Biscoe
337,Gentoo,Male,6000.0,Biscoe


**Zadanie 5** <br>
Pobierz nazwy gatunków tych pingwinów, których stosunek długości dzioba do jego wysokości (głębokości) był mniejszy niż 2.5.<br>
Nie powtarzaj nazw gatunków.

In [65]:
penguinsDF.loc[lambda df : df["bill_length_mm"]/df["bill_depth_mm"] < 2.5][['species']].drop_duplicates()

Unnamed: 0,species
0,Adelie
155,Chinstrap


In [184]:
penguinsDF.

Unnamed: 0,species
0,Adelie
155,Chinstrap


**Zadanie 6**<br>

Dla 
* każdego gatunku i 
* każdej płci 

wyznacz 
- liczbę pingwinów, 
- średni stosunek długości dzioba do jego wysokości oraz 
- średnią wagę, a także 
- liczbę wysp, na których je zbadano.

In [70]:
penguinsDF["bill_ratio"] = penguinsDF["bill_length_mm"]/penguinsDF["bill_depth_mm"]
penguinsDF.groupby(["species","sex"]).agg(
    how_many=("island","count"), 
    mean_bill_ratio=("bill_ratio","mean"),
    mean_mass=("body_mass_g","mean"),
    nunique_island=("island","nunique"))

Unnamed: 0_level_0,Unnamed: 1_level_0,how_many,mean_bill_ratio,mean_mass,nunique_island
species,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adelie,Female,73,2.119121,3368.835616,3
Adelie,Male,73,2.123835,4043.493151,3
Chinstrap,Female,34,2.65101,3527.205882,1
Chinstrap,Male,34,2.656501,3938.970588,1
Gentoo,Female,58,3.202391,4679.741379,1
Gentoo,Male,61,3.152081,5484.836066,1


In [204]:
penguinsDF

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,bill_ratio
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,2.090909
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,2.270115
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,2.238889
3,Adelie,Torgersen,,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1.901554
...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,3.272727
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,3.210191
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,3.054054


In [206]:
penguinsDF.

Unnamed: 0_level_0,Unnamed: 1_level_0,how_many,mean_bill_ratio,mean_mass,nunique_island
species,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adelie,Female,73,2.119121,3368.835616,3
Adelie,Male,73,2.123835,4043.493151,3
Chinstrap,Female,34,2.65101,3527.205882,1
Chinstrap,Male,34,2.656501,3938.970588,1
Gentoo,Female,58,3.202391,4679.741379,1
Gentoo,Male,61,3.152081,5484.836066,1
