# 02 - Python - praca z danymi

## Cele tego rozdziału

Ten wykład będzie przeglądem narzędzi przydatnych do **pracy z danymi** w Pythonie. 

- Główny nacisk: **dane tabelaryczne** w plikach `.csv`.
- Wprowadzenie do `pandas`.  
- Podstawowa manipulacja i analiza przy użyciu `pandas`.

## Czym jest plik?

> **Plik** jest zbiorem *bajtów* używanym do przechowywania pewnego rodzaju danych.

**Format** tych danych zależy od tego, do czego ich używasz, ale na pewnym poziomie są one tłumaczone na *binarne bity* (`1` i `0`). 

Format pliku jest zwykle określony w **rozszerzeniu pliku**.  

- `.csv`: wartości oddzielone przecinkami.  
- `.txt`: zwykły plik tekstowy.  
- `.py`: wykonywalny plik Pythona.  
- `.png`: przenośny sieciowy plik graficzny (tj. obraz).

## Czym są dane tabelaryczne?

> [Dane tabelaryczne](https://www.statology.org/tabular-data/) to dane zorganizowane w **tabeli** z *wierszami* i *kolumnami*.

- Ten rodzaj danych jest **dwuwymiarowy**.  
- Zazwyczaj każdy **wiersz** reprezentuje „obserwację”.
- Zazwyczaj każda **kolumna** reprezentuje *atrybut*.  

Często przechowywane w plikach `.csv`.

- `.csv` = „wartości oddzielone przecinkami”

### Przykład: Kraje

**Pytanie**: Co reprezentuje każdy *wiersz*? A co każda *kolumna*?

| Kraj | Ludność (mln) | PKB (bUSD) |
| ------- | ---------- | --- | 
| USA | 329.5 | 20.94 |
| WIELKA BRYTANIA | 76.22 | 2.7 |
| CHINY | 1402 | 14.72 |

## Pakiet `pandas`

> [**`pandas`**](https://pandas.pydata.org/) to pakiet, który umożliwia **płynne** i **wydajne** przechowywanie, manipulowanie i analizowanie danych.

In [2]:
## Instrukcja importu: pandas jest „pakietem”
import pandas as pd

### `pandas.read_csv`

Dane tabelaryczne są często przechowywane w plikach `.csv`. 

- `pandas.read_csv` może być użyty do **wczytania** pliku `.csv`.  
- Jest on reprezentowany jako `pandas.DataFrame`.

```python
pd.read_csv(„path/to/file.csv”) ### zastąp rzeczywistą ścieżką pliku!
```

In [3]:
### Plik .csv z danymi o różnych Pokemonach
df_pokemon = pd.read_csv("data/pokemon.csv")
df_pokemon.head(5)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


### `read_csv` z adresem URL

Do funkcji `read_csv` można również przekazać adres URL wskazujący na plik `.csv`. 

- Jest to zbiór danych z [*Brand et al. (2019)*](https://www.cambridge.org/core/journals/evolutionary-human-sciences/article/cultural-evolution-of-emotional-expression-in-50-years-of-song-lyrics/E6E64C02BDB0480DB13B8B6BB7DFF598), w którym określono ilościowo zmiany w pozytywności i negatywności tekstów piosenek w czasie.
- Wkrótce będziemy pracować więcej z tym zbiorem danych!

In [27]:
import ssl
import warnings
warnings.filterwarnings('ignore')
ssl._create_default_https_context = ssl._create_unverified_context
import requests
from io import StringIO

url = "https://raw.githubusercontent.com/kflisikowsky/sad/refs/heads/main/data/billboard_analysis.csv"
response = requests.get(url, verify=False)
df_lyrics = StringIO(response.text)
df_lyrics = pd.read_csv(df_lyrics, sep=",")
print(df_lyrics.head())

                          artist               artist_processed  rank  \
0  sam the sham and the pharaohs  sam the sham and the pharaohs     1   
1                      four tops                      four tops     2   
2             the rolling stones             the rolling stones     3   
3                        we five                        we five     4   
4         the righteous brothers         the righteous brothers     5   

                                       song  year  ID_index  negative  \
0                               wooly bully  1965         1       0.0   
1  i cant help myself sugar pie honey bunch  1965         2       3.0   
2                i cant get no satisfaction  1965         3       NaN   
3                       you were on my mind  1965         4      10.0   
4              youve lost that lovin feelin  1965         5       6.0   

   positive      n  
0       0.0   73.0  
1       8.0  192.0  
2       NaN    NaN  
3       2.0  138.0  
4      31.0  225.

In [28]:
df_lyrics.head(2)

Unnamed: 0,artist,artist_processed,rank,song,year,ID_index,negative,positive,n
0,sam the sham and the pharaohs,sam the sham and the pharaohs,1,wooly bully,1965,1,0.0,0.0,73.0
1,four tops,four tops,2,i cant help myself sugar pie honey bunch,1965,2,3.0,8.0,192.0


### Używanie `DataFrame`

- Teraz, gdy mamy obiekt `DataFrame`, chcemy być w stanie *używać* tego `DataFrame`.
- Obejmuje to:
   - Uzyskanie podstawowych informacji o `DataFrame` (np. jego *kształt*).
   - Dostęp do określonych *kolumn*.  
   - Dostęp do określonych *wierszy*.  

#### Używanie `shape`

`df.shape` mówi nam ile **wierszy** i **kolumn** znajduje się w `DataFrame`.

In [30]:
## (#wiersze, #kolumny)
df_pokemon.shape

(800, 13)

#### Używanie `head` i `tail`

- Funkcja `head(x)` wyświetla górne `x` wierszy `DataFrame`. 
- Podobnie, `tail(x)` wyświetla ostatnie `x` wierszy.

In [31]:
df_pokemon.head(2)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False


In [32]:
df_pokemon.tail(2)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
799,721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


#### Dostęp do kolumn

- Dostęp do **kolumny** można uzyskać za pomocą `dataframe_name['column_name']`.

In [33]:
### Co przypomina ci ta składnia nawiasów ([„nazwa_kolumny”])?
df_pokemon['Speed'].head(5)

0    45
1    60
2    80
3    80
4    65
Name: Speed, dtype: int64

## Przydatne *operacje* z `pandas`

`DataFrame` umożliwia wszelkiego rodzaju użyteczne **operacje**, włączając w to:

- Sortowanie `DataFrame` według określonej kolumny.
- Obliczanie **statystyk opisowych** (np. `średnia`, `mediana` itp.).
- **Filtrowanie** ramki danych.  
- Agregacja między poziomami zmiennej przy użyciu `groupby`. 

### `sort_values`

In [35]:
### Domyślnie, będzie sortować od najniższego do najwyższego
df_pokemon.sort_values("HP").head(2)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
316,292,Shedinja,Bug,Ghost,236,1,90,45,30,30,40,3,False
55,50,Diglett,Ground,,265,10,55,25,35,45,95,1,False


In [36]:
### Pokaż najwyższe HP
df_pokemon.sort_values("HP", ascending = False).head(2)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
261,242,Blissey,Normal,,540,255,10,10,75,135,55,2,False
121,113,Chansey,Normal,,450,250,5,5,35,105,50,1,False


#### Twoja kolej

Jaka jest `Szybkość` Pokemona z najwyższym `Atakiem`?

In [None]:
### Rozwiązanie tutaj

In [37]:
# Odkomentuj następującą linię, aby zobaczyć rozwiązanie:
# %load ./solutions/solution4.py

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
163,150,MewtwoMega Mewtwo X,Psychic,Fighting,780,106,190,100,154,100,130,1,True


### Statystyki opisowe

Kolumny `DataFrame` mogą być również **podsumowane**:

- `średnia`: wartość średnia (dla zmiennych numerycznych) 
- `mediana`: „środkowa” wartość (dla zmiennych numerycznych)
- `modalna`: najczęściej występująca wartość w zbiorze

In [38]:
df_pokemon['Attack'].mean()

np.float64(79.00125)

In [39]:
df_pokemon['Attack'].median()

np.float64(75.0)

In [5]:
df_pokemon['HP'].mode()

0    60
Name: HP, dtype: int64

### Filtrowanie `DataFrame`

- Często chcemy **filtrować** `DataFrame`, aby zobaczyć tylko te obserwacje, które spełniają określone **warunki**.
- Ostatecznie jest to podobne do używania **deklaracji warunkowej** - tylko z inną składnią.

#### Przykład 1: filtrowanie po zmiennej kategorialnej

- Kolumna `legendary` jest zmienną *kategoryczną*, co oznacza, że istnieje kilka dyskretnych kategorii.  

In [6]:
## Ile jest legendarnych pokemonów?
df_pokemon[df_pokemon['Legendary']==True].head(6)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
156,144,Articuno,Ice,Flying,580,90,85,100,95,125,85,1,True
157,145,Zapdos,Electric,Flying,580,90,90,85,125,90,100,1,True
158,146,Moltres,Fire,Flying,580,90,100,90,125,85,90,1,True
162,150,Mewtwo,Psychic,,680,106,110,90,154,90,130,1,True
163,150,MewtwoMega Mewtwo X,Psychic,Fighting,780,106,190,100,154,100,130,1,True
164,150,MewtwoMega Mewtwo Y,Psychic,,780,106,150,70,194,120,140,1,True


#### Przykład 2: filtrowanie na zmiennej ciągłej

- Kolumna `HP` jest zmienną *ciągłą*.
- Pokażmy tylko wiersze dla Pokemonów z `HP > 150`.

In [43]:
df_pokemon[df_pokemon['HP'] > 150].head(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
121,113,Chansey,Normal,,450,250,5,5,35,105,50,1,False
155,143,Snorlax,Normal,,540,160,110,65,65,110,30,1,False
217,202,Wobbuffet,Psychic,,405,190,33,58,33,58,33,2,False


### Używanie `groupby`

> Funkcja [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) pozwala na **podzielenie danych** (np. według różnych kategorii), a następnie **zastosowanie** pewnej funkcji do każdego podziału tych danych (np. `średnia`).

Składnia jest następująca:

```python
df_name.groupby(„column_to_group_by”).mean() ## lub mediana, itd.
```

#### Przykład: mean `Attack` by `Legendary`

Tutaj składnia `[[...]]` po prostu ogranicza kolumny w `DataFrame` do tych, na których nam bezpośrednio zależy.

In [7]:
df_pokemon[['Legendary', 'Attack']].groupby("Legendary").mean().mode()

Unnamed: 0,Attack
0,75.669388
1,116.676923


#### Twoja kolej

Jak obliczyć `medianę` `Obrony` według statusu `Legendarnego`?

In [None]:
df_pokemon[['Legendary','Defense']].groupby('Legendary').median()
#df_pokemon.groupby('Legendary')['Defense'].median()

Legendary
False     66.0
True     100.0
Name: Defense, dtype: float64

In [46]:
# Odkomentuj następującą linię, aby zobaczyć rozwiązanie:
# %load ./solutions/solution5.py

#### Twoja kolej:

Jak obliczyć `średnią` `HP` dla `Typu 1`?

In [33]:
#df_pokemon[['Type 1','HP', 'Defense']].groupby('HP').median
df_pokemon[['Type 1', 'HP', 'Defense']].groupby('Type 1').median()

#df_pokemon[df_pokemon['HP']].groupby('Type 1').median()

Unnamed: 0_level_0,HP,Defense
Type 1,Unnamed: 1_level_1,Unnamed: 2_level_1
Bug,60.0,60.0
Dark,65.0,70.0
Dragon,80.0,90.0
Electric,60.0,65.0
Fairy,78.0,66.0
Fighting,70.0,70.0
Fire,70.0,64.0
Flying,79.0,75.0
Ghost,59.5,72.5
Grass,65.5,66.0


In [48]:
# Odkomentuj następującą linię, aby zobaczyć rozwiązanie:
# %load ./solutions/solution6.py

## Podsumowanie

To kończy nasz dział dotyczący interakcji z **danymi**.

- Wczytywanie plików `.csv` za pomocą `pandas`.
- Podsumowywanie i praca z **danymi tabelarycznymi**.