### 3.Pandas - kluczowy pakiet do danych tabelarycznych
- Wczytywanie danych tabelarycznych (CSV, TSV, XLS)
- Operacje na kolumnach i wierszach
- Filtrowanie i procesowanie danych
- Odczytywanie danych statystycznych
- Modyfikacja danych z użyciem funkcji pythonowych
- Agregacja, podobieństwa do SQL
- Pandas Profiling - raporty

Pandas to popularna biblioteka programistyczna w języku Python, która jest używana do manipulacji i analizy danych. Jest to potężne narzędzie, które ułatwia wczytywanie, przekształcanie, eksplorację i analizę danych w formie tabelarycznej, takich jak arkusze kalkulacyjne lub bazy danych.

##### Główne cechy i funkcje biblioteki Pandas:

1. Struktury danych: Pandas wprowadza dwie główne struktury danych: Series i DataFrame.

- Series: To jednowymiarowa tablica danych, podobna do kolumny w arkuszu kalkulacyjnym lub kolumny w bazie danych. Series można traktować jako uporządkowany zestaw danych z indeksem.

- DataFrame: To dwuwymiarowa struktura danych, która przypomina tabelę lub arkusz kalkulacyjny. DataFrame składa się z kolumn i wierszy, a każda kolumna może zawierać różne typy danych.

2. Wczytywanie i zapisywanie danych: Pandas umożliwia wczytywanie danych z różnych źródeł, takich jak pliki CSV, Excel, SQL, JSON i wiele innych. Możesz również zapisywać dane do tych formatów.

3. Indeksowanie i selekcja danych: Pandas oferuje różnorodne mechanizmy indeksowania i selekcji danych, co pozwala na dostęp do konkretnych kolumn, wierszy lub komórek danych w bardzo elastyczny sposób.

4. Operacje na danych: Biblioteka umożliwia wykonywanie różnych operacji na danych, takich jak filtrowanie, sortowanie, grupowanie, łączenie i wiele innych. Możesz także przeprowadzać operacje matematyczne na danych w sposób efektywny.

5. Obsługa brakujących danych: Pandas oferuje narzędzia do radzenia sobie z danymi brakującymi, takie jak usuwanie lub uzupełnianie brakujących wartości.

6. Analiza i eksploracja danych: Biblioteka ułatwia eksplorację danych poprzez obliczanie statystyk opisowych, generowanie wykresów i wizualizacji danych.

7. Obsługa szeregów czasowych: Pandas posiada wsparcie dla operacji na szeregach czasowych, co jest przydatne w analizie danych związanych z czasem.

8. Integracja z innymi narzędziami: Pandas można łatwo łączyć z innymi bibliotekami do analizy danych i uczenia maszynowego, takimi jak NumPy, SciPy, Matplotlib, scikit-learn i wiele innych.

9. Wsparcie społeczności: Pandas posiada aktywną społeczność użytkowników i deweloperów, co oznacza, że istnieje wiele dostępnych źródeł, tutoriali i materiałów do nauki.



##### Strona internetowa
- https://pandas.pydata.org/

##### Dokumentacja
- https://pandas.pydata.org/pandas-docs/stable/

##### Polecana strona
- https://www.dataschool.io/easier-data-analysis-with-pandas/

In [1]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
# pip install pandas

import pandas as pd
pd.__version__

'2.2.3'

### `pd.Series()` - Tablica jednowymiarowa zawierająca dane oraz ich indeksy
Series jest jednowymiarową tablicą z etykietowanym indeksem, która może przechowywać dowolny typ danych – liczby, tekst, wartości logiczne, daty itp. Jest to fundament, na którym buduje się bardziej złożone struktury danych w Pandas.

In [3]:
s = pd.Series(data=[1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [4]:
s = pd.Series(data=[1, 2, 3], index=['a', 'b', 'c'], name='test')
s

a    1
b    2
c    3
Name: test, dtype: int64

In [None]:
#%pip install numpy

In [12]:
import numpy as np

s = pd.Series(data=[1, np.nan, 3], index=['a', 'b', 'c'])
s

a    1.0
b    NaN
c    3.0
dtype: float64

In [14]:
s = pd.Series(data=np.arange(1, 11), index=pd.date_range(start='20241210', periods=10))
s

2024-12-10     1
2024-12-11     2
2024-12-12     3
2024-12-13     4
2024-12-14     5
2024-12-15     6
2024-12-16     7
2024-12-17     8
2024-12-18     9
2024-12-19    10
Freq: D, dtype: int64

In [8]:
s.dtypes

dtype('int64')

Atrybut z indeksami jest obiektem typu `pd.Index`:

In [15]:
s.index # często będziemy się posługiwać tą metodą

DatetimeIndex(['2024-12-10', '2024-12-11', '2024-12-12', '2024-12-13',
               '2024-12-14', '2024-12-15', '2024-12-16', '2024-12-17',
               '2024-12-18', '2024-12-19'],
              dtype='datetime64[ns]', freq='D')

In [18]:
s.values # często będziemy się posługiwać tą metodą

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

## Series vs tablica NumPy

Series uogólnia jednowymiarową tablicę NumPy:
* tablica NumPy posiada wewnętrzną indeksację w stylu Pythona (*implicit index*);
* Series posiada wewnętrzną indeksację w stylu Pythona plus indeksację za pomocą etykiet.

In [20]:
s = pd.Series([3, 1, 2.71, -10], index=['a', 'b', 'c', 'd'])
s

a     3.00
b     1.00
c     2.71
d   -10.00
dtype: float64

In [22]:
s['c']

np.float64(2.71)

Indeks etykiet może:
* nie zachowywać kolejności,
* posiadać luki,
* posiadać powtórzenia.

In [23]:
s = pd.Series(data=['python', 'sas', 'r'], name='jezyki')
s

0    python
1       sas
2         r
Name: jezyki, dtype: object

In [25]:
s = pd.Series([3, 1, 2.71, -10], index=['a', 'a', 'c', 'd'])
s

a     3.00
a     1.00
c     2.71
d   -10.00
dtype: float64

In [28]:
s['a']

a    3.0
a    1.0
dtype: float64

## Series jako rodzaj słownika

Klucze słownika przechodzą na etykiety podczas przekształcania słownika na obiekt Series:

In [29]:
ludność_dict = {'Polska': 38501,
                'Czechy': 10221,
                'Szwecja': 9045,
                'Niemcy': 82370,
                'Litwa': 3565}

ludność = pd.Series(ludność_dict)
ludność

Polska     38501
Czechy     10221
Szwecja     9045
Niemcy     82370
Litwa       3565
dtype: int64

Indeks etykiet w obiekcie Series ma niektóre cechy kluczy słownika, np. dostęp do elementu:

In [33]:
ludność['Polska']

np.int64(38501)

In [35]:
ludność.Polska

np.int64(38501)

## Selekcja elementów z obiektu Series

Obiekt Series ma równocześnie cechy słownika i jednowymiarowej tablicy. 

Niektóre wzorce dostępu do elementów naśladują te ze słownika, inne te z tablicy jednowymiarowej.

In [36]:
ludność['Czechy']

np.int64(10221)

In [37]:
'Polska' in ludność

True

In [38]:
ludność.keys()

Index(['Polska', 'Czechy', 'Szwecja', 'Niemcy', 'Litwa'], dtype='object')

In [39]:
list(ludność.items())

[('Polska', 38501),
 ('Czechy', 10221),
 ('Szwecja', 9045),
 ('Niemcy', 82370),
 ('Litwa', 3565)]

Modyfikacja w miejscu:

In [41]:
ludność['Grecja'] = 10723
ludność

Polska     38501
Czechy     10221
Szwecja     9045
Niemcy     82370
Litwa       3565
Grecja     10723
dtype: int64

In [48]:
ludność

Polska     38501
Czechy     10221
Szwecja     9045
Niemcy     82370
Litwa       3565
Grecja     10723
dtype: int64

In [46]:
list(ludność.items())

[('Polska', 38501),
 ('Czechy', 10221),
 ('Szwecja', 9045),
 ('Niemcy', 82370),
 ('Litwa', 3565),
 ('Grecja', 10723)]

In [44]:
ludność['Grecja']

np.int64(10723)

Series jako tablica jednowymiarowa pozwala na dostęp do wartości poprzez:
* wycinki,
* maskowanie,
* wymyślne indeksowanie.

In [45]:
# Wycinek indeksów z poziomu etykiet
ludność['Czechy':'Niemcy'] # Prawy kraniec zaliczony!

Czechy     10221
Szwecja     9045
Niemcy     82370
dtype: int64