### 3.Pandas - kluczowy pakiet do danych tabelarycznych
- Wczytywanie danych tabelarycznych (CSV, TSV, XLS)
- Operacje na kolumnach i wierszach
- Filtrowanie i procesowanie danych
- Odczytywanie danych statystycznych
- Modyfikacja danych z użyciem funkcji pythonowych
- Agregacja, podobieństwa do SQL
- Pandas Profiling - raporty

Pandas to popularna biblioteka programistyczna w języku Python, która jest używana do manipulacji i analizy danych. Jest to potężne narzędzie, które ułatwia wczytywanie, przekształcanie, eksplorację i analizę danych w formie tabelarycznej, takich jak arkusze kalkulacyjne lub bazy danych.

##### Główne cechy i funkcje biblioteki Pandas:

1. Struktury danych: Pandas wprowadza dwie główne struktury danych: Series i DataFrame.

- Series: To jednowymiarowa tablica danych, podobna do kolumny w arkuszu kalkulacyjnym lub kolumny w bazie danych. Series można traktować jako uporządkowany zestaw danych z indeksem.

- DataFrame: To dwuwymiarowa struktura danych, która przypomina tabelę lub arkusz kalkulacyjny. DataFrame składa się z kolumn i wierszy, a każda kolumna może zawierać różne typy danych.

2. Wczytywanie i zapisywanie danych: Pandas umożliwia wczytywanie danych z różnych źródeł, takich jak pliki CSV, Excel, SQL, JSON i wiele innych. Możesz również zapisywać dane do tych formatów.

3. Indeksowanie i selekcja danych: Pandas oferuje różnorodne mechanizmy indeksowania i selekcji danych, co pozwala na dostęp do konkretnych kolumn, wierszy lub komórek danych w bardzo elastyczny sposób.

4. Operacje na danych: Biblioteka umożliwia wykonywanie różnych operacji na danych, takich jak filtrowanie, sortowanie, grupowanie, łączenie i wiele innych. Możesz także przeprowadzać operacje matematyczne na danych w sposób efektywny.

5. Obsługa brakujących danych: Pandas oferuje narzędzia do radzenia sobie z danymi brakującymi, takie jak usuwanie lub uzupełnianie brakujących wartości.

6. Analiza i eksploracja danych: Biblioteka ułatwia eksplorację danych poprzez obliczanie statystyk opisowych, generowanie wykresów i wizualizacji danych.

7. Obsługa szeregów czasowych: Pandas posiada wsparcie dla operacji na szeregach czasowych, co jest przydatne w analizie danych związanych z czasem.

8. Integracja z innymi narzędziami: Pandas można łatwo łączyć z innymi bibliotekami do analizy danych i uczenia maszynowego, takimi jak NumPy, SciPy, Matplotlib, scikit-learn i wiele innych.

9. Wsparcie społeczności: Pandas posiada aktywną społeczność użytkowników i deweloperów, co oznacza, że istnieje wiele dostępnych źródeł, tutoriali i materiałów do nauki.



##### Strona internetowa
- https://pandas.pydata.org/

##### Dokumentacja
- https://pandas.pydata.org/pandas-docs/stable/

##### Polecana strona
- https://www.dataschool.io/easier-data-analysis-with-pandas/

In [10]:
# pip install pandas

import pandas as pd
pd.__version__
import numpy as np

### `pd.Series()` - Tablica jednowymiarowa zawierająca dane oraz ich indeksy
Series jest jednowymiarową tablicą z etykietowanym indeksem, która może przechowywać dowolny typ danych – liczby, tekst, wartości logiczne, daty itp. Jest to fundament, na którym buduje się bardziej złożone struktury danych w Pandas.

In [2]:
s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [3]:
s = pd.Series([1,2,3], index=['a','b','c'])
s

a    1
b    2
c    3
dtype: int64

In [None]:
print('Powiedz "Cześć"')
print("Powiedz 'Cześć'") # dygresja o cydzysłowach :)

Powiedz "Cześć"
Powiedz 'Cześć'


In [9]:
s = pd.Series(data=[True, False, True])
s

0     True
1    False
2     True
dtype: bool

In [12]:
s = pd.Series(np.arange(1,11), index=pd.date_range(start='20251118', periods=10))
s

2025-11-18     1
2025-11-19     2
2025-11-20     3
2025-11-21     4
2025-11-22     5
2025-11-23     6
2025-11-24     7
2025-11-25     8
2025-11-26     9
2025-11-27    10
Freq: D, dtype: int64

In [13]:
s.dtype

dtype('int64')

Atrybut z indeksami jest obiektem typu `pd.Index`:

In [14]:
s.index

DatetimeIndex(['2025-11-18', '2025-11-19', '2025-11-20', '2025-11-21',
               '2025-11-22', '2025-11-23', '2025-11-24', '2025-11-25',
               '2025-11-26', '2025-11-27'],
              dtype='datetime64[ns]', freq='D')

In [None]:
s.values # będziemy często używać

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

## Series vs tablica NumPy

Series uogólnia jednowymiarową tablicę NumPy:
* tablica NumPy posiada wewnętrzną indeksację w stylu Pythona (*implicit index*);
* Series posiada wewnętrzną indeksację w stylu Pythona plus indeksację za pomocą etykiet.

In [16]:
s = pd.Series([3, 1, 2.71, -10], index=['a', 'b', 'c', 'd'])
s

a     3.00
b     1.00
c     2.71
d   -10.00
dtype: float64