In [None]:
!pip install pandas

dodatkowo warto zainstalować:
- openpyxl - współpraca z plikami Excela
- tabulate - tabelki w formie tekstowej

In [None]:
!pip install openpyxl tabulate

In [1]:
import pandas as pd

## Serie

In [5]:
s = pd.Series( [10, 20, 30, 40] )
s

0    10
1    20
2    30
3    40
dtype: int64

In [6]:
# seria z indeksem
s = pd.Series( [10, 20, 30, 40], index=["a", "b", "c", "d"] )
s

a    10
b    20
c    30
d    40
dtype: int64

In [7]:
s['b']

np.int64(20)

In [9]:
s * 5

a     50
b    100
c    150
d    200
dtype: int64

In [10]:
s[ s < 30 ]

a    10
b    20
dtype: int64

In [11]:
s

a    10
b    20
c    30
d    40
dtype: int64

In [12]:
s.sum()

np.int64(100)

In [13]:
s.mean()

np.float64(25.0)

In [15]:
s.min(), s.max()

(np.int64(10), np.int64(40))

In [16]:
s.argmax()

np.int64(3)

In [17]:
s.argmin()

np.int64(0)

In [18]:
s.cumsum()

a     10
b     30
c     60
d    100
dtype: int64

In [19]:
s.cumprod()

a        10
b       200
c      6000
d    240000
dtype: int64

## DataFrame - czyli tabelka

In [64]:
import numpy as np

In [81]:
imiona = pd.Series( ["Jan", "Anna", "Karolina", "Zdzisław"] )
nazwiska = pd.Series( ["Nowak", "Iksińska", "Kowalska", "Dyrman"] )
wiek = pd.Series( [40, 20, 30, 55], dtype=np.int8)

In [82]:
# worzymy data frame z serii
df = pd.DataFrame(
    {
        "imie": imiona,
        "nazwisko": nazwiska,
        "wiek": wiek
    }
)
print(df)

       imie  nazwisko  wiek
0       Jan     Nowak    40
1      Anna  Iksińska    20
2  Karolina  Kowalska    30
3  Zdzisław    Dyrman    55


In [56]:
print(df.to_markdown(index=False))

| imie     | nazwisko   |   wiek |
|:---------|:-----------|-------:|
| Jan      | Nowak      |     40 |
| Anna     | Iksińska   |     20 |
| Karolina | Kowalska   |     30 |
| Zdzisław | Dyrman     |     55 |


In [57]:
df

Unnamed: 0,imie,nazwisko,wiek
0,Jan,Nowak,40
1,Anna,Iksińska,20
2,Karolina,Kowalska,30
3,Zdzisław,Dyrman,55


In [29]:
# wybór jednej kolumny
df['imie']

0         Jan
1        Anna
2    Karolina
Name: imie, dtype: object

In [30]:
df['wiek'].mean()

np.float64(30.0)

In [35]:
df.loc[2]

imie        Karolina
nazwisko    Kowalska
wiek              30
Name: 2, dtype: object

In [34]:
df.loc[2]['imie']

'Karolina'

In [36]:
df.loc[2, 'imie']

'Karolina'

In [37]:
df.loc[ : , 'imie']

0         Jan
1        Anna
2    Karolina
Name: imie, dtype: object

In [38]:
df[ ['imie', 'wiek'] ]

Unnamed: 0,imie,wiek
0,Jan,40
1,Anna,20
2,Karolina,30


In [39]:
df.loc[ :, ['imie', 'wiek'] ]

Unnamed: 0,imie,wiek
0,Jan,40
1,Anna,20
2,Karolina,30


In [40]:
df.loc[ [0,2] , ['imie', 'wiek'] ]

Unnamed: 0,imie,wiek
0,Jan,40
2,Karolina,30


In [44]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [47]:
# nadpisanie indexu:
df.index = ['a', 'b', 'c']

In [46]:
df

Unnamed: 0,imie,nazwisko,wiek
a,Jan,Nowak,40
b,Anna,Iksińska,20
c,Karolina,Kowalska,30


In [48]:
df.loc[ [0,2] , ['imie', 'wiek'] ]

KeyError: "None of [Index([0, 2], dtype='int64')] are in the [index]"

In [49]:
df.loc[ ['a', 'c'] , ['imie', 'wiek'] ]

Unnamed: 0,imie,wiek
a,Jan,40
c,Karolina,30


In [51]:
df.iloc[ [0, 2] , [0, 1] ]

Unnamed: 0,imie,nazwisko
a,Jan,Nowak
c,Karolina,Kowalska


In [52]:
df.iloc[ : , 10 ]

IndexError: single positional indexer is out-of-bounds

In [58]:
df.shape

(4, 3)

In [59]:
df.columns

Index(['imie', 'nazwisko', 'wiek'], dtype='object')

In [69]:
df.columns = ['imie_osoby', 'nazwisko_osoby', 'wiek_osoby']

In [70]:
df

Unnamed: 0,imie_osoby,nazwisko_osoby,wiek_osoby
0,Jan,Nowak,40
1,Anna,Iksińska,20
2,Karolina,Kowalska,30
3,Zdzisław,Dyrman,55


In [71]:
df.dtypes

imie_osoby        object
nazwisko_osoby    object
wiek_osoby          int8
dtype: object

In [76]:
df['wiek_osoby'] = df['wiek_osoby'].astype(float)

In [77]:
df.dtypes

imie_osoby         object
nazwisko_osoby     object
wiek_osoby        float64
dtype: object

In [78]:
df

Unnamed: 0,imie_osoby,nazwisko_osoby,wiek_osoby
0,Jan,Nowak,40.0
1,Anna,Iksińska,20.0
2,Karolina,Kowalska,30.0
3,Zdzisław,Dyrman,55.0


In [79]:
df.describe()

Unnamed: 0,wiek_osoby
count,4.0
mean,36.25
std,14.930394
min,20.0
25%,27.5
50%,35.0
75%,43.75
max,55.0


In [83]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   imie      4 non-null      object
 1   nazwisko  4 non-null      object
 2   wiek      4 non-null      int8  
dtypes: int8(1), object(2)
memory usage: 200.0+ bytes


In [84]:
df.head()

Unnamed: 0,imie,nazwisko,wiek
0,Jan,Nowak,40
1,Anna,Iksińska,20
2,Karolina,Kowalska,30
3,Zdzisław,Dyrman,55


In [85]:
df.tail()

Unnamed: 0,imie,nazwisko,wiek
0,Jan,Nowak,40
1,Anna,Iksińska,20
2,Karolina,Kowalska,30
3,Zdzisław,Dyrman,55


In [94]:
df.sample(frac=0.75)

Unnamed: 0,imie,nazwisko,wiek
1,Anna,Iksińska,20
3,Zdzisław,Dyrman,55
0,Jan,Nowak,40


In [99]:
# data frame z listy słowników


import json
from pathlib import Path

plik = Path("ludki.json").read_text(encoding='utf-8')
dane = json.loads(plik)
dane[2]['stan_cywilny'] = 'panna'
dane[0]['zawod'] = 'miłosny'
dane

[{'imie': 'Jan', 'nazwisko': 'Kowalski', 'wiek': 50, 'zawod': 'miłosny'},
 {'imie': 'Anna', 'nazwisko': 'Nowak', 'wiek': 30},
 {'imie': 'Maria',
  'nazwisko': 'Iksińska',
  'wiek': 45,
  'stan_cywilny': 'panna'},
 {'imie': 'Zofia', 'nazwisko': 'Jakaś', 'wiek': 18}]

In [100]:
df2 = pd.DataFrame(dane)
df2

Unnamed: 0,imie,nazwisko,wiek,zawod,stan_cywilny
0,Jan,Kowalski,50,miłosny,
1,Anna,Nowak,30,,
2,Maria,Iksińska,45,,panna
3,Zofia,Jakaś,18,,
