
# Pandas DataFrame pagrindai duomenų analitikoje

Šiame faile pateikiami pagrindiniai paaiškinimai ir pavyzdžiai, kaip dirbama su Pandas `DataFrame`.
Pavyzdžiai orientuoti į tipines duomenų analizės situacijas: duomenų peržiūrą, valymą, filtravimą,
rūšiavimą, stulpelių keitimą ir duomenų tipų valdymą.



## 0. Importai ir pavyzdiniai duomenys

Pavyzdžiams naudojamas paprastas pardavimų duomenų rinkinys. Jame sąmoningai palikta:
- tuščių reikšmių (blank / missing)
- pasikartojančių eilučių (duplicate rows)
- skirtingų duomenų tipų (skaičiai, tekstas, datos)


In [2]:

import pandas as pd
import numpy as np

# Pavyzdiniai pardavimų duomenys
data = {
    "order_id": [1001, 1002, 1003, 1004, 1004],  # 1004 pasikartoja (duplicate row)
    "order_date": ["2025-01-05", "2025-01-06", "2025-01-07", "2025-01-07", "2025-01-07"],
    "customer": ["Asta", "Tomas", "Asta", "Milda", "Milda"],
    "product": ["Coffee", "Tea", "Tea", "Coffee", "Coffee"],
    "qty": [2, 1, np.nan, 3, 3],                  # qty turi trūkstamą reikšmę
    "unit_price": [3.50, 2.00, 2.00, 3.50, 3.50],
    "channel": ["Online", "Direct", "Online", "Online", "Online"],
    "discount_pct": [0.0, 0.1, 0.0, None, None]   # discount_pct turi None (missing)
}

df = pd.DataFrame(data)
df


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,



## 1. DataFrame basics

`DataFrame` yra dvimatis duomenų objektas, panašus į lentelę:
- eilutės atspindi įrašus (records)
- stulpeliai atspindi kintamuosius (features / fields)

Dažniausiai naudojamos operacijos:
- peržiūra (`head`, `tail`)
- struktūros patikrinimas (`shape`, `columns`, `dtypes`)
- santrauka (`info`, `describe`)


In [10]:

# Pirmos ir paskutinės eilutės
print(df.head(2))
df.tail(2)


   order_id  order_date customer product  qty  unit_price channel  \
0      1001  2025-01-05     Asta  Coffee  2.0         3.5  Online   
1      1002  2025-01-06    Tomas     Tea  1.0         2.0  Direct   

   discount_pct  
0           0.0  
1           0.1  


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,


In [11]:

df.tail(2)


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,


In [12]:

# Eilučių ir stulpelių skaičius
df.shape


(5, 8)

In [13]:

# Stulpelių pavadinimai
df.columns


Index(['order_id', 'order_date', 'customer', 'product', 'qty', 'unit_price',
       'channel', 'discount_pct'],
      dtype='str')

In [None]:

# Duomenų tipai pagal stulpelius
df.dtypes


order_id          int64
order_date          str
customer            str
product             str
qty             float64
unit_price      float64
channel             str
discount_pct    float64
dtype: object

In [15]:

# Struktūrinė santrauka
df.info()


<class 'pandas.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   order_id      5 non-null      int64  
 1   order_date    5 non-null      str    
 2   customer      5 non-null      str    
 3   product       5 non-null      str    
 4   qty           4 non-null      float64
 5   unit_price    5 non-null      float64
 6   channel       5 non-null      str    
 7   discount_pct  3 non-null      float64
dtypes: float64(3), int64(1), str(4)
memory usage: 452.0 bytes


In [18]:
# Struktūrinė santrauka describe
df.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
order_id,5.0,1002.8,1.3,1001.0,1002.0,1003.0,1004.0,1004.0
qty,4.0,2.25,0.96,1.0,1.75,2.5,3.0,3.0
unit_price,5.0,2.9,0.82,2.0,2.0,3.5,3.5,3.5
discount_pct,3.0,0.03,0.06,0.0,0.0,0.0,0.05,0.1



## 2. Exploring DataFrames

Duomenų tyrimas paprastai prasideda nuo:
- reikšmių pasiskirstymo peržiūros
- kategorinių reikšmių sąrašų peržiūros
- skaitinių laukų statistikos

Svarbu atskirti:
- `describe()` pagal nutylėjimą analizuoja skaitinius laukus
- `describe(include="all")` pateikia platesnę santrauką, įskaitant tekstinius laukus


In [19]:

# Skaitinių stulpelių santrauka
df.describe().round()


Unnamed: 0,order_id,qty,unit_price,discount_pct
count,5.0,4.0,5.0,3.0
mean,1003.0,2.0,3.0,0.0
std,1.0,1.0,1.0,0.0
min,1001.0,1.0,2.0,0.0
25%,1002.0,2.0,2.0,0.0
50%,1003.0,2.0,4.0,0.0
75%,1004.0,3.0,4.0,0.0
max,1004.0,3.0,4.0,0.0


In [20]:

# Visų stulpelių santrauka (kai yra ir tekstinių laukų)
df.describe(include="all").round().T


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
order_id,5.0,,,,1003.0,1.0,1001.0,1002.0,1003.0,1004.0,1004.0
order_date,5.0,3.0,2025-01-07,3.0,,,,,,,
customer,5.0,3.0,Asta,2.0,,,,,,,
product,5.0,2.0,Coffee,3.0,,,,,,,
qty,4.0,,,,2.0,1.0,1.0,2.0,2.0,3.0,3.0
unit_price,5.0,,,,3.0,1.0,2.0,2.0,4.0,4.0,4.0
channel,5.0,2.0,Online,4.0,,,,,,,
discount_pct,3.0,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [23]:

# Unikalių reikšmių peržiūra (kategoriniai laukai)
df["channel"].unique(), df["product"].unique()


(<StringArray>
 ['Online', 'Direct']
 Length: 2, dtype: str,
 <StringArray>
 ['Coffee', 'Tea']
 Length: 2, dtype: str)

In [13]:

# Dažnių lentelė (kiek kartų pasikartoja kiekviena reikšmė)
df["customer"].value_counts()


customer
Asta     2
Milda    2
Tomas    1
Name: count, dtype: int64

In [24]:
df.customer.value_counts()

customer
Asta     2
Milda    2
Tomas    1
Name: count, dtype: int64


## 3. Accessing & dropping data

Duomenys pasiekiami keliais būdais:
- `df["col"]` grąžina vieną stulpelį (Series)
- `df[["col1","col2"]]` grąžina kelis stulpelius (DataFrame)
- `loc` ir `iloc` leidžia pasirinkti ir eilutes, ir stulpelius

Duomenų šalinimui naudojama:
- `drop(columns=[...])` stulpeliams
- `drop(index=[...])` eilutėms

Svarbu: `drop` pagal nutylėjimą neperrašo originalo, nebent naudojamas `inplace=True`.


In [27]:

# Vienas stulpelis (Series)
df["product"].head(2)


0    Coffee
1       Tea
Name: product, dtype: str

In [28]:

# Keli stulpeliai (DataFrame)
df[["order_id", "customer", "qty"]].head(2)


Unnamed: 0,order_id,customer,qty
0,1001,Asta,2.0
1,1002,Tomas,1.0


In [31]:

# Atranka su loc: eilutės pagal sąlygą ir pasirinkti stulpeliai
df.loc[df["channel"] == "Online", ["order_id", "customer", "product", "qty"]]


Unnamed: 0,order_id,customer,product,qty
0,1001,Asta,Coffee,2.0
2,1003,Asta,Tea,
3,1004,Milda,Coffee,3.0
4,1004,Milda,Coffee,3.0


In [32]:

# Atranka su iloc: pagal poziciją (pirmos 3 eilutės, pirmi 4 stulpeliai)
df.iloc[:3, :4]


Unnamed: 0,order_id,order_date,customer,product
0,1001,2025-01-05,Asta,Coffee
1,1002,2025-01-06,Tomas,Tea
2,1003,2025-01-07,Asta,Tea


In [33]:

# Stulpelio pašalinimas (grąžina naują DataFrame)
df_no_discount = df.drop(columns=["discount_pct"])
df_no_discount.head()


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct
2,1003,2025-01-07,Asta,Tea,,2.0,Online
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online


In [None]:

# Eilutės pašalinimas pagal indeksą (pvz., pirmoji eilutė)
df_without_first = df.drop(index=[0])
df_without_first.head()


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,



## 4. Blank & duplicate values

Trūkstamos reikšmės Pandas dažniausiai matomos kaip:
- `NaN` (skaičiniuose laukuose)
- `None` (dažnai tekstiniuose laukuose, bet gali būti ir kituose)

Pagrindinės komandos:
- `isna()` / `notna()` trūkstamoms reikšmėms
- `fillna()` trūkstamų reikšmių užpildymui
- `dropna()` eilučių ar stulpelių šalinimui, jei trūksta reikšmių

Pasikartojimai:
- `duplicated()` randa pasikartojančias eilutes
- `drop_duplicates()` pašalina pasikartojimus

Svarbu: prieš šalinant duomenis, tikslinga suprasti, kodėl jie pasikartoja ir ar tai nėra reikalinga informacija.


In [39]:

# Trūkstamų reikšmių skaičius kiekviename stulpelyje
df.isna().sum()


order_id        0
order_date      0
customer        0
product         0
qty             1
unit_price      0
channel         0
discount_pct    2
dtype: int64

In [40]:
df["qty"].isna()

0    False
1    False
2     True
3    False
4    False
Name: qty, dtype: bool

In [27]:

# Eilutės, kuriose qty yra trūkstama
df[df["qty"].isna()]


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0


In [41]:

# Trūkstamų reikšmių užpildymas (pavyzdys: qty laikomas 0, jei nėra įvesta)
df_filled = df.copy()
df_filled["qty"] = df_filled["qty"].fillna(0)
df_filled


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1
2,1003,2025-01-07,Asta,Tea,0.0,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,


In [42]:

# Pasikartojančios eilutės (True reiškia, kad eilutė dubliuojasi)
df.duplicated()


0    False
1    False
2    False
3    False
4     True
dtype: bool

In [43]:

# Pasikartojančių eilučių peržiūra
df[df.duplicated(keep=False)]


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,


In [31]:

# Pasikartojimų pašalinimas
df_dedup = df.drop_duplicates()
df_dedup


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,



## 5. Sorting & filtering

Rūšiavimas:
- `sort_values()` pagal vieną arba kelis stulpelius
- `ascending=False` mažėjimo tvarka

Filtravimas:
- sąlygos su `==`, `>`, `<`
- kelių sąlygų kombinavimas su `&` ir `|`
- `isin()` kai reikia atrinkti kelias reikšmes

Dažna klaida: sąlygoms su `&` ir `|` pamirštami skliaustai.


In [32]:

# Rūšiavimas pagal kainą mažėjimo tvarka
df.sort_values(by="unit_price", ascending=False)


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0


In [33]:

# Filtravimas: tik Online kanalas
df[df["channel"] == "Online"]


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,


In [47]:

# Filtravimas: Online ir kaina > 2.5
df[(df["channel"] == "Online") & (df["unit_price"] > 2.5)]

mask = df["channel"] == "Online"
df[mask]


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,


In [37]:

# Filtravimas: produktas yra Coffee arba Tea
df[df["product"].isin(["Coffee", "Tea"])]


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,



## 6. Modifying columns

Stulpelių keitimo operacijos:
- naujo stulpelio kūrimas (pvz., pajamos)
- reikšmių formatavimas (pvz., datos)
- sąlyginiai skaičiavimai (`np.where`, `apply`)

Gera praktika: prieš skaičiavimus įsitikinti, kad duomenų tipai yra teisingi.


In [44]:

df_mod = df.copy()

# Datos konvertavimas į datetime tipą
df_mod["order_date"] = pd.to_datetime(df_mod["order_date"])

# Pajamos: qty * unit_price
df_mod["revenue"] = df_mod["qty"] * df_mod["unit_price"]

df_mod


Unnamed: 0,order_id,order_date,customer,product,qty,unit_price,channel,discount_pct,revenue
0,1001,2025-01-05,Asta,Coffee,2.0,3.5,Online,0.0,7.0
1,1002,2025-01-06,Tomas,Tea,1.0,2.0,Direct,0.1,2.0
2,1003,2025-01-07,Asta,Tea,,2.0,Online,0.0,
3,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,,10.5
4,1004,2025-01-07,Milda,Coffee,3.0,3.5,Online,,10.5


In [45]:
df_mod.dtypes, df.dtypes

(order_id                 int64
 order_date      datetime64[us]
 customer                   str
 product                    str
 qty                    float64
 unit_price             float64
 channel                    str
 discount_pct           float64
 revenue                float64
 dtype: object,
 order_id          int64
 order_date          str
 customer            str
 product             str
 qty             float64
 unit_price      float64
 channel             str
 discount_pct    float64
 dtype: object)

In [41]:

# Sąlyginis stulpelis: ar taikoma nuolaida
df_mod["has_discount"] = np.where(df_mod["discount_pct"].fillna(0) > 0, "Yes", "No")
df_mod[["order_id", "discount_pct", "has_discount"]]


Unnamed: 0,order_id,discount_pct,has_discount
0,1001,0.0,No
1,1002,0.1,Yes
2,1003,0.0,No
3,1004,,No
4,1004,,No



## 7. Pandas data types

Pandas turi kelis dažnus duomenų tipus:
- `int64`, `float64` skaičiams
- `object` tekstui (dažniausiai)
- `datetime64[ns]` datoms
- `boolean` loginiams

Dažna situacija:
- skaitinis stulpelis įkeliamas kaip tekstas (`object`), todėl skaičiavimai neveikia korektiškai.
Tokiu atveju naudojama `pd.to_numeric()` arba duomenys koreguojami prieš konvertavimą.


In [None]:

df_mod.dtypes


In [None]:

# Pavyzdys: neteisingas tipas ir konvertavimas
df_types = df.copy()
df_types["qty"] = df_types["qty"].astype("object")  # imituojamas blogas tipas
df_types.dtypes


In [None]:

# Konvertavimas į skaitinį tipą (klaidos paverčiamos į NaN)
df_types["qty"] = pd.to_numeric(df_types["qty"], errors="coerce")
df_types.dtypes


In [None]:
df_types.head()


## 8. Dažnos klaidos ir gerosios praktikos

Gerosios praktikos:
- Pradėti nuo `head()`, `info()` ir `isna().sum()`, kad būtų aiški duomenų struktūra ir kokybė.
- Naudoti `.copy()`, kai kuriama nauja versija, kad būtų išvengta neaiškių pakeitimų.
- Prieš skaičiavimus patikrinti duomenų tipus (`dtypes`) ir, jei reikia, konvertuoti.
- Filtruojant kelias sąlygas, naudoti skliaustus ir `&` / `|` operatorius.

Dažnos klaidos:
- Pamirštami skliaustai filtruojant su keliomis sąlygomis.
- `drop()` panaudojamas tikintis, kad originalas pasikeis, bet nepanaudojamas `inplace=True` arba nepriskiriamas rezultatas.
- Skaičiavimai atliekami su `object` tipo stulpeliais, kurie atrodo kaip skaičiai, bet yra tekstas.
- Trūkstamos reikšmės ignoruojamos, nors jos gali reikšmingai pakeisti rezultatą.
