# Pandas Series: pagrindai duomenų analitikoje

Šiame faile pateikiami pagrindiniai `pandas.Series` naudojimo principai.

In [None]:
import pandas as pd
import numpy as np

## 1. Pandas Series sukūrimas

`Series` yra vienmatis duomenų rinkinys, turintis:
- reikšmes
- indeksą

Dažnai `Series` atitinka vieną duomenų stulpelį.

In [None]:
sales = pd.Series([120, 150, 90, 200, 170])
print(sales)



In [None]:
salesnp = np.array([120, 150, 90, 200, 170])
print(salesnp)
print(sales)

## 2. Series savybės (properties)

Dažniausiai naudojamos savybės:
- `values` – reikšmės
- `index` – indeksas
- `dtype` – duomenų tipas
- `shape` – forma
- `size` – elementų kiekis

In [None]:
print("values:", sales.values)
print("index:", sales.index)
print("dtype:", sales.dtype)
print("shape:", sales.shape)
print("size:", sales.size)

## 3. Pandas duomenų tipai (data types)

Pandas naudoja savo duomenų tipus, kurie panašūs į NumPy, bet geriau pritaikyti analizei.
Dažni tipai:
- `int64`, `float64`
- `object` (dažnai tekstas)
- `bool`

In [None]:
mixed = pd.Series([100, 120.5, "150", 200])
print(mixed)
print("dtype:", mixed.dtype)

## 4. Tipų konvertavimas (type conversion)

Dažna analitikos užduotis – konvertuoti tekstą į skaičius.
Tam naudojamas `astype` arba `pd.to_numeric`.
NaN reikia skirti nuo None

In [9]:
prices_raw = pd.Series(["10.5", "20.0", "15.75", "not_available"])

prices_numeric = pd.to_numeric(prices_raw, errors="coerce")

print(prices_raw)
print(prices_numeric)

0             10.5
1             20.0
2            15.75
3    not_available
dtype: object
0    10.50
1    20.00
2    15.75
3      NaN
dtype: float64


## 5. Indeksas (the index)

Indeksas leidžia pasiekti reikšmes pagal žymes, o ne tik pagal poziciją.
Pagal nutylėjimą indeksas yra 0, 1, 2, ...

In [10]:
customers = pd.Series([320, 410, 290, 500])
print(customers)
customers[:-1]

0    320
1    410
2    290
3    500
dtype: int64


0    320
1    410
2    290
dtype: int64

## 6. Individualus indeksas (custom indices)

Dažnai analitikoje naudojami prasminiai indeksai, pvz., regionai ar produktai.

In [11]:
sales_by_region = pd.Series(
    [1200, 950, 1430],
    index=["North", "South", "West"]
)

print(sales_by_region)
sales_by_region["West"]

North    1200
South     950
West     1430
dtype: int64


1430

## 7. `iloc` metodas

`iloc` pasiekia reikšmes pagal poziciją (kaip sąraše).
Indeksas čia nėra svarbus.

In [12]:
print(sales_by_region.iloc[0])
print(sales_by_region.iloc[:-1])

1200
North    1200
South     950
dtype: int64


## 8. `loc` metodas

`loc` pasiekia reikšmes pagal indekso pavadinimą.
Tai dažnas būdas analitinėse užklausose.

In [15]:
print(sales_by_region.loc["North"])
print(sales_by_region.loc[["South","West"]])

1200
South     950
West     1430
dtype: int64


## 9. Pasikartojantys indekso pavadinimai (duplicate index values)

Pandas leidžia naudoti pasikartojančius indeksus.
Tokiais atvejais grąžinamos kelios reikšmės.

In [16]:
sales_dup = pd.Series(
    [200, 150, 180],
    index=["A", "B", "A"]
)

print(sales_dup)
print(sales_dup.loc["A"])

A    200
B    150
A    180
dtype: int64
A    200
A    180
dtype: int64


## 10. Indekso atstatymas (resetting the index)

`reset_index` paverčia indeksą į atskirą stulpelį.
Tai dažnai daroma prieš jungimus ar eksportą.

In [18]:
sales_reset = sales_by_region.reset_index(drop=True)
print(sales_reset)

0    1200
1     950
2    1430
dtype: int64


## 11. Filtravimas (filtering Series)

Filtravimas atliekamas naudojant logines sąlygas.
Tai vienas dažniausių veiksmų analitikoje.

In [19]:
high_sales = sales_by_region[sales_by_region > 1000]
print(high_sales)

North    1200
West     1430
dtype: int64


## 12. Keli praktiniai filtravimo pavyzdžiai

Filtravimas pagal kelias sąlygas atliekamas naudojant `&` ir `|`.

In [20]:
sales_multi = pd.Series(
    [120, 450, 300, 80, 600],
    index=["Product_A", "Product_B", "Product_C", "Product_D", "Product_E"]
)

filtered = sales_multi[(sales_multi >= 200) & (sales_multi <= 500)]
print(filtered)

Product_B    450
Product_C    300
dtype: int64


## 13. Trumpa santrauka

- `Series` yra vienmatis duomenų rinkinys su indeksu.
- Indeksas leidžia aiškiai identifikuoti reikšmes.
- `iloc` naudojamas poziciniam pasiekimui, `loc` – pagal pavadinimus.
- Tipų konvertavimas yra dažna duomenų valymo dalis.
- Filtravimas leidžia greitai atrinkti reikalingas reikšmes analizei.