# Trūkstamų duomenų tvarkymas

In [None]:
# Kaip rasti trūkstamas reikšmes?
df.isna()                # Parodo, kur yra NaN
df.isna().sum()          # Suskaičiuoja trūkstamas reikšmes kiekviename stulpelyje

#Kaip pašalinti trūkstamas reikšmes?
df.dropna()              # Pašalina eilutes su bent viena NaN reikšme
df.dropna(axis=1)        # Pašalina stulpelius, kuriuose yra bent viena NaN
df.dropna(inplace=True)  # Pakeičia df tiesiogiai

#Kaip užpildyti trūkstamas reikšmes?
df.fillna(0)                          # Visus NaN pakeičia į 0
df.fillna("Nežinoma")                # Visus NaN pakeičia į tekstą

df.fillna({"Name": "Nėra", "Age": 0})
df["Age"].fillna(df["Age"].mean(), inplace=True)


In [4]:
# Example
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Name": ["Anna", np.nan, "Jonas"],
    "Age": [28, 34, np.nan],
    "City": [np.nan, "Kaunas", "Vilnius"]
})

print(df.isna().sum())

df["Name"].fillna("Nežinomas", inplace=True)
df["Age"].fillna(df["Age"].mean(), inplace=True)
df["City"].fillna("Nežinomas", inplace=True)

print(df)


In [7]:
# isna() - isna() yra Pandas metodas, kuris padeda rasti trūkstamas reikšmes (NaN) duomenų lentelėje (DataFrame) arba stulpelyje (Series).
df = pd.DataFrame({
    "Name": ["Anna", np.nan, "Jonas"],
    "Age": [28, np.nan, 34]
})
print(df)
print(df.isna())
print(df.isna().sum())

    Name   Age
0   Anna  28.0
1    NaN   NaN
2  Jonas  34.0
    Name    Age
0  False  False
1   True   True
2  False  False
Name    1
Age     1
dtype: int64


In [26]:
#dropna() metodas pašalina trūkstamas reikšmes (NaN turinčias eilutes arba stulpelius) iš DataFrame. Naudojamas, kai nori atsikratyti duomenų su tuščiomis reikšmėmis.
df = pd.DataFrame({
    "Name": ["Anna", np.nan, "Jonas", "Laura"],
    "Age": [28, np.nan, 34, 45],
    "City": ["Vilnius", "Kaunas", np.nan, np.nan]
})
#print(df)
#print(df.dropna()) # Pašalina eilutes, kuriose bent viena reikšmė yra NaN
df = df.dropna(axis=0)
#df = df.dropna(how="all") # Pašalina tik tas eilutes, kur visos reikšmės yra NaN
print(df)

   Name   Age     City
0  Anna  28.0  Vilnius


In [1]:
# fillna() metodas naudojamas vietoj NaN reikšmių įrašyti kitą nurodytą reikšmę.

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Name": ["Anna", np.nan, "Jonas", "Laura"],
    "Age": [28, np.nan, 34, 45],
    "City": ["Vilnius", "Kaunas", np.nan, np.nan]
})
df["Salary"] = [np.nan, np.nan,np.nan, np.nan]

# Užpildys visus NaN tekstu "Nežinoma":
s = df.fillna("Nezinoma")

# Užpildys visus NaN stulpelyje "Salary" nuliais
df["Salary"] = df["Salary"].fillna(0)

# Užpildys NaN su vidurkiu, mediana ar pan.
mean_of_age = df["Age"].mean()
df["Age"] = df["Age"].fillna(mean_of_age)

print(df)

    Name        Age     City  Salary
0   Anna  28.000000  Vilnius     0.0
1    NaN  35.666667   Kaunas     0.0
2  Jonas  34.000000      NaN     0.0
3  Laura  45.000000      NaN     0.0


In [2]:
# Dublikatai, tipai, nešvarūs duomenys
# Dublikatai.
# Kai dirbi su duomenimis, gali pasitaikyti pasikartojančių eilučių
# vadinamų dublikatais. Jie gali iškreipti analizę
# (pvz., vidurkius, skaičiavimus ir kt.), todėl svarbu juos aptikti ir pašalinti.

import pandas as pd

df = pd.DataFrame({
    "Name": ["Anna", "Jonas", "Jonas", "Laura"],
    "Age": [28, 34, 34, 45]
})
# Grąžina True ten, kur eilutė pasikartoja (antras ir toliau).
s = df.duplicated()
print(s)

# Parodyti kiek yra duplikatų
a = df.duplicated().sum()
print(a)

# Ištrinti duplikatus
b = df.drop_duplicates()
print(b)

0    False
1    False
2     True
3    False
dtype: bool
1
    Name  Age
0   Anna   28
1  Jonas   34
3  Laura   45


In [3]:
#Kai dirbi su DataFrame, labai svarbu, kad stulpeliai turėtų teisingus duomenų tipus. Netinkamas tipas gali sukelti klaidas ar lėtinti skaičiavimus. 
#Štai kaip galima konvertuoti duomenų tipus su Pandas

print(df.dtypes)

Name    object
Age      int64
dtype: object


In [None]:
#  Keitimas į int, float, str ir pan.: astype()

df["Amžius"] = df["Amžius"].astype(int)
df["Amžius"] = df["Amžius"].astype(float)
df["Amžius"] = df["Amžius"].astype(str)

# Prieš konvertuodamas į int ar float, įsitikink, kad nėra NaN reikšmių, nes kitaip gausi klaidą. Jei reikia, naudok fillna():
df["Amžius"] = df["Amžius"].fillna(0).astype(int)

#Konvertavimas į datą: pd.to_datetime()
df["Data"] = pd.to_datetime(df["Data"])
df["Data"] = pd.to_datetime(df["Data"], format="%Y-%m-%d")

# Konvertavimas į loginį tipą (bool)
df["Aktyvus"] = df["Aktyvus"].astype(bool)
df["Aktyvus"] = df["Aktyvus"].map({"Taip": True, "Ne": False})

# Konvertavimas į kategorinį tipą: category
df["Lytis"] = df["Lytis"].astype("category")

#Masinis konvertavimas keliems stulpeliams:
df = df.astype({
    "Amžius": "int",
    "Pajamos": "float",
    "Lytis": "category"
})


In [None]:
# Tarpo šalinimas ir formatavimas

#Dirbant su tekstiniais duomenimis, dažnai reikia pašalinti nereikalingus tarpus, standartizuoti 
# raidžių dydį, pakeisti simbolius ir pan. Šie veiksmai yra labai svarbūs duomenų valymui ir analizės tikslumui.

#str.strip() – pašalina tarpus pradžioje ir pabaigoje
df["Name"] = df["Name"].str.strip()
df["Name"] = df["Name"].str.lstrip()
df["Name"] = df["Name"].str.rstrip()

#  Mažosios / didžiosios raidės
# str.lower() – paverčia viską mažosiomis
df["City"] = df["City"].str.lower()

# str.upper() – viską didžiosiomis
df["City"] = df["City"].str.upper()

#str.title() – pirmosios raidės didžiosios (Vardas Pavardė)
df["Name"] = df["Name"].str.title()

# Simbolių keitimas
# str.replace("senas", "naujas")
df["City"] = df["City"].str.replace("Kaunas", "KAUNAS")

# Pavizdys:
import pandas as pd

df = pd.DataFrame({
    "Name": ["  anna ", "JONAS", " Laura"],
    "City": ["Vilnius ", " Kaunas", "ŠIAULIAI"]
})

# Pašalinti tarpus
df["Name"] = df["Name"].str.strip()
df["City"] = df["City"].str.strip()

# Suvienodinti formą
df["Name"] = df["Name"].str.title()
df["City"] = df["City"].str.upper()

print(df)

# rezultatas
    Name     City
0   Anna  VILNIUS
1  Jonas   KAUNAS
2  Laura  ŠIAULIAI




In [None]:
# Naujo stulpelio sukūrimas

# Naują stulpelį galima pridėti tiesiog priskiriant reikšmes:
df["NewColumn"] = reikšmės

# Pavyzdžiai
import pandas as pd

# Duomenys
df = pd.DataFrame({
    "Name": ["Anna", "Jonas", "Laura"],
    "Age": [28, 34, 45]
})

# 1. Sukurti stulpelį "IsAdult", kuris rodo ar amžius ≥ 18
df["IsAdult"] = df["Age"] >= 18

# 2. Sukurti stulpelį "AgeInMonths"
df["AgeInMonths"] = df["Age"] * 12

# 3. Sukurti stulpelį su fiksuota reikšme
df["Country"] = "Lithuania"

# 4. Sukurti stulpelį su sąlygine logika
df["Category"] = df["Age"].apply(lambda x: "Jaunas" if x < 30 else "Suaugęs")
print(df)

In [None]:
#  Sąlygų taikymas pandas su apply + lambda
df["Group"] = df["Age"].apply(lambda x: "Senjoras" if x > 65 else ("Suaugęs" if x >= 18 else "Vaikas"))


df = pd.DataFrame({
    "Name": ["Anna", "Jonas", "Laura"],
    "Age": [25, 17, 70]
})
df["Category"] = df.apply(
    lambda row: f"{row['Name']} ({'Suaugęs' if row['Age'] >= 18 else 'Vaikas'})", axis=1
)

print(df)

# apply() – tai Pandas metodas, kuris leidžia taikyti funkciją kiekvienai eilutei arba stulpeliui
# duomenų rėžyje (DataFrame arba Series). Jis labai galingas ir lankstus, ypač kai reikia sudėtingesnių transformacijų.
# Kai turi stulpelį ar lentelę ir nori vienodai apdoroti kiekvieną reikšmę, naudok apply().

# Naudojimas	            Paaiškinimas
# s.apply(func)	            Taikoma kiekvienai stulpelio reikšmei
# df.apply(func, axis=1)	Taikoma kiekvienai eilutei (naudojama su keliais stulpeliais)

import pandas as pd

s = pd.Series(["anna", "jonas", "laura"])
s = s.apply(str.upper)

print(s)
# Rezultatas
0     ANNA
1    JONAS
2    LAURA

In [None]:
# Pandas metodai map() ir replace() leidžia greitai ir patogiai pakeisti reikšmes stulpelyje. 
# Abu naudojami su Series objektais (t. y. vienu stulpeliu), bet turi skirtingus pritaikymo scenarijus.

# map() naudojamas norint pakeisti stulpelio reikšmes pagal žemėlapį (dictionary) arba taikant funkciją.
import pandas as pd

df = pd.DataFrame({
    "City": ["Vilnius", "Kaunas", "Vilnius", "Klaipėda"]
})

city_map = {
    "Vilnius": "Sostinė",
    "Kaunas": "Laikina sostinė"
}

df["City"] = df["City"].map(city_map)
print(df)

# Rezultatas
              City
0          Sostinė
1  Laikina sostinė
2          Sostinė
3              NaN

# replace() – pakeisti seną reikšmę nauja. Yra lankstesnis – gali keisti:
# konkrečias reikšmes, kelias reikšmes vienu metu, visame DataFrame (ne tik stulpelyje)
df = pd.DataFrame({
    "City": ["Vilnius", "Kaunas", "Vilnius", "Klaipėda"]
})

df["City"] = df["City"].replace({
    "Vilnius": "Sostinė",
    "Kaunas": "Laikinoji"
})
print(df)
# Rezultatas
           City
0       Sostinė
1    Laikinoji
2       Sostinė
3      Klaipėda


In [None]:
# Stulpelio pervadinimas

# Stulpelio pervadinimas „Pandas“ bibliotekoje atliekamas naudojant metodą rename(). 
# Juo galima pakeisti vieno ar kelių stulpelių pavadinimus.

df.rename(columns={"sena_reikšmė": "nauja_reikšmė"}, inplace=False)

import pandas as pd

df = pd.DataFrame({
    "Name": ["Anna", "Jonas", "Laura"],
    "Age": [28, 34, 45]
})

# Pervadink "Name" į "Vardas", o "Age" į "Amžius"
df = df.rename(columns={"Name": "Vardas", "Age": "Amžius"})
print(df)
# Rezultatas
  Vardas  Amžius
0  Anna      28
1  Jonas     34
2  Laura     45


In [None]:
# Keletos stulpelių kombinavimas
# Keletos stulpelių kombinavimas Pandas'e leidžia sujungti du ar daugiau stulpelių į vieną.
# tai naudinga, kai, pavyzdžiui, nori sujungti vardą ir pavardę, datą ir laiką, ar bet kokią kitą susijusią informaciją.

# Sujungimas kaip tekstas (+)
df["Pilnas vardas"] = df["Vardas"] + " " + df["Pavardė"]
#Naudojant str.cat() funkciją
df["Pilnas vardas"] = df["Vardas"].str.cat(df["Pavardė"], sep=" ")

import pandas as pd

df = pd.DataFrame({
    "Vardas": ["Anna", "Jonas", "Laura"],
    "Pavardė": ["Petrauskaitė", "Kazlauskas", "Janavičiūtė"]
})

df["Pilnas vardas"] = df["Vardas"] + " " + df["Pavardė"]
print(df)
# Rezultatas
  Vardas     Pavardė       Pilnas vardas
0  Anna   Petrauskaitė    Anna Petrauskaitė
1  Jonas  Kazlauskas      Jonas Kazlauskas
2  Laura  Janavičiūtė     Laura Janavičiūtė

# Daugiau nei 2 stulpeliai
df["Tekstas"] = df["Vardas"] + " " + df["Pavardė"] + " (" + df["Miestas"] + ")"
df["Tekstas"] = df[["Vardas", "Pavardė", "Miestas"]].agg(" ".join, axis=1)
