# Pandas: Duomenų importavimas ir eksportavimas

Faile pateikiami aiškūs ir praktiški pavyzdžiai, kaip naudojant `pandas`:

- importuoti duomenis iš CSV, TXT ir Excel failų
- naudoti svarbiausius `read_csv()` argumentus duomenų paruošimui analizei
- apjungti (append) kelis Excel lapus
- eksportuoti duomenis į „flat files“ (CSV, TXT)

Pavyzdžiai orientuoti į duomenų analitiko darbo praktiką.
Komentarai pateikiami techniniu, aiškinamuoju stiliumi.


In [1]:
import pandas as pd
from pathlib import Path

pd.__version__


'1.5.3'

## 1. Duomenų importavimas su `read_csv()`

`read_csv()` yra dažniausiai naudojama funkcija duomenų analitiko darbe.
Ji leidžia ne tik nuskaityti failą, bet ir atlikti pirminį duomenų paruošimą.


### Pagrindiniai `read_csv()` argumentai (analitiko požiūriu)

- `sep` – stulpelių skyriklis (`,`, `;`, `|`, `\t`)
- `encoding` – teksto koduotė (`utf-8`, `utf-8-sig`, `latin1`, `cp1257`)
- `decimal` – dešimtainis skirtukas (`.` arba `,`)
- `parse_dates` – datų konvertavimas importo metu
- `dtype` – stulpelių tipų nustatymas
- `na_values` – reikšmės, laikomos trūkstamomis
- `usecols` – nuskaityti tik reikalingus stulpelius
- `skiprows` – praleisti nereikalingas eilutes
- `nrows` – nuskaityti tik dalį duomenų


In [2]:
# Pavyzdiniai duomenys (teorinis pavyzdys)
csv_path = "C:/data/sales.csv"

# df = pd.read_csv(
#     csv_path,
#     sep=";",
#     encoding="utf-8-sig",
#     decimal=",",
#     parse_dates=["order_date"],
#     na_values=["NA", "N/A", ""],
#     usecols=["order_date", "region", "revenue"],
# )

# df.head()


Dažna klaida:
- nuskaityti visus stulpelius ir tik po to pradėti valymą
- palikti datas kaip `object` ir vėliau turėti problemų su laiko analize

Geroji praktika:
- paruošti duomenis jau importavimo metu
- nuskaityti tik tai, kas bus naudojama analizei


## 2. TXT failų nuskaitymas

TXT failai dažnai naudoja nestandartinius skyriklius.
`read_csv()` naudojamas ir TXT failams.


In [3]:
txt_path = "C:/data/logs.txt"

# Pavyzdys su tabuliacijos skyrikliu
# df_txt = pd.read_csv(txt_path, sep="\t")
# df_txt.head()


Dažna klaida:
- manyti, kad TXT failams reikia kitos funkcijos
- nenurodyti teisingo `sep`


## 3. Excel failų nuskaitymas

Excel failai dažni verslo aplinkoje.
`read_excel()` leidžia nuskaityti vieną arba kelis lapus.


In [4]:
excel_path = "C:/data/sales.xlsx"

# Vienas lapas
# df_excel = pd.read_excel(excel_path, sheet_name="Sales")
# df_excel.head()


### Keli lapai vienu metu

`sheet_name=None` grąžina žodyną (dict), kurio raktai – lapų pavadinimai.


In [5]:
# Visi lapai
# sheets = pd.read_excel(excel_path, sheet_name=None)

# sheets.keys()


## 4. Excel lapų apjungimas (appending sheets)

Dažna situacija – keli vienodos struktūros lapai (pvz., skirtingi mėnesiai).


In [6]:
# Teorinis pavyzdys
# all_sheets = []
# for name, sheet_df in sheets.items():
#     sheet_df["sheet_name"] = name
#     all_sheets.append(sheet_df)

# combined = pd.concat(all_sheets, ignore_index=True)
# combined.head()


Dažna klaida:
- naudoti `append()` cikle (nebenaudojama ir lėta)
- pamiršti `ignore_index=True`

Geroji praktika:
- kaupti DataFrame sąraše ir naudoti `pd.concat()`


## 5. Duomenų eksportavimas į „flat files“

Dažniausiai naudojami formatai:
- CSV
- TXT

Eksportuojami jau paruošti, analizei tinkami duomenys.


In [7]:
# CSV eksportas
# combined.to_csv("sales_cleaned.csv", index=False)

# TXT eksportas su tabuliacija
# combined.to_csv("sales_cleaned.txt", sep="\t", index=False)


Dažna klaida:
- pamiršti `index=False`
- naudoti netinkamą skyriklį eksportuojant TXT

Geroji praktika:
- aiškiai įvardinti failus
- eksportuoti tik galutinį, patikrintą rezultatą


## 6. Dažnos klaidos ir gerosios praktikos (santrauka)

Dažnos klaidos:
- neparinktas teisingas `sep` ir `encoding`
- paliktos datos kaip tekstas
- nuskaityti visi duomenys „iš inercijos“
- naudoti `append()` vietoje `concat()`

Gerosios praktikos:
- duomenų paruošimą pradėti jau importavimo metu
- naudoti `parse_dates` ir `dtype`
- dirbti tik su reikalingais stulpeliais
- eksportuoti aiškius, analizei paruoštus failus
