# Filekezelés és Pandas

## *Filekezelés*

### **Miért fontos?**

- A mérnöki munka során a nagy adathalmazokat nyakran kapunk, és kell őket kezelnünk
- Memóriában nem tudunk nagy méretű adatokathalmazokat tárolni *Megoldás*: fájlokba mentés
- szenzorokból adatokat beolvasott adatokat file-okba logoljuk

### **Leggyakoribb fájlformátumok:**

1. **INI (Initialization File)**:
   - Az INI fájl egy egyszerű szöveges fájlformátum, amelyet gyakran konfigurációs fájlok tárolására használnak Windows alapú rendszerekben.
   - Az INI fájlok hierarchikus struktúrában tárolják az adatokat, kulcs-érték párokat használva, amelyek szekciókba rendezhetők.
   - A fájl kiterjesztése általában ".ini".

2. **JSON (JavaScript Object Notation)**:
   - JSON egy könnyen olvasható, adatcsereformátum, amelyet gyakran használnak a webes alkalmazásokban.
   - Általában strukturált adatokat tárol, például objektumokat és listákat.
   - Az adatokat párokban tárolja, amelyek kulcs-érték párként vannak meghatározva.
   - A fájl kiterjesztése általában ".json".

3. **YAML (régen: Yet Another Markup Language, most: YAML Ain't Markup Language)**:
   - YAML egy ember- és gépelolvasásra is alkalmas adatátviteli formátum, amely könnyen olvasható és írható.
   - Támogatja a hierarchikus adatstruktúrákat és a listákat.
   - A YAML-t gyakran konfigurációs fájlokban és adatleíróban használják, különösen fejlesztői környezetekben.
   - A fájl kiterjesztése általában ".yaml" vagy ".yml".

4. **CSV (Comma-Separated Values)**:
   - CSV egy egyszerű és gyakran használt táblázatformátum, amely szöveges fájlban tárolja a táblázatos adatokat.
   - Az adatokat vesszők vagy más elválasztók választják el egymástól.
   - A CSV fájlok rendkívül elterjedtek, különösen adatimportálás és -exportálás során.
   - A fájl kiterjesztése általában ".csv".

5. **Feather**:
   - Feather egy bináris tárolási formátum, amely táblázatos adatok tárolására szolgál.
   - Feather fájlok gyors beolvasást és írást tesznek lehetővé, különösen Python és R nyelven.
   - Egyik előnye, hogy a fájlok közvetlenül a memóriába olvashatók, így nagy adatmennyiségek hatékony kezelésére alkalmasak.
   - A fájl kiterjesztése általában ".feather".


### **Fileok írása és olvasása:**

Pythonban a `with open("file_nev", "tipus")`, függvénnyel nyithatjuk meg a saját fájlainkat,</br>
A következő lehetőségeink vannak file megnyitásra:
1. **"r"**: Olvasási mód. Megnyitja a fájlt olvasásra. Hibaüzenetet dob, ha a fájl nem létezik.
2. **"w"**: Írási mód. Megnyitja a fájlt írásra. Új fájlt hoz létre, ha nem létezik, vagy felülírja</br>
 a fájlt, ha már létezik.
3. **"a"**: Hozzáfűző mód. Megnyitja a fájlt írásra, adatot fűzve a fájl végéhez. Új fájlt hoz létre,</br>
 ha nem létezik.
4. **"r+"**: Olvasási és írási mód. Megnyitja a fájlt olvasásra és írásra egyaránt. Hibaüzenetet dob,</br>
 ha a fájl nem létezik.
5. **"w+"**: Írási és olvasási mód. Megnyitja a fájlt olvasásra és írásra. Új fájlt hoz létre, ha nem létezik,</br>
 vagy felülírja a fájlt, ha már létezik.


#### ***File írása:***

In [None]:
with open('data.txt', 'w') as f:
    data = 'valami adat, amit a file-ba írunk'
    f.write(data)

#### ***File olvasása:***

*Egyben:*

In [None]:
with open('data.txt', 'r') as f:
    data = f.read()

*Soronként:* (`readline()` függvénnyel; figyelni kell, hogy nagyobb file-oknál nem mindig működik)

In [None]:
file = open("data.txt","r")
line = file.readline()
print(line)

### **File-ok elérése:**

*Adott mappa adatainak listázása:*</br>
- Szükséges eszközeink az "os" könyvtárban találhatjuk
- Amikor az `alisdir()` vagy `scandir()` függvénynek egy '.'-ot adunk argumentumként, akkor a függvény a jelenlegi munkakönyvtárban lévő fájlokat és könyvtárakat fogja felsorolni, visszaadva azokat abszolút elérési útvonalukkal együtt.

*File-ok olvasása root-ban:* (`scandir()`-rel)

In [None]:
import os

entries = os.scandir("/")

for entry in entries:
    print(entry.name)

*File-ok olvasása jelenlegi mappában* (`scandir()`-rel):

In [None]:
entries = os.scandir(".")

for entry in entries:
    print(entry.name)

*File-ok olvasása jelenlegi mappában* (`listdir()`-rel):

In [None]:
entries = os.listdir(".")

print(entries)

*Almappák listázása:*
- `os.scandir()` -t használhatjuk

In [None]:
basepath = '/'
for entry in os.scandir(basepath):
    if os.path.isdir(os.path.join(basepath, entry)):
        print(entry)

### **File tulajdonságok elérése:**

In [None]:
with os.scandir('/') as dir_contents:
    for entry in dir_contents:
        info = entry.stat() #.stat metodus informaciot gyujt minden konyvtarrol
        print(info.st_mtime) #az st_mtime kiirja a modositasi idot (UNIX timestamp), olvashatova teheto a datetime.fromtimestamp()

### **Könyvtár létrehozása:**

Az ***os*** osztályunk `mkdir()` metódusával hozhatunk létre új könyvtárakat

In [None]:
os.mkdir('example_directory/')

*Nézzük meg, hogy létrejött-e:*

In [None]:
entries = os.scandir("./example_directory/")

for entry in entries:
    print(entry.name)
# nem kapunk errort mert létezik a mappa amit létrehoztunk, de nincs benne semmi

### **Szűrés file név alapján:**

az `endswith()` függvényt használhatjuk ***wildcard*** helyett (wildcard: helyettesítő karakter)

In [None]:
for entry in os.scandir('/'):
    if entry.name.endswith('.sys'):
        print(entry.name)

*wildcard-dal*:

In [None]:
import fnmatch

for file in os.scandir('.'):
    if fnmatch.fnmatch(file.name, 'd*.csv'):
        print(file.name)

### **Fájlok bezárása:**</br>
A fájlokat a .close() függvényünkkel zárhatjuk be. (mindig meg kell tenni)

In [None]:
f.close()

### **Egyéb fájlműveletek:**

1. **`os.remove(path)`**:
    - Ez a parancs törli a megadott elérési útvonalon lévő fájlt.
    - A `path` paraméter az eltávolítani kívánt fájl elérési útvonala.

2. **`os.rename(src, dst)`**:
    - Ez a parancs átnevezi vagy áthelyezi a megadott forrásfájlt vagy könyvtárat az új cél elérési útvonalra.
    - A `src` paraméter az eredeti fájl vagy könyvtár elérési útvonala, a `dst` pedig az új elérési útvonal.

3. **`shutil.copy(src, dst)`**:
    - Ez a parancs másol egy fájlt a megadott forrás és cél elérési útvonalak között.
    - A `src` paraméter az eredeti fájl elérési útvonala, a `dst` pedig az új fájl helye.

4. **`shutil.copy2(src, dst)`**:
    - Ez a parancs hasonló a `shutil.copy()` parancshoz, azonban megőrzi az eredeti fájl metaadatokat, például a létrehozási és módosítási időt.
    - A `src` paraméter az eredeti fájl elérési útvonala, a `dst` pedig az új fájl helye.

5. **`shutil.copytree(src, dst)`**:
    - Ez a parancs rekurzívan másol egy teljes könyvtárat, beleértve az összes alkönyvtárat és fájlt, a megadott forrás és cél elérési útvonalak között.
    - A `src` paraméter az eredeti könyvtár elérési útvonala, a `dst` pedig az új könyvtár helye.

6. **`shutil.move(src, dst)`**:
    - Ez a parancs átnevezi vagy áthelyezi egy fájlt vagy könyvtárat a megadott forrás és cél elérési útvonalak között.
    - A `src` paraméter az eredeti fájl vagy könyvtár elérési útvonala, a `dst` pedig az új elérési útvonal.


## *Pandas (Panel Data and Python Data Analysis):*

### **Mire jó? Mikor használjuk?**

- A pandas könyvtár egyszerű és hatékony módot kínál ***fájlműveletek végrehajtására***, ***adattisztításra***, ***szűrésre***, ***statisztikai elemzésekre*** és ***adatvizualizációk létrehozására***.
- A könyvtár számos funkciót és eszközt kínál statisztikai műveletekre és adatmanipulációra
- Célunk, hogy megkönnyítsük az adatmanipulációt és -elemzés folyamtát, és csak a lényegi információra kelljen fókuszálnunk



### **Telepítése és használata Python környezetünkbe:**

*Telepítés hagyományos Python környezetben:*</br>
`pip install pandas`
*Telepítés ***Anaconda*** környezetben:*
`conda install -c conda-forge pandas`

A `pandas` függvényeit az alábbi paranccsal érhetjük el:

In [None]:
import pandas as pd

### **Pandas alapfogalmak:**

#### ***Series:*** 
- egydimenziós adatszerkezet
- rugalmas eszköz adatok tárolására és kezelésére
- számos beépített eszközzel rendelkezik
- létrehozhatjuk mind listából, mind szótárból
- létrehozó *'konstruktora'* a `pd.Series(adat)`

*Listából létrehozva*:

In [None]:
data = [10, 20, 30, 40, 50]


*Szótárból létrehozva*:

In [None]:
data = {'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}


*Lehetőségünk van a szótár csak néhány elemének importjára*

*Hozzáférés elemekhez az index vagy az egyedi címkék alapján*:

*Szűrés:*

*Statisztikai műveletek:*

*Vizualizáció:*

#### ***Dataframe:***
- kétdimenziós adatszerkezet
- többdimenziós adatok tárolására és kezelésére alkalmas
- tartalmazza a sorokat és oszlopokat, amelyek címkézettek lehetnek
- számos beépített funkcióval rendelkezik az adatok manipulálására és elemzésére
- könnyen létrehozható, például listákból vagy szótárakból
- létrehozó *'konstruktora'* a `pd.DataFrame(adat)`

*Szótárból létrehozva*:

In [None]:
data = {'Name': {'a': 'John', 'b': 'Anna', 'c': 'Peter', 'd': 'Linda'},
        'Age': {'a': 25, 'b': 30, 'c': 35, 'd': 40},
        'City': {'a': 'New York', 'b': 'Paris', 'c': 'Berlin', 'd': 'Tokyo'}}

# DataFrame

*Listából létrehozva*:

In [None]:
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Paris', 'Berlin', 'Tokyo']}

# DataFrame

*Adatok elérése a `.loc[hely]` függvénnyel történik:*

*Akár többet is lekérhetünk*

*Saját indexelés alapján is elérhetjük:*

*Kulcs alapján értéket is módosíthatunk:*

**Példa:** Drónadatok feldolgozása

Az alábbiakban adott a University of Zürich (UZH) Robotics and Perception Group laborjának egy mérése. Ebben a mérésben egy önvezető drón pályáját figyeltük meg és a feladatunk, hogy a mozgást kinematikai szempontból elemezzük:
1. Töltsük le, és tároljuk el egy DataFrame-ben a mérési adatokat!
2. Jelenítsük meg a mért adatokat egy interaktív (plotly) ábrán!
3. Numerikus deriválás segítségével számítsuk ki a helyzetkoordinátákból a drón sebességét!
4. Hasonlítsuk össze a kapott értékeket a táblázatban található - szenzorosan mért - sebességértékekkel!

**Megoldás:** 1. Adatok letöltése

*Megjegyzés: Ha a letöltés során nem működik a* `git` *parancs, akkor a linkre kattintva csak töltsük le a mappát!*

In [None]:
# A git paranccsal egyszerűen letölthetjük az adatokat
! git clone https://github.com/uzh-rpg/mh_autotune/

Szükséges importok:

In [None]:
! pip install plotly
! pip install pandas

Letöltés után már készen is állunk arra, hogy beolvassuk és egy `DataFrame` változóban eltároljuk az adathalmazunkat. 

In [None]:
import pandas as pd

# Fileokat egyszerűen beolvashatunk közvetlen DataFrame-be is:
df = pd.read_csv("mh_autotune/resources/trajectories/spiral.csv")

# ZIP esetén:
# df = pd.read_csv("mh_autotune-main/mh_autotune-main/resources/trajectories/spiral.csv")

df 

Amit fontos észrevenni, hogy ez a sok adat önmagában semmitmondó, és nehezen lehet összefoglalni, hogy a mi a mérés **információtartalma**. Annak érdekében, hogy "okosabbak is legyünk" az adatokból jellemzően több statisztikai mutatót is számolunk, ábrázoljuk az adatokat (akár térben és időben is), illetve a számunkra megfelelő módon transzformáljuk.

Mivel itt egy mérésről van szó, ezért érdemes ábrázolni az adatokat!

**Megoldás:** 2. Az adatok ábrázolása

In [None]:
# Notebook-kompatibilitás
from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)

# Plotly beolvasása
import plotly.express as px

# Az egyes tengelyek a dataframe egyes oszlopai


**Megoldás** 3. Sebességek ábrázolása

Numerikus deriválás segítségével könnyen számíthatóak a sebességek:
$\begin{equation} v_i[k] = \dot{x}_i[k] = \frac{x_i[k]-x_i[k-1]}{\Delta t} \end{equation}$

In [None]:
import numpy as np

Ezt követően ezt is ábrázoljuk:

**Megoldás:** 4. Sebességértékek összehasonlítása