# Adatok elérése, a DataFrame adatszerkezet, fájlok be- és kiolvasása

A `pandas` csomagot a szokásos `import` szintaxissal töltjük be:

In [1]:
import pandas as pd

Egy szöveges táblázatot a read_csv nevű függvénnyel olvashatunk be. A kapott táblázat egy DataFrame típusú objektum lesz.

In [2]:
df = pd.read_csv("data/kisnevsor.csv")

In [3]:
type(df)

pandas.core.frame.DataFrame

Ha csak kiiratjuk a táblázatot, akkor egy kellemesen formázott nézetet kapunk.
- Az első sorban az oszlopok nevei vannak.
- Az első oszlopban a sorok azonosítói, az úgynevezett indexek vannak.
- A táblázat maradék részében pedig az adatok foglalnak helyet.

In [4]:
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


A táblázat egy oszlopát a nevének megadásával érhetjük el legegyszerűbben, mintha (sőt, ténylegesen) egy dictionary egyik elemét szeretnénk elérni.

In [5]:
df['Eszter']

0    2
1    4
2    5
3    3
4    4
Name: Eszter, dtype: int64

Az oszlopokat egy összetett objektumként kapjuk vissza, ami még tartalmazza az indexet és az oszlop nevét is. Ennek a neve Series.

In [6]:
type(df['Eszter'])

pandas.core.series.Series

Legtöbb számításkor ezekkel az objektumokkal is dolgozhatunk a numpy arrayekhez hasonlóan.

In [7]:
df['Eszter']**2

0     4
1    16
2    25
3     9
4    16
Name: Eszter, dtype: int64

De lekérhetjük magát az adatokat tároló numpy tömböt is.

In [8]:
df['Eszter'].values

array([2, 4, 5, 3, 4])

További elérést tesz lehetővé a loc konstrukció, amivel oszlopokat és sorokat is lekérhetünk a neveik alapján.

Oszlop

In [9]:
df.loc[:,'Eszter']

0    2
1    4
2    5
3    3
4    4
Name: Eszter, dtype: int64

Sor. A sorok is Series objektumok.

In [10]:
df.loc[1,:]

Név       Csenge
Eszter         4
Orsi           4
Nem         lány
Kor           22
Dátum      13:20
Name: 1, dtype: object

Egyetlen elemet pedig a következő módon érünk el.

In [11]:
df.loc[0,'Eszter']

2

Később még visszatérünk rá, hogy mi mindent lehet csinálni egy ilyen táblázattal. Most viszont nézzük a beolvasást!

## Beolvasás

## read_csv()

A python nyelv talán leggyorsabb és legtöbb funkcionalitással rendelkező táblázatbeolvasó függvénye a pandas modul read_csv függvénye.

Most pár fontos paraméterét tekintjük át.

#### Értékelválasztó karakter:  `sep` .

Legtöbbször vesszővel vagy tabulátorral elválasztott táblázatot (amit a `sep` kulcsszóval állíthatunk be, ha szükséges) olvasunk be egyszerű szövegfájlokból.

In [13]:
df=pd.read_csv("data/kisnevsor.csv",sep=',')
df.head()

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


Ha rosszul állítjuk be, akkor jellemzően minden sorunk egy értékből fog állni.

In [14]:
df=pd.read_csv("data/kisnevsor.csv",sep=' ')
df

Unnamed: 0,"Név,Eszter,Orsi,Nem,Kor,Dátum"
0,"Bálint,2,.,fiú,20,12:31"
1,"Csenge,4,4,lány,22,13:20"
2,"István,5,4,fiú,19,12:35"
3,"Zita,3,5,lány,20,14:50"
4,"Károly,4,.,fiú,21,14:55"


Vagy arra panaszkodik a függvény, hogy nem azonos számú oszlop van minden sorban.

In [15]:
df=pd.read_csv("data/kisnevsor.csv",sep='n')

ParserError: Error tokenizing data. C error: Expected 2 fields in line 3, saw 3


#### header (fejléc)

Meg tudjuk adni, hogy van-e fejléc, és melyik sorban van.

In [16]:
df=pd.read_csv("data/kisnevsor.csv",header=0)
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


Ha nincs fejléc, akkor a fájl első sora is a táblázat első sora lesz.

In [17]:
df=pd.read_csv("data/kisnevsor.csv",header=None)
df

Unnamed: 0,0,1,2,3,4,5
0,Név,Eszter,Orsi,Nem,Kor,Dátum
1,Bálint,2,.,fiú,20,12:31
2,Csenge,4,4,lány,22,13:20
3,István,5,4,fiú,19,12:35
4,Zita,3,5,lány,20,14:50
5,Károly,4,.,fiú,21,14:55


Ha a sokadik sort adjuk meg, akkor a táblázat onnan fog kezdődni.

In [18]:
df=pd.read_csv("data/kisnevsor.csv",header=3)
df

Unnamed: 0,István,5,4,fiú,19,12:35
0,Zita,3,5,lány,20,14:50
1,Károly,4,.,fiú,21,14:55


#### index_col (indexoszlop)
- Az indexoszlopot kicsit máshogy jeleníti meg a notebook.

In [19]:
df=pd.read_csv("data/kisnevsor.csv",index_col='Név')
df.head()

Unnamed: 0_level_0,Eszter,Orsi,Nem,Kor,Dátum
Név,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bálint,2,.,fiú,20,12:31
Csenge,4,4,lány,22,13:20
István,5,4,fiú,19,12:35
Zita,3,5,lány,20,14:50
Károly,4,.,fiú,21,14:55


Ez a most beállított indexoszlop hasonlóan viselkedik az előbb látott számokból álló indexhez.

In [20]:
df['Eszter']

Név
Bálint    2
Csenge    4
István    5
Zita      3
Károly    4
Name: Eszter, dtype: int64

In [21]:
df.loc['Bálint',:]

Eszter        2
Orsi          .
Nem         fiú
Kor          20
Dátum     12:31
Name: Bálint, dtype: object

####  nrows

Ha egy nagyon hosszú fájlnak csak az első pár sorát akarjuk beolvasni.

In [22]:
df=pd.read_csv("data/kisnevsor.csv",nrows=2)
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20


#### na_values

Ha valaki úgy adja meg a hiányzó értékeket, hogy mondjuk beír egy pontot a helyre. Ez majd akkor lehet fontos, ha például átlagot számolunk, mert kihagyhatjuk az átlagolásból a NaN-értékeket.

In [23]:
df=pd.read_csv("data/kisnevsor.csv",na_values=['.'])
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,,fiú,20,12:31
1,Csenge,4,4.0,lány,22,13:20
2,István,5,4.0,fiú,19,12:35
3,Zita,3,5.0,lány,20,14:50
4,Károly,4,,fiú,21,14:55


#### parse_dates (dátumok kezelése)

Alapból a beolvasó nem csinál semmit a dátumnak vagy időnek kinéző oszlopokkal.

In [24]:
df=pd.read_csv("data/kisnevsor.csv")
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


In [25]:
df['Dátum']

0    12:31
1    13:20
2    12:35
3    14:50
4    14:55
Name: Dátum, dtype: object

De megkérhetjük rá.

In [26]:
df=pd.read_csv("data/kisnevsor.csv",parse_dates=['Dátum'])
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,2017-05-17 12:31:00
1,Csenge,4,4,lány,22,2017-05-17 13:20:00
2,István,5,4,fiú,19,2017-05-17 12:35:00
3,Zita,3,5,lány,20,2017-05-17 14:50:00
4,Károly,4,.,fiú,21,2017-05-17 14:55:00


In [27]:
df['Dátum']

0   2017-05-17 12:31:00
1   2017-05-17 13:20:00
2   2017-05-17 12:35:00
3   2017-05-17 14:50:00
4   2017-05-17 14:55:00
Name: Dátum, dtype: datetime64[ns]

#### compression (tömörített fájlok olvasása)

Mivel tömörítve kisebb helyet foglalnak el az adatok, gyorsabb lehet nagy adatfájlokat tömörített állományokból beolvasni.

In [28]:
df=pd.read_csv("data/kisnevsor.csv.gz")
df

Unnamed: 0,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


#### Nagy fájlokat darabokban is beolvashatunk

Figyeljük meg, hogy a darabok oszlopnevei jól vannak megadva.

In [29]:
for darab in pd.read_csv("data/kisnevsor.csv.gz",iterator=True,chunksize=2):
    print(darab)
    # itt csinalunk vele valamit

      Név  Eszter Orsi   Nem  Kor  Dátum
0  Bálint       2    .   fiú   20  12:31
1  Csenge       4    4  lány   22  13:20
      Név  Eszter  Orsi   Nem  Kor  Dátum
2  István       5     4   fiú   19  12:35
3    Zita       3     5  lány   20  14:50
      Név  Eszter Orsi  Nem  Kor  Dátum
4  Károly       4    .  fiú   21  14:55


#### Nagy fájlok esetén gyorsabban tudunk beolvasni, ha csak pár oszlopra van szükségünk

A usecols az oszlop nevét és a sorszámát is elfogadja.

In [33]:
pd.read_csv("data/kisnevsor.csv.gz",usecols=['Név',1])

ValueError: 'usecols' must either be all strings, all unicode, all integers or a callable

#### További beállításokat itt találhatunk:

In [34]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=No

## Kiírás csv file-ba

Alapértelmezetten a pandas kiírja az indexeket is.

In [35]:
df.to_csv('tmp.tsv')

In [36]:
%cat tmp.tsv

,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


Ha ezt nem akarjuk:

In [37]:
df.to_csv('tmp.csv',index=False)

In [38]:
%cat tmp.tsv

,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


Az elválasztót itt is a sep argumentummal állíthatjuk be.

In [39]:
df.to_csv('tmp.tsv',sep='\t')

In [40]:
%cat tmp.tsv

	Név	Eszter	Orsi	Nem	Kor	Dátum
0	Bálint	2	.	fiú	20	12:31
1	Csenge	4	4	lány	22	13:20
2	István	5	4	fiú	19	12:35
3	Zita	3	5	lány	20	14:50
4	Károly	4	.	fiú	21	14:55


Írhatunk tömörítve.

In [41]:
df.to_csv('tmp.csv.gz')

A lebegőpontos számok formátumát is beállíthatjuk.

In [42]:
df.to_csv('tmp.csv',float_format='%.2f')

In [43]:
%cat tmp.csv

,Név,Eszter,Orsi,Nem,Kor,Dátum
0,Bálint,2,.,fiú,20,12:31
1,Csenge,4,4,lány,22,13:20
2,István,5,4,fiú,19,12:35
3,Zita,3,5,lány,20,14:50
4,Károly,4,.,fiú,21,14:55


## További beolvasó-kiíró függvények:

Tudunk excel file-t is beolvasni. 



In [45]:
df=pd.read_excel('data/kisnevsor.xlsx')
df

Unnamed: 0,Eszter,Orsi,Nem,Kor
Bálint,2,3,fiú,20
Csenge,4,4,lány,22
István,5,4,fiú,19
Zita,3,5,lány,20


És írni.


In [48]:
df.to_excel('tmp.xlsx')

### dictionary olvasása

Különböző webes szolgáltatásokból gyakran egy Python dictionary-szerű stringként, ún. JSON-formátumban kapjuk meg a kért adatokat. Ezeket dictionary-vé a json könyvtár függvényeivel alakíthatjuk.

In [49]:
import json

A `data/json_example` fájl minden sora egy ilyen szótár, amit a Google Geocoding API-ból kaptunk eredményül. Töltsük be ezeket a sorokat egy dictionary-ket tartalmazó listába a következő parancssal:

In [50]:
d=[json.loads(s) for s in open("data/json_example").readlines()]
d[0:2]

[{'id': '3040051',
  'query': 'les+Escaldes+AD',
  'results': [{'address_components': [{'long_name': 'Les Escaldes',
      'short_name': 'Les Escaldes',
      'types': ['locality', 'political']},
     {'long_name': 'Escaldes-Engordany',
      'short_name': 'Escaldes-Engordany',
      'types': ['administrative_area_level_1', 'political']},
     {'long_name': 'Andorra',
      'short_name': 'AD',
      'types': ['country', 'political']},
     {'long_name': 'AD700', 'short_name': 'AD700', 'types': ['postal_code']}],
    'formatted_address': 'AD700 Les Escaldes, Andorra',
    'geometry': {'bounds': {'northeast': {'lat': 42.5168669, 'lng': 1.5532685},
      'southwest': {'lat': 42.5067774, 'lng': 1.5285531}},
     'location': {'lat': 42.5100804, 'lng': 1.5387862},
     'location_type': 'APPROXIMATE',
     'viewport': {'northeast': {'lat': 42.5168669, 'lng': 1.5532685},
      'southwest': {'lat': 42.5067774, 'lng': 1.5285531}}},
    'place_id': 'ChIJaxpK9OKKpRIRtp4e8lTF3v0',
    'types': ['lo

Látszik, hogy ugyanazok a kulcsok ismétlődnek minden listaelemben: célszerűbb lenne ezekből a sorokból tehát egy táblázatot készítenünk!

In [51]:
pd.DataFrame.from_dict(d)

Unnamed: 0,id,query,results,status
0,3040051,les+Escaldes+AD,"[{'types': ['locality', 'political'], 'address...",OK
1,3040051,les+Escaldes+AD,"[{'types': ['locality', 'political'], 'address...",OK
2,3040051,les+Escaldes+AD,"[{'types': ['locality', 'political'], 'address...",OK
3,3041563,Andorra+la+Vella+AD,"[{'types': ['locality', 'political'], 'address...",OK
4,290594,Umm+al+Qaywayn+AE,"[{'types': ['administrative_area_level_1', 'po...",OK
5,291074,Ras+al-Khaimah+AE,"[{'types': ['locality', 'political'], 'address...",OK
6,3040051,les+Escaldes+AD,"[{'types': ['locality', 'political'], 'address...",OK
7,3041563,Andorra+la+Vella+AD,"[{'types': ['locality', 'political'], 'address...",OK
8,290594,Umm+al+Qaywayn+AE,"[{'types': ['administrative_area_level_1', 'po...",OK
9,291074,Ras+al-Khaimah+AE,"[{'types': ['locality', 'political'], 'address...",OK
