# Adatelemzés

Cél: információk kinyerése (statisztikai elemzés, gépi tanulás) az adatokból.

Adatelemzés lépései:
- tisztítás
- modellezés
- kiértékelés

## Numpy
Hatékony csomag tudományos számítások végzésére.

In [3]:
import numpy as np

In [6]:
numbers =  np.arange(5, 20, 3)
numbers

array([ 5,  8, 11, 14, 17])

## Pandas alapok

Adatelemzésre használt csomag. Fő konstrukciója a dataframe ami nagyon hasonló a Spark dataframe-jéhez.

In [1]:
import pandas as pd

### Series

A dataframe egyszerű változata, ami csak egyetlen oszlopból áll. Az értékek értelemszerűen azonos típusúak.

In [10]:
s = pd.Series(numbers)
s

0     5
1     8
2    11
3    14
4    17
dtype: int32

Elemelérés:

In [11]:
s[0]

5

In [13]:
s2 = pd.Series(numbers, index=['a', 'b', 'c', 'd', 'e'])
s2

a     5
b     8
c    11
d    14
e    17
dtype: int32

In [14]:
s2['b']

8

In [15]:
s2[2:5] # nem mindig működik, ekkor s2.iloc[2:5]

c    11
d    14
e    17
dtype: int32

In [17]:
print(s.min())
print(s.max())
print(s.mean()) # átlag
print(s.value_counts()) # értékek előfordulásának száma

5
17
11.0
5     1
8     1
11    1
14    1
17    1
Name: count, dtype: int64


In [21]:
num_sq =  s.apply(lambda num: num ** 2)
num_sq

0     25
1     64
2    121
3    196
4    289
dtype: int64

### Dataframe

Lényegében sorozatok egy gyűjteménye.

In [24]:
num_df = pd.DataFrame({'szam': numbers, 'negyzet': num_sq})
num_df

Unnamed: 0,szam,negyzet
0,5,25
1,8,64
2,11,121
3,14,196
4,17,289


In [25]:
num_df.head(5) # első n sor

Unnamed: 0,szam,negyzet
0,5,25
1,8,64
2,11,121
3,14,196
4,17,289


In [26]:
num_df.info() # információ a dataframe-ről

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   szam     5 non-null      int32
 1   negyzet  5 non-null      int64
dtypes: int32(1), int64(1)
memory usage: 192.0 bytes


In [27]:
num_df.describe() # statisztikák

Unnamed: 0,szam,negyzet
count,5.0,5.0
mean,11.0,139.0
std,4.743416,105.704778
min,5.0,25.0
25%,8.0,64.0
50%,11.0,121.0
75%,14.0,196.0
max,17.0,289.0


In [28]:
num_df.shape # dataframe sorainak és oszlopainak száma

(5, 2)

In [29]:
num_df.columns # oszlopok

Index(['szam', 'negyzet'], dtype='object')

In [32]:
num_df.apply(lambda x: x['szam'] ** 3, axis=1) # alapból oszlopra nézi

0     125
1     512
2    1331
3    2744
4    4913
dtype: int64

Új oszlop:

In [35]:
num_df['kob'] = num_df.apply(lambda x: x['szam'] ** 3, axis=1)
num_df

Unnamed: 0,szam,negyzet,kob
0,5,25,125
1,8,64,512
2,11,121,1331
3,14,196,2744
4,17,289,4913


In [36]:
num_df.apply(lambda x: x.sum(), axis=0)

szam         55
negyzet     695
kob        9625
dtype: int64

Szűrés:

In [39]:
idx = num_df['kob'] % 2 == 0 # series minden elemére végbemegy egy új series adódik vissza
idx

0    False
1     True
2    False
3     True
4    False
Name: kob, dtype: bool

In [40]:
num_df[idx] # ha indexként adjuk meg az ilyen seriest lehet szűrni, ún logikai indexelés

Unnamed: 0,szam,negyzet,kob
1,8,64,512
3,14,196,2744


In [41]:
num_df.query('kob % 2 == 0') # expr stringként

Unnamed: 0,szam,negyzet,kob
1,8,64,512
3,14,196,2744
