# EDA - leíró statisztikák

A leíró statisztikai lehetőségek áttekintéséhez válasszunk a DataScience világában talán a legismertebb adathalmazt.   
Az **iris** adathalmaz 150 iris virág adatát tartalmazza (csésze- és sziromlevél hossza és szélessége, valamit az iris virág alfaja).

Első lépésben olvassuk be az adathalmazt!

In [1]:
import pandas as pd

iris = pd.read_csv('iris.txt', 
                   sep=';',
                   decimal=',',
                   names=['slength', 'swidth', 'plength', 'pwidth', 'iclass'])

Nézzük meg mit tartalmaz az első 5 sor!

In [2]:
iris.head(150)

Unnamed: 0,slength,swidth,plength,pwidth,iclass
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


A DataFrame oszlopait könnyen visszakaphatjuk egy listában a **colums** függvény segítségével: 

In [3]:
iris.columns

Index(['slength', 'swidth', 'plength', 'pwidth', 'iclass'], dtype='object')

Amennyiben az attribútumok típusára is kíváncsiak vagyunk, akkor az DataFrame-en meghívott **dtypes** ad számunkra információt: 

In [4]:
iris.dtypes

slength    float64
swidth     float64
plength    float64
pwidth     float64
iclass      object
dtype: object

Még több információt kaphatunk, ha a DataFrame-en az **info** függvényt hívjuk meg: 

In [5]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   slength  150 non-null    float64
 1   swidth   150 non-null    float64
 2   plength  150 non-null    float64
 3   pwidth   150 non-null    float64
 4   iclass   150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


## Alapvető leíró statisztikák

A numerikus adatok alapvető leíró statisztikáját Pythonban nagyon könnyen elkészíthetjük a **describe** függvény meghívásával:

In [6]:
iris.describe()

Unnamed: 0,slength,swidth,plength,pwidth
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Természetesen léteznek külön függvények is, melyek ugyanezeket a funkciókat valósítják meg. Ezen függvények: **count**, **min**, **max**, **mean**, **std**, **quantile**. 

In [7]:
iris.slength.count()

150

In [8]:
iris.slength.min()

4.3

In [9]:
iris.slength.max()

7.9

In [10]:
iris.slength.mean()

5.843333333333335

Szórás számítása:

In [11]:
iris.slength.std()

0.8280661279778629

Egy-egy adatsorra könnyedén kiszámíthatjuk az adathalmaz szórásnégyzetét is a **var** függvény segítségével:

In [12]:
iris.slength.var()

0.6856935123042505

A D1-es decilis számítása a *csészelevél hosszán*:

In [13]:
iris.slength.quantile(0.1)

4.8

A Q1, Q2, Q3 kvartilisek számítása a *csészelevél hosszán*:

In [14]:
iris.slength.quantile([0.25, 0.5, 0.75])

0.25    5.1
0.50    5.8
0.75    6.4
Name: slength, dtype: float64

Kategorikus adatok esetében a **unique** függvény segítségével könnyedén lekérdezhetjük, hogy milyen értékeket vesz fel az attribútum:

In [15]:
iris.iclass.unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

Tetszőleges attribútum módusza a **mode** függvénnyel kérdezhető le:

In [16]:
iris.iclass.mode()

0        Iris-setosa
1    Iris-versicolor
2     Iris-virginica
dtype: object

In [17]:
iris.slength.mode()

0    5.0
dtype: float64

## Alcsoportok statisztikai jellemzése

A DataFrame rekordjait csoportosíthatjuk a **groupby** metódussal, majd a létrejött csoportokon is futtathatunk leíró statisztikákat.

Példaként csoportosítsuk az adatokat az alfajok alapján, majd vizsgáljuk meg, hogy az egyes osztályokba hány virág tartozik!

In [18]:
iris.groupby('iclass')['iclass'].count()

iclass
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: iclass, dtype: int64

De megnézhetjük például azt is, hogy a csészelevél átlagos hosszúsága milyen az egyes alfajokban:

In [19]:
iris.groupby('iclass')['pwidth'].mean()

iclass
Iris-setosa        0.244
Iris-versicolor    1.326
Iris-virginica     2.026
Name: pwidth, dtype: float64

## Adott feltételnek eleget tevő sorok lekérdezése

A leíró statisztikák készítése során gyakran felmerül az igény, hogy bizonyos feltételnek eleget tevő sorok adatait kislistáztassuk. Ezt már korábbi ismereteink alapján is meg tudjuk tenni.

Listáztassuk ki azon iris virágok adatait, ahol a csészelevél hossza nagyobb, mint 7,2cm!

In [20]:
iris[iris.slength>7.2]

Unnamed: 0,slength,swidth,plength,pwidth,iclass
105,7.6,3.0,6.6,2.1,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica


A **query** függvény használatával hasonló eredményt érhetünk el:

In [21]:
iris.query('slength > 7.2')

Unnamed: 0,slength,swidth,plength,pwidth,iclass
105,7.6,3.0,6.6,2.1,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica


Ha a lekérdezésnek eleget tevő adatokat a csészelevél szerint szeretnénk rendezni:

In [22]:
iris.query('slength > 7.2').sort_values('slength')

Unnamed: 0,slength,swidth,plength,pwidth,iclass
107,7.3,2.9,6.3,1.8,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
131,7.9,3.8,6.4,2.0,Iris-virginica


Vagy akár fordított sorrendben:

In [23]:
iris.query('slength > 7.2').sort_values('slength', ascending=False)

Unnamed: 0,slength,swidth,plength,pwidth,iclass
131,7.9,3.8,6.4,2.0,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica


Ha arra vagyunk kiváncsiak, hogy van-e olyan virág, aminek a sziromlevél és csészelevél hossza megegyezik, akkor ezt a következőképpen kérdezhetjük le:

In [24]:
iris.query('plength == slength')

Unnamed: 0,slength,swidth,plength,pwidth,iclass


Ha pedig azon virágok csészelevelének hosszára és szélességére, valamit a virág alfajára lennénk kiváncsiak, ahol a csészelevél hossza több mint a csészelevél szélességének 2,5-szerese, akkor ezt a következőképpen kérdezhetjük le:

In [25]:
iris.query('slength > swidth*2.5')[['slength', 'swidth', 'iclass']]

Unnamed: 0,slength,swidth,iclass
62,6.0,2.2,Iris-versicolor
68,6.2,2.2,Iris-versicolor
72,6.3,2.5,Iris-versicolor
87,6.3,2.3,Iris-versicolor
105,7.6,3.0,Iris-virginica
107,7.3,2.9,Iris-virginica
108,6.7,2.5,Iris-virginica
118,7.7,2.6,Iris-virginica
119,6.0,2.2,Iris-virginica
122,7.7,2.8,Iris-virginica
