# Python bevezetés

Ebben a notebook-ban a Python alapjait vesszük át.
Alapvetően a notebook két részben mutatja be a pythont. Egyrészt egy technikaibb áttekintést nyújt, másrészt az adatelemzéshez szükséges könyvtárak közül a "legnépszerűbbeket" mutatja be.

**1. Technikaibb áttekintés:**
* anaconda környezet felállítása
* python csomagok telepítése
* ismerkedés a jupyter notebook-al
<br>
<br>
python_bevezetés_I notebook

**2. Adatelemzősebb áttekintés:**
* Adattípusok
* csomagok importálása
* pandas
* adatok beolvasása
* adatfeltárás
* adatvizualizáció
<br>
<br>
python_bevezetés_II notebook


## --------------------------------------------------------------------------------------------------------------------------

## 2. Adatelemzősebb áttekintés

## 2.1 Pandas
A Pandas a legalapvetőbb csomag az adatelemzési feladatoknál. Ez a csomag teszi lehetővé, hogy az adatokat kezelni tudjuk (beolvasás, tárolás, adatelőkészítés, műveletek, szűrés, indexelés, stb.)
<br>
A neve a "panel datas"-ra utal ~ R dataframe.
<br>
**A későbbiekben fontos lesz, hiszen a dokumentumgyűjteményünk, korpuszunk is Pandas DataFrame objektumban lesz tárolva**

**Modul importálása**

In [1]:
import pandas as pd
import numpy as np

**Series objektumok létrehozása**
<br>
A Series objektumot önmagában ritkán használjuk, egy DataFrame oszlopaként szoktunk dolgozni vele. Létrehozhatjuk egy meglevő python listából, szótárból vagy más (pl. NumPy) objektumokból is.

In [2]:
cities = pd.Series(['Budapest', 'NY', 'Tokyo', 'Moscow', 'Bucharest'], name = 'cities')
print("Cities series hossza: {}".format(len(cities)))
cities

Cities series hossza: 5


0     Budapest
1           NY
2        Tokyo
3       Moscow
4    Bucharest
Name: cities, dtype: object

In [3]:
pop = pd.Series(np.random.randint(20, size=5), name = 'population')
print("Pop series hossza: {}".format(len(pop)))
pop

Pop series hossza: 5


0    19
1    12
2     6
3    15
4     0
Name: population, dtype: int32

**DataFrame objektum létrehozása pandas Series objektumokból**
<br>
A pandas DataFrame egy N dimenziós pandas Series tömb, ahol minden Series-nek ugyanaz a sorindexe.


In [4]:
df1 = pd.concat([cities, pop], axis = 1)
df1

Unnamed: 0,cities,population
0,Budapest,19
1,NY,12
2,Tokyo,6
3,Moscow,15
4,Bucharest,0


**Ugyanezt a DataFrame-et létrehozhatjuk listákból és/vagy szótárakból**

In [5]:
df2 = pd.DataFrame({'cities': ['Budapest', 'NY', 'Tokyo', 'Moscow', 'Bucharest'], 
                    'population': list(np.random.randint(20, size=5))})
df2

Unnamed: 0,cities,population
0,Budapest,2
1,NY,2
2,Tokyo,11
3,Moscow,19
4,Bucharest,19


### 2.1.1 Adatfájlok beolvasása
Egy adatelemzési feladatnál az adatokat elérhetjük valamilyen adatbázishoz való kapcsolaton keresztül vagy excel,csv fájlok beolvasásával.

**-CSV fájlok beolvasása**
<br>
A pandas read_csv() metódusát kell használni, amely legfontosabb és legtöbbet haszbált paraméterei:
<br>
* **file_path**: fájl elérési útvonala és neve,
* **sep**: csv fájlban használt elválasztó,
* **header**: van-e a fájlnak fejléce, TRUE: akkor ezek lesznek az oszlopnevek,
* **encoding**: fájl karaktereinek kódolása, !Fontos: utf-8
<br>
<br>
Hivatkozás: (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)



In [6]:
wine_reviews = pd.read_csv("C:/Users/molna/Downloads/archive/winemag-data-130k-v2.csv", header=0, sep=",", encoding="utf-8")

**Belenézés az adatokba**

In [7]:
wine_reviews.head(2)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos


In [8]:
wine_reviews.tail(2)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129969,129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


### 2.1.2 Áttekintő műveletek

A dataframe méretei egyszerűen lekérdezhetőek (sorok és oszlopok):

In [9]:
wine_reviews.shape  

(129971, 14)

Sorok számának lekérése:

In [10]:
len(wine_reviews)

129971

Oszlopok nevének lekérése:

In [11]:
wine_reviews.columns

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'region_2', 'taster_name',
       'taster_twitter_handle', 'title', 'variety', 'winery'],
      dtype='object')

Rövid áttekintés az oszlopok tulajdonságairól (kitöltöttség, adattípus):

In [12]:
wine_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129971 entries, 0 to 129970
Data columns (total 14 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Unnamed: 0             129971 non-null  int64  
 1   country                129908 non-null  object 
 2   description            129971 non-null  object 
 3   designation            92506 non-null   object 
 4   points                 129971 non-null  int64  
 5   price                  120975 non-null  float64
 6   province               129908 non-null  object 
 7   region_1               108724 non-null  object 
 8   region_2               50511 non-null   object 
 9   taster_name            103727 non-null  object 
 10  taster_twitter_handle  98758 non-null   object 
 11  title                  129971 non-null  object 
 12  variety                129970 non-null  object 
 13  winery                 129971 non-null  object 
dtypes: float64(1), int64(2), object(11)


Alapstatisztikák csak numerikus oszlopokról a describe() parancs használatával:

In [73]:
wine_reviews.describe()

Unnamed: 0.1,Unnamed: 0,points,price
count,129971.0,129971.0,120975.0
mean,64985.0,88.447138,35.363389
std,37519.540256,3.03973,41.022218
min,0.0,80.0,4.0
25%,32492.5,86.0,17.0
50%,64985.0,88.0,25.0
75%,97477.5,91.0,42.0
max,129970.0,100.0,3300.0


### 2.1.3 Indexelés, leválogatás

**DataFrame tetszőleges részének lekérdezése (és módosítása)**
<br>
A táblázatunk (DataFrame) egyes celláinak, oszlopainak, sorainak esetleg táblázat meghatározott részeinek a lekérdezése a leggyakrabban használt művelet az adatfeldolgozás során.
<br>
<br>
Ha DataFrame-ek esetében csak bizonyos cellák értékére vagyunk kíváncsiak, vagy csak bizonyos értékeket szeretnénk felülírni, akkor a loc() vagy iloc() függvényeket használhatjuk. Az előbbi használatakor a sor és oszlop címkéket vesszővel elválasztva kell megadni, míg az utóbbinál sorszámokat használhatunk.

**Oszlopok leválogatása**

In [13]:
wine_reviews.country

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object

In [14]:
wine_reviews[['country', 'winery']]

Unnamed: 0,country,winery
0,Italy,Nicosia
1,Portugal,Quinta dos Avidagos
2,US,Rainstorm
3,US,St. Julian
4,US,Sweet Cheeks
...,...,...
129966,Germany,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation
129968,France,Domaine Gresser
129969,France,Domaine Marcel Deiss


**Cella lekérdezése címkék (index és oszlop címkék) alapján:**
<br>
.loc[sor, oszlop]

In [15]:
wine_reviews.country

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object

In [16]:
wine_reviews[['country', 'winery']]

Unnamed: 0,country,winery
0,Italy,Nicosia
1,Portugal,Quinta dos Avidagos
2,US,Rainstorm
3,US,St. Julian
4,US,Sweet Cheeks
...,...,...
129966,Germany,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation
129968,France,Domaine Gresser
129969,France,Domaine Marcel Deiss


**Cella lekérdezése címkék (index és oszlop címkék) alapján:**
<br>
.loc[sor, oszlop]

In [17]:
wine_reviews.loc[0, 'taster_twitter_handle']

'@kerinokeefe'

Az iloc() index alapú.
Az iloc() is cellát vagy cellákat kérdez le, de sorszám és nem index cimke alapján:

In [18]:
wine_reviews.iloc[0, 10]

'@kerinokeefe'

In [19]:
wine_reviews.iloc[:, 1]

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Első sor oszlopértékeit .loc indexeléssel is lekérhetjük:

In [20]:
wine_reviews.loc[0]

Unnamed: 0                                                               0
country                                                              Italy
description              Aromas include tropical fruit, broom, brimston...
designation                                                   Vulkà Bianco
points                                                                  87
price                                                                  NaN
province                                                 Sicily & Sardinia
region_1                                                              Etna
region_2                                                               NaN
taster_name                                                  Kerin O’Keefe
taster_twitter_handle                                         @kerinokeefe
title                                    Nicosia 2013 Vulkà Bianco  (Etna)
variety                                                        White Blend
winery                   

Komplexebb példa:
<br>
Winery datafreme 3 oszlopának első 11 sorának leválogatása

In [21]:
wine_reviews.loc[0:10, ['country', 'winery', 'price']]

Unnamed: 0,country,winery,price
0,Italy,Nicosia,
1,Portugal,Quinta dos Avidagos,15.0
2,US,Rainstorm,14.0
3,US,St. Julian,13.0
4,US,Sweet Cheeks,65.0
5,Spain,Tandem,15.0
6,Italy,Terre di Giurfo,16.0
7,France,Trimbach,24.0
8,Germany,Heinz Eifel,12.0
9,France,Jean-Baptiste Adam,27.0


Komplexebb példa:
<br>
Winery datafreme 3 oszlopának első 11 sorának leválogatása

In [86]:
wine_reviews.loc[0:10, ['country', 'winery', 'price']]

Unnamed: 0,country,winery,price
0,Italy,Nicosia,
1,Portugal,Quinta dos Avidagos,15.0
2,US,Rainstorm,14.0
3,US,St. Julian,13.0
4,US,Sweet Cheeks,65.0
5,Spain,Tandem,15.0
6,Italy,Terre di Giurfo,16.0
7,France,Trimbach,24.0
8,Germany,Heinz Eifel,12.0
9,France,Jean-Baptiste Adam,27.0


In [22]:
wine_reviews[['country', 'winery', 'price']].head(11)

Unnamed: 0,country,winery,price
0,Italy,Nicosia,
1,Portugal,Quinta dos Avidagos,15.0
2,US,Rainstorm,14.0
3,US,St. Julian,13.0
4,US,Sweet Cheeks,65.0
5,Spain,Tandem,15.0
6,Italy,Terre di Giurfo,16.0
7,France,Trimbach,24.0
8,Germany,Heinz Eifel,12.0
9,France,Jean-Baptiste Adam,27.0


### Feltételes leválogatás
Amikor a teljes adathalmazból csak azok a sorok érdekelnek, amelyek bizonyos feltételeknek megfelelnek.
Ekkor logikai feltételeket is alkalmazhatunk, melyekkel a feltételeket teljesítő sorokat kapjuk vissza.

Péda:
<br>
Azon borok leválogatása, amelyek származási helye Olaszország és nagyobb pontszámot értek el, mint 90.

In [23]:
wine_reviews[(wine_reviews.country == 'Italy') & (wine_reviews.points > 90)]

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
133,133,Italy,"Einaudi's wines have been improving lately, an...",,91,68.0,Piedmont,Barolo,,,,Poderi Luigi Einaudi 2003 Barolo,Nebbiolo,Poderi Luigi Einaudi
135,135,Italy,The color is just beginning to show signs of b...,Sorano,91,60.0,Piedmont,Barolo,,,,Giacomo Ascheri 2001 Sorano (Barolo),Nebbiolo,Giacomo Ascheri
158,158,Italy,"Baked plum, Asian spice, vanilla and menthol a...",Bellezza Gran Selezione,91,38.0,Tuscany,Chianti Classico,,Kerin O’Keefe,@kerinokeefe,Castello di Gabbiano 2012 Bellezza Gran Selezi...,Sangiovese,Castello di Gabbiano
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129675,129675,Italy,"Aromas of underbrush, leather, mature berry, g...",Montersino,93,50.0,Piedmont,Barbaresco,,Kerin O’Keefe,@kerinokeefe,Albino Rocca 2013 Montersino (Barbaresco),Nebbiolo,Albino Rocca
129681,129681,Italy,"Ripe black-skinned berry, violet, leather and ...",Tre Stelle,93,60.0,Piedmont,Barbaresco,,Kerin O’Keefe,@kerinokeefe,Cascina delle Rose 2013 Tre Stelle (Barbaresco),Nebbiolo,Cascina delle Rose
129892,129892,Italy,"Classic Sangiovese aromas of red berry, culina...",,91,72.0,Tuscany,Brunello di Montalcino,,Kerin O’Keefe,@kerinokeefe,La Mannella 2012 Brunello di Montalcino,Sangiovese,La Mannella
129893,129893,Italy,"Aromas of passion fruit, hay and a vegetal not...",Corte Menini,91,,Veneto,Soave Classico,,Kerin O’Keefe,@kerinokeefe,Le Mandolare 2015 Corte Menini (Soave Classico),Garganega,Le Mandolare


Péda:
<br>
Azon borok leválogatása, amelyek Olaszországból vagy Franciaországból valók és a legalacsonyabb a pontszámuk.
<br>
!Fontos: a logikai zárójelezésre mindig nagyon oda kell figyelni!

In [24]:
wine_reviews[((wine_reviews.country == 'Italy') | 
              (wine_reviews.country == 'France')) & 
             (wine_reviews.points == wine_reviews.points.min())]

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
4556,4556,Italy,"There's a thorny, almost raw quality of fruit ...",Rondineto,80,12.0,Central Italy,Colli Aprutini,,,,Fattoria Giuseppe Savini 2011 Rondineto Merlot...,Merlot,Fattoria Giuseppe Savini
11085,11085,France,A white this age should be fresh and crisp; th...,,80,8.0,Southwest France,Bergerac,,Joe Czerwinski,@JoeCz,Seigneurs de Bergerac 1999 White (Bergerac),White Blend,Seigneurs de Bergerac
11086,11086,France,Picture grandma standing over a pot of stewed ...,,80,11.0,Languedoc-Roussillon,Fitou,,Joe Czerwinski,@JoeCz,Mont Tauch 1998 Red (Fitou),Red Blend,Mont Tauch
16846,16846,Italy,Thin brambly aromas and wet rubber don't bode ...,Le Mandorlae,80,11.0,Tuscany,Morellino di Scansano,,Michael Schachner,@wineschach,Baroncini 1998 Le Mandorlae (Morellino di Sca...,Sangiovese,Baroncini
19122,19122,France,Bold and very clumsy. There are leathery eleme...,,80,8.0,Languedoc-Roussillon,Vin de Pays d'Oc,,Michael Schachner,@wineschach,Château de Pennautier 2001 Cabernet Sauvignon ...,Cabernet Sauvignon,Château de Pennautier
19123,19123,France,"Heavy and waxy, with overdone varietal aromas ...",Vin de Pays de l'Ardeche,80,10.0,France Other,France,,Michael Schachner,@wineschach,Georges Duboeuf 2001 Vin de Pays de l'Ardeche ...,Viognier,Georges Duboeuf
30107,30107,Italy,This diluted wine opens with aromas suggesting...,Rubentino,80,10.0,Central Italy,Montepulciano d'Abruzzo,,Kerin O’Keefe,@kerinokeefe,Tenimenti Montagnana 2014 Rubentino (Montepul...,Montepulciano,Tenimenti Montagnana
36526,36526,France,This vivid pink-colored wine tastes of candy w...,Gamay-Grolleau,80,11.0,Loire Valley,Rosé d'Anjou,,Roger Voss,@vossroger,Bougrier 2015 Gamay-Grolleau (Rosé d'Anjou),Rosé,Bougrier
79714,79714,France,Blurred edges characterize the non-distinct ap...,Hahnenberg,80,25.0,Alsace,Alsace,,Anne Krebiehl MW,@AnneInVino,Domaine Bernhard & Reibel 2014 Hahnenberg Pino...,Pinot Gris,Domaine Bernhard & Reibel
90927,90927,France,"Lean and rather dry, this has old wood and lea...",Hyppos,80,25.0,Bordeaux,Bordeaux Supérieur,,Roger Voss,@vossroger,Château Majoureau 2009 Hyppos (Bordeaux Supér...,Bordeaux-style Red Blend,Château Majoureau


Példa:
<br>
Azon sorok leválogatása, ahol vagy olaszországi vagy franciaországi a bor.

In [25]:
wine_reviews.loc[wine_reviews.country.isin(['Italy', 'France'])]

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
7,7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach
9,9,France,This has great depth of flavor with its fresh ...,Les Natures,87,27.0,Alsace,Alsace,,Roger Voss,@vossroger,Jean-Baptiste Adam 2012 Les Natures Pinot Gris...,Pinot Gris,Jean-Baptiste Adam
11,11,France,"This is a dry wine, very spicy, with a tight, ...",,87,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Leon Beyer 2012 Gewurztraminer (Alsace),Gewürztraminer,Leon Beyer
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129964,129964,France,"Initially quite muted, this wine slowly develo...",Domaine Saint-Rémy Herrenweg,90,,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Ehrhart 2013 Domaine Saint-Rémy Herren...,Gewürztraminer,Domaine Ehrhart
129965,129965,France,"While it's rich, this beautiful dry wine also ...",Seppi Landmann Vallée Noble,90,28.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Rieflé-Landmann 2013 Seppi Landmann Va...,Pinot Gris,Domaine Rieflé-Landmann
129968,129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss


In [26]:
len(wine_reviews.loc[wine_reviews.country.isin(['Italy', 'France'])])

41633

### Új oszlop hozzáadása a Dataframe-hez
Sokszor kalkulált mezőket kell hozzáfűzni a dataframe-hez.

Példa:
<br>
Egyes borok pontszámának az átlagtól való eltérése

In [27]:
wine_reviews['diff_from_avg_point'] = wine_reviews['points'] - wine_reviews['points'].mean()

Példa:
<br>
Flageljük meg 1-el azokat, amelyek átlagon aluli pontot kaptak és 0-val, ami átlag felettit

In [31]:
wine_reviews['underscored_flg'] = np.where(wine_reviews['points'] < wine_reviews['points'].mean(), 1, 0)

In [32]:
np.mean(wine_reviews['points'])

88.44713820775404

In [33]:
wine_reviews[['points','underscored_flg']]

Unnamed: 0,points,underscored_flg
0,87,1
1,87,1
2,87,1
3,87,1
4,87,1
...,...,...
129966,90,0
129967,90,0
129968,90,0
129969,90,0


### 2.1.4 Csoportosítások és aggregációk
Az elemzés alapjául szolgáló üzleti adatokkal történő ismerkedéskor gyakran használt funkció a többször előforduló értékek vizsgálata, melyet a groupby függvénnyel kényelmesen meg lehet tenni.
<br>
Csoportosítani a groupby() függvénnyel lehet.

Példa:
<br>
Hány borkóstolást hajtottak végre a borkóstolók? (csökkenő sorrendbe)
<br>
Jól látszik a pédában, hogy a pandas függvények milyen jól hívhatók egy kifejezésben.

In [34]:
wine_reviews.groupby('taster_name').taster_name.count().sort_values(ascending=[False])

taster_name
Roger Voss            25514
Michael Schachner     15134
Kerin O’Keefe         10776
Virginie Boone         9537
Paul Gregutt           9532
Matt Kettmann          6332
Joe Czerwinski         5147
Sean P. Sullivan       4966
Anna Lee C. Iijima     4415
Jim Gordon             4177
Anne Krebiehl MW       3685
Lauren Buzzeo          1835
Susan Kostrzewa        1085
Mike DeSimone           514
Jeff Jenssen            491
Alexander Peartree      415
Carrie Dykes            139
Fiona Adams              27
Christina Pickard         6
Name: taster_name, dtype: int64

Példa:
<br>
Top3 borkóstoló, akinek a legtöbb értékelése van 

In [35]:
wine_reviews.groupby('taster_name').taster_name.count().sort_values(ascending=[False]).head(3)

taster_name
Roger Voss           25514
Michael Schachner    15134
Kerin O’Keefe        10776
Name: taster_name, dtype: int64

Példa:
<br>
Melyik a legolcsóbb bor egyes pontoknál?

In [111]:
wine_reviews.groupby('points').price.min()

points
80      5.0
81      5.0
82      4.0
83      4.0
84      4.0
85      4.0
86      4.0
87      5.0
88      6.0
89      7.0
90      8.0
91      7.0
92     11.0
93     12.0
94     13.0
95     20.0
96     20.0
97     35.0
98     50.0
99     44.0
100    80.0
Name: price, dtype: float64

A groupby() és az agg() függvény segítségével több leíró statisztikát is futtathatunk
<br>
Példa:
<br>
Országonként hány bort véleményeztek és országonként a bor árainak mik a szélsőértékei?

In [36]:
wine_reviews.groupby(['country']).price.agg([len, min, max]).head(10)

Unnamed: 0_level_0,len,min,max
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,3800.0,4.0,230.0
Armenia,2.0,14.0,15.0
Australia,2329.0,5.0,850.0
Austria,3345.0,7.0,1100.0
Bosnia and Herzegovina,2.0,12.0,13.0
Brazil,52.0,10.0,60.0
Bulgaria,141.0,8.0,100.0
Canada,257.0,12.0,120.0
Chile,4472.0,5.0,400.0
China,1.0,18.0,18.0


### 2.1.5 Hiányzó értékek keresése

Hiányzó értékek száma oszloponnként:

In [37]:
wine_reviews.isnull().sum()

Unnamed: 0                   0
country                     63
description                  0
designation              37465
points                       0
price                     8996
province                    63
region_1                 21247
region_2                 79460
taster_name              26244
taster_twitter_handle    31213
title                        0
variety                      1
winery                       0
diff_from_avg_point          0
underscored_flg              0
dtype: int64

### 2.1.6 Hiányzó értékek kezelése

Numerikus oszlopokban középértékkel (módusz, medián, átlag) vagy a leggyakrabban előforduló értékekkel (ordinális változók) helyettesíthetjük a hiányzó értékeket:

In [38]:
wine_reviews.price.fillna((wine_reviews['price'].mean()), inplace=True)

Kategorikus változóknál a leggyakrabban előforduló értékekkel helyettesíthetjük a hiányzó értékeket:

In [40]:
wine_reviews.country.fillna(wine_reviews.country.mode().iloc[0], inplace = True) # mode(): legsűrűbben előforduló értékeket adja vissza
wine_reviews.province.fillna(wine_reviews.province.mode().iloc[0], inplace = True)

In [41]:
wine_reviews['taster_name'] = wine_reviews.groupby(['country', 'province'])['taster_name'].transform(lambda x: x.fillna(x.mode()[0] if not x.mode().empty else "Empty"))

In [44]:
wine_reviews.isnull().sum()[wine_reviews.isnull().sum() > 0]

designation              37465
region_1                 21247
region_2                 79460
taster_twitter_handle    31213
variety                      1
dtype: int64