# Bevezetés a Numpy és Pandas könyvtárakba


A következő tutorial a numpy és pandas könyvtárak használatára mutat példákat. Az instrukciók és kommentek elolvasása után egy cellában lévő kód lefuttatásaához kattints a cellára és nyomd meg a SHIFT+ENTER kombinációt.

Hasznos linkek:

Numpy manual: https://numpy.org/doc/stable/user/

Pandas manual: https://pandas.pydata.org/docs/user_guide/index.html

Pandas guide részletes magyarázattal: https://towardsdatascience.com/a-complete-pandas-guide-2dc53c77a002

_A Google a barátod!_ A legjobb módszer ezeknek az eszközöknek az elsajátítására az, ha az ember saját maga fedezi fel őket és próbál ki dolgokat. Ha elakadnál valahol, akkor egy gyors Google kereséssel (főleg angolul) majdnem mindig megtalálod a választ a kérdésedre és lehet, hogy egyéb hasznos dolgokat is megtanulsz közben. 

## 2.1 Numpy bevezetés

A numpy a numerical Python rövidítése, és egy olyan programcsomag amely a numerikus számításokat hivatott megkönnyíteni. Az alapvető struktúra amit használni fogunk egy többdimenziós array objektum, ún. ndarray. Numpyban rengeteg mód van ndarray-ek effektív kezelésére.

### 2.1.1 `ndarray` létrehozása

Egy `ndarray`-t létre lehet hozni listából vagy tuple-ből. Mindkét módon lehetőség van egy- vagy többdimenziós array-ek létrehozására.

In [None]:
import numpy as np

oneDim = np.array([1.0, 2, 3, 4, 5])  # a 1-dimensional array (vector)
print(oneDim)
print("#Dimensions =", oneDim.ndim)
print("Shape =", oneDim.shape)
print("Size =", oneDim.size)
print("Array type =", oneDim.dtype, "\n")

twoDim = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])  # a two-dimensional array (matrix)
print(twoDim)
print("#Dimensions =", twoDim.ndim)
print("Shape =", twoDim.shape)
print("Size =", twoDim.size)
print("Array type =", twoDim.dtype, "\n")

arrFromTuple = np.array([(1, "a", 3.0), (2, "b", 3.5)])  # ndarray tuple-ből
print(arrFromTuple)
print("#Dimensions =", arrFromTuple.ndim)
print("Shape =", arrFromTuple.shape)
print("Size =", arrFromTuple.size)

There are also built-in functions available in numpy to create the ndarrays. 

In [None]:
print("Array of random numbers from a uniform distribution")
print(np.random.rand(5))  # véletlen szám egyenletes eloszlásból [0,1]-en

print("\nArray of random numbers from a normal distribution")
print(np.random.randn(5))  # véletlen szám standard normális eloszlásból

print("\nArray of integers between -10 and 10, with step size of 2")
print(
    np.arange(-10, 10, 2)
)  # range-hez hasonlóan -10-től 10-ig ad vissza számokat kettesével, de ndarrayben lista helyett

print("\n2-dimensional array of integers from 0 to 11")
print(np.arange(12).reshape(3, 4))  # 1 dimenziós array mátrixá alakítása

print("\nArray of values between 0 and 1, split into 10 equally spaced values")
print(
    np.linspace(0, 1, 10)
)  # a [0,1] intervallum 10 egyenlő részre való felosztása osztópontokkal

print("\nArray of values from 10^-3 to 10^3")
print(np.logspace(-3, 3, 7))  # create ndarray with values from 10^-3 to 10^3

In [None]:
print("A 2 x 3 matrix of zeros")
print(np.zeros((2, 3)))  # csupa 0 mátrix (2x3-as)

print("\nA 3 x 2 matrix of ones")
print(np.ones((3, 2)))  # csupa 1 mátrix (3x2-es)

print("\nA 3 x 3 identity matrix")
print(np.eye(3))  # 3x3-as egységmátrix

### 2.1.2 Element-wise Operations

You can apply standard operators such as addition and multiplication on each element of the ndarray.

In [None]:
x = np.array([1, 2, 3, 4, 5])

print("x =", x)
print("x + 1 =", x + 1)  # addition
print("x - 1 =", x - 1)  # subtraction
print("x * 2 =", x * 2)  # multiplication
print("x // 2 =", x // 2)  # integer division
print("x ** 2 =", x**2)  # square
print("x % 2 =", x % 2)  # modulo
print("1 / x =", 1 / x)  # division

In [None]:
x = np.array([2, 4, 6, 8, 10])
y = np.array([1, 2, 3, 4, 5])

print("x =", x)
print("y =", y)
print("x + y =", x + y)  # element-wise addition
print("x - y =", x - y)  # element-wise subtraction
print("x * y =", x * y)  # element-wise multiplication
print("x / y =", x / y)  # element-wise division
print("x // y =", x // y)  # element-wise integer division
print("x ** y =", x**y)  # element-wise exponentiation

### 2.1.3 Indexelés és Slicing (szeletelés)

Több mód is van egy numpy array elemei egy részhalmazának kiválasztására. Fontos megjegyezni viszont, hogy egy numpy array (vagy egy részhalmaza) hozzárendelése egy változóhoz csupán egy hivatkozást hoz létre az arrayre (vagy a részhalmazra) és nem másolja le azt. Szóval hivatkozást tároló változó módosításával az eredeti array is módosul. Hogy valóban másolatot hozzunk létre a .copy() függvényt kell használni.


In [None]:
x = np.arange(-5, 5)
print("Before: x =", x)

y = x[3:5]  # y egy pointer az x array egy szeletére
print("        y =", y)
y[:] = 1000  # y módosítása x-et is módosítja
print("After : y =", y)
print("        x =", x, "\n")

z = x[3:5].copy()  # lemásolja az array egy szeletét
print("Before: x =", x)
print("        z =", z)
z[:] = 500  # z módosítása nem bántja x-et
print("After : z =", z)
print("        x =", x)

Sokféleképpen férhetünk hozzá egy ndarray elemeihez. A következők példák egy lista és egy ndarray indexelésének különbségeit illusztrálják.

In [None]:
my2dlist = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]  # 2-dimenziós lista
print("my2dlist =", my2dlist)
print("my2dlist[2] =", my2dlist[2])  # a harmadik lista elérése
print("my2dlist[:][2] =", my2dlist[:][2])  # minden lista 3. elemét nem tudjuk elérni
# print('my2dlist[:,2] =', my2dlist[:,2])      # invalid, syntax errort okoz

my2darr = np.array(my2dlist)
print("\nmy2darr =\n", my2darr)

print("my2darr[2][:] =", my2darr[2][:])  # 3. sor
print("my2darr[2,:] =", my2darr[2, :])  # 3. sor
print("my2darr[:][2] =", my2darr[:][2])  # 3. sor (mint a listánál)
print("my2darr[:,2] =", my2darr[:, 2])  # 3. oszlop
print("my2darr[:2,2:] =\n", my2darr[:2, 2:])  # első két sor és utolsó két oszlop

Numpy arrayeket boole-okkal is lehet indexelni.

In [None]:
my2darr = np.arange(1, 13, 1).reshape(3, 4)
print("my2darr =\n", my2darr)

divBy3 = my2darr[my2darr % 3 == 0]
print(
    "\nmy2darr[my2darr % 3 == 0] =", divBy3
)  # az összes 3-mal osztható elemet visszaadja az arrayből

divBy3LastRow = my2darr[2:, my2darr[2, :] % 3 == 0]
print(
    "my2darr[2:, my2darr[2,:] % 3 == 0] =", divBy3LastRow
)  # az utolsó sor 3-mal osztható elemeit adja

More indexing examples.

In [None]:
my2darr = np.arange(1, 13, 1).reshape(4, 3)
print("my2darr =\n", my2darr)

indices = [2, 1, 0, 3]  # kiválasztott sorok indexei
print("indices =", indices, "\n")
print(
    "my2darr[indices,:] =\n", my2darr[indices, :]
)  # megkeveri a sorait az arraynek indices alapján

rowIndex = [0, 0, 1, 2, 3]  # row index into my2darr
print("\nrowIndex =", rowIndex)
columnIndex = [0, 2, 0, 1, 2]  # column index into my2darr
print("columnIndex =", columnIndex, "\n")
print(
    "my2darr[rowIndex,columnIndex] =", my2darr[rowIndex, columnIndex]
)  # rowIndex és columnIndex listák által meghatározott pozíciók elemei

### 2.1.4 Numpy aritmetikai és statisztikai függvények

In [None]:
y = np.array([-1.4, 0.4, -3.2, 2.5, 3.4])
print("y =", y, "\n")

print("np.abs(y) =", np.abs(y))  # convert to absolute values
print(
    "np.sqrt(abs(y)) =", np.sqrt(abs(y))
)  # apply square root to each element (négyzetgyök)
print("np.sign(y) =", np.sign(y))  # get the sign of each element (előjel)
print("np.exp(y) =", np.exp(y))  # apply exponentiation (e alapú hatványozás)
print("np.sort(y) =", np.sort(y))  # sort array (rendezés)

In [None]:
x = np.arange(-2, 3)
y = np.random.randn(5)
print("x =", x)
print("y =", y, "\n")

print("np.add(x,y) =", np.add(x, y))  # element-wise addition       x + y
print("np.subtract(x,y) =", np.subtract(x, y))  # element-wise subtraction    x - y
print("np.multiply(x,y) =", np.multiply(x, y))  # element-wise multiplication x * y
print("np.divide(x,y) =", np.divide(x, y))  # element-wise division       x / y
print("np.maximum(x,y) =", np.maximum(x, y))  # element-wise maximum        max(x,y)

In [None]:
y = np.array([-3.2, -1.4, 0.4, 2.5, 3.4])
print("y =", y, "\n")

print("Min =", np.min(y))  # min
print("Max =", np.max(y))  # max
print("Average =", np.mean(y))  # mean/average (átlag)
print("Std deviation =", np.std(y))  # standard deviation (szórás)
print("Sum =", np.sum(y))  # sum

### 2.1.5 Numpy lineáris algebra

Numpyban rengeteg beépített függvény van lineáris algebrai operációk elvégzésére:

In [None]:
X = np.random.randn(2, 3)  # 2x3-as random matrix
print("X =\n", X, "\n")
print("Transpose of X, X.T =\n", X.T, "\n")  # transzponált

y = np.random.randn(3)  # random vector
print("y =", y, "\n")

print("Matrix-vector multiplication")
print("X.dot(y) =\n", X.dot(y), "\n")  # matrix-vector multiplication  X * y

print("Matrix-matrix product")
print("X.dot(X.T) =", X.dot(X.T))  # matrix-matrix multiplication  X * X^T
print("\nX.T.dot(X) =\n", X.T.dot(X))  # matrix-matrix multiplication  X^T * X

In [None]:
X = np.random.randn(5, 3)
print("X =\n", X, "\n")

C = X.T.dot(X)
print("C = X.T.dot(X) =\n", C, "\n")

invC = np.linalg.inv(C)  # inverse of a square matrix
print("Inverse of C = np.linalg.inv(C)\n", invC, "\n")

detC = np.linalg.det(C)  # determinant of a square matrix
print("Determinant of C = np.linalg.det(C) =", detC)

S, U = np.linalg.eig(
    C
)  # eigenvalue S and eigenvector U of a square matrix (sajátértékek: S, sajátvektorok: U)
print("Eigenvalues of C =\n", S)
print("Eigenvectors of C =\n", U)

### 2.1.6 Gyakorlás



1.   Hozz létre egy 7x7-es mátrixot a következő tulajdonságokkal:
      * a második és hatodik sor véletlen értékeket tartalmazzon egy standar normális eloszlásból,
      * a főátló minden más eleme legyen 42,
      * a bal alsó és jobb felső sarokban legyen 5,
      * minden más pozícióban 0-k legyenek!
2.   Csinálj egy függvényt ami kiszámolja egy négyzetes mátrix 'eltolt nyomát', vagyis az $a_{i, i+s}$ elemek összegét, ahol $s$ az eltolást megadó paraméter. Saját magad is megírhatod a függvényt vagy nézz utána online és értsd meg a működését a numpy dokumentációból.


In [None]:
# ...

## 2.2 Pandas bevezetés

A pandas két struktúrát biztosít adatok kényelmes tárolásához és kezeléséhez: Series és DataFrame. Előbbi egy egydimenziós arrayre hasonlít míg utóbbi egy táblázatos reprezentáció.  


### 2.2.1 Series

Egy Series objektum egy egydimentiós arrayben tárolja az rétékeket, amelyekre az index arrayt használva lehet hivatkozni. Egy Series objektum létrehozható listából, numpy arrayből vagy python dictionaryből. A legtöbb numpy függvény alkalmazható pandas Series objektumra is.

In [None]:
from pandas import Series

s = Series([3.1, 2.4, -1.7, 0.2, -2.9, 4.5])  # series létrehozás listából
print("Series, s =\n", s, "\n")

print("s.values =", s.values)  # értékek
print("s.index =", s.index)  # indexek
print("s.dtype =", s.dtype)  # értékek típusa

In [None]:
import numpy as np

s2 = Series(np.random.randn(6))  # series létrehozás ndarray-ből
print("Series s2 =\n", s2, "\n")
print("s2.values =", s2.values)
print("s2.index =", s2.index)
print("s2.dtype =", s2.dtype)

In [None]:
s3 = Series(
    [1.2, 2.5, -2.2, 3.1, -0.8, -3.2],
    index=[
        "Jan 1",
        "Jan 2",
        "Jan 3",
        "Jan 4",
        "Jan 5",
        "Jan 6",
    ],
)  # indexek megadása listával
print("Series s3 =\n", s3, "\n")
print("s3.values =", s3.values)
print("s3.index =", s3.index)
print("s3.dtype =", s3.dtype)

In [None]:
capitals = {"MI": "Lansing", "CA": "Sacramento", "TX": "Austin", "MN": "St Paul"}

s4 = Series(capitals)  # series létrehozás dictionary-ből
print("Series s4 =\n", s4, "\n")
print("s4.values =", s4.values)
print("s4.index=", s4.index)
print("s4.dtype =", s4.dtype)

In [None]:
s3 = Series(
    [1.2, 2.5, -2.2, 3.1, -0.8, -3.2],
    index=[
        "Jan 1",
        "Jan 2",
        "Jan 3",
        "Jan 4",
        "Jan 5",
        "Jan 6",
    ],
)
print("s3 =\n", s3, "\n")

# Series elemeinek elérése:

print("s3[2]=", s3[2])  # harmadik elem
print("s3['Jan 3']=", s3["Jan 3"])  # 'Jan 3' indexű elem

print("\ns3[1:3]=")  # series egy szelete
print(s3[1:3])
print("\ns3.iloc([1:3])=")  # series egy szelete
print(s3.iloc[1:3])

Többféle függvénnyel kaphatjuk meg egy Series elemeinek a számát. Az eredmény a különböző függvényekkel változni fog attól függően, hogy van-e null elem a Series-ben.

In [None]:
s3["Jan 7"] = np.nan
print("Series s3 =\n", s3, "\n")

print("Shape of s3 =", s3.shape)  # get the dimension of the Series
print("Size of s3 =", s3.size)  # get the number of elements of the Series
print("Count of s3 =", s3.count())  # get the number of non-null elements of the Series

Boole értékekkel is szűrhetünk egy Series-ben

In [None]:
print(s3[s3 > 0])  # pozitív elemek kiválasztása a series-ből

print("\n")

print(s3[(s3 > 0) & (s3 < 3)])  # több szűrő alkalmazása egyszerre

Számokból álló Series-en skalárműveleteket végezhetünk

In [None]:
print("s3 + 4 =\n", s3 + 4, "\n")
print("s3 / 4 =\n", s3 / 4)

Numpy függványek is alkalmazhatók

In [None]:
print(
    "np.log(s3 + 4) =\n", np.log(s3 + 4), "\n"
)  # applying log function to a numeric Series
print(
    "np.exp(s3 - 4) =\n", np.exp(s3 - 4), "\n"
)  # applying exponent function to a numeric Series


Diszkrét értékek előfordulásának leszámlálásához és megjelenítéséhez a value_counts() függvényt hasznélhatjuk

In [None]:
colors = Series(["red", "blue", "blue", "yellow", "red", "green", "blue", np.nan])
print(colors, "\n")

print(colors.value_counts())

### 2.2.2 DataFrame


A DataFrame egy táblázatos, spreadsheet szerű adatstruktúra, amely oszlopokból áll, melyek lehetnek különböző típusúak akár (numeric, string, boolean, etc). A Series-től eltérően itt az oszlopoknak és a soroknak külön indexelésük van. Sokféleképpen lehet DataFrame-et létrehozni, pl. dictionary-ből, listákból vagy numpy ndarray-ekből.

In [None]:
from pandas import DataFrame

cars = {
    "make": ["Ford", "Honda", "Toyota", "Tesla"],
    "model": ["Taurus", "Accord", "Camry", "Model S"],
    "MSRP": [27595, 23570, 23495, 68000],
}
carData = DataFrame(cars)  # DataFrame megadása dictionary-vel
carData  # táblázat mutatása

In [None]:
print("carData.index =", carData.index)  # sorindexek
print("carData.columns =", carData.columns)  # oszlopindexek

Új oszlop meglévő DataFramebe:

In [None]:
carData2 = DataFrame(cars, index=[1, 2, 3, 4])  # sorindexek megadása
carData2["year"] = 2018  # új oszlop hozzáadása konstans értékkel
carData2["dealership"] = [
    "Courtesy Ford",
    "Capital Honda",
    "Spartan Toyota",
    "N/A",
]  # új oszlop megadása listával
carData2

Tuple-ök listájából DataFrame:

In [None]:
tuplelist = [
    (2011, 45.1, 32.4),
    (2012, 42.4, 34.5),
    (2013, 47.2, 39.2),
    (2014, 44.2, 31.4),
    (2015, 39.9, 29.8),
    (2016, 41.5, 36.7),
]
columnNames = ["year", "temp", "precip"]
weatherData = DataFrame(
    tuplelist, columns=columnNames
)  # oszlopnevek megadása DataFrame létrehozásánál
weatherData

Numpy ndarray-ekből DataFrame:

In [None]:
import numpy as np

npdata = np.random.randn(5, 3)  # create a 5 by 3 random matrix
columnNames = ["x1", "x2", "x3"]
data = DataFrame(npdata, columns=columnNames)
data

Sokféleképpen lehet hozzáférni DataFrame elemeihez:

In [None]:
# egy oszlopot kiválasztva egy Series-t kapunk

print(data["x2"])
print("A column: is a ", type(data["x2"]), " object.")

In [None]:
# egy sort kiválasztva is egy Series-t kapunk

print("Row 3 of data table:")
print(data.iloc[2])  # a harmadik sort adja
print(type(data.iloc[2]))

print("\nRow 3 of car data table:")
print(carData2.iloc[2])  # különböző típusokat tartalmaz

In [None]:
# egy specifikus elem kiválasztása:

print("carData2 =\n", carData2)

print("\ncarData2.iloc[1,2] =", carData2.iloc[1, 2])  # 2. sor 3. eleme
print(
    "carData2.loc[1,'model'] =", carData2.loc[1, "model"]
)  # 2. sor a 'model' oszlopban

# DataFrame egy szelete:

print("\ncarData2.iloc[1:3,1:3]=")
print(carData2.iloc[1:3, 1:3])

In [None]:
# Oszlopok neveinek egy listájával ki lehet szűrni azokat:
column_list = ["make", "MSRP", "year"]
carData2[column_list]

In [None]:
print("carData2 =\n", carData2, "\n")

print("carData2.shape =", carData2.shape)
print("carData2.size =", carData2.size)

In [None]:
# Szűrés feltételekkel:

print("carData2 =\n", carData2, "\n")

print(carData2[carData2.MSRP > 25000], "\n")  # egy feltétel

print(carData2[(carData2.MSRP > 25000) & (carData2.make == "Ford")])  # több feltétel

### 2.2.3 Arithmetic Operations

In [None]:
print(data)

print("\nData transpose operation: data.T")
print(data.T)  # transpose operation

print("\nAddition: data + 4")
print(data + 4)  # addition operation

print("\nMultiplication: data * 10")
print(data * 10)  # multiplication operation

In [None]:
print("data =\n", data)

columnNames = ["x1", "x2", "x3"]
data2 = DataFrame(np.random.randn(5, 3), columns=columnNames)
print("\ndata2 =")
print(data2)

print("\ndata + data2 = ")
print(data.add(data2))

print("\ndata * data2 = ")
print(data.mul(data2))

In [None]:
print(data.abs())  # get the absolute value for each element (abszolút érték)

print("\nMaximum value per column:")
print(data.max())  # get maximum value for each column (maximum oszloponként)

print("\nMinimum value per row:")
print(data.min(axis=1))  # get minimum value for each row (minimum soronként)

print("\nSum of values per column:")
print(data.sum())  # get sum of values for each column (oszloponként összegzés)

print("\nAverage value per row:")
print(data.mean(axis=1))  # get average value for each row (soronként átlagolás)

print("\nCalculate max - min per column")
f = lambda x: x.max() - x.min()
print(data.apply(f))

print("\nCalculate max - min per row")
f = lambda x: x.max() - x.min()
print(data.apply(f, axis=1))

A value_counts() függvény DataFrame-ekre is alkalmazható:

In [None]:
objects = {
    "shape": ["circle", "square", "square", "square", "circle", "rectangle"],
    "color": ["red", "red", "red", "blue", "blue", "blue"],
}

shapeData = DataFrame(objects)
print("shapeData =\n", shapeData, "\n")

print("shapeData.value_counts() =\n", shapeData.value_counts().sort_values())

### 2.2.4 Series és DataFrame grafikonok

Sok beépített függvény teszi lehetővé a Series és DataFrame objektumok elemeinek gyors és könnyű ábrázolását grafikonokon.

**(a)** Line plot

In [None]:
# %matplotlib inline

s3 = Series(
    [1.2, 2.5, -2.2, 3.1, -0.8, -3.2, 1.4],
    index=["Jan 1", "Jan 2", "Jan 3", "Jan 4", "Jan 5", "Jan 6", "Jan 7"],
)
s3.plot(kind="line", title="Line plot")

**(b)** Bar plot

In [None]:
s3.plot(kind="bar", title="Bar plot")

**(c)** Histogram

In [None]:
s3.plot(kind="hist", title="Histogram")

**(d)** Box plot

In [None]:
tuplelist = [
    (2011, 45.1, 32.4),
    (2012, 42.4, 34.5),
    (2013, 47.2, 39.2),
    (2014, 44.2, 31.4),
    (2015, 39.9, 29.8),
    (2016, 41.5, 36.7),
]
columnNames = ["year", "temp", "precip"]
weatherData = DataFrame(tuplelist, columns=columnNames)
weatherData[["temp", "precip"]].plot(kind="box", title="Box plot")

**(e)** Scatter plot 

In [None]:
print("weatherData =\n", weatherData)

weatherData.plot(kind="scatter", x="temp", y="precip")

### 2.2.5 Gyakorlás

A következő cellában python listák találhatók alkamazottak adataival. Minden listában ugyanabban a sorrendben vannak felsorolva az alkalmazottak különböző adatai.
* Hozz létre egy pandas DataFrame-et a listákból. Az oszlopok nevei egyezzenek meg a listák neveivel.
* Add hozzá egy új oszlopot a DataFrame-hez, ami azt jelzi, hogy az adott alkalmazott többet keres-e mint 1000.
* Csinálj egy scatter plotot a DataFrame adataiból úgy, hogy az x tengelyen az age, az y tengelyen pedig a salary legyen.



In [None]:
name = ["Bob", "Cate", "Bill", "Andy", "Eva", "Alice"]
sex = ["m", "f", "m", "m", "f", "f"]
age = [35, 25, 33, 48, 55, 52]
salary = [1000, 700, 800, 1200, 1500, 1000]

In [None]:
#...