# Lineáris algebra alkalmazásai (Linear algebra and its applications)

Mátrixok és vektorok a matematika minden ágában előfordulnak, valamint rengeteg alkalmazásuk van:

* képfeldolgozás
    * képtömörítés, szűrés (blurring, sharpening, etc)
    * objektum detekció 
    * szegmentáció
* jelfeldolgozás, idősorok elemzése 
    * tőzsdei árfolyamok
    * vízszintingadozás
    * elektrofiziológiai jelek elemzése
    * egérmozgás alapján felhasználó azonosítása
    * szállodai szobák kihasználtsága
    * trendek, szezonalitás vizsgálata

Ez a lista lényegében a végtelenségig folytatható.

In [None]:
import matplotlib.image as im
import matplotlib.pyplot as plt
import numpy as np

In [None]:
image = im.imread("img/parrots.png")

image.shape

In [None]:
image[0, 0, :]

In [None]:
255 * image[0, 0, :]

In [None]:
plt.figure(figsize=(16, 10))
plt.imshow(image)
plt.show()

In [None]:
# fliplr (flip left-right) felcseréli az oszlopok sorrendjét

plt.figure(figsize=(16, 10))
plt.imshow(np.fliplr(image))
plt.show()

In [None]:
# Kiátlagoljuk a színeket és a kapott képet szürkeként ábrázoljuk

plt.figure(figsize=(16, 10))
plt.imshow(np.mean(image, axis=-1), cmap=plt.get_cmap("gray"))
plt.show()

In [None]:
# Azonban a valódi szürkeárnyalatos kép a színeknek egy súlyozott átlaga

grayscale_image = np.dot(image, [0.299 , 0.587, 0.114])

plt.figure(figsize=(16, 10))
plt.imshow(grayscale_image, cmap=plt.get_cmap('gray'))
plt.show()

# Táblázatos adatok kezelése (pandas - tabular datasets in Python)

<table border="1" class="dataframe">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>name</th>
            <th>age</th>
            <th>average</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>Anna</td>
            <td>20</td>
            <td>4.5</td>
        </tr>
        <tr>
            <th>1</th>
            <td>Bob</td>
            <td>19</td>
            <td>3.9</td>
        </tr>
        <tr>
            <th>2</th>
            <td>Cecil</td>
            <td>22</td>
            <td>4.1</td>
        </tr>
    </tbody>
</table>

A `pandas` könyvtár az alábbi feladatokra kínál megoldást:
* táblázatos adatok kezelése
* műveletek, csoportok képzése, statisztikák számolása
* idősoros adatok kezelése
* hiányzó adatok kezelése
* adatok összefésülése SQL-szerű műveletekkel
* sokféle input és output formátum támogatása

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame(
    [["Anna", 20, 4.5], ["Bob", 19, 3.9], ["Cecil", 22, 4.1]],
    columns=["name", "age", "average"]
)

df

In [None]:
df = pd.DataFrame(
    [["Anna", 20, 4.5], ["Bob", 19, 3.9], ["Cecil", 22, 4.1]],
    columns=["name", "age", "average"],
    index=["one", "two", "three"]
)

df

In [None]:
df["name"]

In [None]:
df.loc[["one", "two"]]

In [None]:
df.loc[["one", "two"], ["name", "age"]]

In [None]:
df[["name", "age"]]

In [None]:
df[df["average"] >= 4.0]

## A világ népessége

In [None]:
df = pd.read_csv("data/population/world_population.csv")

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.columns

In [None]:
columns = []
for colname in df.columns:
    if colname.startswith("Area "):
        columns.append("Area")
    elif colname.startswith("Density "):
        columns.append("Density")
    else:
        columns.append(colname)

df.columns = columns

In [None]:
df.columns = columns

In [None]:
df.head()

In [None]:
#df.rename?

In [None]:
df.rename(
    columns={"2022 Population": "2022", 
        "2020 Population": "2020", 
        "2015 Population": "2015",
        "2010 Population": "2010",
        "2000 Population": "2000",
        "1990 Population": "1990",
        "1980 Population": "1980",
        "1970 Population": "1970"}, 
    inplace=True
)

In [None]:
df.head()

In [None]:
df.drop(columns=["CCA3", "Capital"], inplace=True)

In [None]:
df.head()

In [None]:
df[df["Continent"]=="Europe"].head()

In [None]:
df[df["Area"] <= 10]

In [None]:
df[(df["Continent"]!="Europe") & (df["Area"] <= 100)]

In [None]:
sorted_by_rank_df = df.sort_values(by="Rank")

sorted_by_rank_df.head(n=10)

In [None]:
sorted_by_rank_df[sorted_by_rank_df["Continent"]=="Europe"].head(n=10)

In [None]:
europe_sorted_df = sorted_by_rank_df[sorted_by_rank_df["Continent"]=="Europe"]

k = 10

In [None]:
# Ábra készítése plt-vel. Ez a legegyszerűbb, ha csak egyetlen ábránk lesz

plt.figure(figsize=(16, 6))
plt.bar(range(k), europe_sorted_df["2022"][:k])
plt.title("Countries in Europe with the largest population")
plt.xticks(range(10), labels=europe_sorted_df["Country"][:k], rotation=45, fontsize=14)
plt.show()

In [None]:
# Ábra készítése az Axis objektummal.

fig, ax = plt.subplots(figsize=(16, 6))
ax.bar(range(k), europe_sorted_df["2022"][:k])
ax.set_title("Countries in Europe with the largest population")
ax.set_xticks(range(10), labels=europe_sorted_df["Country"][:k], rotation=45, fontsize=14)
ax.yaxis.set_major_formatter(mpl.ticker.StrMethodFormatter('{x:,.0f}'))
plt.show()

* Melyik ország lakossága növekedett a legnagyobb mértékben 1970 és 2022 között?
* Melyik ország lakossága csökkent a legnagyobb mértékben 1970 és 2022 között?
* Földrészenként melyik a legnépesebb ország?
* A világ népességének mi a százalékos megoszlása földrészenként?

In [None]:
ratio = (df["2022"] / df["1970"]).sort_values(ascending=False)

In [None]:
ratio.head()

In [None]:
country_name = df.loc[ratio.index[0], "Country"]

country_name

In [None]:
df[df["Country"]==country_name]

In [None]:
ratio.tail()

In [None]:
country_name = df.loc[ratio.index[-1], "Country"]

country_name

In [None]:
df[df["Country"]==country_name]

In [None]:
grouped = df.groupby(["Continent"])

In [None]:
df.loc[grouped["2022"].idxmax(), ["Continent", "Country", "2022"]]

In [None]:
percentage = grouped["World Population Percentage"].aggregate(sum)

percentage

In [None]:
fig1, ax = plt.subplots(figsize=(10, 10))
ax.pie(
    percentage, 
    labels=percentage.index, 
    explode=(0, 0, 0.1, 0, 0, 0), 
    textprops={"fontsize": 14}, 
    autopct="%1.1f%%")
plt.show()

#### A földrészek népességének változása 1970-től 2022-ig

In [None]:
grouped = df.groupby(["Continent"])
years = ["1970", "1980", "1990", "2000", "2010", "2015", "2020", "2022"]


df_contient_populations = grouped[years].sum()

In [None]:
df_contient_populations

In [None]:
# Kijavitottam, hogy ne legyen egyenletes az x-tengely cimkeje, mivel maguk az evek sem egyenletesen vannak megadva

df_tr = df_contient_populations.transpose()
df_tr.index = pd.to_numeric(df_tr.index)

df_tr.plot(figsize=(16, 8), xticks=df_tr.index, linewidth=3)
plt.show()

**HF**
* Melyek a Föld legsűrűbben lakott országai?
* Melyek a legritkábban lakott országok?
* Földrészenként melyik a három legritkábban lakott ország?
* Melyik földrész népessége nőtt a legtöbbet 1970 óta?

### Időjárás Szegeden

In [None]:
# Download data from:
# https://www.kaggle.com/datasets/budincsevity/szeged-weather/download?datasetVersionNumber=1

path = "data/weatherHistory.csv"

In [None]:
!head -n 5 $path

In [None]:
df = pd.read_csv(path)

In [None]:
df.head()

In [None]:
df.dtypes

In [None]:
df = pd.read_csv(
    path, 
    index_col="Formatted Date", 
    parse_dates=["Formatted Date"],
    converters={"Formatted Date": lambda x: pd.to_datetime(x, utc=True, format="%Y-%m-%d %H:%M:%S.%f %z")}
)


df.sort_index(inplace=True)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.index[0]

In [None]:
df.describe()

In [None]:
df.drop(columns=["Loud Cover"], inplace=True)

In [None]:
df.head()

In [None]:
df["Temperature (C)"].plot(figsize=(16, 6))
plt.show()

In [None]:
df["Temperature (C)"].iloc[:14*24].plot(figsize=(16, 6))
plt.show()

In [None]:
from datetime import datetime
import pytz

UTC = pytz.timezone("UTC")

year = df.index.to_series().between(datetime(2011, 3, 1, tzinfo=UTC), datetime(2012, 2, 28, tzinfo=UTC))

df_one_year = df.loc[year]

In [None]:
df_one_year.head()

In [None]:
df_one_year["Temperature (C)"].plot(figsize=(16, 6))
plt.show()

In [None]:
df_one_year['Temperature (C)'].resample('M').apply(np.mean).plot(kind="barh")
plt.show()

In [None]:
df['Temperature (C)'].resample("Y").apply(np.mean).plot(kind="barh")
plt.show()

In [None]:
df_one_year.resample('3M')['Temperature (C)'].agg(['min','max', 'mean'])

**HF**: 
* Keressünk gyanús adapontokat. Nézzük meg a légnyomás oszlopot. Mi a mérési értékek eloszlása?
* Hány napon havazott?
* Mikor volt köd? Melyik a legködösebb hónap?