### alapok

### [pandas dokumentáció](https://pandas.pydata.org/docs/index.html)

In [None]:
import pandas as pd
import numpy as np

In [None]:
pd

In [None]:
help(pd.DataFrame)

In [None]:
d = {
    "A": [1, 2, 3, 4],
    "B": [3, 4, 5, 6],
    "C": ["a", "b", "c", "d"],
    "d": [3.2, 4.3, 5, 6],
}

In [None]:
df = pd.DataFrame(data=d)

In [None]:
df

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

In [None]:
df = df.set_index("B")
df

In [None]:
df = df.reset_index()
df

In [None]:
df.dtypes

--------

### átnevezés

In [None]:
df = pd.DataFrame(
    {k: np.random.randint(0, 10, size=5) for k in ["CoRvInUs", "ElTE", "bmE"]}
)

In [None]:
df

In [None]:
df = df.rename(columns={c: c.lower() for c in df.columns})
df

In [None]:
df.rename(columns=lambda c: c.upper())

---------

### oszlop/sor hozzáadás

In [None]:
df.assign(bge=np.random.randint(0, 10, size=5))

In [None]:
df.append({"corvinus": 1, "elte": 3, "bme": 4}, ignore_index=True)

----------

### összefésülés

In [None]:
df2 = pd.DataFrame({k: np.random.randint(0, 10, size=5) for k in ["szfe", "corvinus"]})

In [None]:
df2

In [None]:
df.merge(df2, on="corvinus", how="outer")

----------

### imputálás

In [None]:
df = pd.DataFrame(
    {
        "A": [1, None, 3, 4],
        "B": [3, None, None, 6],
        "C": ["a", "b", "c", "d"],
        "D": None,
    }
)

In [None]:
df.isna().any()

In [None]:
df.isna().sum()

In [None]:
df.dropna(subset=["A"])

In [None]:
df.fillna(0)

----------

### duplikátumok

In [None]:
df = pd.DataFrame(
    {
        "brand": ["Yum Yum", "Yum Yum", "Indomie", "Indomie", "Indomie"],
        "style": ["cup", "cup", "cup", "pack", "pack"],
        "rating": [4, 4, 3.5, 15, 5],
    }
)
df

In [None]:
df.drop_duplicates(subset=["brand", "style"])

-----------

### indexálás és szűrés

In [None]:
df.loc[4,"rating"]

In [None]:
df.iloc[4,2]

In [None]:
df.query("rating > 4")

In [None]:
df.query("style == 'cup'")

In [None]:
df.loc[df["style"] == "cup"]

------

### sorbarendezés

In [None]:
df.sort_values(by=["rating"])

In [None]:
df.sort_values(by=["rating"], ascending=False)

---------

### egyedi értékek

In [None]:
df["brand"].unique()

In [None]:
df["brand"].nunique()

In [None]:
df["style"].value_counts()

--------

### metrikák

In [None]:
df = pd.DataFrame(
    {
        "A": [12, 4, 5, 44, 1],
        "B": [5, 2, 54, 3, 2],
        "C": [20, 16, 7, 3, 8],
        "D": [14, 3, 17, 2, 6],
    }
)

In [None]:
df

In [None]:
pd.DataFrame(
    {
        "max": df.max(),
        "min": df.min(),
        "n": df.count(),
        "mean": df.mean(),
        "median": df.median(),
        "sum": df.sum(),
        "sum": df.std(),
    }
)

------------

### csoportosítás

In [None]:
arrays = [
    ["Falcon", "Falcon", "Parrot", "Parrot"],
    ["Captive", "Wild", "Captive", "Wild"],
]
index = pd.MultiIndex.from_arrays(arrays, names=("Animal", "Type"))
df = pd.DataFrame({"Max Speed": [390.0, 350.0, 30.0, 20.0]}, index=index).reset_index()

In [None]:
df

In [None]:
df.groupby("Animal").mean()

In [None]:
df.groupby("Type")["Max Speed"].max().reset_index()

In [None]:
df.groupby("Type")["Max Speed"].std().reset_index()

In [None]:
df.groupby("Animal")["Max Speed"].std().reset_index()

--------

### hotel adat

In [1]:
from io import StringIO
import requests
import pandas as pd


def read_hotels_data():
    orig_url = "https://drive.google.com/file/d/1zWf68SsJvRUv9YEex6cjAJMpe5sOIrR2/view?usp=sharing"

    file_id = orig_url.split("/")[-2]
    dwn_url = "https://drive.google.com/uc?export=download&id=" + file_id
    url = requests.get(dwn_url).text
    csv_raw = StringIO(url)
    df = pd.read_csv(csv_raw)
    return df

In [2]:
df = read_hotels_data()

In [3]:
df.head()

Unnamed: 0,hotel_id,price,year,month,weekend,country,city,stars
0,1,172,2017,11,1,Netherlands,Amsterdam,4.0
1,1,122,2018,1,1,Netherlands,Amsterdam,4.0
2,1,122,2017,12,0,Netherlands,Amsterdam,4.0
3,1,552,2017,12,0,Netherlands,Amsterdam,4.0
4,1,122,2018,2,1,Netherlands,Amsterdam,4.0


-------

### kérdések

#### könnyű
1. [Hány hotelről van adatunk?](#1)
2. [Hány városból van adatunk?](#2)
3. [Melyik városban adták el a legtöbb szobát?](#3)
4. [Melyik évből van a legtöbb adatunk?](#4)
5. [Mennyibe került a legdrágább és a legolcsóbb szoba?](#5)
6. [Melyik 3 hónapban történt a legtöbb foglalás?](#6)

#### közepes
7. [Mely városokban volt a legdrágább és a legolcsóbb szoba?](#7)
8. [A Portugál vagy a Holland hotelek drágábbak átlagosan?](#8)
9. [A hétvégi foglalások vagy a hétközbeni foglalások drágábbak átlagosan? Mennyivel?](#9)
10. [Az előző kérdés csak Londonra vonatkoztatva](#10)
11. [Melyik 3 hónap a legdrágább átlagosan?](#11)
12. [Melyik országban van a legtöbb városban hotel?](#12)

### nehéz
13. [Melyik városban van a legtöbb 5 csillagos hotel?](#13)
14. [Melyik hotelen belül van a legnagyobb árkülönbség két szoba között?](#14)
15. [Melyik országban a legnagyobb a városonkénti átlagárak szórása?](#15)