Ebben a laborban bemutatjuk az adatkeretek "módosításának" leggyakoribb típusait. Ebbe beletartozik:
     
     Új sorok vagy oszlopok törlése
     Módosítások: oszlopok átnevezése, oszloptípusok módosítása, értékek módosítása 
     Új sorok hozzáadása 
     
A folyamat során megtanuljuk a mutabilitás/változhatatlanság fontos fogalmait, és azt is, hogyan kell végrehajtani egy „biztonságos” adattudományi munkafolyamatot (spoiler: a módosítások elkerülésével!)

     FONTOS MEGJEGYZÉS: Ha véletlenül helytelenül módosította az adatkeretet ebben a laborban, a tevékenység sikeres befejezéséhez újra el kell végeznie az összes előző lépést.

Új oszlopok létrehozása

Kezdjük az egyik legegyszerűbb művelettel: új oszlopok létrehozásával. Új oszlopokat többféleképpen is létrehozhatunk, de kezdjük a leggyakoribbal:

Kifejezések (és vektorizált műveletek)

Az oszlop létrehozásának legáltalánosabb módja ugyanazon a DataFrame-en belüli más oszlopok kifejezésének eredménye. Ha ismeri a táblázatokat, ez egy egyszerű művelet:

<img src="create-column-df.gif">

A szintaxis rendkívül intuitív, csak az "új oszlopot" rendeli egy adott kifejezéshez:

df["Új oszlopnév"] = [KIFEJEZÉS]

Ebben az esetben a kifejezés bármi lehet. Példák:

#### Egy egyszerű számtani kifejezés két oszlop között
df["Új oszlopnév"] = df["1. oszlop"] + df["2. oszlop"]

#### Logikai kifejezés
df["Új oszlopnév"] = df["1. oszlop"] > 1000

#### Egy fejlettebb kifejezés, több oszlop
df["Új oszlopnév"] = df["1. oszlop"] * (df["2. oszlop"] / df["3. oszlop"]) / df["4. oszlop"].std

Használjuk a minta DataFrame-et az „alkalmazottonkénti bevétel” kiszámításához (mint a fenti GIF-ben). A kifejezés csak ennyi:

df["Alkalmazottakonkénti bevétel"] = df["Bevétel"] / df["Alkalmazottak"]

Ezeket a kifejezéseket "vektorizált műveleteknek" nevezzük, mivel a teljes adatkeretre hatnak, függetlenül attól, hogy 100 sorból vagy 1 milliárdból áll. A vektorizált műveletek rendkívül gyorsak még nagy mennyiségű adat esetén is.

In [1]:
import pandas as pd

In [2]:
data = {'Revenue': [274515,200734,182527,181945,143015,129184,92224,85965,84893,
                    82345,77867,73620,69864,63191],
        'Employees': [147000,267937,135301,878429,163000,197000,158000,58604,
                      109700,350864,110600,364800,85858,243540],
        'Sector': ['Consumer Electronics','Consumer Electronics','Software Services',
                   'Chip Manufacturing','Software Services','Consumer Electronics',
                   'Consumer Electronics','Software Services','Consumer Electronics',
                   'Consumer Electronics','Chip Manufacturing','Software Services',
                   'Software Services','Consumer Electronics'],
        'Founding Date':['01-04-1976','13-01-1969','04-09-1998','20-02-1974',
                         '04-04-1975','15-09-1987','01-02-1984','04-02-2004',
                         '07-04-1946','01-01-1910','18-07-1968','16-06-1911',
                         '11-11-1998','07-03-1918'],
        'Country':['USA','South Korea','USA','Taiwan','USA','China','USA','USA',
                   'Japan','Japan','USA','USA','China','Japan']} 
index = ['Apple','Samsung','Alphabet','Foxconn','Microsoft','Huawei',
         'Dell Technologies','Meta','Sony','Hitachi','Intel','IBM',
         'Tencent','Panasonic']

In [3]:
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country
Apple,274515,147000,Consumer Electronics,01-04-1976,USA
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea
Alphabet,182527,135301,Software Services,04-09-1998,USA
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan
Microsoft,143015,163000,Software Services,04-04-1975,USA
Huawei,129184,197000,Consumer Electronics,15-09-1987,China
Dell Technologies,92224,158000,Consumer Electronics,01-02-1984,USA
Meta,85965,58604,Software Services,04-02-2004,USA
Sony,84893,109700,Consumer Electronics,07-04-1946,Japan
Hitachi,82345,350864,Consumer Electronics,01-01-1910,Japan


In [4]:
df["Revenue per Employee"] = df["Revenue"] / df["Employees"]

In [5]:
df.head()

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393


Hozzon létre egy új oszlopot: Bevétel USD-ben

A Bevétel oszlop dollármilliókban van kifejezve. Hozzon létre egy újat, a Bevétel USD-ben a bevétel USD-ben kifejezett értékeivel (egyetlen egység).

In [6]:
df['Revenue in $'] = df['Revenue'] * 1000000

Create a new column: Is American?

Create a new boolean column Is American? that contains the value True for companies which Country is USA, and False otherwise.

In [7]:
df['Is American'] = df['Country'] == 'USA'

Oszlopok létrehozása rögzített értékekből

Oszlopokat úgy is létrehozhatunk, hogy közvetlenül is megadunk értékeket. A legegyszerűbb formában az új oszlopot csak egy kódolt értékhez rendeljük:

df["Új oszlop"] = ÉRTÉK

Ez az adatkeret MINDEN sort az adott értékkel állítja be. Notebookunkban az Is Tech? értéket állítjuk be? az "Igen"-re.
Értékgyűjtemény

Ahelyett, hogy csak egy értéket adnánk meg a teljes adatkerethez (és minden egyes sorhoz), biztosíthatunk egy "részletesebb" gyűjteményt, amely tartalmazza az egyes hozzárendelni kívánt sorokhoz tartozó értékeket.

Nézzük a példát a kapcsolódó jegyzetfüzetben. A stock_prices változóban az adott cégek részvényárfolyamait tároljuk. Ezután közvetlenül a „Részvényár” oszlophoz rendeljük az értékeket:

stock_prices = [143,28, 49,87, 88,26, 1,83, 253,75, 0,
                 43,4, 167,32, 89,1, 52,6, 25,58, 137,35, 48,23, 8,81]

df['Részvényár'] = részvényárak

Ez azért működik, mert a stock_prices lista ugyanannyi elemet tartalmaz, mint a DataFrame-ben.

     Megjegyzés: A részvényárak itt becslések. Nem minden cég szerepel ugyanazon a tőzsdén, ezért csak dollárban becsültük meg az értéket. Ezenkívül a Huawei nem szerepel a nyilvános listán, ezért 0 USD értéket rendeltünk hozzá.

In [8]:
df['Is Tech?'] = 'Yes'
df.head()

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee,Revenue in $,Is American,Is Tech?
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449,274515000,False,Yes
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184,200734000,True,Yes
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044,182527000,False,Yes
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125,181945000,True,Yes
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393,143015000,False,Yes


In [11]:
stock_prices = [143.28, 49.87, 88.26, 1.83, 253.75, 0,
                43.4, 167.32, 89.1, 52.6, 25.58, 137.35, 48.23, 8.81]
df['Stock Price'] = stock_prices

In [12]:
df.head()

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee,Revenue in $,Is American,Is Tech?,Stock Price
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449,274515000,False,Yes,143.28
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184,200734000,True,Yes,49.87
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044,182527000,False,Yes,88.26
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125,181945000,True,Yes,1.83
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393,143015000,False,Yes,253.75


Create a new column with the CEOs of each company

Create new column CEO that contains the names of the CEOs of each company. You'll find the list of the CEOs in the associated notebook.

In [13]:
ceo_list = [
    "Tim Cook", "Kim Ki Nam", "Sundar Pichai",
    "Young Liu", "Satya Nadella", "Ren Zhengfei",
    "Michael Dell", "Mark Zuckerberg",
    "Kenichiro Yoshida", "Toshiaki Higashihara", "Patrick Gelsinger",
    "Arvind Krishna", "Ma Huateng", "Yuki Kusumi"]

df['CEO'] = ceo_list

Oszlopok törlése a „del” karakterrel
Oszlopok törlése

Az oszlopok törlésének alapvetően két módja van: a del kulcsszó és a drop módszerrel. Egyelőre csak a del kulcsszóra fogunk összpontosítani, mivel a drop módszer néhány további bonyolultságot is bevezet, amelyekkel később foglalkoznunk kell.

A del kulcsszó a legegyszerűbb és legintuitívabb kifejezés, csak: del df["Oszlopnév"]. Módosítja az alapul szolgáló adatkeretet, ezért óvatosan használja!

Például töröljük az Is Tech? oszlopot? amit korábban létrehoztunk.

del df["A Tech?"]

Vessen egy pillantást az adatkeretre, és nézze meg, hogy az oszlop már nincs ott.

In [14]:
del df["Is Tech?"]

In [15]:
df.head()

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee,Revenue in $,Is American,Stock Price,CEO
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449,274515000,False,143.28,Tim Cook
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184,200734000,True,49.87,Kim Ki Nam
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044,182527000,False,88.26,Sundar Pichai
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125,181945000,True,1.83,Young Liu
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393,143015000,False,253.75,Satya Nadella


#### Változatlanság és megváltoztathatatlanság

Ez egy NAGYON fontos fogalom az adattudományban (és általában a programozásban). A problémák megoldása során általában lehetőségünk van "változtató" megoldással, azaz a mögöttes adatkeret módosításával (vagy mutációjával), vagy olyan megváltoztathatatlan megoldással megoldani, amely a változtatásokat, de a mögöttes adatok módosítása nélkül hajtja végre.

Például a Python String metódusainak többsége megváltoztathatatlan. Sokféle műveletet végrehajthat (csere, cím, felső, alsó stb.), de az eredeti karakterlánc NEM módosul, ezek a műveletek ÚJ karakterláncokat (új másolatokat) adnak vissza a kívánt változtatásokkal. Vessen egy pillantást a notebookra néhány ilyen karakterlánc-példáért, és figyelje meg, hogy az s karakterlánc hogyan nem módosul a műveletek után.
Kedvezd a változatlanságot

A Python döntése a karakterláncokra (és más, nem említett modulokra) nem véletlen. Legtöbbször (és csak ritka kivételek esetén) részesítsük előnyben a megváltoztathatatlan megoldásokat. Különösen a Pandákban, olyan műveletek, amelyek nem módosítják a mögöttes DataFrame-eket vagy -sorozatokat. Így mindig biztonságosan kipróbálhat dolgokat anélkül, hogy fennállna a fontos adatok elvesztésének veszélye.

Íme egy példa arra a folyamatra, amelyre a megváltoztathatatlan műveletek végrehajtása során számítani kell (ne aggódjon az alábbi módszerek miatt, ebben és más projektekben megismerjük őket):

df = df.read_csv()
df_renamed = df.rename(...) # oszlopok átnevezése
df_notna = df_renamed.dropna(...) # null értékek eldobása
df_cleaned = df_notna.drop(...) # néhány érték eldobása

Mint látható, az egyes műveletek eredménye a következő művelet "belépési pontja", egy lánc létrehozása. Ez szándékos, mert amint látni fogja, ezt a "láncolást" a magunk javára fogjuk használni. Elég gyakori, hogy olyan kifejezéseket látunk, amelyek több metódus egymás utáni kombinációját (láncolását) jelentik:

df.dropna().drop([...]).rename([...]).sort_values().head()

#### Az inplace paraméter

Mielőtt továbblépnénk, külön említést kell tennünk az inplace paraméterről.

Az inplace paraméter MINDENHOL megtalálható a pandas metódusokban, DataFrames és Series esetén is. Például df.dropna(inplace=True), df.drop([...], inplace=True), df.drop_duplicates(inplace=True) stb.

Az inplace paraméter megváltoztatja az adott metódus viselkedését változtathatatlanról (alapértelmezettről) mutablera, módosítva az alapul szolgáló DataFrame-et. Alapértelmezés szerint az inplace mindig hamis, mivel a Pandák mindig a megváltoztathatatlanságot részesítik előnyben. Módosíthatja ezt a viselkedést az inplace=True beállításával, bár, ahogy az imént említettük, ez NEM ajánlott, kivéve néhány speciális esetet.

Most pedig térjünk át a következő szakaszra, ahol ezeket a fogalmakat használjuk!



In [17]:
s = "Hello World"

In [18]:
s.replace('World', 'Datawars')

'Hello Datawars'

In [19]:
s

'Hello World'

In [20]:
s.lower()

'hello world'

In [21]:
s

'Hello World'

#### Sorok törlése

Az "önkényes" sorok törlésének módja a következő: .drop. Van néhány variációja, hiszen oszlopok törlésére is használható, de kezdjük az alapoknál.

A .drop() metódus elfogadja az eltávolítani kívánt értékek indexeit, és mint korábban említettük, alapértelmezés szerint változtathatatlan.

A jegyzetfüzetben láthat egy példát több sor törlésére:

df.drop(["Microsoft", "Tencent", "Samsung", "Alphabet", "Meta", "Hitachi", "Apple"])

Ismétlem, ez a módszer MÓDOSÍTHATATLAN. Nem módosítja az alapul szolgáló adatkeretet: azonnal visszaad egy új DataFrame-et a módosításokkal. A gyakori minta az, hogy a .drop eredményét egy változóhoz rendeljük: df_new = df.drop(...). Ez lehetővé teszi, hogy bármilyen műveletet újra lejátszhassunk, ha hibát találunk a folyamatban.

In [22]:
df.drop(["Microsoft", "Tencent", "Samsung", "Alphabet", "Meta", "Hitachi", "Apple"])

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee,Revenue in $,Is American,Stock Price,CEO
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125,181945000,True,1.83,Young Liu
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756,129184000,True,0.0,Ren Zhengfei
Dell Technologies,92224,158000,Consumer Electronics,01-02-1984,USA,0.583696,92224000,False,43.4,Michael Dell
Sony,84893,109700,Consumer Electronics,07-04-1946,Japan,0.773865,84893000,True,89.1,Kenichiro Yoshida
Intel,77867,110600,Chip Manufacturing,18-07-1968,USA,0.704042,77867000,False,25.58,Patrick Gelsinger
IBM,73620,364800,Software Services,16-06-1911,USA,0.201809,73620000,False,137.35,Arvind Krishna
Panasonic,63191,243540,Consumer Electronics,07-03-1918,Japan,0.259469,63191000,True,8.81,Yuki Kusumi


#### Változtatható módosítás inplace-al

Megismételtük és megismételtük a megváltoztathatatlan megoldások előnyben részesítésének fontosságát. De ennek ellenére ki kell térnünk arra, hogyan hajthatunk végre változtatható megoldásokat. Ne feledje, használja a mutabilitást a lehető legkíméletesebben.

Amint már említettük, a legtöbb panda-művelet elfogadja az inplace paramétert, amely True érték átadása esetén végrehajtja ezt a műveletet, módosítva az alapul szolgáló DataFrame-et. Most megtesszük a .drop() paraméterrel. Váltson a notebookra, és nézze meg, hogyan töröljük a Huawei értékét:

df.drop("Huawei", inplace=True)

Mint látható, a metódus nem ad vissza semmit (csak None). Nem ad eredményt, mivel a művelet eredménye már alkalmazva van az alapul szolgáló DataFrame-re. Ellenőrizze újra a df-t, hogy megbizonyosodjon arról, hogy megfelelően töröltük-e a Huawei-t a DataFrame-ből.


In [None]:
df.drop("Huawei", inplace=True)

#### Sorok törlése feltétel alapján

A sorok feltétel alapján történő törlése egyszerű, mivel ugyanazt a .drop() metódust fogjuk használni, mint korábban. Ami egy kicsit "bonyolultabb" lehet, az a végső szintaxis, amely ezeknek a feltételeknek az írásából adódik.

Először is ne feledje, hogy a .drop() metódus megkapja a törölni kívánt értékek indexét. Tegyük fel, hogy törölni akarjuk azokat a cégeket, amelyek bevétele 80 000 millió dollárnál kevesebb. Ezek a cégek az Intel, a Tencent és a Panasonic. Tehát végre el kell jutnunk egy olyan kifejezéshez, amely ekvivalens:

df.drop(["Intel", "Tencent", "Panasonic"])

Hogyan tegyük ezt a feltételekkel? Ez két lépésből áll:

Először is írjuk fel a feltételt:

df.loc[df["Bevétel"] < 80_000]

De akkor szükségünk van az indexre a feltétel eredményéhez. Tehát a feltétel végéhez fűzzük az .indexet. Tehát a végső kifejezés a következő lesz:

df.drop(df.loc[df["Bevétel"] < 80_000].index)

Amint azt korábban mondtuk, nem ez a legkellemesebb szintaktikai élmény.

Delete companies with revenue lower than the mean

Drop the companies that have a value of Revenue lower than the mean (average Revenue). Do NOT modify the original DataFrame; store the new results in df_high_revenue.

In [23]:
df['Revenue'].mean()

124420.64285714286

In [None]:
df_high_revenues = df.drop(df.loc[df['Revenue'] < df['Revenue'].mean()].index)

Drop the companies that are NOT from the USA

Drop the companies whose country is NOT USA. Store the results in the variable df_usa_only.

In [None]:
df_usa_only = df.drop(df.loc[df['Country'] != 'USA'].index)

Japanese companies sorted by Revenue (desc)

Using chaining methods, perform the following two operations in the same expression: * drop all the companies that are NOT Japanese * sort them by Revenue in descending order

Store your results in the variable df_jp_desc

In [None]:
df_jp_desc = df.drop(df.loc[df['Country'] != 'Japan'].index).sort_values(by="Revenue", ascending=False)

#### Oszlopok eltávolítása a .drop() paranccsal

Végül érdemes megemlíteni, hogy a .drop() metódus felhasználható oszlopok törlésére is, mint a del megváltoztathatatlan alternatívája. A szintaxis megegyezik a sorok eltávolításával, de ahhoz, hogy jelezzük, hogy oszlopokat szeretnénk törölni, az axis=1 paramétert kell megadnunk. Alapértelmezés szerint az tengely paramétere 0, ami azt jelenti, hogy "törlés sorszinten"; 1-re állítva azt jelzi, hogy oszlopokat törölünk.

In [None]:
df.drop(['Revenue', 'Employees'], axis=1)