Inkább használjunk egy példát. Vessen egy pillantást a következő "táblázatra", amely a legjobb vállalatok listáját tartalmazza (technológiában) és bevételeiket (dollármilliókban):
<img src="fig1.jpg">

A pandák sorozata segít nekünk az adatok megjelenítésében. Itt az ideje, hogy bekapcsolja a labort, és irány a Notebook, ahol meglátjuk, hogyan működik a sorozat.

A sorozat létrehozásának szintaxisa a következő:


In [1]:
import pandas as pd
#pd.Series(data, index, name="A name")


A sorozat fő összetevői a következők:

     adatok: ez az az adat, amit ábrázolni akarunk, és nyilván mondhatnánk a sorozat "legfontosabb" komponensét. Példánkban az adatok a cégek bevételei.
     index: az index az általunk tárolt adatok "címkéit" jelzi. Az index segítségével később „hivatkozunk” az adatokra. Az indexek nem kötelezőek; A pandák alapértelmezett szekvenciális indexet rendelnek hozzá, ha nem adunk meg ilyet.
     név: egy sorozat tartalmazhat "nevet"; ennek több értelme lesz, ha elkezdjük használni a DataFrames-et. Egyelőre csak extra "dokumentációnak" kell gondolni; nagyobb átláthatóság, amikor a kóddal dolgozik. A nevek nem kötelezőek.

Végül fontos megjegyezni, hogy a sorozatok „erősen be vannak írva”: ez azt jelenti, hogy van hozzájuk társított (kényszerített objektumtípus). Nem úgy, mint a Python szótáraknál, ahol keverhetjük a típusokat. Ebben az esetben látni fogja, hogy a sorozat int64 típusú (az ábrázolás alján a név után azt írja, hogy dtype: int64). Egyelőre ne törődj vele, ez alapvetően egy "egész számokat" tartalmazó sorozat.


In [2]:
companies = [
    'Apple', 'Samsung', 'Alphabet', 'Foxconn',
    'Microsoft', 'Huawei', 'Dell Technologies',
    'Meta', 'Sony', 'Hitachi', 'Intel',
    'IBM', 'Tencent', 'Panasonic'
]

s = pd.Series([
    274515, 200734, 182527, 181945, 143015,
    129184, 92224, 85965, 84893, 82345,
    77867, 73620, 69864, 63191],
    index=companies,
    name="Top Technology Companies by Revenue")

In [3]:
s

Apple                274515
Samsung              200734
Alphabet             182527
Foxconn              181945
Microsoft            143015
Huawei               129184
Dell Technologies     92224
Meta                  85965
Sony                  84893
Hitachi               82345
Intel                 77867
IBM                   73620
Tencent               69864
Panasonic             63191
Name: Top Technology Companies by Revenue, dtype: int64

Ellenőrizze tudását: készítsen sorozatot

Hozzon létre egy sorozatot a my_series változó alatt, amely három elemet tartalmaz: 9, 11 és -5. A sorozat indexe legyen ['a', 'b', 'c'], a neve pedig "My First Series".

In [4]:
serial_index = ['a', 'b', 'c']
my_series = pd.Series([9, 11, -5], index=serial_index, name="My First Series")

In [5]:
my_series

a     9
b    11
c    -5
dtype: int64

Basic selection and location

Series are very flexible about querying/selecting data. You can get data by the index (get the revenue of Apple), by position (get the 5th element) and also by multiple of those.

Selecting by index

We use the Series' index to reference and locate the data associated with a given label.

For example, to get the revenue of Apple, we can do: s["Apple"]. That works, as you can see in the notebook. But you'll also see that we use a .loc attribute, making it: s.loc["Apple"]. This is the preferred method to reference values. It might make little sense for now, but it will once we start dealing with DataFrames.

Selecting by position

We can also select elements by their "order". After all, as we mentioned in the previous section, Series are ordered data structures. So we can select an element by its position: for example, the 'first", "last", "third", or "253rd" element. To select an element by its position, we use the .iloc attribute. The beauty of .iloc is that, as selection in Python lists, it accepts negative numbers to reference elements from the end of the series. That means that .iloc[-1] returns the LAST element in the series.

In [None]:
s['Apple']
#javasolt
s.loc['Apple']

#pozíció alapján
s.iloc[0]
s.iloc[-1] #utolsó

Errors in selection:

As expected, if you try to retrieve an element that doesn't exist, it'll cause an error. This works pretty similarly as in Python dictionaries and lists. Selecting by index (.loc) fails with a KeyError (like dictionaries) and selecting by position fails with an IndexError as with lists.

Most of the time, you can prevent these errors using the membership operator in, which checks if a given element is part of the index.

In [None]:
# this code will fail
s.loc["Non existent company"]

# This code also fails, 132 it's out of boundaries
# (there are not so many elements in the Series)
s.iloc[132]

We could prevent these errors using the membership check in:

In [None]:
"Apple" in s
"Snapchat" in s

 Check your knowledge: location by index

Select the revenue of Intel and store it in a variable named intel_revenue:

In [None]:
intel_revenue = s.loc['Intel'] #nem iloc

 Check your knowledge: location by position

Select the revenue of the "second to last" element in our series s and store it in a variable named second_to_last:

In [None]:
second_to_last = s.iloc[-2]

Check your knowledge: multiple selection

Use multiple label selection to retrieve the revenues of the companies:

    Samsung
    Dell Technologies
    Panasonic
    Microsoft


In [None]:
sub_series = s.loc[['Samsung', 'Dell Technologies','Panasonic', 'Microsoft' ]]

Multiple selection

So far, Series look like glorified dictionaries. But this single feature will set them apart.

With both, index selection and positional selection, you can pass multiple elements to be returned. This is extremely convenient.

Pay attention to the value returned: another Series, a "sub-series," we could say, only with the values requested. In Pandas you'll see this pattern everywhere: Series selection returns other series, DataFrames selection (in future lessons) returns other DataFrames or other Series, etc.

Let's see it in action. To select several elements (by index/label), we just pass a list of the labels:

In [None]:
s[['Apple', 'Intel', 'Sony']]
s.iloc[[0, 5, -1]]

Series Attributes and Methods

Series contain a lot of useful attributes and methods to interact with them. Probably the two most common ones you'll see all the time are .head() and .tail(). This just returns 5 elements either from the beginning of the series (.head()) or from the end of it (.tail()). This is useful when you're working with real data (possibly MILLIONS of values). You can also pass a number of elements to return: .head(3) and .tail(2).

Main attributes

Once a series is constructed (somehow), we can access all the attributes separately. Namely:

    The data of the series: using the .values attribute
    The index: using .index
    The name: using .name
    The type assigned: using .dtype
    The number of elements: using .size

In [None]:
s.head()
s.tail()

#Mögöttes adatok
s.values

#Az index
s.index

#A név
s.name

#Adattipus
s.dtype

#Méret
s.size
len(s)

Statistical methods

But that's not all about attributes and Series. As you might already know, we use Pandas for data processing. And a significant component of data processing is understanding its statistical implications.

The .describe() method gives you quick summary statistics of your series.

There are also individual methods for each of the values returned by .describe(): .max(), .min(), .mean(), .median(), etc.

There's also a quantile() method to check for specific quantiles (or percentiles). For example, to get the 75th percentile, you can use: s.quantile(.75).

In [None]:
#Rövid statisztikai elemzés az adathalmazról
s.describe()

#Átlag
s.mean()

#Median, helyzeti középérték, amelytől mérve az elemek távolságainak összege
#minimális
s.median()

#Standard deviation
s.std()
s.min()
s.max()
"""
Létezik egy quantile() metódus is az adott kvantilisek (vagy percentilisek) 
ellenőrzésére. Például a 75. percentilis megszerzéséhez használhatja a 
következőt: s.quantile(.75).
"""
s.quantile(.75)


Sorting Series

Sorting series is extremely simple. This is another great feature of pandas in general.

But with Sorting, we'll introduce two important concepts:
Sorting by values or Index

First, what are we sorting by? The values? Or the index? Well, we'll be able to sort by both attributes: using the .sort_values() and .sort_index() methods.

Check the examples in the notebook. To sort the values of the series (that is, the revenue), we use the .sort_values() method. To sort the series by its index (in this case, lexicographically by the company's name, we use the .sort_index() method. The default sorting method is in "ascending" order. To sort in descending order, you must pass the ascending=False parameter (to either method).

In [None]:
#Érték szerinti rendezés
s.sort_values()

#Index szerinti rendezés
s.sort_index()

#Csökkenő rendezés
s.sort_values(ascending=False).head()
s.sort_index(ascending=False).head()

What company has the largest revenue?

In [None]:
s.sort_values()

Sort company names lexicographically. Which one comes first?

In [None]:
s.sort_index()

<span style = "color:rgb(191, 228, 228); background-color: grey">
Állandóság (Inmutability)

A második fontos fogalom a megváltoztathatatlanság, és ez NEM csak egy sorozat fogalom; ez egy széles körben elterjedt fogalom a pandákban és általában az adattudományban. Ebben az esetben látni fogja, hogy amikor "sort rendezünk", VALÓBAN nem magát a sorozatot rendezzük. Visszatért egy ÚJ sorozat. Az alapul szolgáló sorozat NEM változott; NEM mutált.

Ez általánosságban FONTOS fogalom az adattudományban. Nem akarjuk megváltoztatni/mutálni a dolgokat, mivel nehezebb követni ezeket a változásokat.

Ha véletlenül mutáltatni szeretné a sorozatát, ebben az esetben rendezni szeretné és módosítani szeretné a mögöttes sorozatot (ebben az esetben s-ben), akkor át kell adnia az inplace=True attribútumot. Amikor ezt teszi, látni fogja, hogy a metódus ezúttal nem ad vissza semmit, csak az alapul szolgáló sorozatot (s-ben megváltozott), hogy a kívánt sorrendben tartalmazza az adatokat.

Ismételten a változtathatatlanságot részesítjük előnyben és bátorítjuk, ezért próbáljunk meg megváltoztathatatlan módszereket használni, amennyire csak lehetséges. Például jó, ha létrehoz egy második változót az értékekkel rendezve (s_sorted_values) és anélkül, hogy megváltoztatná az s-t.
</span>

A sorozatokat bevétel szerint, növekvő sorrendben rendezzük, és az eredetit mutáljuk. Figyelje meg, hogy a metódus nem ad vissza semmit:

In [None]:
s.sort_values(inplace=True)

Sort American Companies by Revenue

Create a new variable american_companies_desc that contains the results of sorting american_companies by revenue (this is, by value) in descending order.

In [None]:
american_companies_desc = american_companies.sort_values(ascending=False)

Sort (and mutate) international companies

Now it's time to do what we told you NOT to do, but we need practice it. There's a new series defined named international_companies. Your task is to sort them by Revenue in descending order (larger to smaller) but doing it in place, that is, modifying the series.

If you make a mistake, you can always re-run the cell that generates the Series.

In [None]:
# Run this cell to complete the activity
international_companies = s[[
    "Sony", "Tencent", "Panasonic",
    "Samsung", "Hitachi", "Foxconn", "Huawei"
]]
international_companies

In [None]:
international_companies.sort_values(ascending=False, inplace=True)

Modifying series

Modifying series is something we hardly want to do. As mentioned in the previous section, we try to be "immutable". So changing series is usually not recommended.

But still, it's possible to modify series by changing values, adding or removing elements. This works in the same way as with Python dictionaries.

For example, to modify an existing value, we can just "step over it", let's say we want to set IBM's revenue to $0. We can just do:

In [None]:
#Érték módosítás
s['IBM'] = 0

#Érték hozzáadása
s['Tesla'] = 21450

#Törlés
del s['Tesla']


 Insert Amazon's Revenue (469822)

In [None]:
s['Amazon'] = 469822

Delete the revenue of Meta

In [None]:
del s['Meta']

Concatenating Series (immutable)

Finally, if you want to "concatenate" two series, you can use the concat() method s.concat(dataframe1 or series1, dataframe2 or series2) as shown in the example in the notebook. In this case, the method returns a new series or dataframe with the values of the two series/dataframe concatenated.

In [None]:
another_s = pd.Series([21_450, 4_120], index=['Tesla', 'Snapchat'])
s_new = pd.concat([s, another_s])