In [2]:
import pandas as pd

In [3]:
# Obiekt series

s = pd.Series(data=[3,2,4,6])
s

0    3
1    2
2    4
3    6
dtype: int64

In [4]:
# Automatycznie indexuje się od 0, natomiast możemy tym sterować

s = pd.Series(data = [3,2,4,6], index=['a', 'b', 'c', 'd'], name = 'sample')
s

a    3
b    2
c    4
d    6
Name: sample, dtype: int64

In [5]:
# Wstawianie braków danych:
import numpy as np

np.nan

nan

In [6]:
s = pd.Series(data = [3,np.nan,4,6], index=['a', 'b', 'c', 'd'], name = 'sample')
s

a    3.0
b    NaN
c    4.0
d    6.0
Name: sample, dtype: float64

In [7]:
s1 = pd.Series(data = [True, False, False])
s1

0     True
1    False
2    False
dtype: bool

In [8]:
# Obiekt series, który jako indexy posiada daty
s2 = pd.Series(data = np.arange(10, 20), index = pd.date_range(start = '20200101', periods = 10))

In [9]:
s2

2020-01-01    10
2020-01-02    11
2020-01-03    12
2020-01-04    13
2020-01-05    14
2020-01-06    15
2020-01-07    16
2020-01-08    17
2020-01-09    18
2020-01-10    19
Freq: D, dtype: int32

In [10]:
s3 = pd.Series(data=['python', 'java', 'sql'], name = 'languages')
s3

0    python
1      java
2       sql
Name: languages, dtype: object

In [11]:
# Atrybuty obiektu typu Series

# Indexy
s3.index


RangeIndex(start=0, stop=3, step=1)

In [12]:
s2.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

In [13]:
# Wartości

s2.values

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [14]:
#Sprawdzenie typu danych
s.dtypes

dtype('float64')

In [15]:
s2.dtypes

dtype('int32')

In [16]:
s3.dtypes

dtype('O')

In [17]:
#Kształt danych:

s2.shape


(10,)

In [19]:
# Praca z obiektem:

price = pd.Series(data = {'Apple': 200, 'CD Project': 60, 'Amazon': 1900})
price

Apple          200
CD Project      60
Amazon        1900
dtype: int64

In [23]:
# Wycinanie informacji z obiektu:

#Po nazwie
price['CD Project']
price['Amazon']
price['Apple']

200

In [26]:
# Po numerze indexu
price[0]
price[1]
price[2]

1900

In [31]:
# Podstawowe, najważniejsze funkcje pandas do pracy z obiektem

#Funkcja zliczająca elementy w obiekcie:
print(price.count())

# Funkcja zliczająca ile razy dana rzecz wystapiła w obiekcie:
print(price.value_counts())

# Funkcja sumująca wartości w obiekcie
print(price.sum())

# Funkcje znajdujące wartości maksymalne i minimalne:

print(price.min())
print(price.max())

3
200     1
60      1
1900    1
dtype: int64
2160
60
1900


In [32]:
# Funkcja obliczająca najważniejsze statystyki obiektu:
print(price.describe())

count       3.000000
mean      720.000000
std      1024.304642
min        60.000000
25%       130.000000
50%       200.000000
75%      1050.000000
max      1900.000000
dtype: float64


In [55]:
price = pd.Series(data = {'Apple': 200, 'CD Project': 60, 'Amazon': 1900, 'Allegro': np.nan})
price

Apple          200.0
CD Project      60.0
Amazon        1900.0
Allegro          NaN
dtype: float64

In [36]:
# W przypadku braku danych, funkcja value_counts autmatycznie omija braki, natomiast można
# ustawić, aby zliczała

price.value_counts(dropna = False)

200.0     1
60.0      1
1900.0    1
NaN       1
dtype: int64

In [37]:
# W przypadku jeżeli potrzebujemy wyciągnąć największy element z obiektu, lub kilka najlepszych
# Możemy użyć nlargest

price.nlargest(1)

Amazon    1900.0
dtype: float64

In [39]:
# Funkcja przeciwna do nlagrest - nsmallest

price.nsmallest(1)

CD Project    60.0
dtype: float64

In [53]:
# Możemy sprawdzić rangking w obiekcie

price.rank()

Apple         2.0
CD Project    1.0
Amazon        3.0
Allegro       4.0
dtype: float64

In [41]:
# Sortowanie wartości:
price.sort_values()

CD Project      60.0
Apple          200.0
Amazon        1900.0
Allegro          NaN
dtype: float64

In [43]:
# Domyślne sortowanie jest od najmniejszej do największej wartości, możemy zmienić

price.sort_values(ascending = False)

Amazon        1900.0
Apple          200.0
CD Project      60.0
Allegro          NaN
dtype: float64

In [67]:
# jeżeli chcemy zmienić coś w danych, możemy uzyć metody apply() na obiekcie. Metoda przyjmuje 
#Za parametr funkcje 

# Konwertujemy ceny spółek na złotówki
def swap_to_pln(x):
    return x * 4.5
price_pln = price.apply(swap_to_pln)
price_pln

Apple          18225.0
CD Project      5467.5
Amazon        173137.5
Allegro            NaN
dtype: float64