<a href="https://colab.research.google.com/github/annagradziel/data-science/blob/master/01_wprowadzenie/pandas_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Podstawowe struktury danych: Series

In [1]:
import pandas as pd
pd.__version__

'0.25.3'

In [2]:
s = pd.Series(data=[3, 2, 4,6])  ## w obiektach typu Series mamy przypisany od razu indeks 
s

0    3
1    2
2    4
3    6
dtype: int64

In [5]:
# mozemy tez podawać własne indeksy
s = pd.Series(data=[3., 2, 4,6], index = ['a', 'b', 'c', 'd'], name = 'sample')  
s

a    3.0
b    2.0
c    4.0
d    6.0
Name: sample, dtype: float64

In [0]:
# domyslny typ danych to int, jeżeli podamy chociaz jedna inna wartosc to zmieni
#sie typ danych



Jak wstawić braki danych?

In [0]:
import numpy as np

In [7]:
s = pd.Series(data=[3., np.nan, 4,6], index = ['a', 'b', 'c', 'd'], name = 'sample') 
s

a    3.0
b    NaN
c    4.0
d    6.0
Name: sample, dtype: float64

importujemy biblioteke numpy i w miejsce gdzie nie mamy danych wstawiamy np.nan
Gdybyśmy wpisali zero, przy liczeniu średniej było by wzięte pod uwagę

In [9]:
s = pd.Series(data=[True, False, False])
s

0     True
1    False
2    False
dtype: bool

# Data jako indeks

In [11]:
s= pd.Series(data=np.arange(10,20), index=pd.date_range(start='20200101', periods=10))
s

2020-01-01    10
2020-01-02    11
2020-01-03    12
2020-01-04    13
2020-01-05    14
2020-01-06    15
2020-01-07    16
2020-01-08    17
2020-01-09    18
2020-01-10    19
Freq: D, dtype: int64

In [12]:
s = pd.Series(data=['python', 'java', 'sql'], name ='languages')
s

0    python
1      java
2       sql
Name: languages, dtype: object

In [13]:
type(s)  # sprawdzamy typ obiektu

pandas.core.series.Series

Jak dotrzeć do indeksu?

In [14]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [15]:
s= pd.Series(data=np.arange(10,20), index=pd.date_range(start='20200101', periods=10))
s

2020-01-01    10
2020-01-02    11
2020-01-03    12
2020-01-04    13
2020-01-05    14
2020-01-06    15
2020-01-07    16
2020-01-08    17
2020-01-09    18
2020-01-10    19
Freq: D, dtype: int64

In [16]:
s.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

Jeżeli chcemy przekonwertować obiekt typu DateTimeindex na listę

In [17]:
list(s.index)

[Timestamp('2020-01-01 00:00:00', freq='D'),
 Timestamp('2020-01-02 00:00:00', freq='D'),
 Timestamp('2020-01-03 00:00:00', freq='D'),
 Timestamp('2020-01-04 00:00:00', freq='D'),
 Timestamp('2020-01-05 00:00:00', freq='D'),
 Timestamp('2020-01-06 00:00:00', freq='D'),
 Timestamp('2020-01-07 00:00:00', freq='D'),
 Timestamp('2020-01-08 00:00:00', freq='D'),
 Timestamp('2020-01-09 00:00:00', freq='D'),
 Timestamp('2020-01-10 00:00:00', freq='D')]

freq='D' jest to częstotliwość, w tym przypadku dzień 

A jak dokopać się do wartości?

In [18]:
s.values

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [19]:
s = pd.Series(data=['python', 'java', 'sql'], name ='languages')
s

0    python
1      java
2       sql
Name: languages, dtype: object

In [20]:
s.values

array(['python', 'java', 'sql'], dtype=object)

Typ danych

In [21]:
s.dtype

dtype('O')

Kształt danych

In [22]:
s.shape

(3,)

Tworzenie obiektu typu Series ze słownika

In [23]:
price = pd.Series(data={'Apple':200, 'CD Projekt':60, 'Amazon':1900})
price

Apple          200
CD Projekt      60
Amazon        1900
dtype: int64

naszym indexem są nasze klucze ze ze słownika

Wycinanie, podajemy index

In [25]:
price['CD Projekt']

60

Gdy nie chcemy podawać długiej nazwy 

In [27]:
price[1]  #w Pythonie zaczynamy indeksować od 0 

60

Podstawowe funkcje dostępne w bibliotece Pandas pozwalające analizować dane

In [28]:
price

Apple          200
CD Projekt      60
Amazon        1900
dtype: int64

Funkcja cout zlicza nam ile mamy obiektów typu Series

In [29]:
price.count()

3

Funkcja *value_counts* sprawdza nam rozkład naszych danych, czyli sprawdza ile 
razy wystąpiła 60, 1900, 200; jeżeli chcemy zbudować sobie histogram to jest to bardzo użyteczna funkcja 

In [30]:
price.value_counts()

60      1
1900    1
200     1
dtype: int64

In [31]:
price.sum()

2160

In [32]:
price.min()

60

In [33]:
price.max()

1900

In [34]:
price.std()

1024.3046421841502

Funkcja ***describe*** pozwoli nam opisać nasz obiekt Series, podać pewne statystyki zbiorczo 

In [35]:
price.describe()

count       3.000000
mean      720.000000
std      1024.304642
min        60.000000
25%       130.000000
50%       200.000000
75%      1050.000000
max      1900.000000
dtype: float64

In [36]:
price = pd.Series(data={'Apple':200, 'CD Projekt':60, 'Amazon':1900, 'KGHM':np.nan})
price

Apple          200.0
CD Projekt      60.0
Amazon        1900.0
KGHM             NaN
dtype: float64

In [37]:
price.count() # w tym przypadku funkcja count nie zliczy nam braków danych 

3

Funkcja *value_counts* również domyślnie nie weźmnie pod uwagę braków danych

In [38]:
price.value_counts()

1900.0    1
60.0      1
200.0     1
dtype: int64

Jeżeli ustawimy sobie parametr *dropna=False* to dostaniemy liczbę braków w naszych danych

In [39]:
price.value_counts(dropna=False)

NaN       1
1900.0    1
60.0      1
200.0     1
dtype: int64

Tak samo funkcja describe pominie braki danych w statystykach

In [40]:
price.describe()

count       3.000000
mean      720.000000
std      1024.304642
min        60.000000
25%       130.000000
50%       200.000000
75%      1050.000000
max      1900.000000
dtype: float64

Funkcja *nlargest* zwróci nam największą wartość, w nawiasie podajemy ile wartości chcemy aby zwróciła

In [41]:
price.nlargest(1)

Amazon    1900.0
dtype: float64

In [42]:
price.nlargest(2)

Amazon    1900.0
Apple      200.0
dtype: float64

Funkcją przeciwną jest nsmallest, funkcja ta również nie zwróci braku danych 

In [43]:
price.nsmallest(1)

CD Projekt    60.0
dtype: float64

Funkcja rank zwraca nam ranking, dostaniemy odpowiednio posortowane elementy

In [44]:
price.rank()

Apple         2.0
CD Projekt    1.0
Amazon        3.0
KGHM          NaN
dtype: float64

Funkcja *sort_values()* domyślnie sortuje wartości w sposób rosnący

In [45]:
price.sort_values()

CD Projekt      60.0
Apple          200.0
Amazon        1900.0
KGHM             NaN
dtype: float64

Jeżeli chcemy zmienić porządek sortowanie musimy ustawić parametr ascending = False

In [46]:
price.sort_values(ascending=False)

Amazon        1900.0
Apple          200.0
CD Projekt      60.0
KGHM             NaN
dtype: float64

Za pomocą apply możemy zamienić dolry na złotówki.
Metoda apply przyjmuje za parametr funkcje 

In [47]:
price.apply(lambda x: x * 3.8)

Apple          760.0
CD Projekt     228.0
Amazon        7220.0
KGHM             NaN
dtype: float64

In [48]:
price

Apple          200.0
CD Projekt      60.0
Amazon        1900.0
KGHM             NaN
dtype: float64

Zmiany możemy przypisać do nowego obiektu

In [0]:
price_pln =price.apply(lambda x: x * 3.8)

In [50]:
price_pln

Apple          760.0
CD Projekt     228.0
Amazon        7220.0
KGHM             NaN
dtype: float64

# Podstawowe struktury danych: pd.DataFrame

In [51]:
df = pd.DataFrame(data=[12,12,32])
df

Unnamed: 0,0
0,12
1,12
2,32


In [53]:
df = pd.DataFrame(data=[12,12,32], index=['first', 'second', 'third'], columns=['col_1'])
df

Unnamed: 0,col_1
first,12
second,12
third,32


In [54]:
df = pd.DataFrame(data={'WIG20': ['PKN ORLEN', 'PKO BP'], 
                        'mWIG40' : ['Amica', 'Playway']})
df

Unnamed: 0,WIG20,mWIG40
0,PKN ORLEN,Amica
1,PKO BP,Playway


Obiekt DataFrame pozwala nam pracować z bardzo rozbudowanymi ramkami danych

In [55]:

df = pd.DataFrame(data=[[10, 12, 13], [23, 12, 10]], index=['first', 'second'], columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
first,10,12,13
second,23,12,10


Wycinanie nazwy kolumn

In [56]:
df.columns

Index(['col_1', 'col_2', 'col_3'], dtype='object')

In [57]:
df.index

Index(['first', 'second'], dtype='object')

In [58]:
df.values

array([[10, 12, 13],
       [23, 12, 10]])

Informacje

In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, first to second
Data columns (total 3 columns):
col_1    2 non-null int64
col_2    2 non-null int64
col_3    2 non-null int64
dtypes: int64(3)
memory usage: 144.0+ bytes


In [62]:
df.describe()

Unnamed: 0,col_1,col_2,col_3
count,2.0,2.0,2.0
mean,16.5,12.0,11.5
std,9.192388,0.0,2.12132
min,10.0,12.0,10.0
25%,13.25,12.0,10.75
50%,16.5,12.0,11.5
75%,19.75,12.0,12.25
max,23.0,12.0,13.0


In [63]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
col_1,2.0,16.5,9.192388,10.0,13.25,16.5,19.75,23.0
col_2,2.0,12.0,0.0,12.0,12.0,12.0,12.0,12.0
col_3,2.0,11.5,2.12132,10.0,10.75,11.5,12.25,13.0


# Sekcja kolumn

In [64]:
df

Unnamed: 0,col_1,col_2,col_3
first,10,12,13
second,23,12,10


In [65]:
df['col_1']

first     10
second    23
Name: col_1, dtype: int64

Obiekt dataFrame składa się z wielu obiektów typu Series. Czy one się różnią? Obiekt Series jest to tylko jedna zmienna, jedna kolumna natomiast obiekt DataFrame może mieć kilka tysięcy zmiennych

In [66]:
type(df['col_1'])

pandas.core.series.Series

Jeżeli chcemy wyciąć naszą kolumnie i uzyskać obiekt typu DataFrame musimy użyć podwójnej notacji [[]] nawiasu kwadratowego

In [67]:
type(df[['col_1']])

pandas.core.frame.DataFrame

Jak zmieniać nazwy kolumn obiektu DataFrame?

In [71]:
df.columns = ['a', 'b', 'c']
df

Unnamed: 0,a,b,c
first,10,12,13
second,23,12,10


Inny sposób wycinania. nie da się go użyć gdy w nazwie kolumny są spacje.

In [72]:
df.a   

first     10
second    23
Name: a, dtype: int64

Tworzenie nowej kolumny

In [74]:
df['d'] = df.a + df.c
df

Unnamed: 0,a,b,c,d
first,10,12,13,23
second,23,12,10,33


In [75]:
df = pd.DataFrame(data=[[10, 12, 13], [23, 12, 10]], index=['first', 'second'], columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
first,10,12,13
second,23,12,10


Wycinanie metodą loc, która pozwala wycinać obiekty po nazwach

In [76]:
df.loc['first']

col_1    10
col_2    12
col_3    13
Name: first, dtype: int64

In [79]:
df.loc['first','col_2']

12

metoda iloc pozwala wycinać obiekty po numerach indeksów

In [78]:
df.iloc[0]

col_1    10
col_2    12
col_3    13
Name: first, dtype: int64

In [80]:
df.iloc[0, 1]

12