<a href="https://colab.research.google.com/github/love-bees/dataHacker/blob/master/09_SERIESDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Series and DataFrames

This post was written by Andjelka Subotic. Andjelka will show us how we can use some advanced characteristics for series and how we can work with Excel tables, which are treated as DataFrame type of data.

Let's see how we can firstly create some more advanced series:

In [0]:
# Importing of library for working with series
from pandas import Series 
import numpy as np

# Series can be created using:
# lists

s1 = Series([1,2,'abc',4,5])

# numerical arrays
array = np.array([1,2,3,4,5,9])
s2 = Series(array)

# dictionaries
d = {1:'a','second piece of data':0.2,3:'three'}
s3 = Series(d)

s4 = Series([[1,'lisa',2],0.5,5], index=[0.1,'string',6])

In [20]:
print((s1))
print('Type of data for s1 is: ', type(s1))
print('Type of data for 1st and 3rd element from s1 : ', type(s1[0]), ',',type(s1[2]))

0      1
1      2
2    abc
3      4
4      5
dtype: object
Type of data for s1 is:  <class 'pandas.core.series.Series'>
Type of data for 1st and 3rd element from s1 :  <class 'int'> , <class 'str'>


In [21]:
print((s2))
print('Type of data for s2 is: ', type(s2))
print('Type of data for an element from s2 is: ', type(s1[0]))

0    1
1    2
2    3
3    4
4    5
5    9
dtype: int64
Type of data for s2 is:  <class 'pandas.core.series.Series'>
Type of data for an element from s2 is:  <class 'int'>


In [23]:
print((s3))
print('Type of data for s3 is: ', type(s3))
print('Type of data for an element from s3 with index 1 : ',s3[1],'is', type(s3[1]))
print('Type of data for an element from s3 with index 3 : ', s3[3], 'is', type(s3[3]))

1                           a
second piece of data      0.2
3                       three
dtype: object
Type of data for s3 is:  <class 'pandas.core.series.Series'>
Type of data for an element from s3 with index 1 :  a is <class 'str'>
Type of data for an element from s3 with index 3 :  three is <class 'str'>


In [24]:
print(s4)

0.1       [1, lisa, 2]
string             0.5
6                    5
dtype: object


In [25]:
# How to get the values that are stored in the variable type Series?
s3.values

array(['a', 0.2, 'three'], dtype=object)

In [26]:
# Value of the first index
s3.values[0]

'a'

In [27]:
# Passing a new value to the first index
s3.values[0]='aaa'
s3.values[0]

'aaa'

In [28]:
# How to get indexes that are stored in the variable type Series?
s1.index

RangeIndex(start=0, stop=5, step=1)

In [29]:
s3.index

Index([1, 'second piece of data', 3], dtype='object')

In [30]:
# Kako pristupiti elementima podatka tipa Series ?
# prvo ćemo odstampati s1 i s3 radi lakseg pracenja narednog koda

# How to access elements of data type Series?
# First we will print s1 and s3 so that we'll be able to follow the rest of the code
print('s1: ')
print(s1)
print() # blank line
print('s3: ')
print(s3)
# Acessing data elements type Series can be done in two ways
# Using [] like with NumPy arrays
print()
print('First element of s3 - element with index 0 is: ',s3[0])
print()
# Using iloc[index of element that we want, when the indexes are numbers]
print('Second element of s3 is : ',s3.iloc[1])
#print(s3.iloc['second data':]) #- this command will give an error because iloc was made for number indexing

# Using loc[name of index which we want to access]
print()
print('Element of s3 whose index is "drugi podatak" is: ',s3.loc['drugi podatak'])
print('First element in s1: ', s1.loc[0]) # this command can be run without errors, 
# print(s3.loc[0]) while this command is wrong, because zero isn't the name of any index in s3

s1: 
0      1
1      2
2    abc
3      4
4      5
dtype: object

s3: 
1                         aaa
second piece of data      0.2
3                       three
dtype: object



KeyError: ignored

In [31]:
# Kako iseći deo podatka tipa Series?
# tzv. slicing Series
# vrši se na sledeći način: ime_Series[indeks elementa koji se prvi uzima : indeks elementa do kojeg se vrši isecanje]
# ukoliko je izostavljen indeks pre: podrazumeva se da se kreće od prvog elementa u nizu, a ako je izostavljen indeks posle : 
# podrazumeva se da se uzimaju elementi do kraja Series
print(s1[0:2])
print()
print(s1.iloc[0:2])
print()
print(s3['drugi podatak':])
print()
print(s3.loc['drugi podatak':])
print()
# isecanje dela Series se može primenjivati sa sa iloc i loc 

0    1
1    2
dtype: object

0    1
1    2
dtype: object



KeyError: ignored

Sledeći tip podataka koji će nam biti veoma važan jeste DataFrame koji je takođe iz biblioteke Pandas. Za sada možemo misliti o njima kao o Excel kolonama koje mogu biti tipa integer ili string:

In [32]:
# Kao što smo već rekli reč je o više dimenzionom nizu, mada može biti i jednodimenzioni
# možemo ga dobiti na sledeće načine

from pandas import DataFrame 
import numpy as np

# koristeći n-dimenzioni NumPy niz odnosno matricu

narray = np.random.randn(15).reshape(5,3) # generišemo 15 brojeva koji su normalno raspodeljeni
df1 = DataFrame(narray)                   # a potom od njih napravimo matricu dimezija 5x3
df1.columns = ['kolona 1', 'kolona 2', 'kolona 3'] # ovo je jedan od načina da se kolonama daju nazivi
print(df1)

   kolona 1  kolona 2  kolona 3
0  0.787859 -0.470197  0.089686
1  0.006848 -0.116544  0.828334
2  0.249928 -1.094614 -1.887383
3  0.095132  1.219860  1.053101
4 -1.027413  0.780454 -0.138623


In [33]:
# Takođe možemo "proviriti" kako izgledaju prvi elementi naredbom .head()
df1.head(3)

Unnamed: 0,kolona 1,kolona 2,kolona 3
0,0.787859,-0.470197,0.089686
1,0.006848,-0.116544,0.828334
2,0.249928,-1.094614,-1.887383


In [34]:
# Sada ćemo pomoću Python dictionary-ija napraviti jedan DataFrame.
# ovaj DataFrame će predstavljati spisak kupljenih namirnica.
# za svaku kupovinu beležićemo ime kupca, proizvod koji je kupio, jediničnu cenu tog proizvoda 
# i količinu proizvoda koja je kupljena
kupovina_1 = {'ime':'Pera',
              'proizvod': 'hleb',
              'cena' : 50,
              'kolicina': 1}

kupovina_2 = {'ime':'Zika',
              'proizvod': 'mleko',
              'cena' : 50,
              'kolicina': 2}

kupovina_3 = {'ime':'Laza',
              'proizvod': 'kafa',
              'cena' : 200,
              'kolicina': 3}

df2 = DataFrame([kupovina_1, kupovina_2, kupovina_3], columns = ['ime', 'proizvod', 'cena', 'kolicina'],
                index = ['Pekara', 'Maxi', 'Maxi'])
print()
print(df2)


         ime proizvod  cena  kolicina
Pekara  Pera     hleb    50         1
Maxi    Zika    mleko    50         2
Maxi    Laza     kafa   200         3


In [35]:


# df2 je jako zgodan primer da pikažemo rad sa DataFrame-om

# prvo ćemo ispisati tipove podataka koje smo koristili u df2
print('Tip strukture df2 je: ', type(df2))



Tip strukture df2 je:  <class 'pandas.core.frame.DataFrame'>


In [36]:


# indekse DataFrame-a dobijamo na sedeći način : DataFrame_name.index
indeksi = df2.index
print(indeksi)



Index(['Pekara', 'Maxi', 'Maxi'], dtype='object')


In [37]:


# vrednosti u DataFrame-u dobijamo na sedeći način: ime_DataFramea.values
print()
vrednosti = df2.values 
print(vrednosti)
print('Vrednosti se smestaju u ndarray - ',type(vrednosti))




[['Pera' 'hleb' 50 1]
 ['Zika' 'mleko' 50 2]
 ['Laza' 'kafa' 200 3]]
Vrednosti se smestaju u ndarray -  <class 'numpy.ndarray'>


In [38]:


# Kako pristupiti elementima podatka tipa DataFrame?
# dobijanje konkretnog podatka iz DataFrame-a se može učiniti koristeći iloc i loc
# dakle to se čini naredbom ime_DataFramea.loc['naziv vrste']
df2.loc['Maxi']
# biće ispisane dve kolone pošto u df2 postoje dve kolone koje nose naziv Maxi



Unnamed: 0,ime,proizvod,cena,kolicina
Maxi,Zika,mleko,50,2
Maxi,Laza,kafa,200,3


In [39]:


# ukoliko želimo da dobijemo sadržaj DataFrame-a koristeći indeks:
df2.iloc[1]
# dobijamo drugi red iz df2



ime          Zika
proizvod    mleko
cena           50
kolicina        2
Name: Maxi, dtype: object

In [40]:


# dobijamo sve vrednosti iz prvog reda df1
df1.iloc[0]



kolona 1    0.787859
kolona 2   -0.470197
kolona 3    0.089686
Name: 0, dtype: float64

In [41]:
# primetimo da iloc prihvata strogo indekse u brojnoj vrednosti dok loc može da primi i indekse tipa 'str' i indekse
# tipa 'int' ukoliko su tako definisani

print(df2.iloc[2])

print('\n',df2.loc['Maxi']) # Ispisivaće se svi redovi koji su indeksirani kao 'Maxi', a u df2 postoje dva takva


ime         Laza
proizvod    kafa
cena         200
kolicina       3
Name: Maxi, dtype: object

        ime proizvod  cena  kolicina
Maxi  Zika    mleko    50         2
Maxi  Laza     kafa   200         3


In [43]:
# ukoliko želimo da vidimo samo imena ljudi koji su kupovali u Maxiju:
df2.loc['Maxi']['ime']

# međutim, pisanje koda na način da se često pojavljuje [], kao u prethodom primeru, nije dobra praksa i trebalo bi izbegavti
# alternativno možemo napisati na sledeći način
df2.loc[['Maxi'],['ime']]

Unnamed: 0,ime
Maxi,Zika
Maxi,Laza


Vratimo se sada još jednom na podatke tipa serija. Sledeći deo koda nam demonstrira kako efikasno možemo učitati datume, a pritom ćemo ponovićemo kako crtamo boxplot() i analizirati grupisanje po mesecima

In [44]:


from pandas import read_csv

# Kako pomoću naredbe read_csv učitati podatak tipa vremenske serije?

# da bismo učitali fajl u tip Series potrebno je preurediti kod na sledeći način:
# index_col = 0 znači da su indeksi u prvoj koloni, i da ne želimo da se indeksi generišu automatski
# squeeze = True znači da će se fajl učitati u Series, a ne u DataFrame
# parse_data=[0] omogućava da prva kolona fajla bude prepoznata kao datumi
    
series = read_csv('daily-total-female-births.csv', header = 0, index_col=0, parse_dates = [0], squeeze = True)
print(series.head())
print(type(series))



FileNotFoundError: ignored

In [45]:


# uvek je dobro dodatno proveriti da li su datumi pravilno učitani
print(type(series.index[0]))
# treba da dobijete Timestamp
# ukoliko dobijete string, to znači da treba da konvertujete index u Timestamp



NameError: ignored

In [46]:
# još jedan interesantan primer graficke vizuelizacije predstavlja i grafik boxplot()
# zbog konciznosti, ponovicemo ovde celokupan kod koji je potreban da bi se ovo izvrsilo
from pandas import Series
from pandas import DataFrame
from pandas import TimeGrouper
from pandas import Grouper
from pandas import read_csv
from pandas import concat
from matplotlib import pyplot
%matplotlib inline

# funkciji groupby u ovom slučaju prosledićemo način grupisanja preko opcije Grouper koja će imati parametar freq='M' što
# znači da grupisanje želimo da izvršimo po mesecima
serija = read_csv('daily-total-female-births.csv', header = 0, index_col = 0, parse_dates = [0], squeeze = True)
grupe = serija.groupby(Grouper(freq='M'))
grupe.groups

# Grupisanje je izvršeno na sledeći način:

ImportError: ignored

In [47]:
# svaka grupa iz varijable grupe ima svoje:
# ime - to je poslednji datum u mesecu
# sadržaj grupe - broj rođene dece u svakom danu tog meseca
# dakle varijabla grupe ima dva elementa grupe[0] gde je smešteno ime te grupe i grupe[1] gde se nalazi svaka grupa 
i=0
for name, grupa in grupe:
    print('Ime grupe:',name)
    print('Sadrzaj grupe:\n',grupa)
    if i<4: 
        print('*** Sada slede vrednosti iz ove grupe')
        print(grupa.values)
        print('***')
    print('-------------------------------')
    i=i+1
    if i == 3: break # samo do 4. meseca vršimo ispis, a potom prekidamo petlju


NameError: ignored

In [48]:
# pre nego što nastavimo sa kodom zgodno je da objasnimo još jedan pojam vezan za logiku - način programiranja u Python-u
# list comprehension je vrlo brz i efikasan način da se napravi lista
# pogledajmo sledeći primer

l1 = [1,2,3,4,5]
l2 = [ element**2 for element in l1] 
print('l1: ', l1)
print('l2: ', l2)


l1:  [1, 2, 3, 4, 5]
l2:  [1, 4, 9, 16, 25]


In [49]:
meseci = DataFrame() # meseci je DataFrame koji će imati 31 red i 12 kolona 

meseci = concat([DataFrame(g[1].values) for g in grupe], axis = 1)

meseci.columns = [g[0] for g in grupe] 
# može se učiniti logicnim da kolonama DataFrame-a meseci dodelimo imena koje svaka grupa ima
# g[0] sadrzi ime svake grupe, a to je ustvari poslednji dan u tom mesecu
print(meseci)
# primetimo da kada mesec ima manje od 31 dan onda su vrednosti koje nedostaju popunjene sa NaN

meseci.boxplot()

NameError: ignored

Sa ovim smo kompletirali osnovne naredbe koje će nam pomoći da učitavamo podatke u vidu tabela, prikazujemo ih grafički i dalje procesiramo. Još uvek radimo sa “tiny” data u big data eri, ali careful patience is the fastest way.