**მონაცემთა ანალიზი პითონის გამოყენებით**
<br>
Date: **2020 წლის 13 ივნისი**
<br>

სათაური: **ლექცია №3: Pandas: მონაცემთა ანალიზის ბიბლიოთეკა**
<br>
მომხსენებელი: **შოთა ცისკარიძე**

<h1 align="center">Pandas: მონაცემთა დამუშავებისა და ანალიზის ბიბლიოთეკა</h1>

<h3 align="center">რა არის Pandas?</h3>

- **Pandas** pandas არის Python პროგრამის ბიბლიოთეკა მონაცემთა დამუშავებისა და ანალიზისთვის:

  https://pandas.pydata.org/


- **Pandas** სახელი მოდის ეკონომეტრიული ტერმინიდან "პანელის მონაცემები" (**Panel Data**), რომელიც გამოიყენება ინფორმაციის მრავალგანზომილებიანი სტრუქტურირებული ნაკრების აღწერისთვის. 


- **Pandas** სთავაზობს მომხმარებელს მონაცემთა სპეციალურ სტრუქტურას და ოპერაციებს რიცხვით ცხრილებისა და დროის სერიების მანიპულირებისთვის.

In [215]:
import numpy as np
import pandas as pd

<h3 align="center">Pandas-ს ძირითადი ობიექტები: $\texttt{panda.Series}$ (1D)</h3>

- $\texttt{panda.Series}$ წარმოადგენს ერთგანზომილებიანი ndarray მონაცემებს თავისი ინდექსებით.


- $\texttt{panda.Series}$ მხარს უჭერს როგორც მთელი ასევე იარლიყზე დაფუძნებულ ინდექსაციას.


- $\texttt{panda.Series}$ უზრუნველყოფილია უამრავი მეთოდით განსხვავებული ოპერაციის შესასრულებლად, რომელიც მოიცავს ინდექსს. 


- $\texttt{ndarray}$– ის სტატისტიკური მეთოდები იქნა გამოყენებული დაკარგული მონაცემების ავტომატურად გამორიცხვის მიზნით (ამჟამად წარმოდგენილია როგორც $\texttt{NaN}$).


- იხილეთ უფრო დაწვრილებითი ინფორმაციისთვის:

  https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html


In [52]:
# სერიის შექმნა
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print(s)

a   -0.916929
b    0.432178
c    0.803062
d   -1.426031
e   -1.222174
dtype: float64


In [13]:
# გავს ლექსიკონს (dict)
print(s['b'])

-0.26797793120634444


In [11]:
# ავტომატური გასწორება ინდექსის მიხედვით
print(s+s[1:])

a         NaN
b   -0.535956
c    1.609536
d    1.723360
e   -0.908106
dtype: float64


<h3 align="center">Pandas-ს ძირითადი ობიექტები: $\texttt{panda.DataFrame}$ (2D)</h3>


- $\texttt{panda.DataFrame}$ წარმოადგენს ორგანზომილებიანი, პოტენციურად ჰეტეროგენული, ტაბულურ მონაცემებს.

<img src="images/pandas-data-structure.svg" width="1000" height="1000" alt="Example"  align="center"/>


- $\texttt{panda.DataFrame}$ შეიძლება წარმოიდგინოთ, როგორც სერიის ობიექტების კონტეინერი.


- $\texttt{panda.DataFrame}$ უზრუნველყოფილია უამრავი არითმეტიკული ოპერაციებით ორივე რიგის და სვეტის იარლიყებისთვის.


- იხილეთ უფრო დაწვრილებითი ინფორმაციისთვის:

  https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html




In [20]:
# DataFrame-ის შექმნა ლექსიკონის (dict) გამოყენებით
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
print(df)

   col1  col2
0     1     3
1     2     4


In [24]:
# DataFrame-ის შექმნა ndarray-ის გამოყენებით
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['a', 'b', 'c'])
print(df)

   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9


In [29]:
df = pd.DataFrame(np.random.randn(8, 3), index=pd.date_range('1/1/2000', periods=8), columns=['A', 'B', 'C'])
print(df)

                   A         B         C
2000-01-01 -1.621302 -0.725597 -0.914028
2000-01-02  1.744614  0.473668 -1.668680
2000-01-03 -0.276275 -1.065838  0.923062
2000-01-04 -1.865279 -0.214063 -1.156948
2000-01-05 -0.115185  0.408102 -0.315391
2000-01-06  0.038401  0.013761 -2.940465
2000-01-07  0.312682 -0.531575  1.171951
2000-01-08 -0.842319  1.401257 -0.079765


<h3 align="center">Pandas-ს ძირითადი ობიექტები: $\texttt{panda.Panel}$ (3D)</h3>

- $\texttt{panda.Panel}$ წარმოადგენს ფართო ფორმატის პანელის (**wide panel format**) მონაცემებს და ინახება როგორც 3-განზომილებიანი მასივი.

- იხილეთ უფრო დაწვრილებითი ინფორმაციისთვის:

  https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Panel.html


In [31]:
wp = pd.Panel(np.random.randn(2, 3, 4), items = ['Item1', 'Item2'], 
              major_axis=pd.date_range('1/1/2000', periods=3), 
              minor_axis=['A', 'B', 'C', 'D'])
print(wp)

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 3 (major_axis) x 4 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 2000-01-01 00:00:00 to 2000-01-03 00:00:00
Minor_axis axis: A to D


<h3 align="center">მონაცემთა გამოძახება</h3>

- **Pandas** შეუძლია ჩატვირთოს მონაცემთა ფაილის პრაქტიკულად ყველა ტიპის ფორმატი:
  1. Comma-separated values (CSV)
  2. XLSX
  3. ZIP
  4. Plain Text (txt)
  5. JSON
  6. XML
  7. HTML
  8. Images
  9. Hierarchical Data Format
  10. PDF
  11. DOCX
  12. MP3
  13. MP4
  14. SQL


- იხილეთ უფრო დაწვრილებითი ინფორმაციისთვის:

  https://pandas.pydata.org/pandas-docs/stable/reference/io.html


In [34]:
# Excel-ის ფაილის ჩატვირთვა
data = pd.read_excel('./Grades.xlsx', sheetname='S131')
print(data)

   №      სახელი       გვარი  LAB1  LAB2  LAB3  Q1  Q2  FE  ჯამი
0  1  გასპარიანი      კარენა    10     0     0   0   0   0    10
1  2  გზირიშვილი  ალექსანდრე     0     0     0   0   0   0     0
2  3   კოტიშვილი      თემური     0     0     0   0   0   0     0
3  4      ჭელიძე      ჯემალი    10     0     0   0   0   0    10


In [50]:
# csv-ის (comma-separated values) ფაილის ჩატვირთვა
data = pd.read_csv('./golf.csv', sep=',')
print(data)

     outlook  temp humidity     wind label
0      Sunny   Hot     High     Weak    No
1      Sunny   Hot     High   Strong    No
2   Overcast   Hot     High     Weak   Yes
3       Rain  Mild     High     Weak   Yes
4       Rain  Cool   Normal     Weak   Yes
5       Rain  Cool   Normal   Strong    No
6   Overcast  Cool   Normal   Strong   Yes
7      Sunny  Mild     High     Weak    No
8      Sunny  Cool   Normal     Weak   Yes
9       Rain  Mild   Normal     Weak   Yes
10     Sunny  Mild   Normal   Strong   Yes
11  Overcast  Mild     High   Strong   Yes
12  Overcast   Hot   Normal     Weak   Yes
13      Rain  Mild     High   Strong   No 


In [51]:
# პირველი 5 რიგის ჩვენება
print(data[:5])

    outlook  temp humidity     wind label
0     Sunny   Hot     High     Weak    No
1     Sunny   Hot     High   Strong    No
2  Overcast   Hot     High     Weak   Yes
3      Rain  Mild     High     Weak   Yes
4      Rain  Cool   Normal     Weak   Yes


<h3 align="center">ელემენტარული ოპერაციები მონაცემებზე</h3>

In [160]:
# შევქმნათ DataFrame
data = pd.DataFrame({'A' : [1., 4., 2., 1.], 
                     'B' : pd.Timestamp('20130102'), 
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'), 
                     'D' : np.array([3] * 4,dtype='int32'), 
                     'E' : pd.Categorical(["train","train","test","test"]), 
                     'F' : 'foo' }, index=pd.period_range('Jan-2000', periods=4, freq='M'))
print(data)

           A          B   C  D      E    F
2000-01  1.0 2013-01-02 NaN  3  train  foo
2000-02  4.0 2013-01-02 NaN  3  train  foo
2000-03  2.0 2013-01-02 NaN  3   test  foo
2000-04  1.0 2013-01-02 NaN  3   test  foo


In [161]:
# სვეტების გამოყოფა
print(data.columns)

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')


In [162]:
# რიგების გამოყოფა
print(data.index)

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04'], dtype='period[M]', freq='M')


In [163]:
# სორტირება სვეტის მიხედვით
print(data.sort_values(by='A'))

           A          B   C  D      E    F
2000-01  1.0 2013-01-02 NaN  3  train  foo
2000-04  1.0 2013-01-02 NaN  3   test  foo
2000-03  2.0 2013-01-02 NaN  3   test  foo
2000-02  4.0 2013-01-02 NaN  3  train  foo


In [164]:
# სორტირება სვეტების მიხედვით
print(data.sort_values(by=['A', 'E']))

           A          B   C  D      E    F
2000-04  1.0 2013-01-02 NaN  3   test  foo
2000-01  1.0 2013-01-02 NaN  3  train  foo
2000-03  2.0 2013-01-02 NaN  3   test  foo
2000-02  4.0 2013-01-02 NaN  3  train  foo


In [165]:
# სორტირება კლებადობით
print(data.sort_values(by='A', ascending=False))

           A          B   C  D      E    F
2000-02  4.0 2013-01-02 NaN  3  train  foo
2000-03  2.0 2013-01-02 NaN  3   test  foo
2000-01  1.0 2013-01-02 NaN  3  train  foo
2000-04  1.0 2013-01-02 NaN  3   test  foo


In [166]:
# მონაცემების მატრიცაში გადაყვანა
mat = data.values
print(mat)
print('\n')
print(mat[0])
print(mat[0][1])

[[1.0 Timestamp('2013-01-02 00:00:00') nan 3 'train' 'foo']
 [4.0 Timestamp('2013-01-02 00:00:00') nan 3 'train' 'foo']
 [2.0 Timestamp('2013-01-02 00:00:00') nan 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') nan 3 'test' 'foo']]


[1.0 Timestamp('2013-01-02 00:00:00') nan 3 'train' 'foo']
2013-01-02 00:00:00


<h3 align="center">მონაცემთა სტრუქტურა</h3>

In [167]:
# მონაცემების ტიპის გამოტანა
print(data.dtypes)

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


In [168]:
# მონაცემების სტატისტიკის გამოტანა
print(data.describe())

              A    C    D
count  4.000000  0.0  4.0
mean   2.000000  NaN  3.0
std    1.414214  NaN  0.0
min    1.000000  NaN  3.0
25%    1.000000  NaN  3.0
50%    1.500000  NaN  3.0
75%    2.500000  NaN  3.0
max    4.000000  NaN  3.0


In [169]:
# უნიკალური ელემენტების რაოდენობა
print(data.nunique())

A    3
B    1
C    0
D    1
E    2
F    1
dtype: int64


<h3 align="center">ოპერაციები ინდექსებზე</h3>

In [171]:
# სვეტის სახელის შეცვლა
data2 = data.rename(columns={'A': 'AA'})
print(data2)

          AA          B   C  D      E    F
2000-01  1.0 2013-01-02 NaN  3  train  foo
2000-02  4.0 2013-01-02 NaN  3  train  foo
2000-03  2.0 2013-01-02 NaN  3   test  foo
2000-04  1.0 2013-01-02 NaN  3   test  foo


In [172]:
data = pd.DataFrame({'A' : [1., 4., 2., 1.], 
                     'B' : pd.Timestamp('20130102'), 
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'), 
                     'D' : np.array([3] * 4,dtype='int32'), 
                     'E' : pd.Categorical(["train","train","test","test"]), 
                     'F' : 'foo' }, index=pd.period_range('Jan-2000', periods=4, freq='M'))

In [173]:
# რიგის ამოშლა
data2 = data.drop('D', axis=1, inplace=True)
print(data)

           A          B   C      E    F
2000-01  1.0 2013-01-02 NaN  train  foo
2000-02  4.0 2013-01-02 NaN  train  foo
2000-03  2.0 2013-01-02 NaN   test  foo
2000-04  1.0 2013-01-02 NaN   test  foo


In [174]:
data2 = data.drop('D', axis=1, inplace=True)
print(data)

KeyError: "['D'] not found in axis"

In [181]:
# რიგის გამოყოფა

print(data[data.columns[0]][2])
# print(data[1])    არ შეიძლება
# print(data[1, 2]) არ შეიძლება
print('\n')
print(data[:1])
print('\n')
print(data[-2:])

2.0


           A          B   C      E    F
2000-01  1.0 2013-01-02 NaN  train  foo


           A          B   C     E    F
2000-03  2.0 2013-01-02 NaN  test  foo
2000-04  1.0 2013-01-02 NaN  test  foo


In [183]:
# შემოწმება არის თუ არა ელემენტი შესაბამის რიგში
print(data['E'].isin(['test','valid']))

2000-01    False
2000-02    False
2000-03     True
2000-04     True
Freq: M, Name: E, dtype: bool


In [185]:
# ინდექსირების შეცვლა
print(data)
print('\n')
print(data.reindex(index=data.index[::-1]))

           A          B   C      E    F
2000-01  1.0 2013-01-02 NaN  train  foo
2000-02  4.0 2013-01-02 NaN  train  foo
2000-03  2.0 2013-01-02 NaN   test  foo
2000-04  1.0 2013-01-02 NaN   test  foo


           A          B   C      E    F
2000-04  1.0 2013-01-02 NaN   test  foo
2000-03  2.0 2013-01-02 NaN   test  foo
2000-02  4.0 2013-01-02 NaN  train  foo
2000-01  1.0 2013-01-02 NaN  train  foo


In [193]:
# პირდაპირი ინდექსირება
df = pd.DataFrame({'x':[1,2,3,4], 'y':[10,20,30,40]}, index=['a','b','c','d'])
print(df)
print('\n')
print(df.reindex(index=['d','b','x'], columns=['y','z']))

   x   y
a  1  10
b  2  20
c  3  30
d  4  40


      y   z
d  40.0 NaN
b  20.0 NaN
x   NaN NaN


In [195]:
#
s = pd.Series([10,20,60], index=[1,2,6])
print(s)
print('\n')
print(s.reindex(index=[2,3,4,5,6,7], method='ffill'))

1    10
2    20
6    60
dtype: int64


2    20
3    20
4    20
5    20
6    60
7    60
dtype: int64


In [206]:
df1 = pd.DataFrame({'x':[1,np.nan,2], 'y':[2,4,np.nan], 'z':[1,2,3]}) 
df2 = pd.DataFrame({'x':[20,40,np.nan], 'y':[2,4,20]})
print(df1)
print(df2)
print(df1.combine_first(df2))
print(df2.combine_first(df1))
print(df2.add(df1))
print(df2.(df1))

     x    y  z
0  1.0  2.0  1
1  NaN  4.0  2
2  2.0  NaN  3
      x   y
0  20.0   2
1  40.0   4
2   NaN  20
      x     y  z
0   1.0   2.0  1
1  40.0   4.0  2
2   2.0  20.0  3
      x   y    z
0  20.0   2  1.0
1  40.0   4  2.0
2   2.0  20  3.0
      x    y   z
0  21.0  4.0 NaN
1   NaN  8.0 NaN
2   NaN  NaN NaN


In [209]:
left = pd.DataFrame({'key': [1,2,1], 'l': [1, 2, 3]}) 
right = pd.DataFrame({'key': [1,2,3], 'r': [4, 5, 6]}) 
print(left)
print(right)
pd.merge(left, right, on='key')

   key  l
0    1  1
1    2  2
2    1  3
   key  r
0    1  4
1    2  5
2    3  6


Unnamed: 0,key,l,r
0,1,1,4
1,1,3,4
2,2,2,5


In [218]:
s1 = pd.Series([10,20,30,40], index = [1,2,3,4]) 
s2 = pd.Series([20,30,50], index = [2,3,5])
print(s1, '\n')
print(s2, '\n')
s1.align(s2)
s1.align(s2, join='inner')

1    10
2    20
3    30
4    40
dtype: int64 

2    20
3    30
5    50
dtype: int64 



(2    20
 3    30
 dtype: int64, 2    20
 3    30
 dtype: int64)

In [219]:
df = pd.DataFrame({'ind1':[1,1,1,2,2,2,2], 'ind2':[1,1,2,2,3,3,2], 'x':[1,2,3,4,5,6,7], 'y':[1,1,1,1,1,1,2]})
print(df)
print(df.pivot(index='x', columns='ind2', values='y'))

   ind1  ind2  x  y
0     1     1  1  1
1     1     1  2  1
2     1     2  3  1
3     2     2  4  1
4     2     3  5  1
5     2     3  6  1
6     2     2  7  2
ind2    1    2    3
x                  
1     1.0  NaN  NaN
2     1.0  NaN  NaN
3     NaN  1.0  NaN
4     NaN  1.0  NaN
5     NaN  NaN  1.0
6     NaN  NaN  1.0
7     NaN  2.0  NaN


In [220]:
s1 = pd.Series(np.cos(np.arange(100))) 
s2 = pd.(s1) 
f = pd.DataFrame({'s1':s1, 's2':s2}).plot() 
f.legend(['signal', 'cum_mean'])

AttributeError: module 'pandas' has no attribute 'expanding_mean'

<h3 align="center">ობიექტების შექმნა</h3>

<h3 align="center">მონაცემების დათვალიერება / შემოწმება</h3>

|              Method              |                Description               |
|:---------------------------------|:-----------------------------------------|
| df.head(n)                       | First $n$ rows of the DataFrame            |
| df.tail(n)                       | Last $n$ rows of the DataFrame             |
| df.shape                         | Number of rows and columns               |
| df.info()                        | Index, Datatype and Memory information   |
| df.describe()                    | Summary statistics for numerical columns |
| s.value_counts(dropna=False)     | View unique values and counts            |
| df.apply(pd.Series.value_counts) | Unique values and counts for all columns |

<h3 align="center">მონაცემთა ამორჩევა</h3>

<h3 align="center">მონაცემთა გაწმენდა</h3>

<h3 align="center">მონაცემთა ფილტრიცია, სორტირება და დაჯგუფება</h3>

<h3 align="center">მონაცემთა სტატისტიკის გამოყვანა</h3>

<h3 align="center">მონაცემთა იმპორტირება და ექსპორტირება</h3>

<h3 align="center">მონაცემთა იმპორტირება და ექსპორტირება</h3>

<h1 align="center">ლექციის დასასრული</h1>