# Pandas lib

## Creating frames

In [5]:
import pandas as pd

In [4]:
# creating dataframe with columns
frame = pd.DataFrame({'numbers':range(10), 'chars':['a']*10})

In [8]:
frame

Unnamed: 0,numbers,chars
0,0,a
1,1,a
2,2,a
3,3,a
4,4,a
5,5,a
6,6,a
7,7,a
8,8,a
9,9,a


## Reading frames

In [9]:
frame = pd.read_csv('dataset.tsv', header=0, sep='\t')

In [11]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [14]:
# we can see the headers
frame.columns

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')

In [16]:
# also we can see dataframe size
frame.shape

(6, 4)

## Editing frames

### How to add a new line

In [17]:
new_line = {'Name':'Perov', 'Birth':'22.03.1990', 'City':'Penza'}

In [21]:
frame = frame.append(new_line, ignore_index=True)

  frame = frame.append(new_line, ignore_index=True)


In [23]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Perov,22.03.1990,Penza,
7,Perov,22.03.1990,Penza,
8,Perov,22.03.1990,Penza,


### How to add a new column

In [24]:
frame['IsStudent'] = [False]*5 + [True]*4

In [26]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Perov,22.03.1990,Penza,,True
7,Perov,22.03.1990,Penza,,True
8,Perov,22.03.1990,Penza,,True


### How to delete a line(s)

In [27]:
frame.drop([5,6], axis=0, inplace=True)  # axis=0 is about the first column

In [28]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
7,Perov,22.03.1990,Penza,,True
8,Perov,22.03.1990,Penza,,True


### How to delete a column

In [29]:
frame.drop('IsStudent', axis=1, inplace=True)  # Here axis=1 is about the first line 

In [30]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
7,Perov,22.03.1990,Penza,
8,Perov,22.03.1990,Penza,


## Saving frames

In [31]:
frame.to_csv('upd_dataset.csv', sep=',', header=True, index=False)

In [1]:
# bash command (for windows)
!more upd_dataset.csv

Name,Birth,City,Position
Ð˜Ð²Ð°Ð½Ð¾Ð² Ð�.Ð�.,22.03.1980,ÐœÐ¾Ñ�ÐºÐ²Ð°,
Ð¡Ð¾Ñ€Ð¾ÐºÐ¸Ð½ Ð˜.Ð’.,07.08.1965,Ð’Ð¾Ð»Ð³Ð¾Ð³Ñ€Ð°Ð´,Ð¸Ð½Ð¶ÐµÐ½ÐµÑ€
Ð‘ÐµÐ»Ð¾Ð² Ðœ.Ðœ.,13.02.1980,Ð Ð¾Ñ�Ñ‚Ð¾Ð²,Ð¼ÐµÐ½ÐµÐ´Ð¶ÐµÑ€
ÐœÐµÐ»ÑŒÐ½Ð¸ÐºÐ¾Ð²Ð° Ð”.Ð¡.,15.04.1985,Ð Ð¾Ñ�Ñ‚Ð¾Ð²,
Ð Ñ‹Ð±Ð¸Ð½Ð° Ð•.ÐŸ.,19.11.1985,ÐœÐ¾Ñ�ÐºÐ²Ð°,Ð¸Ð½Ð¶ÐµÐ½ÐµÑ€
Perov,22.03.1990,Penza,
Perov,22.03.1990,Penza,


## Indexing and selection

In [33]:
import pandas as pd
import datetime as dt

In [6]:
frame = pd.read_csv('data_employees.tsv', header=0, sep='\t')

In [7]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [9]:
frame.dtypes  # show data types on frame

Name        object
Birth       object
City        object
Position    object
dtype: object

### How to change data type in a column

In [12]:
frame.Birth = frame.Birth.apply(pd.to_datetime)

In [13]:
frame.dtypes 

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

In [15]:
frame.info()  # info about the frame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Name      6 non-null      object        
 1   Birth     6 non-null      datetime64[ns]
 2   City      6 non-null      object        
 3   Position  4 non-null      object        
dtypes: datetime64[ns](1), object(3)
memory usage: 320.0+ bytes


### How to fill NULL values

In [16]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [18]:
frame.fillna('разнорабочий', inplace=True)  # "inplace" argument is responsible for changing the frame

### DataFrame coumns selection 

In [20]:
frame.Position  # get the column as an array

0    разнорабочий
1         инженер
2        менеджер
3    разнорабочий
4         инженер
5          стажер
Name: Position, dtype: object

In [21]:
frame[['Position']]  # get the column as a frame

Unnamed: 0,Position
0,разнорабочий
1,инженер
2,менеджер
3,разнорабочий
4,инженер
5,стажер


In [22]:
frame[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разнорабочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разнорабочий
4,Рыбина Е.П.,инженер
5,Костров С.О.,стажер


### DataFrame  lines selection

In [24]:
frame[:3]  # select the first 3 lines

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [26]:
frame[-3:]  # select the last 3 lines

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


### DataFrame selection (like SQL)

In [27]:
frame.loc[[1,2,3], ['Name', 'City']]  # works using  names

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
2,Белов М.М.,Ростов
3,Мельникова Д.С.,Ростов


In [28]:
frame.iloc[[1,2,3], [0,1]]  # works using digits 

Unnamed: 0,Name,Birth
1,Сорокин И.В.,1965-07-08
2,Белов М.М.,1980-02-13
3,Мельникова Д.С.,1985-04-15


In [31]:
frame.ix[[0,1,2], ["Name", "City"]]  # doesn't work in new Pandas version
frame.ix[[0,1,2], [0,1]]

AttributeError: 'DataFrame' object has no attribute 'ix'

### Selection with condition(s)

In [34]:
frame[frame.Birth >= dt.datetime(1985,1,1)]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [38]:
# AND condition

frame[(frame.Birth >= dt.datetime(1985,1,1)) &
      (frame.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий


In [45]:
# OR condition

frame[(frame.Birth > dt.datetime(1985,1,1)) |
      (frame.City == 'Волгоград')]

Unnamed: 0,Name,Birth,City,Position
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


### Performing the test

In [43]:
frame.shape

(6, 4)

In [46]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [50]:
# DELETING the lines

frame.drop(frame.index[2:], inplace=True)

In [51]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер


In [61]:
frame['IsStudent'] = (False, True)

# Other ways
# frame['IsStudent'] = False, True
# frame['IsStudent'] = [False, True]

In [62]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,1980-03-22,Москва,разнорабочий,False
1,Сорокин И.В.,1965-07-08,Волгоград,инженер,True
