# Pandas overview

## Data Frame

In [1]:
import pandas as pd 

In [10]:
frame = pd.DataFrame({'numbers': range(10), 'chars': ['a']*10})

In [11]:
frame

Unnamed: 0,numbers,chars
0,0,a
1,1,a
2,2,a
3,3,a
4,4,a
5,5,a
6,6,a
7,7,a
8,8,a
9,9,a


### Read from .tsv file

In [3]:
frame = pd.read_csv('dataset.tsv', header=0, sep='\t')

In [4]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [23]:
frame.columns

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')

In [24]:
frame.shape

(6, 4)

### Add new lines

In [5]:
new_line = {'Name': 'Жилкин Ф.И.', 'Birth': '05.11.1998', 'City': 'Санкт-Петербург', 'Position': 'Студент'}

In [8]:
frame = frame.append(new_line, ignore_index=True)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Жилкин Ф.И.,05.11.1998,Санкт-Петербург,Студент
7,Жилкин Ф.И.,05.11.1998,Санкт-Петербург,Студент


### Add new columns

In [9]:
frame['IsStudent'] = [False]*6 + [True]*2

In [10]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,False
6,Жилкин Ф.И.,05.11.1998,Санкт-Петербург,Студент,True
7,Жилкин Ф.И.,05.11.1998,Санкт-Петербург,Студент,True


### Remove lines

In [11]:
frame.drop([7], axis=0, inplace=True)
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,False
6,Жилкин Ф.И.,05.11.1998,Санкт-Петербург,Студент,True


### Remove columns

In [12]:
frame.drop('IsStudent', axis=1, inplace=True)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Жилкин Ф.И.,05.11.1998,Санкт-Петербург,Студент


### Write to .csv file

In [52]:
frame.to_csv('output_file.csv', sep=',', header=True, index=False)

### Indexing and selection

In [14]:
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

In [15]:
frame.Birth = frame.Birth.apply(pd.to_datetime)

In [19]:
frame.dtypes

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

In [21]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Name      7 non-null      object        
 1   Birth     7 non-null      datetime64[ns]
 2   City      7 non-null      object        
 3   Position  5 non-null      object        
dtypes: datetime64[ns](1), object(3)
memory usage: 600.0+ bytes


In [22]:
frame.fillna('Работа по умолчанию', inplace=True)

In [29]:
frame.Position

0    Работа по умолчанию
1                инженер
2               менеджер
3    Работа по умолчанию
4                инженер
5                 стажер
6                Студент
Name: Position, dtype: object

In [31]:
frame[['Position']]

Unnamed: 0,Position
0,Работа по умолчанию
1,инженер
2,менеджер
3,Работа по умолчанию
4,инженер
5,стажер
6,Студент


In [32]:
frame[['Position', 'Name']]

Unnamed: 0,Position,Name
0,Работа по умолчанию,Иванов А.А.
1,инженер,Сорокин И.В.
2,менеджер,Белов М.М.
3,Работа по умолчанию,Мельникова Д.С.
4,инженер,Рыбина Е.П.
5,стажер,Костров С.О.
6,Студент,Жилкин Ф.И.


In [44]:
frame.head(3)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,Работа по умолчанию
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [46]:
frame[:3]

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,Работа по умолчанию
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [42]:
frame.loc[[1, 3, 5], ['Name', 'City']]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [47]:
frame.iloc[[1, 3, 5], [0, 2]]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [55]:
frame[frame.Birth >= pd.to_datetime('1985.1.1')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,Работа по умолчанию
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер
6,Жилкин Ф.И.,1998-05-11,Санкт-Петербург,Студент


In [62]:
frame[(frame.Birth >= pd.to_datetime('1985.1.1')) & (frame.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,Работа по умолчанию
6,Жилкин Ф.И.,1998-05-11,Санкт-Петербург,Студент
