# Pandas-1

- Прочитать из .csv либо создать новый датафрейм

- Добавить или удалить строчки или столбцы

- Посмотреть величину датафрейма

- Записать датафрейм в .csv


In [57]:
import pandas as pd

In [58]:
#Создание нового датафрейма, пример
frame = pd.DataFrame({'numbers':range(10), 'chars':['a']*10})

In [59]:
# Чтение данных из датафрейма
frame = pd.read_csv('dataset.tsv', header=0, sep='\t')
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [60]:
#Чтобы обратиться к именам столбцов
frame.columns

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')

In [61]:
#Чтобы посмотреть размеры таблицы, можно использовать аттрибут shape
frame.shape

(6, 4)

In [62]:
#Добавить строчку
new_line = {'Name':'Perov', 'Birth':'22.03.1990', 'City':'Penza'}
frame = frame.append(new_line, ignore_index=True) #Чтобы append сработал, необходимо присвоить строчку какой-нибудь переменной
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Perov,22.03.1990,Penza,


In [63]:
#Добавим новый столбец на экран
frame['IsStudent'] = [False]*5 + [True]*2
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Perov,22.03.1990,Penza,,True


In [64]:
#Удаление двух последних строк. axis=0, потому что удаление построчное
frame.drop([5,6], axis=0, inplace=True)
#Чтобы drop сработал, необходимо присвоить переменной эту строчку. Либо написать inplace=True
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


In [65]:
#Запишем получившийся датафрейм в файл. 
#Разделитель - запятая, заголовки включены, индексы не нужны
frame.to_csv('updated_dataset.csv', sep=',', header=True, index=None)

In [66]:
#Запуск "как бы" из командной строки
!cat updated_dataset.csv

Name,Birth,City,Position,IsStudent
Иванов А.А.,22.03.1980,Москва,,False
Сорокин И.В.,07.08.1965,Волгоград,инженер,False
Белов М.М.,13.02.1980,Ростов,менеджер,False
Мельникова Д.С.,15.04.1985,Ростов,,False
Рыбина Е.П.,19.11.1985,Москва,инженер,False


# Pandas-2

- Посмотреть тип значений столбцов

- Поменять тип значений какого-ниудь столбца в таблице

- Заполнить пропуски NaN определённым значением

- Вывести отдельно столбцы таблицы

- Оставить в таблице строки, подходящие под отдельные критерии/условия

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore") 

In [2]:
frame = pd.read_csv('dataset.tsv', sep='\t', header=0)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [3]:
#Посмотрим, какого типа наши столбцы
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

In [4]:
#Поменяем тип столбца Birth (Датафреййм не работает без inplace -> нужно присваивание)
frame.Birth = frame.Birth.apply(pd.to_datetime)
frame.dtypes

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

In [5]:
#Получаем информацию по всему датафрейму
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
Name        6 non-null object
Birth       6 non-null datetime64[ns]
City        6 non-null object
Position    4 non-null object
dtypes: datetime64[ns](1), object(3)
memory usage: 272.0+ bytes


In [6]:
#Заполним пропуски в таблице строчкой "разнорабочий" (не работает без inplace)
frame.fillna('разнорабочий', inplace=True)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [7]:
#Выведем столбцы Name и Position отдельно
frame[['Position']]

Unnamed: 0,Position
0,разнорабочий
1,инженер
2,менеджер
3,разнорабочий
4,инженер
5,стажер


In [8]:
#Выведем первые 3 строки
frame.head(3)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [9]:
#Выведем первые 3 строки [Второй способ]
#Альтернативно можно с фреймом работать как со списком
frame[:3]

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [10]:
#Обращаемся к таблице по отдельным критериям, функция loc
frame.loc[[1,3,5], ['Name', 'City']]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [11]:
#Обращаемся к таблице по отдельным критериям не по имени, а по позиции (0 - Name, 2 - City)
frame.iloc[[1,3,5], [0,2]]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [12]:
#Обращаемся к таблице по отдельным критериям и по имени, и по позиции
frame.ix[[1,3,5], ['Name', 'City']]
frame.ix[[1,3,5], [0,2]] #то же самое, что строчка сверху

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [13]:
#Оставляем значения таблицы, подходящие под условия
frame[(frame.Birth >= pd.datetime(1985,1,1)) & (frame.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий


# Cross-validation