# Работа с датами

In [1]:
# загружаем необходимые библиотеки
import numpy as np
import pandas as pd

In [2]:
# записываем датафрейм на основе CSV файла, содержащего даты
data = pd.read_csv('Data/MFOcredit.csv', encoding='cp1251', sep=';')
data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,region,credits,children,delinq60plus
0,1,03-Jan-2013,12-Jan-2013,Мужской&*,44,Нет,Собственное,Гражданский брак/женат/замужем,Нет,_Официальное,Новосибирская область,Нет,Да,Нет
1,2,03-Jan-2013,17-Jan-2013,Мужской&*,21,Пропуск поля,Живут с родителями,Холост,Нет,_Официальное,Кемеровская область юг,Да,Нет,Нет
2,3,03-Jan-2013,17-Jan-2013,Мужской&*,25,Пропуск поля,Собственное,Холост,Да,_Официальное,Кемеровская область север,Пропуск поля,Нет,Нет
3,4,03-Jan-2013,17-Jan-2013,Женский,47,Пропуск поля,Собственное,Гражданский брак/женат/замужем,Да,Офи&циальное,Кемеровская область север,Нет,Нет,Нет
4,5,03-Jan-2013,17-Jan-2013,Мужской&*,22,Нет,Арендуемое,Гражданский брак/женат/замужем,Нет,Официальное,Кемеровская область север,Да,Да,Нет


In [3]:
# переменным date_start и date_end присваиваем тип datetime, 
# чтобы работать с этими переменными как с датами
data['date_start'] = pd.to_datetime(data['date_start'])
data['date_end'] = pd.to_datetime(data['date_end'])
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35212 entries, 0 to 35211
Data columns (total 14 columns):
id              35212 non-null int64
date_start      35212 non-null datetime64[ns]
date_end        35212 non-null datetime64[ns]
gender          35212 non-null object
age             35212 non-null int64
auto            35212 non-null object
housing         35212 non-null object
marstatus       35212 non-null object
regclient       35212 non-null object
jobtype         35212 non-null object
region          35212 non-null object
credits         35212 non-null object
children        35212 non-null object
delinq60plus    35212 non-null object
dtypes: datetime64[ns](2), int64(2), object(10)
memory usage: 3.8+ MB


In [4]:
# вычисляем разницу в днях между датой погашения займа и 
# датой открытия займа, т.е. по сути вычисляем срок займа
data['diff'] = (data['date_end'] - data['date_start']).dt.days
data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,region,credits,children,delinq60plus,diff
0,1,2013-01-03,2013-01-12,Мужской&*,44,Нет,Собственное,Гражданский брак/женат/замужем,Нет,_Официальное,Новосибирская область,Нет,Да,Нет,9
1,2,2013-01-03,2013-01-17,Мужской&*,21,Пропуск поля,Живут с родителями,Холост,Нет,_Официальное,Кемеровская область юг,Да,Нет,Нет,14
2,3,2013-01-03,2013-01-17,Мужской&*,25,Пропуск поля,Собственное,Холост,Да,_Официальное,Кемеровская область север,Пропуск поля,Нет,Нет,14
3,4,2013-01-03,2013-01-17,Женский,47,Пропуск поля,Собственное,Гражданский брак/женат/замужем,Да,Офи&циальное,Кемеровская область север,Нет,Нет,Нет,14
4,5,2013-01-03,2013-01-17,Мужской&*,22,Нет,Арендуемое,Гражданский брак/женат/замужем,Нет,Официальное,Кемеровская область север,Да,Да,Нет,14


In [5]:
# выделяем из переменной data_start года 
data['year'] = pd.DatetimeIndex(data['date_start']).year

# выделяем из переменной data_start кварталы
data['quarter'] = pd.DatetimeIndex(data['date_start']).quarter

# выделяем из переменной data_start месяцы, где 1 - январь, 12 - декабрь
data['month'] = pd.DatetimeIndex(data['date_start']).month

# выделяем из переменной data_start порядковые номера дней от 1 до 31
data['day'] = pd.DatetimeIndex(data['date_start']).day

# выделяем из переменной data_start дни недели от 0 до 6, 
# где 0 - понедельник, 6 - воскресенье
data['dayofweek'] = pd.DatetimeIndex(data['date_start']).dayofweek

# выделяем из переменной data_start названия дней недели
data['weekday_name'] = pd.DatetimeIndex(data['date_start']).weekday_name

data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,...,credits,children,delinq60plus,diff,year,quarter,month,day,dayofweek,weekday_name
0,1,2013-01-03,2013-01-12,Мужской&*,44,Нет,Собственное,Гражданский брак/женат/замужем,Нет,_Официальное,...,Нет,Да,Нет,9,2013,1,1,3,3,Thursday
1,2,2013-01-03,2013-01-17,Мужской&*,21,Пропуск поля,Живут с родителями,Холост,Нет,_Официальное,...,Да,Нет,Нет,14,2013,1,1,3,3,Thursday
2,3,2013-01-03,2013-01-17,Мужской&*,25,Пропуск поля,Собственное,Холост,Да,_Официальное,...,Пропуск поля,Нет,Нет,14,2013,1,1,3,3,Thursday
3,4,2013-01-03,2013-01-17,Женский,47,Пропуск поля,Собственное,Гражданский брак/женат/замужем,Да,Офи&циальное,...,Нет,Нет,Нет,14,2013,1,1,3,3,Thursday
4,5,2013-01-03,2013-01-17,Мужской&*,22,Нет,Арендуемое,Гражданский брак/женат/замужем,Нет,Официальное,...,Да,Да,Нет,14,2013,1,1,3,3,Thursday


In [6]:
# записываем датафрейм на основе CSV файла, 
# содержащего различные форматы даты
data2 = pd.read_csv('Data/DiffDates.csv', encoding='cp1251', sep=';')
data2.head()

Unnamed: 0,даты в формате dd.mm.yyyy,даты в формате dd.mm.yy,даты в формате dd-Mth-yyyy,даты в формате dd-mm-yy,"даты в формате Month dd, yyyy",даты в формате dd.mm.yyyy hh:mm,даты в формате ddMMMyy:hh:mm:ss,даты в формате dd/mm/yyyy
0,01.10.2009,01.10.09,01-Oct-2009,01-10-09,"October 1, 2009",01.10.2009 9:30,18APR17:00:00:00,01/10/2009
1,09.12.2008,09.12.08,09-Dec-2008,09-12-08,"December 9, 2008",09.12.2008 10:02,10MAR17:00:00:00,09/12/2008
2,01.11.2012,01.11.12,01-Nov-2012,01-11-12,"November 01, 2012",01.11.2012 0:05,21FEB17:00:00:00,01/11/2012
3,15.12.2016,15.12.16,15-Dec-2016,15-12-16,"December 15, 2016",15.12.2016 16:07,26APR17:00:00:00,15/12/2016
4,11.03.2014,11.03.14,11-Mar-2014,11-03-14,"March 11, 2014",11.03.2014 15:08,08APR17:00:00:00,11/03/2014


In [7]:
# присваиваем переменным тип datetime, задав с помощью 
# параметра format паттерн парсинга даты
data2['даты в формате dd.mm.yyyy'] = pd.to_datetime(data2['даты в формате dd.mm.yyyy'], 
                                                    format='%d.%m.%Y')
data2['даты в формате dd.mm.yy'] = pd.to_datetime(data2['даты в формате dd.mm.yy'], 
                                                  format='%d.%m.%y')
data2['даты в формате dd-Mth-yyyy'] = pd.to_datetime(data2['даты в формате dd-Mth-yyyy'], 
                                                     format='%d-%b-%Y')
data2['даты в формате dd-mm-yy'] = pd.to_datetime(data2['даты в формате dd-mm-yy'], 
                                                  format='%d-%m-%y')
data2['даты в формате Month dd, yyyy'] = pd.to_datetime(data2['даты в формате Month dd, yyyy'], 
                                                        format='%B %d, %Y')
data2['даты в формате dd.mm.yyyy hh:mm'] = pd.to_datetime(
    data2['даты в формате dd.mm.yyyy hh:mm'], 
    format='%d.%m.%Y %H:%M')
data2['даты в формате ddMMMyy:hh:mm:ss'] = pd.to_datetime(
    data2['даты в формате ddMMMyy:hh:mm:ss'], 
    format='%d%b%y:%H:%M:%S')
data2['даты в формате dd/mm/yyyy'] = pd.to_datetime(
    data2['даты в формате dd/mm/yyyy'], 
    format='%d/%m/%Y')
data2.head()

Unnamed: 0,даты в формате dd.mm.yyyy,даты в формате dd.mm.yy,даты в формате dd-Mth-yyyy,даты в формате dd-mm-yy,"даты в формате Month dd, yyyy",даты в формате dd.mm.yyyy hh:mm,даты в формате ddMMMyy:hh:mm:ss,даты в формате dd/mm/yyyy
0,2009-10-01,2009-10-01,2009-10-01,2009-10-01,2009-10-01,2009-10-01 09:30:00,2017-04-18,2009-10-01
1,2008-12-09,2008-12-09,2008-12-09,2008-12-09,2008-12-09,2008-12-09 10:02:00,2017-03-10,2008-12-09
2,2012-11-01,2012-11-01,2012-11-01,2012-11-01,2012-11-01,2012-11-01 00:05:00,2017-02-21,2012-11-01
3,2016-12-15,2016-12-15,2016-12-15,2016-12-15,2016-12-15,2016-12-15 16:07:00,2017-04-26,2016-12-15
4,2014-03-11,2014-03-11,2014-03-11,2014-03-11,2014-03-11,2014-03-11 15:08:00,2017-04-08,2014-03-11


# Работа со строками

## Изменение регистра строк

In [8]:
# переводим строки (значения переменной marstatus) в нижний регистр 
data['marstatus'] = data['marstatus'].str.lower()
data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,...,credits,children,delinq60plus,diff,year,quarter,month,day,dayofweek,weekday_name
0,1,2013-01-03,2013-01-12,Мужской&*,44,Нет,Собственное,гражданский брак/женат/замужем,Нет,_Официальное,...,Нет,Да,Нет,9,2013,1,1,3,3,Thursday
1,2,2013-01-03,2013-01-17,Мужской&*,21,Пропуск поля,Живут с родителями,холост,Нет,_Официальное,...,Да,Нет,Нет,14,2013,1,1,3,3,Thursday
2,3,2013-01-03,2013-01-17,Мужской&*,25,Пропуск поля,Собственное,холост,Да,_Официальное,...,Пропуск поля,Нет,Нет,14,2013,1,1,3,3,Thursday
3,4,2013-01-03,2013-01-17,Женский,47,Пропуск поля,Собственное,гражданский брак/женат/замужем,Да,Офи&циальное,...,Нет,Нет,Нет,14,2013,1,1,3,3,Thursday
4,5,2013-01-03,2013-01-17,Мужской&*,22,Нет,Арендуемое,гражданский брак/женат/замужем,Нет,Официальное,...,Да,Да,Нет,14,2013,1,1,3,3,Thursday


In [9]:
# переводим строки (значения переменной marstatus) в верхний регистр 
data['marstatus'] = data['marstatus'].str.upper()
data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,...,credits,children,delinq60plus,diff,year,quarter,month,day,dayofweek,weekday_name
0,1,2013-01-03,2013-01-12,Мужской&*,44,Нет,Собственное,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Нет,_Официальное,...,Нет,Да,Нет,9,2013,1,1,3,3,Thursday
1,2,2013-01-03,2013-01-17,Мужской&*,21,Пропуск поля,Живут с родителями,ХОЛОСТ,Нет,_Официальное,...,Да,Нет,Нет,14,2013,1,1,3,3,Thursday
2,3,2013-01-03,2013-01-17,Мужской&*,25,Пропуск поля,Собственное,ХОЛОСТ,Да,_Официальное,...,Пропуск поля,Нет,Нет,14,2013,1,1,3,3,Thursday
3,4,2013-01-03,2013-01-17,Женский,47,Пропуск поля,Собственное,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Да,Офи&циальное,...,Нет,Нет,Нет,14,2013,1,1,3,3,Thursday
4,5,2013-01-03,2013-01-17,Мужской&*,22,Нет,Арендуемое,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Нет,Официальное,...,Да,Да,Нет,14,2013,1,1,3,3,Thursday


## Изменение строкового значения

In [10]:
# меняем одно из строковых значений переменной marstatus
data['marstatus'] = data['marstatus'].str.replace('ХОЛОСТ', 'Не женат/не замужем')
data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,...,credits,children,delinq60plus,diff,year,quarter,month,day,dayofweek,weekday_name
0,1,2013-01-03,2013-01-12,Мужской&*,44,Нет,Собственное,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Нет,_Официальное,...,Нет,Да,Нет,9,2013,1,1,3,3,Thursday
1,2,2013-01-03,2013-01-17,Мужской&*,21,Пропуск поля,Живут с родителями,Не женат/не замужем,Нет,_Официальное,...,Да,Нет,Нет,14,2013,1,1,3,3,Thursday
2,3,2013-01-03,2013-01-17,Мужской&*,25,Пропуск поля,Собственное,Не женат/не замужем,Да,_Официальное,...,Пропуск поля,Нет,Нет,14,2013,1,1,3,3,Thursday
3,4,2013-01-03,2013-01-17,Женский,47,Пропуск поля,Собственное,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Да,Офи&циальное,...,Нет,Нет,Нет,14,2013,1,1,3,3,Thursday
4,5,2013-01-03,2013-01-17,Мужской&*,22,Нет,Арендуемое,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Нет,Официальное,...,Да,Да,Нет,14,2013,1,1,3,3,Thursday


In [11]:
# удаляем лишние символы из строковых значений
# переменных gender и jobtype
for i in ['gender', 'jobtype']:
    if i in data.columns:
        data[i] = data[i].str.replace('[*&_]', '')
data.head()

Unnamed: 0,id,date_start,date_end,gender,age,auto,housing,marstatus,regclient,jobtype,...,credits,children,delinq60plus,diff,year,quarter,month,day,dayofweek,weekday_name
0,1,2013-01-03,2013-01-12,Мужской,44,Нет,Собственное,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Нет,Официальное,...,Нет,Да,Нет,9,2013,1,1,3,3,Thursday
1,2,2013-01-03,2013-01-17,Мужской,21,Пропуск поля,Живут с родителями,Не женат/не замужем,Нет,Официальное,...,Да,Нет,Нет,14,2013,1,1,3,3,Thursday
2,3,2013-01-03,2013-01-17,Мужской,25,Пропуск поля,Собственное,Не женат/не замужем,Да,Официальное,...,Пропуск поля,Нет,Нет,14,2013,1,1,3,3,Thursday
3,4,2013-01-03,2013-01-17,Женский,47,Пропуск поля,Собственное,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Да,Официальное,...,Нет,Нет,Нет,14,2013,1,1,3,3,Thursday
4,5,2013-01-03,2013-01-17,Мужской,22,Нет,Арендуемое,ГРАЖДАНСКИЙ БРАК/ЖЕНАТ/ЗАМУЖЕМ,Нет,Официальное,...,Да,Да,Нет,14,2013,1,1,3,3,Thursday


## Определение пола клиента по отчеству

In [12]:
# загружаем CSV файл с ФИО клиентов, по которым нужно определить пол
data3 = pd.read_csv('Data/Gender_based_on_middle_name.csv', encoding='cp1251', sep=';')
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус
0,_Колесников Вячеслав Анатольевич,33,Красноярск- 2,Вернул(а)
1,_Саймурзанов Михаил Борисович,22,Красноярск- 2,Вернул(а)
2,Абаимов Максим Дмитриевич,43,Москва- 4,Вернул(а)
3,Абакумова Юлия Ивановна,22,Москва- 4,Вернул(а)
4,Абанова Елена Владимировна,54,Санкт-Петербург- 6,Вернул(а)
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург- 6,Вернул(а)
6,Абдугалиева Айгуль Максутовна,27,Москва- 4,Не вернул(а)
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург- 8,Не вернул(а)
8,Абдуллин Евгений Эдуардович,22,Екатеринбург- 8,Не вернул(а)
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург- 8,Вернул(а)


In [13]:
# создаем переменную Пол, которая будет иметь значение True, если строковое значение
# переменной Клиент содержит паттерн "вна" (Викторовна, Дмитриевна), 
# и False в противном случае
data3['Пол'] = data3['Клиент'].str.contains('вна')  
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол
0,_Колесников Вячеслав Анатольевич,33,Красноярск- 2,Вернул(а),False
1,_Саймурзанов Михаил Борисович,22,Красноярск- 2,Вернул(а),False
2,Абаимов Максим Дмитриевич,43,Москва- 4,Вернул(а),False
3,Абакумова Юлия Ивановна,22,Москва- 4,Вернул(а),True
4,Абанова Елена Владимировна,54,Санкт-Петербург- 6,Вернул(а),True
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург- 6,Вернул(а),True
6,Абдугалиева Айгуль Максутовна,27,Москва- 4,Не вернул(а),True
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург- 8,Не вернул(а),False
8,Абдуллин Евгений Эдуардович,22,Екатеринбург- 8,Не вернул(а),False
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург- 8,Вернул(а),True


In [14]:
# присвоим переменной Пол тип str
data3['Пол'] = data3['Пол'].astype('str')

In [15]:
# переименуем категории переменной Пол
d = {'False': 'Мужской', 'True': 'Женский'}
data3['Пол'] = data3['Пол'].map(d)
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол
0,_Колесников Вячеслав Анатольевич,33,Красноярск- 2,Вернул(а),Мужской
1,_Саймурзанов Михаил Борисович,22,Красноярск- 2,Вернул(а),Мужской
2,Абаимов Максим Дмитриевич,43,Москва- 4,Вернул(а),Мужской
3,Абакумова Юлия Ивановна,22,Москва- 4,Вернул(а),Женский
4,Абанова Елена Владимировна,54,Санкт-Петербург- 6,Вернул(а),Женский
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург- 6,Вернул(а),Женский
6,Абдугалиева Айгуль Максутовна,27,Москва- 4,Не вернул(а),Женский
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург- 8,Не вернул(а),Мужской
8,Абдуллин Евгений Эдуардович,22,Екатеринбург- 8,Не вернул(а),Мужской
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург- 8,Вернул(а),Женский


In [16]:
# извлекаем последние три символа в каждом строковом значении переменной Клиент
# и затем на основе полученных значений создаем новую переменную
data3['Пол2'] = data3['Клиент'].str[-3:]
# переименуем категории переменной Пол2
d = {'вич': 'Мужской', 'вна': 'Женский'}
data3['Пол2'] = data3['Пол2'].map(d)
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол,Пол2
0,_Колесников Вячеслав Анатольевич,33,Красноярск- 2,Вернул(а),Мужской,Мужской
1,_Саймурзанов Михаил Борисович,22,Красноярск- 2,Вернул(а),Мужской,Мужской
2,Абаимов Максим Дмитриевич,43,Москва- 4,Вернул(а),Мужской,Мужской
3,Абакумова Юлия Ивановна,22,Москва- 4,Вернул(а),Женский,Женский
4,Абанова Елена Владимировна,54,Санкт-Петербург- 6,Вернул(а),Женский,Женский
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург- 6,Вернул(а),Женский,Женский
6,Абдугалиева Айгуль Максутовна,27,Москва- 4,Не вернул(а),Женский,Женский
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург- 8,Не вернул(а),Мужской,Мужской
8,Абдуллин Евгений Эдуардович,22,Екатеринбург- 8,Не вернул(а),Мужской,Мужской
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург- 8,Вернул(а),Женский,Женский


## Удаление лишних символов из строк

In [17]:
# с помощью метода .str.lstrip() удалим ненужный символ 
# подчеркивания, с которого начинаются несколько значений 
# переменной Клиент, метод .str.lstrip() возвращает 
# копию указанной строки, с начала (слева l — left) 
# которой устранены указанные символы
data3['Клиент'] = data3['Клиент'].str.lstrip('_')
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол,Пол2
0,Колесников Вячеслав Анатольевич,33,Красноярск- 2,Вернул(а),Мужской,Мужской
1,Саймурзанов Михаил Борисович,22,Красноярск- 2,Вернул(а),Мужской,Мужской
2,Абаимов Максим Дмитриевич,43,Москва- 4,Вернул(а),Мужской,Мужской
3,Абакумова Юлия Ивановна,22,Москва- 4,Вернул(а),Женский,Женский
4,Абанова Елена Владимировна,54,Санкт-Петербург- 6,Вернул(а),Женский,Женский
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург- 6,Вернул(а),Женский,Женский
6,Абдугалиева Айгуль Максутовна,27,Москва- 4,Не вернул(а),Женский,Женский
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург- 8,Не вернул(а),Мужской,Мужской
8,Абдуллин Евгений Эдуардович,22,Екатеринбург- 8,Не вернул(а),Мужской,Мужской
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург- 8,Вернул(а),Женский,Женский


In [18]:
# с помощью метода .str.rstrip() удалим ненужные символы, которыми 
# заканчиваются некоторые значения переменной Возраст, метод 
# .str.rstrip() возвращает копию указанной строки, с конца 
# (справа r — right) которой устранены указанные символы
data3['Возраст'] = data3['Возраст'].str.rstrip('&лет')
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол,Пол2
0,Колесников Вячеслав Анатольевич,33,Красноярск- 2,Вернул(а),Мужской,Мужской
1,Саймурзанов Михаил Борисович,22,Красноярск- 2,Вернул(а),Мужской,Мужской
2,Абаимов Максим Дмитриевич,43,Москва- 4,Вернул(а),Мужской,Мужской
3,Абакумова Юлия Ивановна,22,Москва- 4,Вернул(а),Женский,Женский
4,Абанова Елена Владимировна,54,Санкт-Петербург- 6,Вернул(а),Женский,Женский
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург- 6,Вернул(а),Женский,Женский
6,Абдугалиева Айгуль Максутовна,27,Москва- 4,Не вернул(а),Женский,Женский
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург- 8,Не вернул(а),Мужской,Мужской
8,Абдуллин Евгений Эдуардович,22,Екатеринбург- 8,Не вернул(а),Мужской,Мужской
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург- 8,Вернул(а),Женский,Женский


In [19]:
# удаляем последние 3 символа в каждом строковом 
# значении переменной Регион
data3['Регион'] = data3['Регион'].map(lambda x: str(x)[:-3])
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол,Пол2
0,Колесников Вячеслав Анатольевич,33,Красноярск,Вернул(а),Мужской,Мужской
1,Саймурзанов Михаил Борисович,22,Красноярск,Вернул(а),Мужской,Мужской
2,Абаимов Максим Дмитриевич,43,Москва,Вернул(а),Мужской,Мужской
3,Абакумова Юлия Ивановна,22,Москва,Вернул(а),Женский,Женский
4,Абанова Елена Владимировна,54,Санкт-Петербург,Вернул(а),Женский,Женский
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург,Вернул(а),Женский,Женский
6,Абдугалиева Айгуль Максутовна,27,Москва,Не вернул(а),Женский,Женский
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург,Не вернул(а),Мужской,Мужской
8,Абдуллин Евгений Эдуардович,22,Екатеринбург,Не вернул(а),Мужской,Мужской
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург,Вернул(а),Женский,Женский


## Удаление повторяющихся строк

In [20]:
# удаляем дублирующиеся строки
data3 = data3.drop_duplicates()
data3.head(20)

Unnamed: 0,Клиент,Возраст,Регион,Статус,Пол,Пол2
0,Колесников Вячеслав Анатольевич,33,Красноярск,Вернул(а),Мужской,Мужской
1,Саймурзанов Михаил Борисович,22,Красноярск,Вернул(а),Мужской,Мужской
2,Абаимов Максим Дмитриевич,43,Москва,Вернул(а),Мужской,Мужской
3,Абакумова Юлия Ивановна,22,Москва,Вернул(а),Женский,Женский
4,Абанова Елена Владимировна,54,Санкт-Петербург,Вернул(а),Женский,Женский
5,Абдрахимова Юлия Рафиковна,23,Санкт-Петербург,Вернул(а),Женский,Женский
6,Абдугалиева Айгуль Максутовна,27,Москва,Не вернул(а),Женский,Женский
7,Абдуллаев Ильгар Эльдарович,44,Екатеринбург,Не вернул(а),Мужской,Мужской
8,Абдуллин Евгений Эдуардович,22,Екатеринбург,Не вернул(а),Мужской,Мужской
9,Абдуллина Екатерина Анатольевна,63,Екатеринбург,Вернул(а),Женский,Женский


## Извлечение нужных символов из строк

In [21]:
# загружаем данные
data4 = pd.read_csv('Data/Raw_text.csv', encoding='cp1251')
data4

Unnamed: 0,raw
0,KDR 1 2014-12-23 3242.0
1,MSK 1 2010-02-23 3453.7
2,KRSK 0 2014-06-20 2123.0
3,SPB 0 2014-03-14 1123.6
4,EKB 1 2013-01-15 2134.0


In [22]:
# с помощью метода .str.extract() извлекаем даты из столбца raw, 
# создав переменную date
data4['date'] = data4['raw'].str.extract('(....-..-..)', expand=True)
data4

Unnamed: 0,raw,date
0,KDR 1 2014-12-23 3242.0,2014-12-23
1,MSK 1 2010-02-23 3453.7,2010-02-23
2,KRSK 0 2014-06-20 2123.0,2014-06-20
3,SPB 0 2014-03-14 1123.6,2014-03-14
4,EKB 1 2013-01-15 2134.0,2013-01-15


In [23]:
# извлекаем одиночные цифры из столбца raw, создав переменную gender 
data4['gender'] = data4['raw'].str.extract('(\d)', expand=True)
data4

Unnamed: 0,raw,date,gender
0,KDR 1 2014-12-23 3242.0,2014-12-23,1
1,MSK 1 2010-02-23 3453.7,2010-02-23,1
2,KRSK 0 2014-06-20 2123.0,2014-06-20,0
3,SPB 0 2014-03-14 1123.6,2014-03-14,0
4,EKB 1 2013-01-15 2134.0,2013-01-15,1


In [24]:
# извлекаем числа с плавающей точкой из столбца raw, 
# создав переменную score
data4['score'] = data4['raw'].str.extract('(\d\d\d\d\.\d)', expand=True)
data4

Unnamed: 0,raw,date,gender,score
0,KDR 1 2014-12-23 3242.0,2014-12-23,1,3242.0
1,MSK 1 2010-02-23 3453.7,2010-02-23,1,3453.7
2,KRSK 0 2014-06-20 2123.0,2014-06-20,0,2123.0
3,SPB 0 2014-03-14 1123.6,2014-03-14,0,1123.6
4,EKB 1 2013-01-15 2134.0,2013-01-15,1,2134.0


In [25]:
# извлекаем текст из столбца raw, создав переменную city
data4['city'] = data4['raw'].str.extract('([A-Z]\w{0,})', expand=True)
data4

Unnamed: 0,raw,date,gender,score,city
0,KDR 1 2014-12-23 3242.0,2014-12-23,1,3242.0,KDR
1,MSK 1 2010-02-23 3453.7,2010-02-23,1,3453.7,MSK
2,KRSK 0 2014-06-20 2123.0,2014-06-20,0,2123.0,KRSK
3,SPB 0 2014-03-14 1123.6,2014-03-14,0,1123.6,SPB
4,EKB 1 2013-01-15 2134.0,2013-01-15,1,2134.0,EKB
