# День 01 – Чистка данных I

Сегодня вы начинаете заниматься важным процессом – очистки данных. Это может быть иногда нудно и скучно, но это приходиться делать. Потому что иначе никакого анализа данных не получится. Точнее он будет максимально бесполезным, а может быть даже и вредным.

## 0. Импорт библиотек

In [2]:
import pandas as pd
import numpy as np 

## 1. Загрузка данных

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [128]:
df = pd.read_csv('/content/drive/MyDrive/School21/day01/d01_dataset.csv') 
df

Unnamed: 0,ID,CR_PROD_CNT_IL,AMOUNT_RUB_CLO_PRC,PRC_ACCEPTS_A_EMAIL_LINK,APP_REGISTR_RGN_CODE,PRC_ACCEPTS_A_POS,PRC_ACCEPTS_A_TK,TURNOVER_DYNAMIC_IL_1M,CNT_TRAN_AUT_TENDENCY1M,SUM_TRAN_AUT_TENDENCY1M,...,REST_DYNAMIC_CC_3M,MED_DEBT_PRC_YWZ,LDEAL_ACT_DAYS_PCT_TR3,LDEAL_ACT_DAYS_PCT_AAVG,LDEAL_DELINQ_PER_MAXYWZ,TURNOVER_DYNAMIC_CC_3M,LDEAL_ACT_DAYS_PCT_TR,LDEAL_ACT_DAYS_PCT_TR4,LDEAL_ACT_DAYS_PCT_CURR,TARGET
0,146841,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
1,146842,0,0.041033,,,,,0.0,0.166667,0.186107,...,0.0,,,,,0.0,,,,0
2,146843,0,0.006915,0.0,,0.0,0.0,0.0,,,...,0.0,,,,,0.0,,,,0
3,146844,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
4,146845,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
355185,590822,0,0.000000,0.0,,0.0,0.0,0.0,0.142857,0.123579,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
355186,590823,0,0.000000,0.0,,0.0,0.0,0.0,,,...,0.0,,,,,0.0,,,,0
355187,590825,0,0.041298,,,,,0.0,0.089286,0.065293,...,0.0,,,,,0.0,,,,0
355188,590826,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0


## 2. Полезные команды

Ниже мы покажем несколько полезных команд, которые вам могут пригодиться для выполнения сегодняшнего задания.

Напомним, что вы находитесь на этапе очистки данных, и сегодня вам нужно значения текстовых полей привести к единообразию. То есть слова, написанные немного по-разному, привести к одному варианту их написания.

1. Ниже команда, которая поможет вам выявить, какие же поля являются текстовыми.

In [124]:
df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355190 entries, 0 to 355189
Data columns (total 115 columns):
 #    Column                       Dtype  
---   ------                       -----  
 0    ID                           int64  
 1    CR_PROD_CNT_IL               int64  
 2    AMOUNT_RUB_CLO_PRC           float64
 3    PRC_ACCEPTS_A_EMAIL_LINK     float64
 4    APP_REGISTR_RGN_CODE         float64
 5    PRC_ACCEPTS_A_POS            float64
 6    PRC_ACCEPTS_A_TK             float64
 7    TURNOVER_DYNAMIC_IL_1M       float64
 8    CNT_TRAN_AUT_TENDENCY1M      float64
 9    SUM_TRAN_AUT_TENDENCY1M      float64
 10   AMOUNT_RUB_SUP_PRC           float64
 11   PRC_ACCEPTS_A_AMOBILE        float64
 12   SUM_TRAN_AUT_TENDENCY3M      float64
 13   CLNT_TRUST_RELATION          object 
 14   PRC_ACCEPTS_TK               float64
 15   PRC_ACCEPTS_A_MTP            float64
 16   REST_DYNAMIC_FDEP_1M         float64
 17   CNT_TRAN_AUT_TENDENCY3M      float64
 18   CNT_ACCEPTS_TK        

2. Команда, позволяющая посмотреть **список уникальных значений** в столбце:

In [125]:
df.APP_POSITION_TYPE.unique()

array([nan, 'specialist', 'self_empl', 'manager', 'top_manager'],
      dtype=object)

Она же, только представленная **в виде списка**. Бывает полезной, когда уникальных значений слишком много и в предыдущем варианте показываются не все из них. Плюс результат не содержит всякой лишней информации.

In [None]:
list(df.APP_COMP_TYPE.unique())

[nan, 'PRIVATE', 'STATE', 'IP', 'INTER']

3. Команда, которая позволяет привести все значения признака в **нижний регистр**:

In [None]:
df.APP_COMP_TYPE = df.APP_COMP_TYPE.str.lower() #недостаточно просто применить метод lower к столбцу, нужно как бы его перезаписать

In [None]:
list(df.APP_COMP_TYPE.unique())

[nan, 'private', 'state', 'ip', 'inter']

4. Команда, которая позволяет **заменить значения в столбце** на другие значения:

In [None]:
df.APP_COMP_TYPE.replace('state','гос',inplace=True)

In [None]:
list(df.APP_COMP_TYPE.unique())

[nan, 'private', 'гос', 'ip', 'inter']

5. Команда, которая позволяет **отсортировать** значения в списке (может пригодиться, чтобы посмотреть на длинный список):

In [None]:
list(df.APP_COMP_TYPE.unique()).sort()

TypeError: ignored

Пишет ошибку, потому что в списке есть nan – специальный тип данных, обозначающий пустое значение. По этой причине не может отсортировать список: все значения текстовые, а одно значение nan. Нужно этот nan удалить из списка уникальных значений, чтобы не мешался. Не будем вдаваться в подробности, почему ниже команда выглядит именно так. Она приводит нас к результату.

In [None]:
spisok = [x for x in list(df.APP_COMP_TYPE.unique()) if x == x]
spisok.sort()
spisok

['inter', 'ip', 'private', 'гос']

6. Команда, которая помогает **удалить из текстового поля числовые значения**, короткие значения, значения, где есть знаки препинания.

In [None]:
df.APP_COMP_TYPE.where(df.APP_COMP_TYPE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)

In [None]:
list(df.APP_COMP_TYPE.unique())

[nan, 'private', 'гос', 'ip', 'inter']

7. Если вам не хватает команд, представленных в этом ноутбуке, то вы можете **самостоятельно воспользоваться поиском в Google**.

"pandas how to save a csv-file with header"


"pandas how to compare values of two columns"

## 3. Самостоятельная часть

Ниже вам нужно самим почистить датасет в части текстовых полей.

In [126]:
df.CLNT_JOB_POSITION_TYPE.unique()

array([nan, 'specialist', 'self_empl', 'manager', 'top_manager'],
      dtype=object)

In [90]:
df.APP_MARITAL_STATUS.replace(' ',inplace=True)

In [127]:
df.CLNT_TRUST_RELATION.unique()

array([nan, 'mother', 'brother', 'friend', 'sister', 'other', 'relative',
       'daughter', 'son', 'father', 'близкий ро', 'муж', 'дальний ро',
       'жена'], dtype=object)

In [96]:
list(df.CLNT_JOB_POSITION.unique())

['директор по развитию бизнеса',
 'зам директора',
 'коммерческий директор',
 nan,
 'директор',
 'бухгалтер',
 'менеджер по продажам',
 'менеджер по прямому маркетингу',
 'руководитель',
 'монтер',
 'менеджер',
 'инспектор по кадрам',
 'продавец консультант',
 'заместидель директора',
 'консультант',
 'начальник отдела',
 'индивидуальный предпринематель',
 'администратор',
 'редактор',
 'конструктор',
 'студент',
 'старший техник',
 'руководитель отдела',
 'генеральный директор подразделения',
 'руководитель направления',
 'архитектор',
 'менеджер по развитию',
 'командир воздушного судна',
 'начальник службы',
 'диктор',
 'руководитель группы',
 'заместитель генерального директора',
 'предприниматель',
 'оператор',
 'мастер по маникюру',
 'инженер',
 'специалист отдела продаж',
 'индивидульный предприниматель',
 'генеральный директор',
 'делопроизводитель по документации',
 'инструктор по фитнесу',
 'завкафедрой',
 'заместитель директора',
 'фрезеровщик',
 'директор по маркетингу',
 '

In [95]:
df.CLNT_JOB_POSITION.where(df.CLNT_JOB_POSITION.str.replace(' ','').str.isalpha(), np.nan, inplace=True)

In [105]:
list(df.CLNT_JOB_POSITION.unique()).sort()

TypeError: ignored

In [106]:
spisok = [x for x in list(df.CLNT_JOB_POSITION.unique()) if x == x]
spisok.sort()
spisok

['account director',
 'account manager',
 'accountant',
 'adf manager',
 'administratore',
 'alter ego',
 'assistent',
 'associate',
 'attorney at law',
 'badge engineer',
 'boatswain',
 'cg',
 'chairman of the board',
 'chief excecutive officer',
 'chief officer',
 'community outreach manager',
 'coo директор',
 'cra',
 'crm manager',
 'cтарший преподователь',
 'data acquisition engineer',
 'delivery manager',
 'director',
 'directors',
 'distributer',
 'dj',
 'dj клуба',
 'doktorant',
 'dsa',
 'engine cadet',
 'esp специалист',
 'event manager',
 'executive director',
 'f',
 'fashion director',
 'fitter',
 'focus pulleer',
 'freelanser',
 'general director',
 'gescheftsfuhrer',
 'ghf',
 'head of global payments',
 'ho re ca promoutier',
 'hr btl',
 'hr директор',
 'hr менеджер',
 'htmr',
 'hаладчик',
 'inside sales',
 'inside sales specialist',
 'international business relations',
 'internet reseacher',
 'ios разработчик',
 'ip специалист',
 'it',
 'it manager',
 'it директор',
 'it 

In [116]:
df['CLNT_JOB_POSITION_TYPE'].equals(df['APP_POSITION_TYPE'])

False

In [111]:
df = df.drop(columns = 'APP_COMP_TYPE')

In [117]:
df = df.sort_values(by='ID', ascending=True)

In [122]:
df.to_csv("/content/drive/MyDrive/School21/day01/d01_dataset.csv", index=False)