# День 01 – Чистка данных I

Сегодня вы начинаете заниматься важным процессом – очистки данных. Это может быть иногда нудно и скучно, но это приходиться делать. Потому что иначе никакого анализа данных не получится. Точнее он будет максимально бесполезным, а может быть даже и вредным.

## 0. Импорт библиотек

In [None]:
import pandas as pd
import numpy as np 

## 1. Загрузка данных

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/School21/day01/bank_data_train.csv') 
df.head() 

## 2. Полезные команды

Ниже мы покажем несколько полезных команд, которые вам могут пригодиться для выполнения сегодняшнего задания.

Напомним, что вы находитесь на этапе очистки данных, и сегодня вам нужно значения текстовых полей привести к единообразию. То есть слова, написанные немного по-разному, привести к одному варианту их написания.

1. Ниже команда, которая поможет вам выявить, какие же поля являются текстовыми.

In [None]:
df.info(verbose=True)

2. Команда, позволяющая посмотреть **список уникальных значений** в столбце:

In [None]:
df.APP_COMP_TYPE.unique()

Она же, только представленная **в виде списка**. Бывает полезной, когда уникальных значений слишком много и в предыдущем варианте показываются не все из них. Плюс результат не содержит всякой лишней информации.

In [None]:
list(df.APP_COMP_TYPE.unique())

3. Команда, которая позволяет привести все значения признака в **нижний регистр**:

In [None]:
df.APP_COMP_TYPE = df.APP_COMP_TYPE.str.lower() #недостаточно просто применить метод lower к столбцу, нужно как бы его перезаписать

In [None]:
list(df.APP_COMP_TYPE.unique())

4. Команда, которая позволяет **заменить значения в столбце** на другие значения:

In [None]:
df.APP_COMP_TYPE.replace('state','гос',inplace=True)

In [None]:
list(df.APP_COMP_TYPE.unique())

5. Команда, которая позволяет **отсортировать** значения в списке (может пригодиться, чтобы посмотреть на длинный список):

In [None]:
list(df.APP_COMP_TYPE.unique()).sort()

Пишет ошибку, потому что в списке есть nan – специальный тип данных, обозначающий пустое значение. По этой причине не может отсортировать список: все значения текстовые, а одно значение nan. Нужно этот nan удалить из списка уникальных значений, чтобы не мешался. Не будем вдаваться в подробности, почему ниже команда выглядит именно так. Она приводит нас к результату.

In [None]:
spisok = [x for x in list(df.APP_COMP_TYPE.unique()) if x == x]
spisok.sort()
spisok

6. Команда, которая помогает **удалить из текстового поля числовые значения**, короткие значения, значения, где есть знаки препинания.

In [None]:
df.APP_COMP_TYPE.where(df.APP_COMP_TYPE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)

In [None]:
list(df.APP_COMP_TYPE.unique())

7. Если вам не хватает команд, представленных в этом ноутбуке, то вы можете **самостоятельно воспользоваться поиском в Google**.

"pandas how to save a csv-file with header"


"pandas how to compare values of two columns"

## 3. Самостоятельная часть

Ниже вам нужно самим почистить датасет в части текстовых полей.

In [4]:
import pandas as pd
import numpy as np 

In [5]:
from google.colab import drive
drive.mount('/content/drive')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [6]:
df = pd.read_csv('/content/drive/MyDrive/School21/day01/bank_data_train.csv') 
df.head() 

Unnamed: 0,ID,CR_PROD_CNT_IL,AMOUNT_RUB_CLO_PRC,PRC_ACCEPTS_A_EMAIL_LINK,APP_REGISTR_RGN_CODE,PRC_ACCEPTS_A_POS,PRC_ACCEPTS_A_TK,TURNOVER_DYNAMIC_IL_1M,CNT_TRAN_AUT_TENDENCY1M,SUM_TRAN_AUT_TENDENCY1M,...,REST_DYNAMIC_CC_3M,MED_DEBT_PRC_YWZ,LDEAL_ACT_DAYS_PCT_TR3,LDEAL_ACT_DAYS_PCT_AAVG,LDEAL_DELINQ_PER_MAXYWZ,TURNOVER_DYNAMIC_CC_3M,LDEAL_ACT_DAYS_PCT_TR,LDEAL_ACT_DAYS_PCT_TR4,LDEAL_ACT_DAYS_PCT_CURR,TARGET
0,477104,0,0.0,,77.0,,,0.0,0.833333,0.914204,...,0.0,0.0,0.05914,0.05914,0.0,0.0,0.0,0.0,0.0,0
1,378464,0,,,50.0,,,0.0,,,...,0.0,,,,,0.0,,,,0
2,511328,0,0.0,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
3,472343,0,0.056424,,55.0,,,0.0,,,...,0.0,,,,,0.0,,,,0
4,503945,0,0.0,,74.0,,,0.0,,,...,0.0,,,,,0.0,,,,0


In [7]:
df.info(verbose=True)#ищу обьекты

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355190 entries, 0 to 355189
Data columns (total 116 columns):
 #    Column                       Dtype  
---   ------                       -----  
 0    ID                           int64  
 1    CR_PROD_CNT_IL               int64  
 2    AMOUNT_RUB_CLO_PRC           float64
 3    PRC_ACCEPTS_A_EMAIL_LINK     float64
 4    APP_REGISTR_RGN_CODE         float64
 5    PRC_ACCEPTS_A_POS            float64
 6    PRC_ACCEPTS_A_TK             float64
 7    TURNOVER_DYNAMIC_IL_1M       float64
 8    CNT_TRAN_AUT_TENDENCY1M      float64
 9    SUM_TRAN_AUT_TENDENCY1M      float64
 10   AMOUNT_RUB_SUP_PRC           float64
 11   PRC_ACCEPTS_A_AMOBILE        float64
 12   SUM_TRAN_AUT_TENDENCY3M      float64
 13   CLNT_TRUST_RELATION          object 
 14   PRC_ACCEPTS_TK               float64
 15   PRC_ACCEPTS_A_MTP            float64
 16   REST_DYNAMIC_FDEP_1M         float64
 17   CNT_TRAN_AUT_TENDENCY3M      float64
 18   CNT_ACCEPTS_TK        

In [8]:
df.APP_COMP_TYPE.unique()#узнаем значения в столбце1



array(['PRIVATE', nan, 'STATE', 'INTER', 'IP'], dtype=object)

In [9]:
df.PACK.unique()#узнаем значения в столбце2

array(['104', '102', 'K01', '105', '103', 'O01', '301', '107', '101',
       '109', 'M01', '108'], dtype=object)

In [10]:
df.APP_EMP_TYPE.unique()#узнаем значения в столбце3

array(['PRIVATE', nan, 'STATE', 'INTER', 'IP'], dtype=object)

In [11]:
df.APP_POSITION_TYPE.unique()#узнаем значения в столбце4

array(['TOP_MANAGER', 'MANAGER', nan, 'SPECIALIST', 'SELF_EMPL'],
      dtype=object)

In [12]:
df.APP_CAR.unique()#узнаем значения в столбце5

array(['N', 'Y', nan], dtype=object)

In [13]:
df.APP_EDUCATION.unique()#узнаем значения в столбце6

array(['H', 'HH', nan, 'UH', 'S', 'SS', 'A', 'i', 'h', 'I', 'a', 's',
       'US', 'HI', 'e', 'E', 'AV', 'AC'], dtype=object)

In [14]:
df.CLNT_TRUST_RELATION.unique()#узнаем значения в столбце7

array(['BROTHER', nan, 'FATHER', 'FRIEND', 'RELATIVE', 'SISTER', 'OTHER',
       'MOTHER', 'DAUGHTER', 'SON', 'Друг', 'Дальний ро', 'Близкий ро',
       'Мать', 'Отец', 'Брат', 'Сестра', 'Дочь', 'Муж', 'Сын', 'мать',
       'Жена'], dtype=object)

In [15]:
df.APP_DRIVING_LICENSE.unique()#узнаем значения в столбце8

array(['N', 'Y', nan], dtype=object)

In [16]:
df.CLNT_JOB_POSITION.unique()#узнаем значения в столбце9

array(['Директор по развитию бизнеса', 'ЗАМ ДИРЕКТОРА',
       'КОММЕРЧЕСКИЙ ДИРЕКТОР', ..., 'зам.директора ЦБ', 'УЧЕБРЫЙ МАСТЕР',
       'ЗАМ.РУКОВОДИТЕЛЯ АДМИНИСТРАЦИИ'], dtype=object)

In [17]:
df.CLNT_JOB_POSITION_TYPE.unique()#узнаем значения в столбце10

array(['TOP_MANAGER', nan, 'MANAGER', 'SPECIALIST', 'SELF_EMPL'],
      dtype=object)

In [18]:
df.APP_KIND_OF_PROP_HABITATION.unique()#узнаем значения в столбце11

array(['OTHER', 'SO', nan, 'NPRIVAT', 'RENT', 'JO'], dtype=object)

In [19]:
df.APP_MARITAL_STATUS.unique()#узнаем значения в столбце12

array(['V', 'D', nan, 'M', 'N', 'T', 'W', 'v', 'm', 'd', 't', 'C', ' ',
       'w'], dtype=object)

In [20]:
df.APP_TRAVEL_PASS.unique()#узнаем значения в столбце13

array(['Y', 'N', nan], dtype=object)

In [21]:
df.APP_COMP_TYPE = df.APP_COMP_TYPE.str.lower()#приводим значения в нижний регистр1

In [22]:
list(df.APP_COMP_TYPE.unique())#записываем

['private', nan, 'state', 'inter', 'ip']

In [23]:
df.APP_EMP_TYPE = df.APP_EMP_TYPE.str.lower()#приводим значения в нижний регистр2

In [24]:
list(df.APP_EMP_TYPE.unique())

['private', nan, 'state', 'inter', 'ip']

In [25]:
df.APP_POSITION_TYPE = df.APP_POSITION_TYPE.str.lower()#приводим значения в нижний регистр3

In [26]:
list(df.APP_POSITION_TYPE.unique())

['top_manager', 'manager', nan, 'specialist', 'self_empl']

In [27]:
df.APP_CAR = df.APP_CAR.str.lower()#приводим значения в нижний регистр4

In [28]:
list(df.APP_CAR.unique())

['n', 'y', nan]

In [29]:
df.APP_EDUCATION = df.APP_EDUCATION.str.lower()#приводим значения в нижний регистр5

In [30]:
list(df.APP_EDUCATION.unique())

['h', 'hh', nan, 'uh', 's', 'ss', 'a', 'i', 'us', 'hi', 'e', 'av', 'ac']

In [31]:
df.CLNT_TRUST_RELATION = df.CLNT_TRUST_RELATION.str.lower()#приводим значения в нижний регистр6

In [32]:
list(df.CLNT_TRUST_RELATION.unique())

['brother',
 nan,
 'father',
 'friend',
 'relative',
 'sister',
 'other',
 'mother',
 'daughter',
 'son',
 'друг',
 'дальний ро',
 'близкий ро',
 'мать',
 'отец',
 'брат',
 'сестра',
 'дочь',
 'муж',
 'сын',
 'жена']

In [33]:
df.APP_DRIVING_LICENSE = df.APP_DRIVING_LICENSE.str.lower()#приводим значения в нижний регистр7

In [34]:
list(df.APP_DRIVING_LICENSE.unique())

['n', 'y', nan]

In [35]:
df.CLNT_JOB_POSITION = df.CLNT_JOB_POSITION.str.lower()#приводим значения в нижний регистр8

In [36]:
list(df.CLNT_JOB_POSITION.unique())

['директор по развитию бизнеса',
 'зам директора',
 'коммерческий директор',
 nan,
 'директор',
 'бухгалтер',
 'менеджер по продажам',
 'менеджер по прямому маркетингу',
 'арматурщик 5 разряда',
 'руководитель',
 'ген. директор',
 'гос.инспектор',
 'монтер',
 'менеджер',
 'инспектор по кадрам',
 'продавец консультант',
 'заместидель директора',
 'вед.специалист',
 'консультант',
 'зам.начальника отдела',
 'начальник отдела',
 'индивидуальный предпринематель',
 'администратор',
 'редактор',
 'конструктор',
 'директор по розничн.торговле',
 'студент',
 'старший техник',
 'инженер-програмист',
 'руководитель отдела',
 'генеральный директор подразделения',
 'руководитель направления',
 'архитектор',
 'менеджер по развитию',
 'командир воздушного судна',
 'начальник службы',
 'диктор',
 'руководитель группы',
 'заместитель генерального директора',
 '.',
 'предприниматель',
 'оператор',
 'мастер по маникюру',
 'инженер',
 'специалист отдела продаж',
 'индивидульный предприниматель',
 'зам. г

In [37]:
df.CLNT_JOB_POSITION_TYPE = df.CLNT_JOB_POSITION_TYPE.str.lower()#приводим значения в нижний регистр9

In [38]:
list(df.CLNT_JOB_POSITION_TYPE.unique())

['top_manager', nan, 'manager', 'specialist', 'self_empl']

In [39]:
df.APP_KIND_OF_PROP_HABITATION = df.APP_KIND_OF_PROP_HABITATION.str.lower()#приводим значения в нижний регистр10

In [40]:
list(df.APP_KIND_OF_PROP_HABITATION.unique())

['other', 'so', nan, 'nprivat', 'rent', 'jo']

In [41]:
df.APP_MARITAL_STATUS = df.APP_MARITAL_STATUS.str.lower()#приводим значения в нижний регистр11

In [42]:
list(df.APP_MARITAL_STATUS.unique())

['v', 'd', nan, 'm', 'n', 't', 'w', 'c', ' ']

In [43]:
df.APP_TRAVEL_PASS = df.APP_TRAVEL_PASS.str.lower()#приводим значения в нижний регистр12

In [44]:
list(df.APP_TRAVEL_PASS.unique())

['y', 'n', nan]

In [45]:
for i in df:
  if i in df.select_dtypes(include=['object']):
    print(i,":",df[i].unique())

CLNT_TRUST_RELATION : ['brother' nan 'father' 'friend' 'relative' 'sister' 'other' 'mother'
 'daughter' 'son' 'друг' 'дальний ро' 'близкий ро' 'мать' 'отец' 'брат'
 'сестра' 'дочь' 'муж' 'сын' 'жена']
APP_MARITAL_STATUS : ['v' 'd' nan 'm' 'n' 't' 'w' 'c' ' ']
APP_KIND_OF_PROP_HABITATION : ['other' 'so' nan 'nprivat' 'rent' 'jo']
CLNT_JOB_POSITION_TYPE : ['top_manager' nan 'manager' 'specialist' 'self_empl']
CLNT_JOB_POSITION : ['директор по развитию бизнеса' 'зам директора' 'коммерческий директор'
 ... 'зам.директора цб' 'учебрый мастер' 'зам.руководителя администрации']
APP_DRIVING_LICENSE : ['n' 'y' nan]
APP_EDUCATION : ['h' 'hh' nan 'uh' 's' 'ss' 'a' 'i' 'us' 'hi' 'e' 'av' 'ac']
APP_TRAVEL_PASS : ['y' 'n' nan]
APP_CAR : ['n' 'y' nan]
APP_POSITION_TYPE : ['top_manager' 'manager' nan 'specialist' 'self_empl']
APP_EMP_TYPE : ['private' nan 'state' 'inter' 'ip']
APP_COMP_TYPE : ['private' nan 'state' 'inter' 'ip']
PACK : ['104' '102' 'K01' '105' '103' 'O01' '301' '107' '101' '109' 'M01'

In [46]:
df.CLNT_TRUST_RELATION.replace('brother','брат',inplace=True)
df.CLNT_TRUST_RELATION.replace('father','отец',inplace=True)
df.CLNT_TRUST_RELATION.replace('friend','друг',inplace=True)
df.CLNT_TRUST_RELATION.replace('relative','близкий ро',inplace=True)
df.CLNT_TRUST_RELATION.replace('sister','сестра',inplace=True)
df.CLNT_TRUST_RELATION.replace('other','другое',inplace=True)
df.CLNT_TRUST_RELATION.replace('mother','мать',inplace=True)
df.CLNT_TRUST_RELATION.replace('daughter','дочь',inplace=True)
df.CLNT_TRUST_RELATION.replace('son','сын',inplace=True)
df.CLNT_TRUST_RELATION.unique()


array(['брат', nan, 'отец', 'друг', 'близкий ро', 'сестра', 'другое',
       'мать', 'дочь', 'сын', 'дальний ро', 'муж', 'жена'], dtype=object)

In [47]:
df.APP_MARITAL_STATUS.where(df.APP_MARITAL_STATUS.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения1
spisok = [x for x in list(df.APP_MARITAL_STATUS.unique()) if x == x]#удаляем нан1
spisok.sort()
spisok

['c', 'd', 'm', 'n', 't', 'v', 'w']

In [48]:
list(df.APP_MARITAL_STATUS.unique())

['v', 'd', nan, 'm', 'n', 't', 'w', 'c']

In [49]:
df.CLNT_JOB_POSITION.where(df.CLNT_JOB_POSITION.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения2
spisok = [x for x in list(df.CLNT_JOB_POSITION.unique()) if x == x]#удаляем нан2
spisok.sort()
spisok

['account director',
 'account manager',
 'accountant',
 'adf manager',
 'administratore',
 'alter ego',
 'assistent',
 'associate',
 'attorney at law',
 'badge engineer',
 'boatswain',
 'cg',
 'chairman of the board',
 'chief excecutive officer',
 'chief officer',
 'community outreach manager',
 'coo директор',
 'cra',
 'crm manager',
 'cтарший преподователь',
 'data acquisition engineer',
 'delivery manager',
 'director',
 'directors',
 'distributer',
 'dj',
 'dj клуба',
 'doktorant',
 'dsa',
 'engine cadet',
 'esp специалист',
 'event manager',
 'executive director',
 'f',
 'fashion director',
 'fitter',
 'focus pulleer',
 'freelanser',
 'general director',
 'gescheftsfuhrer',
 'ghf',
 'head of global payments',
 'ho re ca promoutier',
 'hr btl',
 'hr директор',
 'hr менеджер',
 'htmr',
 'hаладчик',
 'inside sales',
 'inside sales specialist',
 'international business relations',
 'internet reseacher',
 'ios разработчик',
 'ip специалист',
 'it',
 'it manager',
 'it директор',
 'it 

In [50]:
list(df.CLNT_JOB_POSITION.unique())

['директор по развитию бизнеса',
 'зам директора',
 'коммерческий директор',
 nan,
 'директор',
 'бухгалтер',
 'менеджер по продажам',
 'менеджер по прямому маркетингу',
 'руководитель',
 'монтер',
 'менеджер',
 'инспектор по кадрам',
 'продавец консультант',
 'заместидель директора',
 'консультант',
 'начальник отдела',
 'индивидуальный предпринематель',
 'администратор',
 'редактор',
 'конструктор',
 'студент',
 'старший техник',
 'руководитель отдела',
 'генеральный директор подразделения',
 'руководитель направления',
 'архитектор',
 'менеджер по развитию',
 'командир воздушного судна',
 'начальник службы',
 'диктор',
 'руководитель группы',
 'заместитель генерального директора',
 'предприниматель',
 'оператор',
 'мастер по маникюру',
 'инженер',
 'специалист отдела продаж',
 'индивидульный предприниматель',
 'генеральный директор',
 'делопроизводитель по документации',
 'инструктор по фитнесу',
 'завкафедрой',
 'заместитель директора',
 'фрезеровщик',
 'директор по маркетингу',
 '

In [51]:
df[list(df.select_dtypes(include=['object']).columns)]

Unnamed: 0,CLNT_TRUST_RELATION,APP_MARITAL_STATUS,APP_KIND_OF_PROP_HABITATION,CLNT_JOB_POSITION_TYPE,CLNT_JOB_POSITION,APP_DRIVING_LICENSE,APP_EDUCATION,APP_TRAVEL_PASS,APP_CAR,APP_POSITION_TYPE,APP_EMP_TYPE,APP_COMP_TYPE,PACK
0,брат,v,other,top_manager,директор по развитию бизнеса,n,h,y,n,top_manager,private,private,104
1,,d,so,,зам директора,y,hh,n,y,manager,private,private,102
2,отец,,,,коммерческий директор,,,,,,,,K01
3,друг,v,other,manager,,n,h,n,n,manager,state,state,105
4,друг,d,so,,директор,n,h,n,y,top_manager,private,private,102
...,...,...,...,...,...,...,...,...,...,...,...,...,...
355185,,,,,fitter,,,,,,,,103
355186,,,,,,,,,,,,,105
355187,,,,,иллюстратор,,,,,,,,O01
355188,,,,,,,,,,,,,102


In [52]:
spisok = [x for x in list(df.APP_COMP_TYPE.unique()) if x == x]#удаляем нан3
spisok.sort()
spisok

['inter', 'ip', 'private', 'state']

In [53]:
df.APP_COMP_TYPE.where(df.APP_COMP_TYPE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения3

In [54]:
list(df.APP_COMP_TYPE.unique())

['private', nan, 'state', 'inter', 'ip']

In [55]:
spisok = [x for x in list(df.APP_EMP_TYPE.unique()) if x == x]#удаляем нан4
spisok.sort()
spisok

['inter', 'ip', 'private', 'state']

In [56]:
df.APP_EMP_TYPE.where(df.APP_EMP_TYPE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения4

In [57]:
list(df.APP_EMP_TYPE.unique())

['private', nan, 'state', 'inter', 'ip']

In [58]:
df.APP_EMP_TYPE. equals(df.APP_COMP_TYPE)#находим одинаковые столбцы

True

In [59]:
df.drop(columns='APP_COMP_TYPE', inplace=True)#удаляем столбец

In [60]:
spisok = [x for x in list(df.CLNT_TRUST_RELATION.unique()) if x == x]#удаляем нан5
spisok.sort()
spisok

['близкий ро',
 'брат',
 'дальний ро',
 'дочь',
 'друг',
 'другое',
 'жена',
 'мать',
 'муж',
 'отец',
 'сестра',
 'сын']

In [61]:
df.CLNT_TRUST_RELATION.where(df.CLNT_TRUST_RELATION.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения5


In [62]:
list(df.CLNT_TRUST_RELATION.unique())

['брат',
 nan,
 'отец',
 'друг',
 'близкий ро',
 'сестра',
 'другое',
 'мать',
 'дочь',
 'сын',
 'дальний ро',
 'муж',
 'жена']

In [63]:
df.APP_TRAVEL_PASS.where(df.APP_TRAVEL_PASS.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения6

In [64]:
spisok = [x for x in list(df.APP_TRAVEL_PASS.unique()) if x == x]#удаляем нан6
spisok.sort()
spisok

['n', 'y']

In [65]:
list(df.APP_TRAVEL_PASS.unique())

['y', 'n', nan]

In [66]:
df.APP_KIND_OF_PROP_HABITATION.where(df.APP_KIND_OF_PROP_HABITATION.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения7
spisok = [x for x in list(df.APP_KIND_OF_PROP_HABITATION.unique()) if x == x]#удаляем нан7
spisok.sort()
spisok

['jo', 'nprivat', 'other', 'rent', 'so']

In [67]:
list(df.APP_KIND_OF_PROP_HABITATION.unique())

['other', 'so', nan, 'nprivat', 'rent', 'jo']

In [68]:
spisok = [x for x in list(df.APP_EDUCATION.unique()) if x == x]#удаляем нан8
spisok.sort()
spisok

['a', 'ac', 'av', 'e', 'h', 'hh', 'hi', 'i', 's', 'ss', 'uh', 'us']

In [69]:
df.APP_EDUCATION.where(df.APP_EDUCATION.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения8

In [70]:
list(df.APP_EDUCATION.unique())

['h', 'hh', nan, 'uh', 's', 'ss', 'a', 'i', 'us', 'hi', 'e', 'av', 'ac']

In [71]:
df.CLNT_JOB_POSITION_TYPE.where(df.CLNT_JOB_POSITION_TYPE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения9
spisok = [x for x in list(df.CLNT_JOB_POSITION_TYPE.unique()) if x == x]#удаляем нан9
spisok.sort()
spisok

['manager', 'specialist']

In [72]:
list(df.CLNT_JOB_POSITION_TYPE.unique())

[nan, 'manager', 'specialist']

In [73]:
df.APP_DRIVING_LICENSE.where(df.APP_DRIVING_LICENSE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения10
spisok = [x for x in list(df.APP_DRIVING_LICENSE.unique()) if x == x]#удаляем нан10
spisok.sort()
spisok

['n', 'y']

In [74]:
list(df.APP_DRIVING_LICENSE.unique())

['n', 'y', nan]

In [75]:
df.APP_CAR.where(df.APP_CAR.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения11
spisok = [x for x in list(df.APP_CAR.unique()) if x == x]#удаляем нан11
spisok.sort()
spisok

['n', 'y']

In [76]:
list(df.APP_CAR.unique())

['n', 'y', nan]

In [77]:
df.APP_POSITION_TYPE.where(df.APP_POSITION_TYPE.str.replace(' ','').str.isalpha(), np.nan, inplace=True)#удаляем числовые значения12
spisok = [x for x in list(df.APP_POSITION_TYPE.unique()) if x == x]#удаляем нан12
spisok.sort()
spisok

['manager', 'specialist']

In [78]:
list(df.APP_POSITION_TYPE.unique())


[nan, 'manager', 'specialist']

In [79]:
df.sort_values('ID')


Unnamed: 0,ID,CR_PROD_CNT_IL,AMOUNT_RUB_CLO_PRC,PRC_ACCEPTS_A_EMAIL_LINK,APP_REGISTR_RGN_CODE,PRC_ACCEPTS_A_POS,PRC_ACCEPTS_A_TK,TURNOVER_DYNAMIC_IL_1M,CNT_TRAN_AUT_TENDENCY1M,SUM_TRAN_AUT_TENDENCY1M,...,REST_DYNAMIC_CC_3M,MED_DEBT_PRC_YWZ,LDEAL_ACT_DAYS_PCT_TR3,LDEAL_ACT_DAYS_PCT_AAVG,LDEAL_DELINQ_PER_MAXYWZ,TURNOVER_DYNAMIC_CC_3M,LDEAL_ACT_DAYS_PCT_TR,LDEAL_ACT_DAYS_PCT_TR4,LDEAL_ACT_DAYS_PCT_CURR,TARGET
33186,146841,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
352582,146842,0,0.041033,,,,,0.0,0.166667,0.186107,...,0.0,,,,,0.0,,,,0
8730,146843,0,0.006915,0.0,,0.0,0.0,0.0,,,...,0.0,,,,,0.0,,,,0
353693,146844,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
77628,146845,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15548,590822,0,0.000000,0.0,,0.0,0.0,0.0,0.142857,0.123579,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
249546,590823,0,0.000000,0.0,,0.0,0.0,0.0,,,...,0.0,,,,,0.0,,,,0
156157,590825,0,0.041298,,,,,0.0,0.089286,0.065293,...,0.0,,,,,0.0,,,,0
266514,590826,0,0.000000,,,,,0.0,,,...,0.0,,,,,0.0,,,,0


In [80]:
df.to_csv('df.csv',index=False)

In [84]:
df.APP_COMP_TYPE.nunique()

AttributeError: ignored