In [1]:
import pandas_profiling
import pandas as pd

1. Проверка наличия/обработка пропусков
2. Проверьте взаимосвязи между признаками
3. Попробуйте создать свои признаки
4. Удалите лишние
5. Обратите внимание на текстовые столбцы. Подумайте, что можно извлечь полезного оттуда
6. Использование профайлера вам поможет.
7. Не забывайте, что у вас есть PCA (Метод главных компонент). Он может пригодиться.

Вспомните о всем, что я говорил на предыдущих занятиях. Не все будет пригодится, но в жизни вам никто не будет говорить, что использовать :)

Хорошим классификатором для этой задачи будет "Случайный лес" (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

Понимать суть работы "леса" не обязательно на данном этапе, но качество предсказаний будет выше, чем с линейным классификатором. (если желаете, вот гайд https://adataanalyst.com/scikit-learn/linear-classification-method/)


In [2]:
data = pd.read_csv('aac_shelter_outcomes.csv')
data.shape

(78256, 12)

In [40]:
data.profile_report()



In [3]:
data.isnull().sum()

age_upon_outcome        8
animal_id               0
animal_type             0
breed                   0
color                   0
date_of_birth           0
datetime                0
monthyear               0
name                23886
outcome_subtype     42293
outcome_type           12
sex_upon_outcome        2
dtype: int64

некоторые признаки имеют пропуски. те которых малое количество 'age_upon_outcome', 'outcome_type', 'sex_upon_outcome' удаляю из данных, т.к. удаленный объем существенно не влияет на данные

In [3]:
data = data.dropna(axis=0, subset=['age_upon_outcome', 'outcome_type', 'sex_upon_outcome'])

есть еще два признакак с большим количеством пропущенных значений 'name', 'outcome_subtype'. в этом случае пропускам присваиваю значение 'unknow', так как необходимо сохранить эти данные в датасете и при этом обработать пропуски

In [4]:
data = data.fillna(value='unknow')

In [6]:
data.isnull().sum()

age_upon_outcome    0
animal_id           0
animal_type         0
breed               0
color               0
date_of_birth       0
datetime            0
monthyear           0
name                0
outcome_subtype     0
outcome_type        0
sex_upon_outcome    0
dtype: int64

данные имеют 10 дубликатов, которые удаляю

In [5]:
data = data.drop_duplicates()

проанализировав суть признаков, считаю что ID и имя животного не оказывают влияния на предсказываемое значение. Поэтому не использую их

In [6]:
data = data[['age_upon_outcome', 'animal_type', 'breed', 'color',
       'date_of_birth', 'datetime', 'monthyear', 'outcome_subtype',
       'outcome_type', 'sex_upon_outcome']]

в данных есть дублирующие столбцы 'datetime' и 'monthyear', также столбец 'age_upon_outcome' это разница столбцов 'datetime' и  'date_of_birth'

так как эти столбцы показывают по сути одно значения, я их удаляю. при этом столбец 'age_upon_outcome' представлю в виде числового значения, в днях. как разность  'datetime' и 'date_of_birth'

In [7]:
from datetime import datetime, date, time

сначала преобразовал признаки в которых содержится дата в тип данных datetime

In [8]:
data['date_of_birth'] =  pd.to_datetime(data['date_of_birth'])

In [9]:
data['datetime'] =  pd.to_datetime(data['datetime'])

In [10]:
data['monthyear'] =  pd.to_datetime(data['monthyear'])

после получения необходимого типа данных, нашел разнасть дат, таким образом решил две вещи:
1. получил более точный аналог признака age_upon_outcome
2. получил значения признака в числовом формате

In [11]:
data['days'] = data.datetime - data.date_of_birth

новый признак выразил в количестве дней

In [12]:
data['days'] = data['days'].dt.total_seconds() / 86400

выбираю итоговые признаки, которые буду использовать

In [20]:
data_mod = data[['animal_type', 'breed', 'color', 'outcome_subtype', 'outcome_type', 'sex_upon_outcome', 'days']]

фильтрую данные по двум признакам из условия ‘Adoption’ и ‘Transfer’, для формирования финального датасета

In [106]:
df = data_mod.loc[(data_mod['outcome_type'] == 'Adoption') | (data_mod['outcome_type'] == 'Transfer')]

признак породы объединяю в один там где Domestic, смешанные типы, и иное - в одни группы

In [107]:
df.loc[df['breed'].str.contains("Domestic"), ['breed']] = "Domestic"

In [108]:
df.loc[df['breed'].str.contains("Mix"), ['breed']] = "Mix"

In [109]:
df.loc[df['breed'].str.contains("/"), ['breed']] = "Mix"

In [112]:
df.loc[(df['breed'] != 'Domestic') & (df['breed'] != 'Mix'), ['breed']] = 'other'

In [113]:
df.breed.value_counts()

Mix         30156
Domestic    24406
other        2039
Name: breed, dtype: int64

Преобразу множество цветов в меньшую размерность. В логике: объединяю смешанные цвета в цветные, выделяю частые одиночные цвета в уникальные категории и другие цвета в иное

In [115]:
df.loc[df['color'].str.contains("/"), ['color']] = "colors"

In [117]:
df.loc[df['color'].str.contains("Black"), ['color']] = "Black"

In [119]:
df.loc[df['color'].str.contains("Brown"), ['color']] = "Brown"

In [121]:
df.loc[df['color'].str.contains("Blue"), ['color']] = "Blue"

In [123]:
df.loc[(df['color'] != 'colors') & (df['color'] != 'Black') & (df['color'] != 'Brown') & (df['color'] != 'Blue')
       & (df['color'] != 'Orange Tabby') & (df['color'] != 'White'), ['color']] = 'other'

In [124]:
df.color.value_counts()

colors          28897
other           10284
Brown            5834
Black            5457
Blue             2369
Orange Tabby     1914
White            1846
Name: color, dtype: int64

далее необходимо преобразовать категориальные признаки в числовые значения. Для этого применяю LableEncoder

In [126]:
from sklearn import preprocessing

In [129]:
df.head()

Unnamed: 0,animal_type,breed,color,outcome_subtype,outcome_type,sex_upon_outcome,days
0,Cat,Domestic,Orange Tabby,Partner,Transfer,Intact Male,15.669444
1,Dog,Mix,colors,Partner,Transfer,Spayed Female,366.490972
2,Dog,other,colors,unknow,Adoption,Neutered Male,429.597222
3,Dog,Mix,White,Partner,Transfer,Neutered Male,3300.659722
5,Dog,Mix,colors,Partner,Transfer,Intact Male,126.545833


In [131]:
list_ = ['animal_type', 'breed', 'color', 'outcome_subtype', 'outcome_type', 'sex_upon_outcome']
column = preprocessing.LabelEncoder()
for i in list_:
    df[i] = column.fit_transform(df[i])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [160]:
df.head()

Unnamed: 0,animal_type,breed,color,outcome_subtype,outcome_type,sex_upon_outcome,days
0,1,0,3,3,1,1,15.669444
1,2,1,5,3,1,3,366.490972
2,2,2,5,6,0,2,429.597222
3,2,1,4,3,1,2,3300.659722
5,2,1,5,3,1,1,126.545833


разделяю данные для тренировки. Для этого отделяю предсказываемый признак 'outcome_type'

In [133]:
X = df[['animal_type', 'breed', 'color', 'outcome_subtype', 'sex_upon_outcome', 'days']]
y = df['outcome_type']

разделяю данные на тренировочные и тестовые

In [134]:
from sklearn.model_selection import train_test_split

In [135]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

создаю модель и оцениваю качество

In [136]:
from sklearn.ensemble import RandomForestClassifier

In [137]:
model = RandomForestClassifier()
model.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [138]:
score = model.score(X_test, y_test)

In [139]:
score

1.0

In [146]:
print(f'Качество модели {model.score(X_test, y_test)*100} %')

Качество модели 100.0 %


In [140]:
from sklearn.metrics import classification_report

In [141]:
model_pred = model.predict(X_test)

print(classification_report(y_test, model_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      9991
           1       1.00      1.00      1.00      6990

    accuracy                           1.00     16981
   macro avg       1.00      1.00      1.00     16981
weighted avg       1.00      1.00      1.00     16981



результат модели получился 89%. Имеет высокие значения точности и полноты предсказания по самым встречающимся классам. За исключением класса 6

In [144]:
from sklearn.model_selection import cross_val_score

In [145]:
scores = cross_val_score(model, X_train, y_train, cv=3)
print(scores)

[0.99992428 0.99992428 1.        ]


в другом подходе исключаю признак который сам создал и который надо предсказать, к остальным применяю onehotencoder

In [143]:
data_ohe = data[['animal_type', 'breed', 'color', 'outcome_subtype', 'outcome_type', 'sex_upon_outcome', 'days']]

In [145]:
data_ohe.head()

Unnamed: 0,animal_type,breed,color,outcome_subtype,outcome_type,sex_upon_outcome,days
0,Cat,Domestic Shorthair Mix,Orange Tabby,Partner,Transfer,Intact Male,15.669444
1,Dog,Beagle Mix,White/Brown,Partner,Transfer,Spayed Female,366.490972
2,Dog,Pit Bull,Blue/White,unknow,Adoption,Neutered Male,429.597222
3,Dog,Miniature Schnauzer Mix,White,Partner,Transfer,Neutered Male,3300.659722
4,Other,Bat Mix,Brown,Rabies Risk,Euthanasia,Unknown,181.586111


In [146]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
onehotencoder = OneHotEncoder(sparse=False)
df = pd.DataFrame(onehotencoder.fit_transform(data_ohe[['animal_type', 'sex_upon_outcome', 'breed', 'outcome_subtype', 'days']]))

получив огромную размерность данных, с помощью pca сокращаю данные до 15 признаков

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=15)

In [None]:
pca.fit(df)

In [None]:
df_pca = pca.transform(df)

In [None]:
df_pca = pd.DataFrame(df_pca)

к полученным 15 признакам добавляю, которые не менял 'days', 'outcome_type'

In [None]:
df_pca['days'] = data_mod['days']

In [None]:
df_pca['outcome_type'] = data_mod['outcome_type']

удаляю пропуски в добавленных признаках

In [None]:
df_pca = df_pca.dropna(axis=0, subset=['days', 'outcome_type'])

перевожу столбец для предсказания в числовые категории с помощью LableEncoder

In [148]:
from sklearn import preprocessing

In [None]:
le = preprocessing.LabelEncoder()
df_pca['outcome_type'] = le.fit_transform(df_pca['outcome_type'])

разделяю данные на значения  и то что требуется предсказать

In [None]:
X = df_pca.iloc[:, :15]
y = df_pca.iloc[:, -1]

разделяю данные на тренировочные и тестовые

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train_p, X_test_p, y_train_p, y_test_p = train_test_split(X, y, test_size=0.3)

создаю новую модель на другом подходе к данным, после onehotencoder и pca

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
model = RandomForestClassifier()
model.fit(X_train_p, y_train_p)
score = model.score(X_test_p, y_test_p)

качество такой модели получилось 37%. думаю повлияло:
* разная размерность признаков
* смешивание различных типов данных
* большой разброс расмеров классов