### Строим логистическую регрессию - угадываем пол спортсмена по признакам

https://www.kaggle.com/rio2016/olympic-games

In [94]:
import pandas as pd
import numpy as np

In [95]:
data = pd.read_csv( 'athletes.csv' )
data.head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


In [96]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11538 entries, 0 to 11537
Data columns (total 11 columns):
id             11538 non-null int64
name           11538 non-null object
nationality    11538 non-null object
sex            11538 non-null object
dob            11537 non-null object
height         11208 non-null float64
weight         10879 non-null float64
sport          11538 non-null object
gold           11538 non-null int64
silver         11538 non-null int64
bronze         11538 non-null int64
dtypes: float64(2), int64(4), object(5)
memory usage: 991.6+ KB


#### Попробуем угадать пол на основе роста, веса и вида спорта

Посмотрим много ли в наших признаках пустых значений

In [97]:
data[pd.isnull(data['height'])].head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
12,258556239,Abbas Qali,IOA,male,10/11/92,,,aquatics,0,0,0
47,469953606,Abdoullah Bamoussa,ITA,male,6/8/86,,,athletics,0,0,0
50,325809293,Abdul Omar,GHA,male,10/3/93,,,boxing,0,0,0
52,262868423,Abdulaziz Alshatti,IOA,male,10/30/90,,,fencing,0,0,0
56,897549624,Abdullah Hel Baki,BAN,male,8/1/89,,,shooting,0,0,0


In [98]:
print('Для height пустых строк {}'.format(len( data[ pd.isnull( data['height'] ) ] ) ))
print('Для weight пустых строк {}'.format(len( data[ pd.isnull( data['weight'] ) ] ) ))
print('Для sport пустых строк {}'.format(len( data[ pd.isnull( data['sport'] ) ] ) ))
print('Всего строк в наборе {}'.format( len( data ) ))

Для height пустых строк 330
Для weight пустых строк 659
Для sport пустых строк 0
Всего строк в наборе 11538


In [99]:
# удаляем ячейки с отсутствием данных
data = data[pd.isnull(data['height']) == 0 ]
data = data[pd.isnull(data['weight']) == 0 ]

In [100]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10858 entries, 0 to 11537
Data columns (total 11 columns):
id             10858 non-null int64
name           10858 non-null object
nationality    10858 non-null object
sex            10858 non-null object
dob            10858 non-null object
height         10858 non-null float64
weight         10858 non-null float64
sport          10858 non-null object
gold           10858 non-null int64
silver         10858 non-null int64
bronze         10858 non-null int64
dtypes: float64(2), int64(4), object(5)
memory usage: 1017.9+ KB


In [101]:
from sklearn.linear_model import LogisticRegression

In [102]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [103]:
# попробуем выбрать какие-нибудь признаки
selectedColumns = data[ [ 'height', 'sport', 'sex', 'weight', 'nationality'] ]

# столбец sport является категориальной переменной
# переведем ее в значения 0 и 1, добавив столбцы с соответствующими названиями
X = pd.get_dummies(selectedColumns, columns = ['sport','nationality'] )

# столбец sex является целевой переменной, удаляем его из X
del X['sex']

In [104]:
scaler = StandardScaler()

In [105]:
x_scaled = scaler.fit(X)
X_scaled=  x_scaled.transform(X)

In [106]:
data.sex.replace(['male', 'female'], [1, 0], inplace=True)

In [107]:
y = data['sex']

In [108]:
# целевая переменная (столбец sex) снова является категориальной
# переведем значения столбца в числа, оставив один столбец

#from sklearn.preprocessing import LabelEncoder
#le = LabelEncoder()

In [109]:
#le.fit(data['sex'] )

In [110]:
#le.classes_

In [111]:
# пример "расшировки" столбца sex

#le.transform( [ 'male', 'female', 'male' ] )

In [112]:
# записываем в переменную y преобразованный столбец sex

#y = pd.Series(data = le.transform( data['sex'] ) )
#y.head()

In [113]:
x_train, x_test, y_train, y_test = train_test_split(X_scaled, y,stratify=y, test_size=0.3, random_state=42)

In [114]:
model = LogisticRegression()

In [115]:
# обучаем модель
model.fit(x_train,y_train)

predictions = model.predict_proba(x_test)
model.score(x_test, y_test)

0.8213627992633518