## Набор данных Футболисты

В качестве задания вам предлагается повторить данные действия для набора данных
- [Blood Transfusion Service Center Data Set](http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center)

In [1]:
import pandas as pd

Набор данных о футболистах.

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/data_football_profile.csv', sep='\t')

In [3]:
df.columns

Index(['Name', 'Age', 'Nationality', 'Club', 'Value', 'Wage'], dtype='object')

Функция возвращает DataFrame (то есть таблицу), однако затем приобретает ещё много важных параметров, среди которых:

* sep — разделитель данных, по умолчанию ',';
* decimal — разделитель числа на целую и дробную часть, по умолчанию'.';
* names — список с названиями колонок, не обязательный параметр;
* skiprows — если файл содержит системную информацию, можно просто её пропустить. Необязательный параметр.

С помощью функции ```head``` можем посмотреть на первые несколько строк нашего датасета:

In [4]:
df.head()

Unnamed: 0,Name,Age,Nationality,Club,Value,Wage
0,L. Messi,31.0,Argentina,FC Barcelona,110500000.0,"565000,0$"
1,,33.0,Portugal,Juventus,77000000.0,"405000,0$"
2,Neymar Jr,26.0,Brazil,Paris Saint-Germain,118500000.0,"290000,0$"
3,De Gea,27.0,Spain,Manchester United,72000000.0,"260000,0$"
4,K. De Bruyne,27.0,Belgium,Manchester City,102000000.0,"355000,0$"


Удалим колонку Value, к которой мы не знаем точную интерпретацию:

In [5]:
df.drop(['Value'], axis=1, inplace=True)

In [6]:
# последние несколько строк:
df.tail(3)

Unnamed: 0,Name,Age,Nationality,Club,Wage
12894,,16.0,England,Cambridge United,"1000,0$"
12895,D. Walker-Rice,17.0,England,Tranmere Rovers,"1000,0$"
12896,G. Nugent,16.0,England,Tranmere Rovers,"1000,0$"


Посмотрим на размер нашего датасета. Первое число – количество строк (наблюдений), второе – количество столбцов (признаков):

In [7]:
df.shape

(12897, 5)

Если вы хотите переименовать какую-то переменную, воспользуйтесь ```rename```:

In [8]:
df.rename({'Wage' : 'Salary'}, axis='columns', inplace=True)

In [9]:
df.columns

Index(['Name', 'Age', 'Nationality', 'Club', 'Salary'], dtype='object')

Давайте посмотрим на информацию о датасете. В .info() можно передать дополнительные параметры, среди которых:

* verbose: печатать ли информацию о DataFrame полностью (если таблица очень большая, то некоторая информация может потеряться);
* memory_usage: печатать ли потребление памяти (по умолчанию используется True, но можно поставить либо False, что уберёт потребление памяти, либо 'deep' , что подсчитает потребление памяти более точно);
* null_counts: подсчитывать ли количество пустых элементов (по умолчанию True).

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12897 entries, 0 to 12896
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         12266 non-null  object 
 1   Age          12242 non-null  float64
 2   Nationality  12213 non-null  object 
 3   Club         12226 non-null  object 
 4   Salary       12897 non-null  object 
dtypes: float64(1), object(4)
memory usage: 503.9+ KB


Можно вывести только тип данных в каждой колонке:

In [11]:
df.dtypes

Unnamed: 0,0
Name,object
Age,float64
Nationality,object
Club,object
Salary,object


Заметим, что зарплата у нас записана строкой.

In [12]:
def fix_wage(x):
    # отрезаем $
    x = x[:-1]
    # меняем запятую на точку
    x = x.replace(',', '.')
    return float(x)

In [13]:
df['Salary'] = df['Salary'].apply(fix_wage)

Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [14]:
df.describe()

Unnamed: 0,Age,Salary
count,12242.0,12263.0
mean,24.8149,7530.94675
std,4.885492,23338.219396
min,16.0,1000.0
25%,21.0,1000.0
50%,24.0,2000.0
75%,28.0,4000.0
max,45.0,565000.0


Чтобы посмотреть статистику по нечисловым признакам (например, по строчным (object) или булевым (bool) данным), нужно явно указать интересующие нас типы в параметре метода describe include:

In [15]:
df.describe(include = ['object'])

Unnamed: 0,Name,Nationality,Club
count,12266,12213,12226
unique,11742,155,650
top,J. Rodríguez,England,Shonan Bellmare
freq,7,1297,30


Было бы полезно узнать, много ли у нас пропусков в датасете.

In [16]:
df.isna().sum()
print(df.dtypes)

Name            object
Age            float64
Nationality     object
Club            object
Salary         float64
dtype: object


Чтобы удалить пропуски из данных, нужно вопспользоваться ```df.dropna()```, либо заполнить их значениями (например, средним) -  ```df.fillna(df['column_name'].mean())``` .
Если в датасете содержатся дубликаты строк - воспользуйтесь методом ```df.drop_duplicates()```.

In [17]:
# заполним количественные переменные средними значениями (медианой)
df['Age'] = df['Age'].fillna(df['Age'].median())
df['Salary'] = df['Salary'].fillna(df['Salary'].median())

# у оставшихся переменных удалим строки с пропусками
df.dropna(inplace=True)

df.isna().sum()

Unnamed: 0,0
Name,0
Age,0
Nationality,0
Club,0
Salary,0


Выведем уникальные значения по возрасту и сколько раз каждое из них встречается в датасете (по убыванию).

In [18]:
df['Age'].value_counts()

Unnamed: 0_level_0,count
Age,Unnamed: 1_level_1
24.0,1288
21.0,876
22.0,808
20.0,786
19.0,724
23.0,715
25.0,693
26.0,688
27.0,616
28.0,580


Чтобы вывести уникальные значения в столбце или их количество, нужно использовать ```unique``` и ```nunique``` соответственно. Посмотрим, сколько у нас уникальных футбольных клубов.

In [19]:
print('Всего {} футбольных клубов'.format(df['Club'].nunique()))

Всего 650 футбольных клубов


In [20]:
df['Club'].unique()[:10]

array(['FC Barcelona', 'Paris Saint-Germain', 'Manchester United',
       'Manchester City', 'Chelsea', 'Real Madrid', 'Atlético Madrid',
       'FC Bayern München', 'Juventus', 'Liverpool'], dtype=object)

Посмотрим на среднюю зарплату по клубу:

In [21]:
grouped = df.groupby('Club', as_index=False)['Salary'].mean()
# добавим сортировку по убыванию
grouped.sort_values(by='Salary', ascending=False)

Unnamed: 0,Club,Salary
469,Real Madrid,187500.000000
212,FC Barcelona,184722.222222
325,Juventus,148461.538462
373,Manchester City,137761.904762
134,Chelsea,103894.736842
...,...,...
531,Shamrock Rovers,1000.000000
92,Bray Wanderers,1000.000000
90,Boyacá Chicó FC,1000.000000
548,Spartak Moscow,1000.000000


Добавим еще подсчет минимума, максимума и медианы по каждой группе:

In [22]:
df.groupby('Club')['Salary'].agg(['mean', 'min', 'max', 'median'])

Unnamed: 0_level_0,mean,min,max,median
Club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SSV Jahn Regensburg,3222.222222,1000.0,6000.0,3000.0
1. FC Heidenheim 1846,4000.000000,1000.0,14000.0,3000.0
1. FC Kaiserslautern,1454.545455,1000.0,3000.0,1000.0
1. FC Köln,9200.000000,1000.0,26000.0,4000.0
1. FC Magdeburg,3842.105263,1000.0,8000.0,4000.0
...,...,...,...,...
Zagłębie Sosnowiec,1047.619048,1000.0,2000.0,1000.0
Çaykur Rizespor,5095.238095,1000.0,13000.0,4000.0
Örebro SK,1454.545455,1000.0,2000.0,1000.0
Östersunds FK,2055.555556,1000.0,8000.0,1000.0


Сгруппируем одновременно по стране и клубу:

In [23]:
df.groupby(['Nationality', 'Club'], as_index=False)['Salary'].mean()

Unnamed: 0,Nationality,Club,Salary
0,Afghanistan,Notts County,2000.0
1,Afghanistan,SV Meppen,1000.0
2,Afghanistan,Walsall,1000.0
3,Albania,AC Ajaccio,2000.0
4,Albania,Aalborg BK,1000.0
...,...,...,...
3242,Zimbabwe,Club Brugge KV,20000.0
3243,Zimbabwe,Hobro IK,5000.0
3244,Zimbabwe,Le Havre AC,2000.0
3245,Zimbabwe,Orlando Pirates,1000.0


Добавим сортировку внутри групп:

In [24]:
df.groupby(['Nationality', 'Club']).apply(lambda x: x.sort_values(by='Salary', ascending=False))

  df.groupby(['Nationality', 'Club']).apply(lambda x: x.sort_values(by='Salary', ascending=False))


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Name,Age,Nationality,Club,Salary
Nationality,Club,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Afghanistan,Notts County,10007,N. Husin,21.0,Afghanistan,Notts County,2000.0
Afghanistan,SV Meppen,7695,H. Amin,26.0,Afghanistan,SV Meppen,1000.0
Afghanistan,Walsall,8395,M. Kouhyar,20.0,Afghanistan,Walsall,1000.0
Albania,AC Ajaccio,4697,Q. Laçi,22.0,Albania,AC Ajaccio,2000.0
Albania,Aalborg BK,12510,B. Bytyqi,21.0,Albania,Aalborg BK,1000.0
...,...,...,...,...,...,...,...
Zimbabwe,Club Brugge KV,468,M. Nakamba,24.0,Zimbabwe,Club Brugge KV,20000.0
Zimbabwe,Hobro IK,2772,Q. Antipas,34.0,Zimbabwe,Hobro IK,5000.0
Zimbabwe,Le Havre AC,6090,T. Kadewere,22.0,Zimbabwe,Le Havre AC,2000.0
Zimbabwe,Orlando Pirates,6502,M. Munetsi,24.0,Zimbabwe,Orlando Pirates,1000.0


Теперь удалим лишние колонки. Обратите внимание на обратный слэш, это line continuation character.

In [25]:
df.groupby(['Nationality', 'Club']).apply(lambda x: x.sort_values(by='Salary', ascending=False)).\
                                                    drop(['Nationality', 'Club'], axis=1)

  df.groupby(['Nationality', 'Club']).apply(lambda x: x.sort_values(by='Salary', ascending=False)).\


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Name,Age,Salary
Nationality,Club,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,Notts County,10007,N. Husin,21.0,2000.0
Afghanistan,SV Meppen,7695,H. Amin,26.0,1000.0
Afghanistan,Walsall,8395,M. Kouhyar,20.0,1000.0
Albania,AC Ajaccio,4697,Q. Laçi,22.0,2000.0
Albania,Aalborg BK,12510,B. Bytyqi,21.0,1000.0
...,...,...,...,...,...
Zimbabwe,Club Brugge KV,468,M. Nakamba,24.0,20000.0
Zimbabwe,Hobro IK,2772,Q. Antipas,34.0,5000.0
Zimbabwe,Le Havre AC,6090,T. Kadewere,22.0,2000.0
Zimbabwe,Orlando Pirates,6502,M. Munetsi,24.0,1000.0


Посчитаем арифметическое среднее, моду и медиану возраста футболистов (количественной переменной):

In [26]:
print('Среднее:', round(df['Age'].mean(), 2),
      'Медиана:', df['Age'].median(),
      'Мода:', df['Age'].mode()[0])

Среднее: 24.78 Медиана: 24.0 Мода: 24.0


Для качественных переменных с помощью pandas можно вывести моду. Посмотрим на самую часто встречающуюся национальность:

In [27]:
df['Nationality'].mode()

Unnamed: 0,Nationality
0,England


Часто возникает необходимость выбрать данные из DataFrame по определённому условию. Например, если в уже известном нам наборе данных о футболистах мы хотим выбрать только тех, у кого возраст больше 20 лет, используется следующий код:

In [28]:
df[df.Age > 20]

Unnamed: 0,Name,Age,Nationality,Club,Salary
0,L. Messi,31.0,Argentina,FC Barcelona,565000.0
2,Neymar Jr,26.0,Brazil,Paris Saint-Germain,290000.0
3,De Gea,27.0,Spain,Manchester United,260000.0
4,K. De Bruyne,27.0,Belgium,Manchester City,355000.0
5,E. Hazard,27.0,Belgium,Chelsea,340000.0
...,...,...,...,...,...
12838,D. Mackay,21.0,Scotland,Kilmarnock,1000.0
12855,H. Norris,24.0,England,Oldham Athletic,1000.0
12861,Y. Uchimura,33.0,Japan,Hokkaido Consadole Sapporo,1000.0
12873,K. Pilkington,44.0,England,Cambridge United,1000.0


Выберем футболистов, возраст которых больше среднего возраста футболистов, при условии, что они принадлежат ФК Барселона (Club == 'FC Barcelona').

In [29]:
df[(df.Age > df.Age.mean()) & (df.Club == 'FC Barcelona')]

Unnamed: 0,Name,Age,Nationality,Club,Salary
0,L. Messi,31.0,Argentina,FC Barcelona,565000.0
7,L. Suárez,31.0,Uruguay,FC Barcelona,455000.0
18,M. ter Stegen,26.0,Germany,FC Barcelona,240000.0
20,Sergio Busquets,29.0,Spain,FC Barcelona,315000.0
32,Coutinho,26.0,Brazil,FC Barcelona,340000.0
49,Jordi Alba,29.0,Spain,FC Barcelona,250000.0
54,Piqué,31.0,Spain,FC Barcelona,240000.0
204,J. Cillessen,29.0,Netherlands,FC Barcelona,135000.0
605,T. Vermaelen,32.0,Belgium,FC Barcelona,2000.0


Чтобы объединить данные из нескольких датасетов по ключу (общей колонке), в pandas можно воспользовать встроенными аналогами SQL методов. В метод ```join``` в качестве аргумента how нужно указать тип объединения датасетов: inner, outer, left или right.

In [30]:
df_info = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/data_football_info.csv', sep='\t')

joined_dfs = df_info.set_index('Name').join(df.set_index('Name'), how='inner').reset_index()
joined_dfs.head(5)

Unnamed: 0.1,Name,Unnamed: 0,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,...,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Age,Nationality,Club,Salary
0,L. Messi,0.0,RF,84.0,95.0,,90.0,86.0,97.0,93.0,...,26.0,6.0,11.0,15.0,,,31.0,Argentina,FC Barcelona,565000.0
1,Neymar Jr,2.0,LW,79.0,87.0,62.0,84.0,84.0,96.0,88.0,...,33.0,9.0,9.0,15.0,15.0,11.0,26.0,Brazil,Paris Saint-Germain,290000.0
2,De Gea,3.0,GK,17.0,13.0,21.0,50.0,13.0,18.0,21.0,...,13.0,90.0,85.0,87.0,88.0,94.0,27.0,Spain,Manchester United,260000.0
3,K. De Bruyne,4.0,RCM,93.0,82.0,55.0,92.0,82.0,86.0,85.0,...,51.0,15.0,13.0,5.0,,13.0,27.0,Belgium,Manchester City,355000.0
4,E. Hazard,5.0,,81.0,84.0,61.0,89.0,80.0,95.0,83.0,...,22.0,11.0,12.0,6.0,8.0,8.0,27.0,Belgium,Chelsea,340000.0


В качестве задания вам предлагается повторить данные действия по визуализации и классификации для набора данных
- [Blood Transfusion Service Center Data Set](http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center)