В качестве задания вам предлагается повторить данные действия для набора данных
- [Blood Transfusion Service Center Data Set](http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center)

In [2]:
import pandas as pd

Набор данных о футболистах.

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/AnnaA102/mo2025/refs/heads/main/semestr/transfusion.data')

In [4]:
df.columns

Index(['Recency (months)', 'Frequency (times)', 'Monetary (c.c. blood)',
       'Time (months)', 'whether he/she donated blood in March 2007'],
      dtype='object')

Функция возвращает DataFrame (то есть таблицу), однако затем приобретает ещё много важных параметров, среди которых:

* sep — разделитель данных, по умолчанию ',';
* decimal — разделитель числа на целую и дробную часть, по умолчанию'.';
* names — список с названиями колонок, не обязательный параметр;
* skiprows — если файл содержит системную информацию, можно просто её пропустить. Необязательный параметр.

С помощью функции ```head``` можем посмотреть на первые несколько строк нашего датасета:

In [None]:
df.head()

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months),whether he/she donated blood in March 2007
0,2,50,12500,98,1
1,0,13,3250,28,1
2,1,16,4000,35,1
3,2,20,5000,45,1
4,1,24,6000,77,0


In [None]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=df)

https://docs.google.com/spreadsheets/d/1xBe8fw6xkHeuDP19rPSKMeHaeWfFe1hGjneP3AShEVI/edit#gid=0


Удалим колонку Value, к которой мы не знаем точную интерпретацию:

In [None]:
df.drop(['whether he/she donated blood in March 2007'], axis=1, inplace=True)

In [None]:
# последние несколько строк:
df.tail(3)

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months)
745,23,3,750,62
746,39,1,250,39
747,72,1,250,72


Посмотрим на размер нашего датасета. Первое число – количество строк (наблюдений), второе – количество столбцов (признаков):

In [None]:
df.shape

(748, 5)

Если вы хотите переименовать какую-то переменную, воспользуйтесь ```rename```:

In [None]:
df.rename({'Frequency (times)' : 'Frequency'}, axis='columns', inplace=True)

In [None]:
df.columns

Index(['Recency (months)', 'Frequency', 'Monetary (c.c. blood)',
       'Time (months)'],
      dtype='object')

Давайте посмотрим на информацию о датасете. В .info() можно передать дополнительные параметры, среди которых:

* verbose: печатать ли информацию о DataFrame полностью (если таблица очень большая, то некоторая информация может потеряться);
* memory_usage: печатать ли потребление памяти (по умолчанию используется True, но можно поставить либо False, что уберёт потребление памяти, либо 'deep' , что подсчитает потребление памяти более точно);
* null_counts: подсчитывать ли количество пустых элементов (по умолчанию True).

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 4 columns):
 #   Column                 Non-Null Count  Dtype
---  ------                 --------------  -----
 0   Recency (months)       748 non-null    int64
 1   Frequency              748 non-null    int64
 2   Monetary (c.c. blood)  748 non-null    int64
 3   Time (months)          748 non-null    int64
dtypes: int64(4)
memory usage: 23.5 KB


Можно вывести только тип данных в каждой колонке:

In [None]:
df.dtypes

Unnamed: 0,0
Recency (months),int64
Frequency (times),int64
Monetary (c.c. blood),int64
Time (months),int64
Donated_March2007,int64


Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [None]:
df.describe()

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months),Donated_March2007
count,748.0,748.0,748.0,748.0,748.0
mean,9.506684,5.514706,1378.676471,34.282086,0.237968
std,8.095396,5.839307,1459.826781,24.376714,0.426124
min,0.0,1.0,250.0,2.0,0.0
25%,2.75,2.0,500.0,16.0,0.0
50%,7.0,4.0,1000.0,28.0,0.0
75%,14.0,7.0,1750.0,50.0,0.0
max,74.0,50.0,12500.0,98.0,1.0


Было бы полезно узнать, много ли у нас пропусков в датасете.

In [None]:
df.isna().sum()


Unnamed: 0,0
Recency (months),0
Frequency (times),0
Monetary (c.c. blood),0
Time (months),0
Donated_March2007,0


In [None]:
print("Дубликатов строк:", df.duplicated().sum())

Дубликатов строк: 215


Чтобы удалить пропуски из данных, нужно вопспользоваться ```df.dropna()```, либо заполнить их значениями (например, средним) -  ```df.fillna(df['column_name'].mean())``` .
Если в датасете содержатся дубликаты строк - воспользуйтесь методом ```df.drop_duplicates()```.

In [None]:
df.drop_duplicates(inplace=True)
df.dropna(inplace=True)

df.isna().sum()

Unnamed: 0,0
Recency (months),0
Frequency (times),0
Monetary (c.c. blood),0
Time (months),0
Donated_March2007,0


Выведем уникальные значения по возрасту и сколько раз каждое из них встречается в датасете (по убыванию).

In [None]:
df['Frequency'].value_counts()

Unnamed: 0_level_0,count
Frequency,Unnamed: 1_level_1
1,158
2,112
3,87
5,62
4,62
6,52
7,43
8,31
9,24
11,22


Чтобы вывести уникальные значения в столбце или их количество, нужно использовать ```unique``` и ```nunique``` соответственно. Посмотрим, сколько у нас уникальных футбольных клубов.

In [None]:
print('Всего {} месяцев с первой дотации'.format(df['Time (months)'].nunique()))

Всего 78 месяцев с первой дотации


In [None]:
df['Frequency'].unique()[:10]

array([50, 13, 16, 20, 24,  4,  7, 12,  9, 46])

Посмотрим на среднюю зарплату по клубу:

In [None]:
grouped = df.groupby('Time (months)', as_index=False)['Frequency'].mean()
# добавим сортировку по убыванию
grouped.sort_values(by='Frequency', ascending=False)

Unnamed: 0,Time (months),Frequency
77,98,31.800000
35,42,16.000000
57,69,15.250000
65,77,15.142857
71,86,15.125000
...,...,...
5,11,1.838710
3,9,1.666667
2,4,1.508772
0,2,1.083333


Добавим еще подсчет минимума, максимума и медианы по каждой группе:

In [None]:
df.groupby('Time (months)')['Monetary (c.c. blood)'].agg(['mean', 'min', 'max', 'median'])

Unnamed: 0_level_0,mean,min,max,median
Time (months),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,270.833333,250,500,250.0
3,250.000000,250,250,250.0
4,377.192982,250,1000,250.0
9,416.666667,250,750,375.0
10,500.000000,500,500,500.0
...,...,...,...,...
88,2500.000000,1750,3000,2750.0
89,2450.000000,750,4000,2500.0
93,2625.000000,1750,3500,2625.0
95,2812.500000,2000,3500,2875.0


Сгруппируем одновременно по стране и клубу:

In [None]:
df.groupby(['Time (months)', 'Frequency'], as_index=False)['Monetary (c.c. blood)'].mean()

Unnamed: 0,Time (months),Frequency,Monetary (c.c. blood)
0,2,1,250.0
1,2,2,500.0
2,3,1,250.0
3,4,1,250.0
4,4,2,500.0
...,...,...,...
340,98,38,9500.0
341,98,41,10250.0
342,98,44,11000.0
343,98,46,11500.0


Добавим сортировку внутри групп:

In [None]:
df.groupby(['Time (months)', 'Frequency']).apply(lambda x: x.sort_values(by='Monetary (c.c. blood)', ascending=False))

  df.groupby(['Time (months)', 'Frequency']).apply(lambda x: x.sort_values(by='Monetary (c.c. blood)', ascending=False))


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Recency (months),Frequency,Monetary (c.c. blood),Time (months)
Time (months),Frequency,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,1,153,2,1,250,2
2,1,154,2,1,250,2
2,1,155,2,1,250,2
2,1,156,2,1,250,2
2,1,157,2,1,250,2
...,...,...,...,...,...,...
98,38,341,23,38,9500,98
98,41,505,2,41,10250,98
98,44,503,2,44,11000,98
98,46,9,5,46,11500,98


Теперь удалим лишние колонки. Обратите внимание на обратный слэш, это line continuation character.

In [None]:
df.groupby(['Time (months)', 'Frequency']).apply(lambda x: x.sort_values(by='Monetary (c.c. blood)', ascending=False)).\
                                                    drop(['Time (months)', 'Frequency'], axis=1)

  df.groupby(['Time (months)', 'Frequency']).apply(lambda x: x.sort_values(by='Monetary (c.c. blood)', ascending=False)).\


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Recency (months),Monetary (c.c. blood)
Time (months),Frequency,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,1,153,2,250
2,1,154,2,250
2,1,155,2,250
2,1,156,2,250
2,1,157,2,250
...,...,...,...,...
98,38,341,23,9500
98,41,505,2,10250
98,44,503,2,11000
98,46,9,5,11500


Посчитаем арифметическое среднее, моду и медиану возраста футболистов (количественной переменной):

In [None]:
print('Среднее:', round(df['Frequency'].mean(), 2),
      'Медиана:', df['Frequency'].median(),
      'Мода:', df['Frequency'].mode()[0])

Среднее: 5.51 Медиана: 4.0 Мода: 1


In [None]:
df[df.Frequency > 20]

Unnamed: 0,Recency (months),Frequency,Monetary (c.c. blood),Time (months)
0,2,50,12500,98
4,1,24,6000,77
9,5,46,11500,98
10,4,23,5750,58
115,11,24,6000,64
241,11,22,5500,98
341,23,38,9500,98
500,2,43,10750,86
501,6,22,5500,28
502,2,34,8500,77


In [None]:
df[(df['Recency (months)'] > df['Recency (months)'].mean()) & (df['Frequency'] == 2)]


Unnamed: 0,Recency (months),Frequency,Monetary (c.c. blood),Time (months)
248,11,2,500,11
249,11,2,500,11
250,11,2,500,11
285,11,2,500,14
297,14,2,500,14
298,14,2,500,14
299,14,2,500,14
300,14,2,500,14
301,14,2,500,14
302,14,2,500,14


Чтобы объединить данные из нескольких датасетов по ключу (общей колонке), в pandas можно воспользовать встроенными аналогами SQL методов. В метод ```join``` в качестве аргумента how нужно указать тип объединения датасетов: inner, outer, left или right.

In [6]:
df_info = pd.read_csv('https://raw.githubusercontent.com/AnnaA102/mo2025/refs/heads/main/semestr/transfusion.data')
joined_dfs = df_info.set_index('Recency (months)').join(df.set_index('Recency (months)'), how='inner',lsuffix='_left', rsuffix='_right').reset_index()
joined_dfs.head(5)

Unnamed: 0,Recency (months),Frequency (times)_left,Monetary (c.c. blood)_left,Time (months)_left,whether he/she donated blood in March 2007_left,Frequency (times)_right,Monetary (c.c. blood)_right,Time (months)_right,whether he/she donated blood in March 2007_right
0,2,50,12500,98,1,50,12500,98,1
1,2,50,12500,98,1,20,5000,45,1
2,2,50,12500,98,1,7,1750,14,1
3,2,50,12500,98,1,9,2250,22,1
4,2,50,12500,98,1,10,2500,28,1
