[Blood Transfusion Service Center Data Set](http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center)

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ViolettaKalennikova/mo2025/refs/heads/main/data/transfusion.data')

In [None]:
df.columns

Index(['Recency (months)', 'Frequency (times)', 'Monetary (c.c. blood)',
       'Time (months)', 'whether he/she donated blood in March 2007'],
      dtype='object')

**Recency (months) (Новизна)** месяцев с момента последнего пожертвования

**Frequency (times) Частота**  общее количество пожертвований С

**Monetary (c.c. blood)**	общее количество сданной крови в куб. см

**Time (months) Время**	месяцев с момента первой сдачи крови

**Whether he/she donated blood in March 2007 Донорская_кровь**	Cдавал ли он/она кровь в марте 2007 г.
(1 означает сдачу крови; 0 означает отказ от сдачи крови)

In [None]:
df.head()

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months),whether he/she donated blood in March 2007
0,2,50,12500,98,1
1,0,13,3250,28,1
2,1,16,4000,35,1
3,2,20,5000,45,1
4,1,24,6000,77,0


Удалим колонку:

In [None]:
df.drop(['whether he/she donated blood in March 2007'], axis=1, inplace=True)

In [None]:
# последние несколько строк:
df.tail(3)

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months)
745,23,3,750,62
746,39,1,250,39
747,72,1,250,72


Посмотрим на размер нашего датасета. Первое число – количество строк (наблюдений), второе – количество столбцов (признаков):

In [None]:
df.shape

(748, 4)

Если вы хотите переименовать какую-то переменную, воспользуйтесь ```rename```:

In [None]:
df.rename({'Monetary (c.c. blood)' : 'Monetary'}, axis='columns', inplace=True)

In [None]:
df.columns

Index(['Recency (months)', 'Frequency (times)', 'Monetary', 'Time (months)'], dtype='object')

Давайте посмотрим на информацию о датасете. В .info() можно передать дополнительные параметры, среди которых:

* verbose: печатать ли информацию о DataFrame полностью (если таблица очень большая, то некоторая информация может потеряться);
* memory_usage: печатать ли потребление памяти (по умолчанию используется True, но можно поставить либо False, что уберёт потребление памяти, либо 'deep' , что подсчитает потребление памяти более точно);
* null_counts: подсчитывать ли количество пустых элементов (по умолчанию True).

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Recency (months)   748 non-null    int64
 1   Frequency (times)  748 non-null    int64
 2   Monetary           748 non-null    int64
 3   Time (months)      748 non-null    int64
dtypes: int64(4)
memory usage: 23.5 KB


Можно вывести только тип данных в каждой колонке:

In [None]:
df.dtypes

Unnamed: 0,0
Recency (months),int64
Frequency (times),int64
Monetary (c.c. blood),int64
Time (months),int64


Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [None]:
df.describe()

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months)
count,748.0,748.0,748.0,748.0
mean,9.506684,5.514706,1378.676471,34.282086
std,8.095396,5.839307,1459.826781,24.376714
min,0.0,1.0,250.0,2.0
25%,2.75,2.0,500.0,16.0
50%,7.0,4.0,1000.0,28.0
75%,14.0,7.0,1750.0,50.0
max,74.0,50.0,12500.0,98.0


Чтобы посмотреть статистику по нечисловым признакам (например, по строчным (object) или булевым (bool) данным), нужно явно указать интересующие нас типы в параметре метода describe include:

In [None]:
#у нас в этом датасете все значения числовые, но код мог бы выглядеть так:
df.describe(include = ['Recency (months)'])

Было бы полезно узнать, много ли у нас пропусков в датасете.

In [None]:
print(df.isna().sum())

Recency (months)     0
Frequency (times)    0
Monetary             0
Time (months)        0
dtype: int64


In [None]:
df.isna().sum()
print(df.dtypes)

Recency (months)     int64
Frequency (times)    int64
Monetary             int64
Time (months)        int64
dtype: object


Чтобы удалить пропуски из данных, нужно вопспользоваться ```df.dropna()```, либо заполнить их значениями (например, средним) -  ```df.fillna(df['column_name'].mean())``` .
Если в датасете содержатся дубликаты строк - воспользуйтесь методом ```df.drop_duplicates()```.

In [None]:
#у нас в датасете пропусков нет, но код мог бы выглядеть так:

# заполним количественные переменные средними значениями (медианой)
df['Age'] = df['Age'].fillna(df['Age'].median())
df['Salary'] = df['Salary'].fillna(df['Salary'].median())

# у оставшихся переменных удалим строки с пропусками
df.dropna(inplace=True)

df.isna().sum()

Выведем уникальные значения и сколько раз каждое из них встречается в датасете (по убыванию).

In [None]:
df['Recency (months)'].value_counts()

Unnamed: 0_level_0,count
Recency (months),Unnamed: 1_level_1
2,173
4,156
11,84
14,76
16,63
23,50
21,44
9,20
3,13
1,9


Чтобы вывести уникальные значения в столбце или их количество, нужно использовать ```unique``` и ```nunique``` соответственно.

In [None]:
#этот код не очень полходит для нашего датасета, применила рандомный показатель, чтобы понять, как работате

print('Всего {} варианта количества сданной крови в куб.см.'.format(df['Monetary'].nunique()))

Всего 33 варианта количества сданной крови в куб.см.


In [None]:
df['Monetary'].unique()[:10]

array([12500,  3250,  4000,  5000,  6000,  1000,  1750,  3000,  2250,
       11500])

Посмотрим на средние значения

In [None]:
добавить столбец равняется среднее столбцу монеари деленное фриквенси

In [None]:
grouped = df.groupby('Time (months)', as_index=False)['Recency (months)'].mean()
# добавим сортировку по убыванию
grouped.sort_values(by='Time (months)', ascending=False)

Unnamed: 0,Time (months),Recency (months)
77,98,6.900000
76,95,6.250000
75,93,19.500000
74,89,12.800000
73,88,9.666667
...,...,...
4,10,2.000000
3,9,6.166667
2,4,3.543860
1,3,3.000000


Добавим еще подсчет минимума, максимума и медианы:

In [36]:
df.groupby('Time (months)')['Monetary'].agg(['mean', 'min', 'max', 'median'])

Unnamed: 0_level_0,mean,min,max,median
Time (months),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,270.833333,250,500,250.0
3,250.000000,250,250,250.0
4,377.192982,250,1000,250.0
9,416.666667,250,750,375.0
10,500.000000,500,500,500.0
...,...,...,...,...
88,2500.000000,1750,3000,2750.0
89,2450.000000,750,4000,2500.0
93,2625.000000,1750,3500,2625.0
95,2812.500000,2000,3500,2875.0


Сгруппируем одновременно по общему количеству пожертвований и общему кол-ву сданной крови в куб.см.:

In [38]:
df.groupby(['Frequency (times)', 'Monetary'], as_index=False)['Monetary'].mean()

Unnamed: 0,Frequency (times),Monetary
0,1,250.0
1,2,500.0
2,3,750.0
3,4,1000.0
4,5,1250.0
5,6,1500.0
6,7,1750.0
7,8,2000.0
8,9,2250.0
9,10,2500.0


Добавим сортировку внутри групп:

In [39]:
df.groupby(['Time (months)', 'Frequency (times)']).apply(lambda x: x.sort_values(by='Monetary', ascending=False))

  df.groupby(['Time (months)', 'Frequency (times)']).apply(lambda x: x.sort_values(by='Monetary', ascending=False))


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Recency (months),Frequency (times),Monetary,Time (months)
Time (months),Frequency (times),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,1,153,2,1,250,2
2,1,154,2,1,250,2
2,1,155,2,1,250,2
2,1,156,2,1,250,2
2,1,157,2,1,250,2
...,...,...,...,...,...,...
98,38,341,23,38,9500,98
98,41,505,2,41,10250,98
98,44,503,2,44,11000,98
98,46,9,5,46,11500,98


Посчитаем арифметическое среднее, моду и медиану общего количество сданной крови в куб. см(количественной переменной):

In [40]:
print('Среднее:', round(df['Monetary'].mean(), 2),
      'Медиана:', df['Monetary'].median(),
      'Мода:', df['Monetary'].mode()[0])

Среднее: 1378.68 Медиана: 1000.0 Мода: 250


Посчитаем арифметическое среднее, моду и медиану общего количества пожертвований

In [41]:
print('Среднее:', round(df['Frequency (times)'].mean(), 2),
      'Медиана:', df['Frequency (times)'].median(),
      'Мода:', df['Frequency (times)'].mode()[0])

Среднее: 5.51 Медиана: 4.0 Мода: 1


Для качественных переменных с помощью pandas можно вывести моду.

In [44]:
df['Monetary'].mode()
#получилось даже для количественной

Unnamed: 0,Monetary
0,250


Часто возникает необходимость выбрать данные из DataFrame по определённому условию. Выберем тех, кто сдал крови больше 5000 куб. см. крови

In [46]:
df[df.Monetary > 5000]

Unnamed: 0,Recency (months),Frequency (times),Monetary,Time (months)
0,2,50,12500,98
4,1,24,6000,77
9,5,46,11500,98
10,4,23,5750,58
115,11,24,6000,64
241,11,22,5500,98
341,23,38,9500,98
500,2,43,10750,86
501,6,22,5500,28
502,2,34,8500,77
