# Практика EDA (разведочный анализ данных)

Анализируем датасет с информацией об атлетах, участвовавших в Олимпийских играх (olymp.csv). Разделитель запятая.

Данные содержат следующие признаки: \
ID - уникальный номер спортсмена \
Name - имя атлета \
Sex - пол (мужской - M,  женский - F) \
Age - возраст атлета \
Height - рост (в см) \
Weight - вес (в кг) \
Team - cтрана \
NOC - код страны от Олимпийского комитета (3 буквы) \
Games - год и сезон Олимпийских игр \
Year - год Олимпийских игр \
Season - сезон (Зимние - Winter,  Лето - Summer) \
City - город проведения Олимпийских игр \
Sport - спортивная дисциплина \
Event - категория спортивной дисциплины \
Medal - достоинство медали (Золото - Gold, Серебро - Silver, Бронза - Bronze, Без медали - NaN)

In [1]:
import pandas as pd

**Задание 1**. Загрузите данные

In [2]:
df = pd.read_csv('olymp.csv')

In [3]:
df.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


**Задание 2**. Проверьте данные на пропуски

In [15]:
df.isna().sum()

ID             0
Name           0
Sex            0
Age         9474
Height     60171
Weight     62875
Team           0
NOC            0
Games          0
Year           0
Season         0
City           0
Sport          0
Event          0
Medal     231333
dtype: int64

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   ID      271116 non-null  int64  
 1   Name    271116 non-null  object 
 2   Sex     271116 non-null  object 
 3   Age     261642 non-null  float64
 4   Height  210945 non-null  float64
 5   Weight  208241 non-null  float64
 6   Team    271116 non-null  object 
 7   NOC     271116 non-null  object 
 8   Games   271116 non-null  object 
 9   Year    271116 non-null  int64  
 10  Season  271116 non-null  object 
 11  City    271116 non-null  object 
 12  Sport   271116 non-null  object 
 13  Event   271116 non-null  object 
 14  Medal   39783 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MB


**Задание 3**. Узнайте размер датафрейма. Получите список всех колонок.

In [16]:
df.shape

(271116, 15)

In [35]:
print(*list(df.columns),sep = ', ')

ID, Name, Sex, Age, Height, Weight, Team, NOC, Games, Year, Season, City, Sport, Event, Medal


**Задание 4**. Сколько лет было самому молодому участнику олимпийских игр в 1992 году?

In [47]:
min_age_92 = df[df.Year == 1992].Age.min()

In [53]:
df[(df.Year == 1992) & (df.Age == min_age_92)]

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
73461,37333,Carlos Bienvenido Front Barrera,M,11.0,,,Spain,ESP,1992 Summer,1992,Summer,Barcelona,Rowing,Rowing Men's Coxed Eights,


**Задание 5**. Сколько всего уникальных участников Олимпийских игр было в 2012 году? Примените метод `.drop_duplicates("признак")` по признаку ID, чтобы оставить строки, только с уникальными атлетами

In [54]:
df[df['Year'] == 2012].drop_duplicates('ID').Name.count()

10517

In [56]:
cnt2012 = df[df['Year'] == 2012].drop_duplicates('ID').Name.count()

**Задание 6**. Какую долю составляют мужчины-баскетболисты среди всех участников игр 2012 года? Округлите ответ до двух знаков.

In [71]:
print(round(df[(df['Year'] == 2012) & (df['Sport'] == 'Basketball') & (df['Sex'] == 'M')].drop_duplicates('ID').Name.count()/cnt2012*100,2),'%', sep ='')

1.37%


**Задание 7**. В каких годах проводились соревнования по керлингу (Curling)? Примените метод `.unique()` к столбцу `Year`.

In [72]:
print(*sorted(list(df[df['Sport'] == 'Curling'].Year.unique())), sep=', ')

1924, 1998, 2002, 2006, 2010, 2014


**Задание 8**

Cоздайте новый признак BMI в датафрейме, который содержит информацию об индексе массы тела для каждого спортсмена на основе столбца с массой (Weight) и ростом (Height):

$$𝐵𝑀𝐼=\frac{Масса(кг.)}{Рост(м.)^2}$$

HINT: Обратите внимание, что рост(Height) в таблице дан в сантиметрах, а по формуле рост нужен в метрах

In [84]:
df['BMI'] = round(df.Weight / (0.01 * df.Height)**2,2)

In [85]:
df.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,BMI
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,,24.69
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,20.76
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold,
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,,23.96


In [101]:
df[['Height', 'Weight','BMI']].sample(10) #выборка случайных значений для проверки

Unnamed: 0,Height,Weight,BMI
69824,179.0,85.0,26.53
63852,,,
7314,186.0,80.0,23.12
200731,181.0,87.0,26.56
136683,153.0,50.0,21.36
211189,159.0,55.0,21.76
123416,159.0,54.0,21.36
34181,,,
226826,167.0,54.0,19.36
267752,,,


**Задание 9**. Найдите модуль разности между максимальным и минимальным значением индекса массы тела атлетов (BMI). Ответ округлите до двух знаков.

In [102]:
df.BMI.max() - df.BMI.min()

55.54

**Задание 10**.

Определите количество атлетов из Советского Союза (Soviet Union) чей процент успеха на олимпиаде не менее 50%. Показатель процента успеха рассчитывается как частное (количество завоеванных медалей к количеству категорий спортивных дисциплин, в которых они приняли участие), умноженное на 100.

In [108]:
sov_team = df[df.Team == 'Soviet Union'].groupby('Name')[['Event', 'Medal']].count().copy()

In [112]:
sov_team['success'] = 100 * sov_team.Medal / sov_team.Event

In [118]:
sov_team[sov_team.success >= 50].shape[0]

1452