# Лабораторная работа 3. Основы работы с библиотекой Pandas

Скачайте в рабочую директорию файлы `country_statistics.csv` и `bikes.csv` - в них находятся данные, с которыми вы будете работать.

Данная работа состоит из **трех** заданий. Они записаны в блокноте после символов 📌📌📌 . Для записи ответов используйте ячейки под заданиями, содержащие запись `# Ваш код`.

При выполнении работы рекомендуется обращаться:

- [к справке по Python 3](https://docs.python.org/3/tutorial/index.html),
- к учебнику `У. Маккини. Python и анализ данных`
- [к шпаргалке по Pandas на Harbr](https://habr.com/ru/company/ruvds/blog/494720/)

![](https://filearmy.s3.amazonaws.com/2017/03/03/25b10be.jpg)

Модуль Pandas предназначен для работы с данными, чем-то напоминающей работу в Excel. Данные хранятся в таблице с именованными колонками и пронумерованными строками.

Две основные структуры данных в Pandas - *Series* и *DataFrame*.

Для начала подключим модуль Pandas:

In [2]:
# Данная конструкция подключает модуль pandas  и позволяет обращаться 
# к его функциям через имя pd (при желании вы можете использовать и другое короткое имя, но pd - общеупотребимое ).
import pandas as pd

## 1. Объект Series 

**Series** - одномерные, похожий на массив объект, содержащий последовательность данных и ассоциированный с ними массив меток, который называется *индексом*.

Простейший способ создать объект Series -  задать только массив данных:

In [3]:
obj=pd.Series ([2,-5,7.8,3])
obj

0    2.0
1   -5.0
2    7.8
3    3.0
dtype: float64

В строковом представлении Series, отображаемом в интерактивном режиме, индекс находится слева, а значения справа. Поскольку мы не задали индекс для данных, то по умолчанию индекс задается как `range(n)`. 

Получить информацию о содержании и индексировании массива можно с помощью аттрибутов `values` и `index` соответственно:

In [4]:
print(obj.values)
print(obj.index)

[ 2.  -5.   7.8  3. ]
RangeIndex(start=0, stop=4, step=1)


Чтобы создать объект Series с индексом, индентифицирующим каждый элемент данных в соответсвии с некоторым смыслом, можно использовать в индексе  метки:

In [5]:
obj1=pd.Series([25,15,20,20], index=['left','right', 'top','bottom'])
obj1

left      25
right     15
top       20
bottom    20
dtype: int64

Применение математических операций к объектам массива сохраняет связь с индексами:

In [6]:
obj1**2

left      625
right     225
top       400
bottom    400
dtype: int64

Объект Series можно представлять как упорядоченный словарь фиксированной длины, поскольку он отображает индекс на данные (как словарь отображает ключ на значение). Если имеется словарь Python, то из него можно создать объект Series:

In [7]:
my_dict={'Oreo': 23, 'Choko pie':15, 'Milka': 30, 'Mersi': 40}
obj2=pd.Series(my_dict)
obj2

Oreo         23
Choko pie    15
Milka        30
Mersi        40
dtype: int64

Если только часть словаря нужно перенесети в объект Series, то можно задать список ключей, значения по которым нужно занести в массив. И передать этот список как индексы:

In [8]:
inds=['Oreo', 'Choko pie', 'Chupa-chups', 'Mersi']
obj3=pd.Series(my_dict, index=inds)
obj3

Oreo           23.0
Choko pie      15.0
Chupa-chups     NaN
Mersi          40.0
dtype: float64

❓ Окуда в массисе `obj3` появилось значение NaN?

**Отсутствующие значения** в Pandas обозначаются `NaN`. Для распознавания отсутсвующих данных в Pandas следует использовать фукцнии `isnull(obj)`  и `notnull(obj)`. Также у самих объектов Series есть встроенный метод `isnull()`.

In [9]:
print(pd.isnull(obj3))
print(pd.notnull(obj3))
print(obj3.isnull())

Oreo           False
Choko pie      False
Chupa-chups     True
Mersi          False
dtype: bool
Oreo            True
Choko pie       True
Chupa-chups    False
Mersi           True
dtype: bool
Oreo           False
Choko pie      False
Chupa-chups     True
Mersi          False
dtype: bool


## 2. Объект DataFrame
Объект DataFrame представляет собой табличную структуру данных, состоящую из упорядоченной коллекции столбцов, причем типы значений (числовой, строковый, булев и т.д.) в разных стобцах могут различаться. 

В объекте DataFrame хранятся два индекса: по строкам и по столбцам.  Можно считать, что это словарь объектов Series, имеющих общий индекс.

Основные способы конструирования объекта DataFrame:
- через словарь списков одинаковой длины или массивов NumPy (о них позже)
- путем чтения таблиц из текстовых файлов с разделителями (`*.csv, *.txt`, и пр.) или электронных таблиц Excel.

### 2.1. Создание DataFrame внутренними средствами Python
Создаем DataFrame из словаря:

In [10]:
my_dict={'state':['Ohio','Ohio','Ohio','Nevada', 'Nevada','Nevada'], 
          'year':[2000, 2001, 2002, 2001, 2002, 2003],
          'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} # словарь, все значения которого - списки
df=pd.DataFrame(my_dict) # создание объекта DataFrame из словаря. Ключи становятся столбцами
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Индекс назначается автоматически как  `range(число_строк)`.
Если есть желание назначить другой индекс или изменить расположение столбцов по порядку, это можно указать при создании DataFrame:

In [11]:
df2=pd.DataFrame(my_dict, columns=['year', 'state', 'pop'], 
                 index=['one', 'two','three', 'four', 'five', 'six'])
df2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


Вывод первых  (последних) `n` строк таблицы осуществляется с помощью методов `head(n)` (`tail(n)`). По умолчанию `n=5`.

In [12]:
df2.head()

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


Размер таблицы данных (число строк - число столбцов):

In [13]:
df2.shape

(6, 3)

Можно вывести названия всех столбцов:

In [14]:
df2.columns

Index(['year', 'state', 'pop'], dtype='object')

Краткое описание таблицы можно вывести так:

In [15]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, one to six
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    6 non-null      int64  
 1   state   6 non-null      object 
 2   pop     6 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 192.0+ bytes


### 2.2. Базовый функционал DataFrame
#### 2.2.1. Обращение к элементам Dataframe, фильтрация, срезы

**Столбец** DataFrame можно извлечь как объект Series:

In [16]:
print(df['year'])
print(df.state)# такой способ не сработает, если называние столбца содержит пробелы

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object


Чтобы извлечь несколько столбцов, нужно в квадратных скобках `[]` передать **список** названий столбцов:

In [17]:
df[['state', 'year']]

Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002
5,Nevada,2003


Доступ к **строкам** по индексу:

In [18]:
df[2:4]

Unnamed: 0,state,year,pop
2,Ohio,2002,3.6
3,Nevada,2001,2.4


Доступ  к строкам по условиям:

In [19]:
print(df[df.year>2000])

    state  year  pop
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


Иногда бывает нужно вывести строки с фиксированными значениями нескольких полей. В таких случаях можно воспользоваться логикой, аналогичной той, что использовалась в конструкции `if`.

Для проверки нескольких условий в `if` мы писали конструкции вроде такой:

In [20]:
if 1 > 0 and 10 <= 11:
    print('ok')

ok


Аналогичную конструкцию можно вписать в квадратных скобках `[]` для умной индексации в `pandas`:

In [21]:
df[(df['year'] > 2000) & (df['pop'] <3)]

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Важные отличия от `if`:
- оператор `and` заменяется на символ `&`
- оператор `or` заменяется на символ `|`
- оператор `not` заменяется на символ `~`
- каждое условие надо оборачивать в круглые скобки `()`

**Обратиться к отдельному элементу или сделать срез данных** можно с помощью методов `loc` и `iloc`. Они позволяют выбрать подмножество строк и столбцов, используя либо метки строк (`loc`), либо целые числа (`iloc`).
[Подробнее о различиях между loc и iloc](https://towardsdatascience.com/how-to-use-loc-and-iloc-for-selecting-data-in-pandas-bd09cb4c3d79#:~:text=The%20main%20distinction%20between%20loc,0%2Dbased%20integer%20position)

In [22]:
df2.loc[ 'two',['state','year'] ] # метка строки, метки столбцов

state    Ohio
year     2001
Name: two, dtype: object

In [23]:
df2.iloc[2:, 0 ]  # номера строк, номер столбца

three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [24]:
df2.iloc[:,0][df2.state=='Nevada']

four    2001
five    2002
six     2003
Name: year, dtype: int64

#### 2.2.2. Арифметические операции
Между объектами Series и DataFrame можно производить арифметические операции. При этом операции производятся поэлементно над элементами с одинаковыми индексами.

In [25]:
df1=pd.DataFrame(data={"city":['Krasnoyarsk', 'Kansk', 'Achinsk'], "june":[190, 102, 98], "july":[179, 88, 67]})
df2=pd.DataFrame(data={"city":['Krasnoyarsk', 'Kansk', 'Achinsk'], "june":[185, 112, 81], "july":[223, 83, 91]}, index=[1,2,3])
df1['june']-df1['july']# разность между двумя столбцами
# попробуйте и другие арифметические операции над столбцами - сложение, умножение, деление, возведение в степень (pow)

0    11
1    14
2    31
dtype: int64

In [26]:
df1+df2

Unnamed: 0,city,june,july
0,,,
1,KanskKrasnoyarsk,287.0,311.0
2,AchinskKansk,210.0,150.0
3,,,


❓ Почему в результате сложения `df1` и `df2` часть элементов результирующего датафрейма оказалась `NaN`? Что случилось с названиями городов? 

#### 2.2.3 Копирование объектов Pandas

1. В Python операция присваивания создает **ссылку** на объект, стоящий справа, поэтому если после выполнения такого кода:

        df1=pd.Dataframe(my_dict)
        df2=df1
    
    вы решите изменить `df2`, например, то те же самые изменения произойдут и с `df1`, потому что и та, и другая переменная ссылаются на один и тот же объект.
    
2. При выполнениее кода
        `object_new=object.copy(deep=True)` 
    (параметр `deep` равен `True` по умолчанию) происходит создание нового **объекта** и копирование в него индексов и содержания исходного объекта `object`.

In [27]:
s = pd.Series([1, 2], index=["a", "b"])
deep = s.copy()
shallow = s
## Добавьте свой код - измените каким-то образом s и проверьте, что при этом происходит с deep и shallow


#### 2.2.4 Комбинирование датафреймов:
1. Конкатенация (`pd.concat()`)
    - **вертикальная**. Такая конкатенация возможна, если имеются два датафрейма с одинаковыми столбцами;
    - **горизонтальная**. Такая конкатенация возможна, если у датафреймов одинаковое число строк и одинаковые индексы
2. Слияние (`pd.merge()`) - соединение строк по одному или нескольким ключам (как в sql)
    - в работе рассмотрим только внутреннее соединение `inner`, которое применяеся по умолчанию: в результирующий объект попадают только ключи, присутсвующие в обоих объектах-аргументах. 
    
    Про альтернативные типы соединений (`left`, `right`, `outer`) при необходимости прочтите в книге `У. Маккини. Python и анализ данных, п. 8.2`


In [28]:
df1 = pd.DataFrame({
    'name': ['A', 'B', 'C', 'D'],
    'math': [60,89,82,70],
    'physics': [66,95,83,66],
    'chemistry': [61,91,77,70]
})
df2 = pd.DataFrame({
    'name': ['E', 'F', 'G', 'H'],
    'math': [66,95,83,66],
    'physics': [60,89,66,95],
    'chemistry': [90,81,78,90]
})

In [29]:
df3=pd.concat([df1,df2])# вертикальная конкатенация. Обратите внимание, индексы остались исходными

In [30]:
df3.loc[0]# в результате две строки имеют одинаковый индекс

Unnamed: 0,name,math,physics,chemistry
0,A,60,66,61
0,E,66,60,90


In [31]:
df3_ignore=pd.concat([df1,df2], ignore_index=True)
df3_ignore

Unnamed: 0,name,math,physics,chemistry
0,A,60,66,61
1,B,89,95,91
2,C,82,83,77
3,D,70,66,70
4,E,66,60,90
5,F,95,89,81
6,G,83,66,78
7,H,66,95,90


In [32]:
df4=pd.concat([df1,df2], axis=1)# горизонтальная конкатенация
df4
# допишите еще один аргумент: ignore_index=True, выведите датафрейм. Что с ним случилось и почему?

Unnamed: 0,name,math,physics,chemistry,name.1,math.1,physics.1,chemistry.1
0,A,60,66,61,E,66,60,90
1,B,89,95,91,F,95,89,81
2,C,82,83,77,G,83,66,78
3,D,70,66,70,H,66,95,90


In [33]:
pd.merge(df1, df2, on='physics')# соединение по стобцу с оценками по физике. Столбец называется одинаково в обоих датасетах

Unnamed: 0,name_x,math_x,physics,chemistry_x,name_y,math_y,chemistry_y
0,A,60,66,61,G,83,78
1,B,89,95,91,H,66,90
2,D,70,66,70,G,83,78


In [34]:
df2.rename(columns={'physics': 'phys'}, inplace=True) # переименуем столбец оценок по физике
df2

Unnamed: 0,name,math,phys,chemistry
0,E,66,60,90
1,F,95,89,81
2,G,83,66,78
3,H,66,95,90


In [35]:
pd.merge(df1, df2, left_on='physics', right_on='phys')

Unnamed: 0,name_x,math_x,physics,chemistry_x,name_y,math_y,phys,chemistry_y
0,A,60,66,61,G,83,66,78
1,B,89,95,91,H,66,95,90
2,D,70,66,70,G,83,66,78


#### 2.2.5 Удаление строк или столбцов

In [36]:
df3_ignore.drop(['math', 'chemistry'], axis=1)# удаление столбцов c указанными названиями

Unnamed: 0,name,physics
0,A,66
1,B,95
2,C,83
3,D,66
4,E,60
5,F,89
6,G,66
7,H,95


In [37]:
df3_ignore.drop([1, 3], axis=0)# удаление строк с указанными индексами

Unnamed: 0,name,math,physics,chemistry
0,A,60,66,61
2,C,82,83,77
4,E,66,60,90
5,F,95,89,81
6,G,83,66,78
7,H,66,95,90


## 2.3. Экспорт таблицы из файла
В `pandas` можно легко и удобно считывать таблицы  данных (датасеты) форматов .csv, .tsv, .xls, .xlsx, ... с помощью функции `read_csv` или `read_excel` в зависимости от формата. В течение курса мы в основном будем считывать из .csv (comma separated values).

Рассмотрим таблицу (файл `country_statistics.csv`), содержащую различные показатели по странам с $1980$ по $2009$ год, взятые из базы [United Nations System](http://data.un.org/Default.aspx).

Считаем данные и выведем первые $5$ строк:

In [38]:
countries = pd.read_csv('country_statistics.csv')
countries.head()

Unnamed: 0,Country or Area,Life expectancy,Year,Literacy percent,Child overweight percent,Child underweight percent
0,Afghanistan,41.0,1985,,,
1,Afghanistan,41.0,1990,,,
2,Afghanistan,42.0,1990,,,
3,Albania,72.0,1985,,,
4,Albania,72.0,1990,,,


In [39]:
# Выведите информацию о датафрейме
# Ваш код

❓ Есть ли в таблице данных столбец, в котором нет пропусков данных?

❓ Сколько пропусков в столбце `Life expectancy`?

📌📌📌 **Задание 1 (10 баллов).**

Выведите информацию за 2000 г. о странах, в которых процент грамотного населения больше 80

In [40]:
# ваш код
countries[(countries.Year==2000) & (countries['Literacy percent']>80)]

Unnamed: 0,Country or Area,Life expectancy,Year,Literacy percent,Child overweight percent,Child underweight percent
984,Bosnia and Herzegovina,73.5,2000,96.7,16.3,4.2
985,Bosnia and Herzegovina,74.0,2000,96.7,16.3,4.2
988,Brazil,69.5,2000,86.4,,
989,Brazil,71.0,2000,86.4,,
1014,China,70.5,2000,90.9,3.366667,7.4
1015,China,72.0,2000,90.9,3.366667,7.4
1023,Costa Rica,77.5,2000,94.9,,
1024,Costa Rica,78.5,2000,94.9,,
1046,Equatorial Guinea,48.5,2000,88.3,13.966667,15.7
1047,Equatorial Guinea,49.5,2000,88.3,13.966667,15.7


## 2.4. Простейшая обработка пропусков
Как видно по таблице `country`, при сборе данных часто возникают *пропущенные значения*, и в таблице появляются поля со значением NaN.

Простейшие способы от них избавиться:
- можно заменить их на какое-нибудь фиксированное значение (метод `fillna()`)
- можно вообще удалить строки, содержащие NaN (метод `dropna()`)


Одна из мер борьбы с NaN -- замена на какое-либо значение. В этой работе заменять будем на моду (наиболее часто встречающееся значение)

Сначала определим:
-  какиие вообще значения встречаются у переменной `Life expectancy`;
- частоты встречаемости этих значений

Для этого воспользуемся методом `value_counts()`, установив параметр `sort=True`, чтобы значение были отсортированы в порядче уменьшения частоты встречаемости. 


In [41]:
countries['Life expectancy'].value_counts(sort=True)# список всевозможных значений значений Life expectancy с частотами встречаемости этих значений

Life expectancy
71.5    41
70.0    40
74.5    39
69.5    37
71.0    37
        ..
71.6     1
71.9     1
72.2     1
72.4     1
72.6     1
Name: count, Length: 101, dtype: int64

Видно, что мода показателя `Life expectancy` равна $71.5$.
Заменим пропущенные значения в столбце `Life expectancy` на это значение.

In [42]:
# Копируем таблицу, чтобы не портить исходные данные.
countries_without_nan = countries.copy()

In [43]:
countries_without_nan['Life expectancy'] = countries_without_nan['Life expectancy'].fillna(71.5)

Важно избегать *необдуманных* замен значений в данных наподобие совершённого. Такие действия могут существенно повлиять на описательные статистики, так что иногда безопаснее по возможности просто не рассматривать данные с пропусками:

In [44]:
countries_without_nan = countries_without_nan.dropna(how='any')

Значение аргумента `how='any'` означает, что будут удалены все строки, содержащие **хотя бы один** пропуск. Такое значение стоит по умолчанию.

Можно было прописать `how='all'`, в результате чего удалились бы только строки, полностью состоящие из NaN.

In [45]:
countries_without_nan.info()

<class 'pandas.core.frame.DataFrame'>
Index: 126 entries, 101 to 1818
Data columns (total 6 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Country or Area            126 non-null    object 
 1   Life expectancy            126 non-null    float64
 2   Year                       126 non-null    int64  
 3   Literacy percent           126 non-null    float64
 4   Child overweight percent   126 non-null    float64
 5   Child underweight percent  126 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 6.9+ KB


Опять же, важно понимать, что вы можете потерять очень много информации:

In [46]:
countries.shape, countries_without_nan.shape

((2346, 6), (126, 6))

## 2.5 Описательные статистики
У таблицы в `pandas` есть множество методов для получения тех или иных описательных статистик:

In [47]:
print('Mean life expectancy: ', countries['Life expectancy'].mean()) # среднее
print('Min life expectancy: ', countries['Life expectancy'].min()) # минимальное значение
print('Life expectancy 25% quantile: ', countries['Life expectancy'].quantile(0.25)) # квантиль уровня 0.25

Mean life expectancy:  65.61479820627802
Min life expectancy:  23.5
Life expectancy 25% quantile:  58.5


Для сравнения, те же значения на таблице с вычищенными пропусками - обратите внимание насколько сильно могут меняться статистики:

In [48]:
print('Mean life expectancy: ', countries_without_nan['Life expectancy'].mean())
print('Min life expectancy: ', countries_without_nan['Life expectancy'].min())
print('Life expectancy 25% quantile: ', countries_without_nan['Life expectancy'].quantile(0.25))

Mean life expectancy:  67.42857142857143
Min life expectancy:  36.5
Life expectancy 25% quantile:  71.5


Также, можно выводить целые **наборы статистик** по столбцам таблицы c помощью метода `describe()` 
- по **числовым** полям таблицы - используем метод с параметром `include=None` (такое значение задано по умолчанию). Набор включает:
    - count - число наблюдений без пропусков
    - mean - среднее значение
    - std - стандартное отклонение
    - min - минимум
    - 50% - медиана
    - 25% - 25% квантиль
    - 75% - 75% квантиль
    - max - максимум
- по **числовым и категориальным** полям - используем метод с параметром `include=object` . Набор включает:
    - count - число наблюдений без пропусков
    - unique - число уникальных значений
    - top - самое частое значение
    - freq - частота, с которой встречается значение top

In [49]:
countries.describe()

Unnamed: 0,Life expectancy,Year,Literacy percent,Child overweight percent,Child underweight percent
count,1338.0,2346.0,593.0,634.0,807.0
mean,65.614798,1996.944587,79.776054,6.836306,16.982454
std,10.429435,8.038097,20.319011,5.0153,13.729375
min,23.5,1966.0,9.4,0.0,0.0
25%,58.5,1990.0,68.5,3.316667,5.283333
50%,68.75,1995.0,87.9,5.7,14.066667
75%,73.5,2002.0,95.5,9.0,24.25
max,81.5,2012.0,100.0,30.0,67.3


In [50]:
countries.describe(include='object')

Unnamed: 0,Country or Area
count,2346
unique,216
top,Chile
freq,30


📌📌📌 **Задание 2 (30 баллов)**

В отдельный датасет `data_new` скопируйте из исходной таблицы `countries` информацию за 2009 год. 

Удалите столбец с информацией о продолжительности жизни и процентом грамотного населения. Затем в оставшемся датасете удалите все строки с пропусками.

Создайте новый столбец `normal_weight` в который поместите информацию о проценте детей с нормальным весом (т.е. не имеющим недовеса underweight или избыточного веса overweight ).

Выведите датасет на экран.

In [51]:
# Ваш код
data_new = countries[countries.Year == 2009].copy()

data_new = data_new.drop(['Life expectancy', 'Literacy percent'], axis=1)

data_new = data_new.dropna()

data_new['normal_weight'] = 100 - data_new['Child overweight percent'] - data_new['Child underweight percent']

data_new

Unnamed: 0,Country or Area,Year,Child overweight percent,Child underweight percent,normal_weight
1332,Albania,2009,23.366667,6.3,70.333333
1516,Guyana,2009,6.666667,11.1,82.233333
1564,Kyrgyzstan,2009,4.4,4.7,90.9
1802,Venezuela (Bolivarian Republic of),2009,6.4,2.9,90.7
1903,China,2009,5.266667,4.6,90.133333
1910,Costa Rica,2009,8.1,1.166667,90.733333
1920,Democratic People's Republic of Korea,2009,0.0,18.8,81.2
1950,Georgia,2009,19.833333,1.133333,79.033333
1960,Guatemala,2009,4.933333,13.0,82.066667
2001,Jordan,2009,6.566667,1.866667,91.566667


📌📌📌 **Задание 3 (60 баллов)**

*Выполняется по вариантам*

Вам дана таблица с данными об аренде велосипедов (файл `bikes.csv`). Подробное описание столбцов
можно прочитать [здесь](https://archive.ics.uci.edu/ml/datasets/Bike%20Sharing%20Dataset#) (в исходном датасете некоторые величины отнормированы в отрезок $[0; 1]$, в нашей версии датасета -- нет).

В задании могут понадобиться следующие поля таблицы:
- `datetime`: дата аренды
- `season`: сезоны проката: 
    - 1: зима
    - 2: весна
    - 3: лето
    - 4: осень
- `workingday`: являлся ли день рабочим
    - 0: праздники или выходные
    - 1: обычный рабочий день
-`weathersit`: облачность/осадки
    - 1: ясно/малооблачно
    - 2: туман
    - 3: небольшие осадки
    - 4: сильные осадки
- `temp`: температура воздуха по Цельсию
- `hum`: влажность воздуха (значения из $[0,1]$)
- `windspeed`: скорость ветра
- `cnt`: общее число аренд (обычных аренд и аренд по абонементу)
- `yr`: год (0: 2011 год, 1: 2012 год)
- `mnth`: месяц (1-12)

**Необходимо:**
1. считать таблицу;

**вариант 1:**

2. проверить её на наличие пропущенных значений и обработать пропуски (не удалять, а заменить подходящими статистиками);
3. вывести строки, содержащие информацию за летний и зимний сезон;
4. вывести информацию о числе нерабочих дней, когда температура превышала $10$ градусов;
5. вывести среднее число аренд велосипедов в январе в 2011 году;
6. вывести минимальную и максимальную температуру за апрель и май.

**вариант 2:**

2. проверить её на наличие пропущенных значений и обработать пропуски (не удалять, а заменить подходящими статистиками);
3. вывести строки, содержащие информацию только для дней, когда стояла ясная/малооблачная погода;
4. вывести информацию о том, какой была температура воздуха в дни сильного ветра($>15$);
5. вывести среднее число аренд велосипедов летом 2011 года;
6. вывести медианное значение температуры в феврале 2012.

**вариант 3:**

2. проверить её на наличие пропущенных значений и обработать пропуски (не удалять, а заменить подходящими статистиками);
3. вывести строки, содержащие информацию только по рабочим дням;
4. вывести информацию о числе жарких (выше 26 градусов) дней летом 2012;
5. вывести среднее число аренд велосипедов в ясную/малооблачную погоду;
6. вывести медианное значение температуры в феврале 2012.

**вариант 4:**

2. проверить её на наличие пропущенных значений и обработать пропуски. При этом часть пропусков заменить подходящими статистиками, а хотя бы для одной переменной из датасета придумать и реализовать более продвиную стратегию заполнения пропусков;
3. вывести строки, содержащие информацию за май 2011;
4. вывести информацию о  десяти наиболее часто встречающихся значениях температуры воздуха;
5. вывести максимальное число аренд велосипедов при сильном ветре ($>15$);
6. используя метод `groupby()` вывести информацию о среднем и о стандартном отклонении числа аренд велосипедов по сезонам.

In [None]:
# ваш код вариант 4
# 1
bikes = pd.read_csv('bikes.csv')

# 2
print("Пропуски до обработки:")
print(bikes.isnull().sum())

# Заполняем пропуски в числовых столбцах медианой
#numeric_cols = bikes.select_dtypes(include=['float64', 'int64']).columns
#for col in numeric_cols:
#    if col!='instant':
#        bikes[col] = bikes[col].fillna(bikes[col].median())

# должны быть числа 1 2 3 4, но среди них есть пропуски
bikes['instant'] = bikes['instant'].interpolate().round().astype(float)

bikes['dteday'] = pd.to_datetime(bikes['dteday'])

#нужно это достать из dteday
bikes['mnth'] = bikes['mnth'].interpolate().round().astype(int)


# Судя по структуре данных дни тоже должны идти по порядку
base_date = bikes['dteday'].min()
bikes['dteday'] = base_date + pd.to_timedelta(bikes['instant'] - 1, unit='D')

# Для weathersit заполняем в зависимости от сезона
bikes['weathersit'] = bikes.groupby('season')['weathersit'].transform(
    lambda x: x.fillna(x.mode()[0] if not x.mode().empty else 1)
)


print("\nПропуски после обработки:")
print(bikes.isnull().sum())

# 3
may_2011 = bikes[(bikes.yr == 0) & (bikes.mnth == 5)]
print("\nДанные за май 2011:")
print(may_2011)

# 4
print("\n10 наиболее частых значений температуры:")
print(bikes['temp'].value_counts().head(10))

# 5
strong_wind = bikes[bikes.windspeed > 15]
max_rentals = strong_wind['cnt'].max()
print(f"\nМаксимальное число аренд при ветре >15: {max_rentals}")

# 6
season_stats = bikes.groupby('season')['cnt'].agg(['mean', 'std'])
print("\nСтатистики аренд по сезонам:")
print(season_stats)

#write bikes to csv
bikes.to_csv('bikes_filled.csv', index=False)

Пропуски до обработки:
instant       10
dteday        12
season         9
yr            13
mnth          11
holiday        2
weekday        8
workingday    12
weathersit    11
temp          12
atemp          4
hum            4
windspeed      4
casual         9
registered     2
cnt            8
dtype: int64


ValueError: time-weighted interpolation only works on Series or DataFrames with a DatetimeIndex