Файл `Fishing.csv` содержит результаты опроса о рыбалке: респонденты, заполняя опросник, подробно описывали свою недавнюю рыбалку.

**Описание переменных в датафрейме:**


* `mode`: выбранный тип рыбалки: на берегу (`beach`), на пирсе (`pier`), в своей лодке (`boat`) и в арендованной лодке (`charter`);

* `price`: стоимость выбранного типа рыбалки;

* `catch`: коэффициент улова при выбранном типе рыбалки;

* `pbeach`: стоимость рыбалки на берегу;

* `ppier`: стоимость рыбалки на пирсе;

* `pboat`: стоимость рыбалки на своей лодке;

* `pcharter`: стоимость рыбалки на арендованной лодке;

* `cbeach`: коэффициент улова на рыбалке на берегу;

* `cpier`: коэффициент улова на рыбалке на пирсе;

* `cboat`: коэффициент улова на рыбалке на своей лодке;

* `ccharter`: коэффициент улова на рыбалке на арендованной лодке;

* `income`: доход в месяц.

Подробнее об опросе и исследовании можно почитать в [статье](https://core.ac.uk/download/pdf/38934845.pdf) J.Herriges, C.Kling *"Nonlinear Income Effects in Random Utility Models"* (1999).

### Задание 1

Загрузить таблицу из файла `Fishing.csv` и сохранить её в датафрейм `dat`. 
Вывести на экран первые 8 строк загруженного датафрейма.

In [None]:
import pandas as pd
import os

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))

dat.head(8)

### Задание 2

Добавить, используя метод `.apply()`, столбец `log_income`, содержащий натуральный логарифм доходов респондентов.

In [None]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))
dat["log_income"] = dat["income"].apply(numpy.log)

dat

### Задание 3

Посчитать для каждого респондента абсолютное значение отклонения `price` от `pbeach`  и сохранить результат в столбец `pdiff`.



In [None]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))
dat["pdiff"] = (dat["price"] - dat["pbeach"]).apply(numpy.absolute)

dat

### Задание 4

Сгруппировать наблюдения в таблице по признаку тип рыбалки (`mode`) и вывести для каждого типа среднюю цену (`price`), которую респонденты заплатили за рыбалку.

In [None]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))
group = dat.groupby("mode").agg({"price": [numpy.average]})

group

### Задание 5

Сгруппировать наблюдения в таблице по признаку тип рыбалки (`mode`) и вывести для каждого типа разницу между медианным и средним значением цены (`price`), которую респонденты заплатили за рыбалку.

**Посказка:** можно написать свою lambda-функцию для подсчёта разницы между медианой и средним и применить её внутри метода для агрегирования. Внимание: название самостоятельно написанной функции будет уже вводиться без кавычек. 

In [None]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))
group = dat.groupby("mode").agg({"price": [lambda x: numpy.median(x) - numpy.mean(x)]})

group

### Задание 6

Сгруппировать наблюдения в таблице по признаку тип рыбалки (`mode`) и сохранить полученные датафреймы (один для каждого типа рыбалки) в отдельные csv-файлы. В итоге должно получиться четыре разных csv-файла.

**Подсказка 1:** можно запустить следующий код и посмотреть, что получится: 

In [None]:
for name, data in dat.groupby("mode"):
    print(name, data)

**Подсказка 2:** для сохранения датафрейма в файл используется метод `.to_csv()`. Например, такой код сохранит датафрейм `dat` в файл `"Fish.csv"`:

In [None]:
dat.to_csv("Fish.csv")

In [None]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))

for name, data in dat.groupby("mode"):
    data.to_csv(os.path.join("data", f"groupby_{name}.csv"), index = False)


### Задание 7

Отсортировать строки в датафрейме в соответствии со значениями `income` в порядке убывания таким образом, чтобы результаты сортировки сохранились в исходном датафрейме.

In [None]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))
dat.sort_values(by = "income", ascending = False, inplace = True)

dat

### Задание 8

Отсортировать строки в датафрейме в соответствии со значениями `price` и `income` в порядке возрастания. Можно ли сказать, что люди с более низким доходом и выбравшие более дешёвый тип рыбалки, в целом, предпочитают один тип рыбалки, а люди с более высоким доходом и более дорогой рыбалкой – другой? Ответ записать в виде текстовой ячейки или в виде комментария.

In [10]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))
dat.sort_values(by = ["price", "income"], ascending = [True, True], inplace = True)

dat

Unnamed: 0,index,next_index,mode,price,catch,pbeach,ppier,pboat,pcharter,cbeach,cpier,cboat,ccharter,income
1013,1013.0,1014,beach,1.290,0.5333,1.290,1.290,39.990,74.990,0.5333,0.4522,0.2413,1.0266,416.66668
1105,1105.0,1106,pier,1.290,0.4522,1.290,1.290,39.990,74.990,0.5333,0.4522,0.0051,1.0266,416.66668
1157,1157.0,1158,pier,1.290,0.4522,1.290,1.290,39.990,74.990,0.5333,0.4522,0.1665,0.3975,416.66668
275,275.0,276,pier,2.290,0.0789,2.290,2.290,2.290,31.290,0.0678,0.0789,0.0971,0.1648,1249.99980
287,287.0,288,pier,2.290,0.0789,2.290,2.290,2.290,31.290,0.0678,0.0789,0.1643,0.5391,1249.99980
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
377,377.0,378,boat,328.432,0.0023,511.596,511.596,328.432,352.432,0.1049,0.0451,0.0023,0.0046,12499.99800
588,588.0,589,charter,330.072,0.0052,106.112,106.112,305.072,330.072,0.2537,0.1498,0.0531,0.0052,6250.00130
446,446.0,447,charter,335.314,1.0266,578.048,578.048,300.314,335.314,0.5333,0.4522,0.2413,1.0266,8750.00100
211,211.0,212,charter,387.208,2.3014,115.248,115.248,362.208,387.208,0.2537,0.1498,0.6817,2.3014,7916.66630


Люди с низким доходом предпочиатют рыбалку на пляже или с пирса, люди с более высоким уровнем дохода предпочитают рыбалку с лодки или аренду.

### Задание 9

Любым известным способом проверить, есть ли в датафрейме пропущенные значения. Если есть, удалить строки с пропущенными значениями. Если нет, написать комментарий, что таких нет.

In [13]:
import pandas as pd
import os
import numpy

dat = pd.read_csv(os.path.join("data", "Fishing.csv"))

if dat.isnull().any(axis = None):
    dat.dropna(inplace = True)
    if dat.isnull().any(axis = None):
        print("В dataFrame ещё остались пропущенные значения")
    else:
        print("В dataFrame присутствовали пропущенные значения и они успешно удалены")
else:
    print("В dataFrame нет пропущенных значений")


В dataFrame присутствовали пропущенные значения и они успешно удалены
