### Task
The file 'Fishing. csv' contains the results of a survey about fishing: respondents, filling out the questionnaire, described in detail their recent fishing.

** Description of variables in the dataframe:**


* `mode`: the selected type of fishing: on the shore (`beach`), on the pier (`pier'), in your own boat (`boat`) and in a rented boat ('charter`);

* `price`: the cost of the selected type of fishing;

* `catch`: the catch coefficient for the selected type of fishing;

* `pbeach`: the cost of fishing on the shore;

* `ppier`: the cost of fishing on the pier;

* `pboat`: the cost of fishing on your own boat;

* `pcharter': the cost of fishing on a rented boat;

* `cbeach`: the catch coefficient for fishing on the shore;

* `cpier`: the catch coefficient for fishing on the pier;

* `cboat`: the catch coefficient for fishing on your boat;

* `ccharter`: the catch coefficient for fishing on a rented boat;

* `income`: income per month.

You can read more about the survey and the study in [article] (https://core.ac.uk/download/pdf/38934845.pdf) J. Herriges, C. Kling * "Nonlinear Income Effects in Random Utility Models" * (1999).

1-Add, using the `.apply ()` method, the `log_income` 'column containing the natural logarithm of respondents' income.

2-Calculate for each respondent the absolute value of the deviation of `price` from `pbeach` and save the result to the `pdiff` column.

3-Group the observations in the table by the type of fishing (`mode`) and output for each type the average price (`price`) that the respondents paid for fishing.

4-Group the observations in the table by the type of fishing (`mode`) and output for each type the difference between the median and average value of the price (`price`) that the respondents paid for fishing.

5-Group the observations in the table by the type of fishing (`mode`) and save the resulting dataframes (one for each type of fishing) in separate csv files. As a result, you should get four different csv files.

6-Sort the rows in the dataframe according to the `income` values in descending order so that the sorting results are stored in the original dataframe.

7-Sort the rows in the dataframe according to the values of `price` and `income` in ascending order. Is it possible to say that people with a lower income and who have chosen a cheaper type of fishing, in general, prefer one type of fishing, and people with a higher income and more expensive fishing prefer another? Write the answer as a text cell or as a comment.

8-Check if there are missing values in the dataframe. If there is, delete the rows with the missing values. If not, write a comment that there are no such people.

### Solution

In [4]:
import pandas as pd
import numpy as np

dat = pd.read_csv('Fishing.csv')
dat.head(8)

# 1
# .apply() - used to apply the function along the axis
dat['log_income'] = dat['income'].apply(np.log)

# 2
# .abs() - to find the absolute value of a number
a = lambda x: x['price'] - x['pbeach']
dat['pdiff'] = dat.loc[:, ['price', 'pbeach']].apply(a, axis = 1).abs()

# 3
# .groupby() - The groupby operation involves some combination of splitting an object,
# applying the function and combining the results. This can be used for grouping
# large amounts of data and performing computational operations on these groups.
# .agg() - aggregation, uses one or more operations on the specified axis.
dat.groupby('mode').agg({'price': 'mean'})

# 4
dat.groupby('mode').agg({'price': lambda x: x.median() - x.mean()})

# 5
for name, data in dat.groupby('mode'):
    data.to_csv(f"{name}.csv")
    
# 6
# .sort_values() - sorting by values along any axis
dat.sort_values(['income'], ascending = False, inplace = True)

# 7
dat.sort_values(['price', 'income'])
# According to the information received, it can be said that regardless of the income (low or high) of people.
# In most cases, the fishing type 'boat'is selected.

# 8
# .isnull() - detecting missing values for an object like an array
dat.isnull().sum()
# As we can see from the information received, there are no missing or unfilled values.

Unnamed: 0      0
Unnamed: 0.1    0
mode            0
price           0
catch           0
pbeach          0
ppier           0
pboat           0
pcharter        0
cbeach          0
cpier           0
cboat           0
ccharter        0
income          0
log_income      0
pdiff           0
dtype: int64

### Задание
Файл `Fishing.csv` содержит результаты опроса о рыбалке: респонденты, заполняя опросник, подробно описывали свою недавнюю рыбалку.

**Описание переменных в датафрейме:**


* `mode`: выбранный тип рыбалки: на берегу (`beach`), на пирсе (`pier`), в своей лодке (`boat`) и в арендованной лодке (`charter`);

* `price`: стоимость выбранного типа рыбалки;

* `catch`: коэффициент улова при выбранном типе рыбалки;

* `pbeach`: стоимость рыбалки на берегу;

* `ppier`: стоимость рыбалки на пирсе;

* `pboat`: стоимость рыбалки на своей лодке;

* `pcharter`: стоимость рыбалки на арендованной лодке;

* `cbeach`: коэффициент улова на рыбалке на берегу;

* `cpier`: коэффициент улова на рыбалке на пирсе;

* `cboat`: коэффициент улова на рыбалке на своей лодке;

* `ccharter`: коэффициент улова на рыбалке на арендованной лодке;

* `income`: доход в месяц.

Подробнее об опросе и исследовании можно почитать в [статье](https://core.ac.uk/download/pdf/38934845.pdf) J.Herriges, C.Kling *"Nonlinear Income Effects in Random Utility Models"* (1999).

1 - Добавить, используя метод `.apply()`, столбец `log_income`, содержащий натуральный логарифм доходов респондентов.

2 - Посчитать для каждого респондента абсолютное значение отклонения `price` от `pbeach`  и сохранить результат в столбец `pdiff`.

3 - Сгруппировать наблюдения в таблице по признаку тип рыбалки (`mode`) и вывести для каждого типа среднюю цену (`price`), которую респонденты заплатили за рыбалку.

4 - Сгруппировать наблюдения в таблице по признаку тип рыбалки (`mode`) и вывести для каждого типа разницу между медианным и средним значением цены (`price`), которую респонденты заплатили за рыбалку.

5 - Сгруппировать наблюдения в таблице по признаку тип рыбалки (`mode`) и сохранить полученные датафреймы (один для каждого типа рыбалки) в отдельные csv-файлы. В итоге должно получиться четыре разных csv-файла.

6 - Отсортировать строки в датафрейме в соответствии со значениями `income` в порядке убывания таким образом, чтобы результаты сортировки сохранились в исходном датафрейме.

7 - Отсортировать строки в датафрейме в соответствии со значениями `price` и `income` в порядке возрастания. Можно ли сказать, что люди с более низким доходом и выбравшие более дешёвый тип рыбалки, в целом, предпочитают один тип рыбалки, а люди с более высоким доходом и более дорогой рыбалкой – другой? Ответ записать в виде текстовой ячейки или в виде комментария.

8 - Проверить, есть ли в датафрейме пропущенные значения. Если есть, удалить строки с пропущенными значениями. Если нет, написать комментарий, что таких нет.

### Решение

In [3]:
import pandas as pd
import numpy as np

dat = pd.read_csv('Fishing.csv')
dat.head(8)

# 1
# .apply() - используется для применения функции вдоль оси
dat['log_income'] = dat['income'].apply(np.log)

# 2
# .abs() - для нахождения абсолютного значения числа
a = lambda x: x['price'] - x['pbeach']
dat['pdiff'] = dat.loc[:, ['price', 'pbeach']].apply(a, axis = 1).abs()

# 3
# .groupby() - Операция groupby включает в себя некоторую комбинацию разделения объекта,
# применения функции и объединения результатов. Это можно использовать для группировки
# больших объемов данных и выполнения вычислительных операций над этими группами.
# .agg() - агрегация, использует одну или несколько операций над указанной осью.
dat.groupby('mode').agg({'price': 'mean'})

# 4
dat.groupby('mode').agg({'price': lambda x: x.median() - x.mean()})

# 5
for name, data in dat.groupby('mode'):
    data.to_csv(f"{name}.csv")
    
# 6
# .sort_values() - сортировка по значениям вдоль любой оси
dat.sort_values(['income'], ascending = False, inplace = True)

# 7
dat.sort_values(['price', 'income'])
# По полученной информации можно сказать, что в не зависимости от доходов(низкий или высокий) людей.
# В большинстве случаев выбирается тип рыбалки 'boat'.

# 8
# .isnull() - обнаружение пропущенных значений для объекта, подобного массиву
dat.isnull().sum()
# Как мы видим из полученной информации, пропущенных или не заполненных значений нет.

Unnamed: 0      0
Unnamed: 0.1    0
mode            0
price           0
catch           0
pbeach          0
ppier           0
pboat           0
pcharter        0
cbeach          0
cpier           0
cboat           0
ccharter        0
income          0
log_income      0
pdiff           0
dtype: int64