In [7]:
import pandas as pd  # импорт необходимых библиотек для работы с данными
import matplotlib.pyplot as plt
import numpy as np

pd.options.display.max_rows = 15  # максимальное количество строк, которые мы будем отображать
pd.options.display.float_format = '{:.2f}'.format  # задаем формат числ с плавающей точкой
pd.options.display.precision = 3  # количество знаком после запятой после вывода числа
pd.options.display.memory_usage = 'deep'  # выводим информацию по использованию памяти

plt.style.use('classic')  # выбираем стиль 
# plt.style.available # - доступные стили


In [8]:
tree = pd.read_csv('data/firtree.csv', sep=',', encoding='utf-8')  # вычитываем данные из csv и кладем в dataframe
tree['wish'] = tree['wish'].map({'да': True, 'нет': False})  # бинаризуем данные в wish

In [9]:
tree.loc[tree['expenses'] > 1500]  # получаем все, кто предложил более 1500 рублей

Unnamed: 0.1,Unnamed: 0,gender,ftype,height,score,expenses,wish
1,2,male,пихта Нобилис,174,3,2378,False
3,4,female,сосна Крым,191,1,2934,True
5,6,male,сосна Крым,91,3,2139,True
7,8,female,ель обыкновенная,94,2,2707,False
9,10,male,сосна датская,221,4,1521,False
...,...,...,...,...,...,...,...
1192,1193,male,сосна датская,131,5,2683,False
1194,1195,female,ель обыкновенная,127,4,2932,False
1197,1198,male,сосна Крым,220,5,1591,False
1198,1199,male,сосна датская,94,1,1966,True


In [10]:
tree.loc[(tree['expenses'] > 1500) & (tree['wish'])]  # кто согласен купить за цену, свыше 1500

Unnamed: 0.1,Unnamed: 0,gender,ftype,height,score,expenses,wish
3,4,female,сосна Крым,191,1,2934,True
5,6,male,сосна Крым,91,3,2139,True
17,18,male,сосна датская,151,5,2715,True
18,19,male,сосна Крым,227,3,2771,True
22,23,female,пихта Нобилис,128,4,2424,True
...,...,...,...,...,...,...,...
1186,1187,female,ель обыкновенная,246,2,2861,True
1188,1189,female,пихта Нобилис,103,5,2647,True
1189,1190,female,ель обыкновенная,226,5,2990,True
1191,1192,male,пихта Нобилис,158,4,2715,True


In [11]:
tree2 = tree.copy()  # делаем копию, чтобы не изменять оригинал
tree2[['first', 'second']] = tree['ftype'].str.split(' ',
                                                     expand=True)  # разбиваем ftype на 2(по заданию) и переименонвывам 
tree2 = tree2.drop(columns=['ftype'])  # убираем старый стоблец
tree2  # выводим

Unnamed: 0.1,Unnamed: 0,gender,height,score,expenses,wish,first,second
0,1,female,190,3,1051,True,пихта,Нобилис
1,2,male,174,3,2378,False,пихта,Нобилис
2,3,female,248,4,655,True,сосна,Крым
3,4,female,191,1,2934,True,сосна,Крым
4,5,female,147,3,1198,False,сосна,Крым
...,...,...,...,...,...,...,...,...
1195,1196,male,137,2,1298,False,ель,обыкновенная
1196,1197,female,141,3,906,True,пихта,Нобилис
1197,1198,male,220,5,1591,False,сосна,Крым
1198,1199,male,94,1,1966,True,сосна,датская


In [12]:
new_dt = tree.copy()  # опять копия
new_data = new_dt[['gender', 'score', 'expenses']]  # получаем только нужные для нас данные 
new_data.columns = ['пол', 'счет', 'цена']  # переименуем
new_data  # выводим 

Unnamed: 0,пол,счет,цена
0,female,3,1051
1,male,3,2378
2,female,4,655
3,female,1,2934
4,female,3,1198
...,...,...,...
1195,male,2,1298
1196,female,3,906
1197,male,5,1591
1198,male,1,1966


In [13]:
tree['height_m'] = tree['height'] / 100  # переводим см в м
tree  # выводим

Unnamed: 0.1,Unnamed: 0,gender,ftype,height,score,expenses,wish,height_m
0,1,female,пихта Нобилис,190,3,1051,True,1.90
1,2,male,пихта Нобилис,174,3,2378,False,1.74
2,3,female,сосна Крым,248,4,655,True,2.48
3,4,female,сосна Крым,191,1,2934,True,1.91
4,5,female,сосна Крым,147,3,1198,False,1.47
...,...,...,...,...,...,...,...,...
1195,1196,male,ель обыкновенная,137,2,1298,False,1.37
1196,1197,female,пихта Нобилис,141,3,906,True,1.41
1197,1198,male,сосна Крым,220,5,1591,False,2.20
1198,1199,male,сосна датская,94,1,1966,True,0.94


In [14]:
def trans_comm(score_value: int) -> str:  # функция для комментария
    return f"Комментарий для score равному: {score_value}"


tree['comment'] = trans_comm(tree['score'])  # пишем комментарий


In [15]:
tree.dropna()  # убираем все, что пустое 
tree  # выводим

Unnamed: 0.1,Unnamed: 0,gender,ftype,height,score,expenses,wish,height_m,comment
0,1,female,пихта Нобилис,190,3,1051,True,1.90,Комментарий для score равному: 0 3\n1 ...
1,2,male,пихта Нобилис,174,3,2378,False,1.74,Комментарий для score равному: 0 3\n1 ...
2,3,female,сосна Крым,248,4,655,True,2.48,Комментарий для score равному: 0 3\n1 ...
3,4,female,сосна Крым,191,1,2934,True,1.91,Комментарий для score равному: 0 3\n1 ...
4,5,female,сосна Крым,147,3,1198,False,1.47,Комментарий для score равному: 0 3\n1 ...
...,...,...,...,...,...,...,...,...,...
1195,1196,male,ель обыкновенная,137,2,1298,False,1.37,Комментарий для score равному: 0 3\n1 ...
1196,1197,female,пихта Нобилис,141,3,906,True,1.41,Комментарий для score равному: 0 3\n1 ...
1197,1198,male,сосна Крым,220,5,1591,False,2.20,Комментарий для score равному: 0 3\n1 ...
1198,1199,male,сосна датская,94,1,1966,True,0.94,Комментарий для score равному: 0 3\n1 ...


In [16]:
tree['female'] = tree['gender'].map({'female': 1, 'male': 0})  # по заданию
tree

Unnamed: 0.1,Unnamed: 0,gender,ftype,height,score,expenses,wish,height_m,comment,female
0,1,female,пихта Нобилис,190,3,1051,True,1.90,Комментарий для score равному: 0 3\n1 ...,1
1,2,male,пихта Нобилис,174,3,2378,False,1.74,Комментарий для score равному: 0 3\n1 ...,0
2,3,female,сосна Крым,248,4,655,True,2.48,Комментарий для score равному: 0 3\n1 ...,1
3,4,female,сосна Крым,191,1,2934,True,1.91,Комментарий для score равному: 0 3\n1 ...,1
4,5,female,сосна Крым,147,3,1198,False,1.47,Комментарий для score равному: 0 3\n1 ...,1
...,...,...,...,...,...,...,...,...,...,...
1195,1196,male,ель обыкновенная,137,2,1298,False,1.37,Комментарий для score равному: 0 3\n1 ...,0
1196,1197,female,пихта Нобилис,141,3,906,True,1.41,Комментарий для score равному: 0 3\n1 ...,1
1197,1198,male,сосна Крым,220,5,1591,False,2.20,Комментарий для score равному: 0 3\n1 ...,0
1198,1199,male,сосна датская,94,1,1966,True,0.94,Комментарий для score равному: 0 3\n1 ...,0


In [17]:
numeric_tree = tree.select_dtypes(include=[float, int])  # убираем все, что не числа
result = tree.groupby('ftype')[numeric_tree.columns].mean()  # считаем среднее для каждого ЧИСЛОВОГО стоблца
result  # выводим

Unnamed: 0_level_0,Unnamed: 0,height,score,expenses,height_m,female
ftype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ель обыкновенная,575.9,155.5,2.98,1603.81,1.56,0.54
пихта Нобилис,623.08,160.1,3.08,1634.46,1.6,0.56
сосна Крым,596.6,160.66,2.99,1572.08,1.61,0.5
сосна датская,601.41,159.28,2.96,1709.92,1.59,0.45
