In [22]:
import pandas as pd

# Загружаем датасет по ссылке
url = 'https://raw.githubusercontent.com/YBI-Foundation/Dataset/refs/heads/main/Fish.csv'
df = pd.read_csv(url)

# Выводим первые строки и общую информацию о датасете для анализа структуры данных
df.head()
df.info()

# Шаг 1: Определение формы данных
# Данные находятся в длинной форме (каждая строка соответствует отдельной записи)
# Я преобразую в широкую форму

# Шаг 2: Преобразование данных из длинной формы в широкую
# Использую pivot_table, где "Category" — это индекс, а "Species" — столбцы, значением будет средний вес
wide_form = df.pivot_table(index='Category', columns='Species', values='Weight', aggfunc='mean')

# Выводим результат преобразования
print( "!!!!! Шаг 2" , '\n', wide_form )

# Шаг 3: Создание сводной таблицы с использованием pd.pivot_table
# Рассчитываю среднее значение веса для каждого вида рыб по категориям
pivot_table = pd.pivot_table(df, values='Weight', index='Category', columns='Species', aggfunc='mean')

# Вывод в сводную таблицу
print( "!!!!! Шаг 3" , '\n', pivot_table )

# Шаг 4: Использование groupby и agg для анализа двух других числовых переменных (Height и Width)
# Группирую данные по видам рыб и вычисляем средние и максимальные значения высоты и ширины
grouped_data = df.groupby('Species').agg({'Height': ['mean', 'max'], 'Width': ['mean', 'max']})

# Выводим результаты группировки и агрегирования
print( "!!!!! Шаг 4" , '\n', grouped_data )

# Шаг 5: Комментирование полученных результатов
# На основе выше полученных результатов можно сделать следующие выводы:
# 1. Преобразование данных в широкую форму и pivot_table показали распределение среднего веса по видам рыб в различных категориях.
# 2. Группировка с использованием groupby и agg показала средние и максимальные значения высоты и ширины для каждого вида рыб,
# что может использоваться для дальнейшего анализа характеристик рыб.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Category  159 non-null    int64  
 1   Species   159 non-null    object 
 2   Weight    159 non-null    float64
 3   Height    159 non-null    float64
 4   Width     159 non-null    float64
 5   Length1   159 non-null    float64
 6   Length2   159 non-null    float64
 7   Length3   159 non-null    float64
dtypes: float64(6), int64(1), object(1)
memory usage: 10.1+ KB
!!!!! Шаг 2 
 Species        Bream      Parkki       Perch        Pike   Roach      Smelt  \
Category                                                                      
1         617.828571         NaN         NaN         NaN     NaN        NaN   
2                NaN  154.818182         NaN         NaN     NaN        NaN   
3                NaN         NaN  382.239286         NaN     NaN        NaN   
4                NaN         NaN  

In [23]:
# Если судить более приземленно, то в этом датасете мне интересен был абстрактный вопрос: какая рыба лучше?
# Для того чтобы определить, какие виды рыб являются "лучшими", нужно уточнить критерии оценки. Разные параметры могут быть важны в разных контекстах:
# 1. Вес: Самые тяжелые рыбы могут быть интересны, если цель — максимальная масса.
# 2. Высота и ширина: Важны для оценки формы и размеров рыбы.
# 3. Длина: Если важен физический размер рыбы.
# Рассчитаю средний вес для каждого вида рыб
average_weight_per_species = df.groupby('Species')['Weight'].mean().sort_values(ascending=False)
# Вывод результата
print( average_weight_per_species )
# Рассчитываю среднюю высоту и ширину для каждого вида
average_dimensions = df.groupby('Species').agg({'Height': 'mean', 'Width': 'mean'}).sort_values(by='Height', ascending=False)
# Вывод результата
print( average_dimensions )
# Если по весу: Рыбы с наибольшим средним весом, такие как Bream и Pike, могут быть наиболее интересны для рыболовов или коммерческого разведения.
# Если по высоте и ширине: Рыбы с большими габаритами, например, Bream и Whitefish, могут быть более впечатляющими с точки зрения физической формы.

Species
Pike         718.705882
Bream        617.828571
Whitefish    531.000000
Perch        382.239286
Parkki       154.818182
Roach        152.050000
Smelt         11.178571
Name: Weight, dtype: float64
              Height     Width
Species                       
Bream      15.183211  5.427614
Whitefish  10.027167  5.473050
Parkki      8.962427  3.220736
Perch       7.861870  4.745723
Pike        7.713771  5.086382
Roach       6.694795  3.657850
Smelt       2.209371  1.340093
