In [103]:
# Импорт библиотеки Pandas
import pandas as pd

## Снимаем ограничение на количество отображаемых колонок.
---

In [None]:
# Установка опций отображения для Pandas
pd.set_option('display.max_columns', None)

# Перед анализом данных, очень важно выполнить этап предварительной обработки и очистки данных **(data cleaning & preprocessing)**. Это фундаментальный шаг, обеспечивающий корректность последующего анализа и визуализации.
---

## Краткий чек-лист перед анализом:

| Шаг | Действие |
| ----------- | ----------- |
| 1. Загрузка данных. | Загрузить файл без заголовков, задать названия колонок |
| 2. Очистка названий колонок | Удалить пробелы, привести к единообразию (к нижнему регистру) |
---
### Датасет Iris — это классический и хорошо известный набор данных, используемый с 1936 года (Фишер). Он всегда содержит:
| Признак | Описание |
| ----------- | ----------- |
| sepal length | длина чашелистика (float) |
| sepal width | ширина чашелистика (float) |
| petal length | длина лепестка (float) |
| petal width | ширина лепестка (float) |
| species | вид цветка (строка) |
---

# 1. Загрузите датасет `Iris` с помощью библиотеки `pandas`.
---

In [105]:
# Задаём правильные названия колонок
right_columns_names = [
    "sepal_length (cm)",
    "sepal_width (cm)",
    "petal_length (cm)",
    "petal_width (cm)",
    "species"
]

# Загружаем файл без заголовков, задавая имена колонок.
# Загрузка CSV-файла в объект DataFrame.
# Метод pd.read_csv считывает данные из файла CSV (формата .csv) и загружает в таблицу.
# header = None указывает, что в файле нет заголовков.
df_iris = pd.read_csv("iris.data.csv", header = None, names = right_columns_names)

In [106]:
# Удалить пробелы, привести к единообразию (к нижнему регистру)
df_iris.columns = df_iris.columns.str.strip().str.lower()
# Вывести все колонки
df_iris.columns

Index(['sepal_length (cm)', 'sepal_width (cm)', 'petal_length (cm)',
       'petal_width (cm)', 'species'],
      dtype='object')

# 2. Используйте метод `head()` для отображения первых `5` строк набора данных.
---

In [107]:
# Вывод первых 5 строк таблицы.
df_iris.head()

Unnamed: 0,sepal_length (cm),sepal_width (cm),petal_length (cm),petal_width (cm),species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


# 3. Используйте метод `tail()` для отображения последних `5` строк набора данных.
---

In [108]:
# Отображаем последние 5 строк датафрейма
df_iris.tail()

Unnamed: 0,sepal_length (cm),sepal_width (cm),petal_length (cm),petal_width (cm),species
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


# 4. Примените метод `describe()` для получения статистического описания числовых столбцов.
---

In [109]:
# Метод describe() используется для получения сводной статистики по DataFrame.
# Он автоматически рассчитывает количество ненулевых значений (count), среднее значение (mean),
# стандартное отклонение (std / разброс данных), минимальное значение (min), 25-й, 50-й (медиана) и 75-й процентили (quartiles), а также максимальное значение (max)
# для каждого числового столбца в DataFrame df_iris.
df_iris.describe()

Unnamed: 0,sepal_length (cm),sepal_width (cm),petal_length (cm),petal_width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


# 5. Используйте метод `info()` для проверки типов данных и наличия пропущенных значений.
---

In [110]:
# Функция info() показывает информацию о DataFrame
# Включая типы данных и использование памяти
# memory_usage = "deep" позволяет получить более точную информацию о потреблении памяти
# Важно отметить, что использование memory_usage = "deep" может занять больше времени, так как оно требует дополнительного анализа
df_iris.info(memory_usage = "deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal_length (cm)  150 non-null    float64
 1   sepal_width (cm)   150 non-null    float64
 2   petal_length (cm)  150 non-null    float64
 3   petal_width (cm)   150 non-null    float64
 4   species            150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 13.9 KB


# 6. С помощью метода `.loc` выберите все строки, где ширина чашелистика `(sepal width)` больше `3.0`.
---

In [111]:
# Фильтрация строк, где sepal_width > 3.0
# Булевая маска df_filtered будет True для строк, где значение в столбце "sepal_width" больше 3.0
df_filtered = df_iris.loc[df_iris["sepal_width (cm)"] > 3.0]

# Вывод первых 5 строк отфильтрованного DataFrame
df_filtered.head()


Unnamed: 0,sepal_length (cm),sepal_width (cm),petal_length (cm),petal_width (cm),species
0,5.1,3.5,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa


# 7. С помощью метода `.iloc` отобразите первые `3` строки и первые `2` столбца.
---

In [112]:
# Выбираем первые 3 строки и первые 2 столбца
df_first3_2cols = df_iris.iloc[0:3, 0:2]

# Выводим полученный DataFrame
print("Первые 3 строки и первые 2 столбца:")
df_first3_2cols

Первые 3 строки и первые 2 столбца:


Unnamed: 0,sepal_length (cm),sepal_width (cm)
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2


# 8. Преобразуйте тип данных столбца с названием вида `(species)` в категориальный тип с помощью метода `.astype().`
---

In [113]:
# Преобразование столбца "species" в категориальный тип данных
# Метод astype("category") преобразует столбец "species" в категориальный тип данных.
df_iris["species"] = df_iris["species"].astype("category")

# Выводим тип данных столбца "species" после преобразования
print("Тип данных столбца 'species':", df_iris["species"].dtype)

Тип данных столбца 'species': category


# 9. Вычислите средние значения всех числовых столбцов, сгруппированных по видам ирисов, используя метод `.groupby()`.
---

In [114]:
# Получение списка столбцов с типом данных "float64"
# Метод .select_dtypes() используется для выбора столбцов DataFrame по типу данных.
num_columns = df_iris.select_dtypes(include = "float64").columns

# Группировка данных по столбцу "species" и вычисление среднего значения для числовых столбцов
# Метод groupby() группирует DataFrame по уникальным значениям в столбце "species".
df_types_of_iris = (
    df_iris.groupby("species")[num_columns]
    .mean()
    .reset_index()
)

df_types_of_iris.head()

  df_iris.groupby("species")[num_columns]


Unnamed: 0,species,sepal_length (cm),sepal_width (cm),petal_length (cm),petal_width (cm)
0,Iris-setosa,5.006,3.418,1.464,0.244
1,Iris-versicolor,5.936,2.77,4.26,1.326
2,Iris-virginica,6.588,2.974,5.552,2.026


# 10. Подсчитайте количество записей для каждого вида ирисов с помощью метода `.groupby()`.
---

In [115]:
# Кол-во уникальных видов ирисов
df_unique_species = (
    df_iris.groupby("species")    # Группируем по столбцу "species"
    .size()                       # Считаем количество строк для каждого уникального вида
    .reset_index(name = "count")  # Переименовываем колонку с количеством в "count"
)

# Выводим количество уникальных видов ирисов
print("Количество уникальных видов ирисов:")
df_unique_species

Количество уникальных видов ирисов:


  df_iris.groupby("species")    # Группируем по столбцу "species"


Unnamed: 0,species,count
0,Iris-setosa,50
1,Iris-versicolor,50
2,Iris-virginica,50


# 11. 📊 Задание: Создайте сводную таблицу (pivot table)
- **Строки**: `species`
- **Значения**: `sepal_length (cm)`
- **Агрегация**: `mean` (среднее значение)
---
# 12. Добавьте в сводную таблицу ещё одно значение - petal length (cm).
---

In [None]:
# Создание сводной таблицы с использованием метода pivot_table
df_pivot_table = (
    df_iris.pivot_table(
        index = "species",              # Индексируем по столбцу "species"
        values = ["sepal_length (cm)", "petal_length (cm)"],   # Значения для агрегации
        aggfunc = "mean",               # Функция агрегации - среднее значение
        fill_value = 0                  # Заполняем пропуски нулями (если есть пропуски в данных)
    )
)

# Выводим сводную таблицу
print("Сводная таблица по среднему значению sepal_length (cm) для каждого вида ирисов:")
df_pivot_table

Сводная таблица по среднему значению sepal_length (cm) для каждого вида ирисов:


  df_iris.pivot_table(


Unnamed: 0_level_0,petal_length (cm),sepal_length (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1
Iris-setosa,1.464,5.006
Iris-versicolor,4.26,5.936
Iris-virginica,5.552,6.588


# 13. Создайте новый столбец `sepal_ratio` как отношение длины чашелистика к его ширине.
---

In [120]:
# Создание нового столбца "sepal_ratio" в DataFrame df_iris
# Этот столбец будет содержать отношение длины чашелистика к ширине чашелистика
df_iris["sepal_ratio"] = df_iris["sepal_length (cm)"] / df_iris["sepal_width (cm)"]

# Выводим первые 5 строк DataFrame с новым столбцом "sepal_ratio"
df_iris.head()

Unnamed: 0,sepal_length (cm),sepal_width (cm),petal_length (cm),petal_width (cm),species,sepal_ratio
0,5.1,3.5,1.4,0.2,Iris-setosa,1.457143
1,4.9,3.0,1.4,0.2,Iris-setosa,1.633333
2,4.7,3.2,1.3,0.2,Iris-setosa,1.46875
3,4.6,3.1,1.5,0.2,Iris-setosa,1.483871
4,5.0,3.6,1.4,0.2,Iris-setosa,1.388889


# 14. Определите вид ириса, у которого наибольшее среднее значение `sepal_ratio`.
---

In [None]:
# Группировка данных по столбцу "species" и вычисление среднего значения для нового столбца "sepal_ratio"
mean_sepal_ratio_by_species = (
    df_iris
    .groupby("species")["sepal_ratio"]  # Группируем по столбцу "species"
    .agg("mean")  # Вычисляем среднее значение для столбца "sepal_ratio"
    .reset_index(name = "mean_sepal_ratio")  # Сбрасываем индекс и переименовываем колонку
)

# Выводим среднее значение отношения длины чашелистика к ширине чашелистика для каждого вида ирисов
mean_sepal_ratio_by_species

  .groupby("species")["sepal_ratio"]  # Группируем по столбцу "species"


Unnamed: 0,species,mean_sepal_ratio
0,Iris-setosa,1.474578
1,Iris-versicolor,2.160402
2,Iris-virginica,2.230453


# 15. Используйте только библиотеку `pandas` для анализа и обработки данных. `Условие соблюдено!`.
---
# 16. Добавьте комментарии к каждой операции, объясняющие, что делает код. `Условие соблюдено!`.