<a href="https://colab.research.google.com/github/Allzer/python_langyage_1_kyrs/blob/main/python_langyage_1_kyrs_2_lab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import kagglehub
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats

In [None]:
# Загрузка датасета
print("Загрузка датасета...")
path = kagglehub.dataset_download("unsdsn/world-happiness")
df = pd.read_csv(path + "/2019.csv")

# Проверим структуру данных
print("\nПервые 5 строк датасета:")
print(df.head())
print("\nИнформация о датасете:")
print(df.info())
print("\nСтатистики по числовым столбцам:")
print(df.describe())

In [None]:

# Выберем столбец 'Score' для оценки плотности и примеров графиков
# Оценка плотности (Kernel Density Estimation - KDE)
# KDE график - это и есть "обычный график" плотности
plt.figure(figsize=(8, 6))
sns.histplot(df['Score'], kde=True) # гистограмма с наложенной оценкой плотности
plt.title('Оценка плотности (KDE) для показателя Счастья (Score)')
plt.xlabel('Score')
plt.ylabel('Плотность')
plt.show()

# 1. Обычный график (обычно подразумевается линейный график или KDE)
# Используем KDE график из seaborn, как выше, или построим линейный график для первых 20 стран
plt.figure(figsize=(12, 6))
plt.plot(df['Country or region'][:20], df['Score'][:20], marker='o')
plt.title('Обычный график: Score по странам (первые 20)')
plt.xlabel('Страна')
plt.ylabel('Score')
plt.xticks(rotation=45)
plt.grid(True)
plt.tight_layout()
plt.show()

# 2. Box plot (ящик с усами)
plt.figure(figsize=(8, 6))
# Для boxplot обычно используется один числовой столбец
# или столбец для группировки. Создадим бинарную группировку для примера.
# Например, разделим страны на "Высокий" и "Низкий" уровень счастья по медиане
median_score = df['Score'].median()
df['Happiness_Level'] = df['Score'].apply(lambda x: 'High' if x >= median_score else 'Low')

sns.boxplot(x='Happiness_Level', y='Score', data=df)
plt.title('Box plot: Score по уровню счастья')
plt.ylabel('Score')
plt.xlabel('Уровень счастья (по медиане)')
plt.show()

# 3. Violin plot (скрипичная диаграмма)
plt.figure(figsize=(8, 6))
sns.violinplot(x='Happiness_Level', y='Score', data=df)
plt.title('Violin plot: Score по уровню счастья')
plt.ylabel('Score')
plt.xlabel('Уровень счастья (по медиане)')
plt.show()

# 4. PairGrid (сетка парных графиков)
# Выберем несколько числовых столбцов для демонстрации
numeric_cols = ['Score', 'GDP per capita', 'Social support', 'Healthy life expectancy']
# Убедимся, что они существуют в датасете
available_numeric_cols = [col for col in numeric_cols if col in df.columns]
print(f"\nИспользуемые столбцы для PairGrid: {available_numeric_cols}")

if len(available_numeric_cols) > 1:
    pair_grid = sns.PairGrid(df[available_numeric_cols])
    pair_grid.map_upper(sns.scatterplot, alpha=0.7)
    pair_grid.map_lower(sns.regplot, scatter_kws={'alpha':0.7}) # с линией регрессии
    pair_grid.map_diag(sns.histplot, kde=True)
    plt.suptitle('PairGrid: Взаимосвязи между показателями счастья', y=1.02)
    plt.show()
else:
    print("Недостаточно числовых столбцов для построения PairGrid.")

# 5. Heatmap (тепловая карта корреляции)
# Рассчитаем корреляцию между числовыми столбцами
correlation_matrix = df[available_numeric_cols].corr()
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, fmt='.2f')
plt.title('Heatmap: Корреляция между показателями счастья')
plt.tight_layout()
plt.show()

# 6. Clustermap (кластерная карта)
# Использует те же данные, что и heatmap, но с кластеризацией
if len(available_numeric_cols) > 1:
    # Clustermap может быть медленным на больших наборах данных
    # Используем подмножество строк для демонстрации
    subset_df = df[available_numeric_cols].iloc[:50] # первые 50 строк
    cluster_map = sns.clustermap(subset_df.corr(), annot=True, cmap='coolwarm', center=0,
                                 square=True, fmt='.2f')
    cluster_map.fig.suptitle('Clustermap: Кластеризация корреляции (первые 50 строк)', y=1.02)
    plt.show()
else:
    print("Недостаточно числовых столбцов для построения Clustermap.")

# 7. Joinplot (совмещённый график двух переменных)
# Выберем две числовые переменные, например, 'Score' и 'GDP per capita'
if 'GDP per capita' in df.columns:
    join_plot = sns.jointplot(data=df, x='GDP per capita', y='Score',
                              kind='scatter', alpha=0.7)
    # kind может быть 'scatter', 'reg', 'hex', 'kde' и др.
    join_plot.fig.suptitle('Joinplot: GDP per capita vs Score', y=1.02)
    plt.show()
else:
    print("Столбец 'GDP per capita' не найден для построения Joinplot.")