# Візуалізація даних Life Expectancy

Цей ноутбук демонструє різноманітні візуалізації результатів аналізу даних.

In [None]:
import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from data_load import load_data
from visualization import (
    setup_plot_style,
    plot_missing_values,
    plot_distribution,
    plot_correlation_matrix,
    plot_scatter_with_regression,
    plot_grouped_comparison
)

setup_plot_style()
%matplotlib inline

## 1. Завантаження даних

In [None]:
df = load_data()
print(f"Розмір датасету: {df.shape}")
df.head()

## 2. Візуалізація пропущених значень

In [None]:
plot_missing_values(df, save=True)

## 3. Розподіл ключових змінних

In [None]:
# Розподіл Life Expectancy
plot_distribution(df, 'Life expectancy ', save=True)

In [None]:
# Розподіл GDP
if 'GDP' in df.columns:
    plot_distribution(df, 'GDP', save=True)

In [None]:
# Розподіл Adult Mortality
if 'Adult Mortality' in df.columns:
    plot_distribution(df, 'Adult Mortality', save=True)

## 4. Кореляційний аналіз

In [None]:
# Матриця кореляції всіх числових змінних
plot_correlation_matrix(df, figsize=(16, 14), save=True)

## 5. Залежності між змінними

In [None]:
# GDP vs Life Expectancy
if 'GDP' in df.columns and 'Life expectancy ' in df.columns:
    plot_scatter_with_regression(df, 'GDP', 'Life expectancy ', save=True)

In [None]:
# Schooling vs Life Expectancy
if 'Schooling' in df.columns and 'Life expectancy ' in df.columns:
    plot_scatter_with_regression(df, 'Schooling', 'Life expectancy ', save=True)

In [None]:
# HIV/AIDS vs Life Expectancy
if 'HIV/AIDS' in df.columns and 'Life expectancy ' in df.columns:
    plot_scatter_with_regression(df, 'HIV/AIDS', 'Life expectancy ', save=True)

## 6. Порівняння по країнах та регіонах

In [None]:
# Топ-15 країн за Life Expectancy
if 'Country' in df.columns and 'Life expectancy ' in df.columns:
    plot_grouped_comparison(df, 'Country', 'Life expectancy ', top_n=15, save=True)

In [None]:
# Порівняння Developed vs Developing
if 'Status' in df.columns and 'Life expectancy ' in df.columns:
    plt.figure(figsize=(10, 6))
    df.boxplot(column='Life expectancy ', by='Status', figsize=(10, 6))
    plt.suptitle('')
    plt.title('Life Expectancy: Developed vs Developing Countries')
    plt.ylabel('Life Expectancy (years)')
    plt.tight_layout()
    plt.show()

## 7. Тенденції в часі

In [None]:
# Тренд Life Expectancy по роках
if 'Year' in df.columns and 'Life expectancy ' in df.columns:
    yearly_avg = df.groupby('Year')['Life expectancy '].mean()
    
    plt.figure(figsize=(12, 6))
    plt.plot(yearly_avg.index, yearly_avg.values, marker='o', linewidth=2, markersize=8)
    plt.xlabel('Year')
    plt.ylabel('Average Life Expectancy')
    plt.title('Global Life Expectancy Trend (2000-2015)')
    plt.grid(alpha=0.3)
    plt.tight_layout()
    plt.show()

In [None]:
# Тренди для Developed vs Developing
if 'Year' in df.columns and 'Status' in df.columns and 'Life expectancy ' in df.columns:
    status_trends = df.groupby(['Year', 'Status'])['Life expectancy '].mean().unstack()
    
    plt.figure(figsize=(12, 6))
    for col in status_trends.columns:
        plt.plot(status_trends.index, status_trends[col], 
                marker='o', linewidth=2, markersize=6, label=col)
    
    plt.xlabel('Year')
    plt.ylabel('Average Life Expectancy')
    plt.title('Life Expectancy Trends by Development Status')
    plt.legend()
    plt.grid(alpha=0.3)
    plt.tight_layout()
    plt.show()

## 8. Розширені візуалізації

In [None]:
# Pair plot для ключових змінних
key_vars = ['Life expectancy ', 'GDP', 'Schooling', 'Adult Mortality', 'HIV/AIDS']
available_vars = [var for var in key_vars if var in df.columns]

if len(available_vars) >= 3:
    sample_df = df[available_vars].dropna().sample(min(500, len(df)), random_state=42)
    sns.pairplot(sample_df, diag_kind='kde', plot_kws={'alpha': 0.6})
    plt.suptitle('Pair Plot of Key Variables', y=1.01)
    plt.tight_layout()
    plt.show()

## 9. Висновки

На основі візуалізацій можна зробити такі висновки:

1. **Розподіл даних**: Життєва очікуваність має певний розподіл з викидами
2. **Кореляції**: Виявлено сильні кореляції між економічними показниками та здоров'ям
3. **Тренди**: Спостерігається загальна тенденція до збільшення тривалості життя
4. **Відмінності**: Значна різниця між розвиненими та країнами, що розвиваються

Всі графіки збережено у папці `reports/figures/`