In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Функции для работы с данными

# 1. Загрузить данные о потреблении энергии (En_In.xls)
def load_energy_data():
    energy = pd.read_excel("En_In.xls", skiprows=17, skipfooter=38, engine="xlrd")
    energy = energy.iloc[:, 2:]  # Виключаємо перші два стовпці
    energy.columns = ['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable']
    energy['Energy Supply'] = pd.to_numeric(energy['Energy Supply'], errors='coerce') * 1e6  # Переведення в гДж
    energy['Country'] = energy['Country'].str.replace(r"\d+|\(.*?\)", "", regex=True).str.strip()

    # Перейменування країн
    rename_energy = {
        "Republic of Korea": "South Korea",
        "United States of America": "United States",
        "United Kingdom of Great Britain and Northern Ireland": "United Kingdom",
        "China, Hong Kong Special Administrative Region": "Hong Kong"
    }
    energy['Country'] = energy['Country'].replace(rename_energy)

    return energy

# 2. Загрузить данные о ВВП (gpd.csv)
def load_gdp_data():
    gdp = pd.read_csv("gpd.csv", skiprows=4)
    gdp.rename(columns={"Country Name": "Country"}, inplace=True)

    rename_gdp = {
        "Korea, Rep.": "South Korea",
        "Iran, Islamic Rep.": "Iran",
        "Hong Kong SAR, China": "Hong Kong"
    }
    gdp['Country'] = gdp['Country'].replace(rename_gdp)

    return gdp

# 3. Загрузить данные о научных публикациях (scimagojr.xlsx)
def load_scimagojr_data():
    scimagojr = pd.read_excel("scimagojr.xlsx")
    return scimagojr

# 4. Объединение данных
def merge_data(energy, gdp, scimagojr):
    gdp_years = [str(year) for year in range(2006, 2016)]
    gdp = gdp[['Country'] + gdp_years]
    
    df = pd.merge(scimagojr, energy, on="Country", how="inner")
    df = pd.merge(df, gdp, on="Country", how="inner")
    df = df[df['Rank'] <= 15]
    df.set_index('Country', inplace=True)

    return df

# 5. Средний ВВП за последние 10 лет
def average_gdp(df):
    gdp_years = [str(year) for year in range(2006, 2016)]
    avg_gdp = df[gdp_years].mean(axis=1).sort_values(ascending=False)
    print("\nСередній ВВП за 10 років:")
    print(avg_gdp.apply(lambda x: f"{x:,.2f}"))  # Форматирование чисел
    return avg_gdp

# 6. Изменение ВВП для страны с 5-м средним ВВП
def gdp_change(df):
    avg_gdp = average_gdp(df)
    country = avg_gdp.index[4]
    change = df.loc[country, '2015'] - df.loc[country, '2006']
    print("\nЗміна ВВП для країни з 5-м середнім ВВП:")
    print(f"('{country}', {change:,.2f})")
    return country, change

# 7. Максимум возобновляемых источников энергии (% Renewable)
def max_renewable(df):
    country = df['% Renewable'].idxmax()
    max_value = df.loc[country, '% Renewable']
    print("\nКраїна з найбільшим % Renewable:")
    print(f"('{country}', {max_value:.2f})")
    return country, max_value

# 8. Население (6-е место по численности)
def sixth_population(df):
    df['Population'] = df['Energy Supply'] / df['Energy Supply per Capita']
    sorted_population = df['Population'].sort_values(ascending=False)
    country = sorted_population.index[5]
    population = sorted_population[country]
    print("\nКраїна та населення (6-е місце):")
    print(f"('{country}', {population:,.0f})")
    return country, population

# 9. Корреляция между цитируемыми документами и энергоснабжением на душу населения
def corr_docs_energy(df):
    df['Citable Docs per Capita'] = df['Citable documents'] / df['Population']
    correlation = df[['Citable Docs per Capita', 'Energy Supply per Capita']].corr().iloc[0, 1]
    print("\nКореляція цитованих документів і енергозабезпечення:")
    print(f"{correlation:.5f}")
    return correlation

# 10. Категоризация % Renewable
def renewable_category(df):
    median_renewable = df['% Renewable'].median()
    df['Renewable Category'] = (df['% Renewable'] >= median_renewable).astype(int)
    print("\nКатегоризація % Renewable:")
    print(df['Renewable Category'].sort_index())

# 11. Статистика по континентам
def continent_stats(df):
    ContinentDict = {
        'China': 'Asia', 'United States': 'North America', 'Japan': 'Asia',
        'United Kingdom': 'Europe', 'Russian Federation': 'Europe',
        'Canada': 'North America', 'Germany': 'Europe', 'India': 'Asia',
        'France': 'Europe', 'South Korea': 'Asia', 'Italy': 'Europe',
        'Spain': 'Europe', 'Iran': 'Asia', 'Australia': 'Australia',
        'Brazil': 'South America'
    }
    df['Continent'] = df.index.map(ContinentDict)
    stats = df.groupby('Continent')['Population'].agg(['size', 'sum', 'mean', 'std'])
    stats['sum'] = stats['sum'].apply(lambda x: f"{x:,.2f}")
    stats['mean'] = stats['mean'].apply(lambda x: f"{x:,.2f}")
    stats['std'] = stats['std'].apply(lambda x: f"{x:,.2f}" if pd.notna(x) else "NaN")
    print("\nСтатистика за континентами:")
    print(stats)

# 12. Построение бульбашковой диаграммы
def bubble_chart(df):
    plt.figure(figsize=(14, 8))
    continents_colors = {
        'Asia': 'red', 'Europe': 'blue', 'North America': 'green',
        'South America': 'orange', 'Australia': 'purple'
    }

    for continent, color in continents_colors.items():
        subset = df[df['Continent'] == continent]
        plt.scatter(
            subset['Rank'], subset['% Renewable'],
            s=subset['2015'] / 1e9, alpha=0.6, color=color
        )
        for country in subset.index:
            plt.text(
                subset.loc[country, 'Rank'],
                subset.loc[country, '% Renewable'],
                country, fontsize=8, ha='right'
            )

    plt.xlabel('Рейтинг', fontsize=12)
    plt.ylabel('% Відновлюваних джерел енергії', fontsize=12)
    plt.title('Відновлювані джерела енергії та рейтинг країн', fontsize=14)
    plt.grid(alpha=0.3)
    plt.show()



Energy DataFrame:
          Country  Energy Supply Energy Supply per Capita  % Renewable
0     Afghanistan   3.210000e+08                       10    78.669280
1         Albania   1.020000e+08                       35   100.000000
2         Algeria   1.959000e+09                       51     0.551010
3  American Samoa            NaN                      ...     0.641026
4         Andorra   9.000000e+06                      121    88.695650

GDP DataFrame:
       Country Country Code                            Indicator Name  \
0        Aruba          ABW  GDP at market prices (constant 2010 US$)   
1      Andorra          AND  GDP at market prices (constant 2010 US$)   
2  Afghanistan          AFG  GDP at market prices (constant 2010 US$)   
3       Angola          AGO  GDP at market prices (constant 2010 US$)   
4      Albania          ALB  GDP at market prices (constant 2010 US$)   

   Indicator Code  1960  1961  1962  1963  1964  1965  ...          2006  \
0  NY.GDP.MKTP.KD   NaN 

In [None]:
average_gdp()

In [None]:
gdp_change()

In [None]:
max_renewable()

In [None]:
sixth_population()

In [None]:
corr_docs_energy()

In [None]:
renewable_category()

In [None]:
continent_stats()

In [None]:
bubble_chart()