In [62]:
import pandas as pd
import numpy as np

# Загрузим данные из Excel
df_energy = pd.read_excel('En_In.xls', skiprows=17)

# Удалим первые два столбца и переименуем столбцы
df_energy = df_energy.iloc[:, 2:]
df_energy.columns = ['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable']

# Переведем значения 'Energy Supply' в ГДж (1 ПДж = 1000000 ГДж)
df_energy['Energy Supply'] = pd.to_numeric(df_energy['Energy Supply'], errors='coerce') * 1e6

# Заменим отсутствующие данные на np.NaN
df_energy['Energy Supply'] = df_energy['Energy Supply'].replace('.....', np.nan)

# Переименуем некоторые страны
country_replacements = {
    "Republic of Korea": "South Korea",
    "United States of America": "United States",
    "United Kingdom of Great Britain and Northern Ireland": "United Kingdom",
    "China, Hong Kong Special Administrative Region": "Hong Kong"
}
df_energy['Country'] = df_energy['Country'].replace(country_replacements)

# Удалим цифры и дужки из названий стран
df_energy['Country'] = df_energy['Country'].str.replace(r'\(.*\)', '', regex=True)
df_energy['Country'] = df_energy['Country'].str.replace(r'\d+', '', regex=True)

df_energy.head()


Unnamed: 0,Country,Energy Supply,Energy Supply per Capita,% Renewable
0,Afghanistan,321000000.0,10,78.66928
1,Albania,102000000.0,35,100.0
2,Algeria,1959000000.0,51,0.55101
3,American Samoa,,...,0.641026
4,Andorra,9000000.0,121,88.69565


In [83]:
import pandas as pd
from tabulate import tabulate

# Завантажуємо дані з CSV файлу gpd.csv
gpd_data = pd.read_csv('gpd.csv', skiprows=4)

# Перевіряємо назви стовпців у DataFrame
print("Назви стовпців:")
print(gpd_data.columns)

# Перейменовуємо країни, тільки якщо це необхідно
gpd_replacements = {
    "Korea, Rep.": "South Korea",
    "Iran, Islamic Rep.": "Iran",
    "Hong Kong SAR, China": "Hong Kong"
}

# Перейменовуємо країни в стовпці 'Country Name', якщо він є
if 'Country Name' in gpd_data.columns:
    gpd_data['Country Name'] = gpd_data['Country Name'].replace(gpd_replacements)

# Виводимо красиво таблицю з першими 11 стовпцями
print("\nОновлені дані про ВВП (показані тільки перші 11 стовпців):")
print(tabulate(gpd_data.iloc[:, :11], headers=gpd_data.columns[:11], tablefmt='pretty'))


Назви стовпців:
Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015'],
      dtype='object')

Оновлені дані про ВВП (показані тільки перші 11 стовпців):
+-----+------------------------------------------------------+--------------+------------------------------------------+----------------+------------------+------------------+------------------+------------------+------------------+------------------+------------------+
|     |                     Country Name                  

In [85]:
import pandas as pd
from tabulate import tabulate

# Завантажуємо дані з CSV файлу gpd.csv
gpd_data = pd.read_csv('gpd.csv', skiprows=4)

# Перевіряємо назви стовпців у DataFrame
print("Назви стовпців:")
print(gpd_data.columns)

# Перейменовуємо країни, тільки якщо це необхідно
gpd_replacements = {
    "Korea, Rep.": "South Korea",
    "Iran, Islamic Rep.": "Iran",
    "Hong Kong SAR, China": "Hong Kong"
}

# Перейменовуємо країни в стовпці 'Country Name', якщо він є
if 'Country Name' in gpd_data.columns:
    gpd_data['Country Name'] = gpd_data['Country Name'].replace(gpd_replacements)

# Виводимо красиво таблицю з першими 11 стовпцями
print("\nОновлені дані про ВВП (показані тільки перші 11 стовпців):")
print(tabulate(gpd_data.iloc[:, :11], headers=gpd_data.columns[:11], tablefmt='pretty'))


Назви стовпців:
Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015'],
      dtype='object')

Оновлені дані про ВВП (показані тільки перші 11 стовпців):
+-----+------------------------------------------------------+--------------+------------------------------------------+----------------+------------------+------------------+------------------+------------------+------------------+------------------+------------------+
|     |                     Country Name                  

In [80]:
# Об'єднуємо три набори даних: energy_data, gpd_data, scimagojr_data
# Використовуємо перетин країн для об'єднання

# Спочатку завантажимо дані з файлу "En_In.xls" для енергозабезпечення (див. попередні кроки для завантаження)
energy_data = pd.read_excel('En_In.xls', skiprows=17)
energy_data = energy_data.iloc[:, 2:]  # Видаляємо непотрібні стовпці
energy_data.columns = ['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable']

# Переводимо дані в ГДж (якщо потрібно)
energy_data['Energy Supply'] = pd.to_numeric(energy_data['Energy Supply'], errors='coerce') * 1e6

# Перейменовуємо країни, якщо необхідно
energy_replacements = {
    "Republic of Korea": "South Korea",
    "United States of America": "United States",
    "United Kingdom of Great Britain and Northern Ireland": "United Kingdom",
    "China, Hong Kong Special Administrative Region": "Hong Kong"
}
energy_data['Country'] = energy_data['Country'].replace(energy_replacements)

# Об'єднуємо всі три набори даних
merged_data = pd.merge(energy_data, gpd_data, on='Country Name', how='inner')
merged_data = pd.merge(merged_data, scimagojr_data[['Country', 'Rank', 'Documents', 'Citable documents', 'Citations', 'Self-citations', 'Citations per document', 'H index']], on='Country', how='inner')

# Фільтруємо тільки 15 країн з найвищим рейтингом
merged_data = merged_data[merged_data['Rank'] <= 15]

# Перевіряємо результат
merged_data.set_index('Country', inplace=True)
print("\nОб'єднаний DataFrame з 15 країнами:")
print(merged_data.head())


KeyError: 'Country Name'

In [87]:
# Завантажуємо дані з файлу scimagojr.xlsx
scimagojr_data = pd.read_excel('scimagojr.xlsx')

# Перевіряємо перші 5 рядків даних з цього файлу
print("\nПерші 5 рядків даних з scimagojr.xlsx:")
print(scimagojr_data.head())



Перші 5 рядків даних з scimagojr.xlsx:
   Rank             Country  Documents  Citable documents  Citations  \
0     1               China     127050             126767     597237   
1     2       United States      96661              94747     792274   
2     3               Japan      30504              30287     223024   
3     4      United Kingdom      20944              20357     206091   
4     5  Russian Federation      18534              18301      34266   

   Self-citations  Citations per document  H index  
0          411683                    4.70      138  
1          265436                    8.20      230  
2           61554                    7.31      134  
3           37874                    9.84      139  
4           12422                    1.85       57  


In [89]:
# Об'єднуємо три набори даних: energy_data, gpd_data, scimagojr_data
# Використовуємо перетин країн для об'єднання

# Спочатку завантажимо дані з файлу "En_In.xls" для енергозабезпечення (див. попередні кроки для завантаження)
energy_data = pd.read_excel('En_In.xls', skiprows=17)
energy_data = energy_data.iloc[:, 2:]  # Видаляємо непотрібні стовпці
energy_data.columns = ['Country Name', 'Energy Supply', 'Energy Supply per Capita', '% Renewable']

# Переводимо дані в ГДж (якщо потрібно)
energy_data['Energy Supply'] = pd.to_numeric(energy_data['Energy Supply'], errors='coerce') * 1e6

# Перейменовуємо країни, якщо необхідно
energy_replacements = {
    "Republic of Korea": "South Korea",
    "United States of America": "United States",
    "United Kingdom of Great Britain and Northern Ireland": "United Kingdom",
    "China, Hong Kong Special Administrative Region": "Hong Kong"
}
energy_data['Country Name'] = energy_data['Country Name'].replace(energy_replacements)

# Об'єднуємо всі три набори даних
merged_data = pd.merge(energy_data, gpd_data, on='Country Name', how='inner')
merged_data = pd.merge(merged_data, scimagojr_data[['Country Name', 'Rank', 'Documents', 'Citable documents', 'Citations', 'Self-citations', 'Citations per document', 'H index']], on='Country Name', how='inner')

# Фільтруємо тільки 15 країн з найвищим рейтингом
merged_data = merged_data[merged_data['Rank'] <= 15]

# Перевіряємо результат
merged_data.set_index('Country Name', inplace=True)
print("\nОб'єднаний DataFrame з 15 країнами:")
print(merged_data.head())


KeyError: "['Country Name'] not in index"

In [91]:
# Виводимо деякі дані (наприклад, тільки 9 стовпців, які були зазначені в завданні)
print("\nРезультат для завдання 7:")
print(merged_data[['Rank', 'Documents', 'Citable documents', 'Citations', 'Self-citations', 'Citations per document', 'H index', 'Energy Supply', 'Energy Supply per Capita']].head())



Результат для завдання 7:


KeyError: "['Rank', 'Documents', 'Citable documents', 'Citations', 'Self-citations', 'Citations per document', 'H index'] not in index"

In [93]:
# Функція для обчислення середнього ВВП за останні 10 років
def average_gdp():
    gdp_years = [str(year) for year in range(2006, 2016)]  # Роки з 2006 по 2015
    avg_gdp = merged_data[gdp_years].mean(axis=1).sort_values(ascending=False)
    print("\nСередній ВВП за 10 років:")
    print(avg_gdp.apply(lambda x: f"{x:,.2f}"))  # Форматування чисел
    return avg_gdp

# Викликаємо функцію
average_gdp()



Середній ВВП за 10 років:
58     3,493,025,339,072.85
23     2,189,794,143,774.91
72     1,769,297,396,603.86
32     1,660,647,466,307.51
128    1,565,459,478,480.66
               ...         
113                     nan
136                     nan
139                     nan
147                     nan
157                     nan
Length: 166, dtype: object


58     3.493025e+12
23     2.189794e+12
72     1.769297e+12
32     1.660647e+12
128    1.565459e+12
           ...     
113             NaN
136             NaN
139             NaN
147             NaN
157             NaN
Length: 166, dtype: float64

In [95]:
# Функція для обчислення зміни ВВП для країни з 5-м середнім ВВП
def gdp_change():
    avg_gdp = average_gdp()
    country = avg_gdp.index[4]  # Країна з 5-м середнім ВВП
    change = merged_data.loc[country, '2015'] - merged_data.loc[country, '2006']
    print("\nЗміна ВВП для країни з 5-м середнім ВВП:")
    print(f"('{country}', {change:,.2f})")
    return country, change

# Викликаємо функцію
gdp_change()



Середній ВВП за 10 років:
58     3,493,025,339,072.85
23     2,189,794,143,774.91
72     1,769,297,396,603.86
32     1,660,647,466,307.51
128    1,565,459,478,480.66
               ...         
113                     nan
136                     nan
139                     nan
147                     nan
157                     nan
Length: 166, dtype: object

Зміна ВВП для країни з 5-м середнім ВВП:
('128', 230,356,250,851.19)


(np.int64(128), np.float64(230356250851.18994))

In [97]:
# Функція для обчислення зміни ВВП для країни з 5-м середнім ВВП
def gdp_change():
    avg_gdp = average_gdp()
    country = avg_gdp.index[4]  # Країна з 5-м середнім ВВП
    change = merged_data.loc[country, '2015'] - merged_data.loc[country, '2006']
    print("\nЗміна ВВП для країни з 5-м середнім ВВП:")
    print(f"('{country}', {change:,.2f})")
    return country, change

# Викликаємо функцію
gdp_change()



Середній ВВП за 10 років:
58     3,493,025,339,072.85
23     2,189,794,143,774.91
72     1,769,297,396,603.86
32     1,660,647,466,307.51
128    1,565,459,478,480.66
               ...         
113                     nan
136                     nan
139                     nan
147                     nan
157                     nan
Length: 166, dtype: object

Зміна ВВП для країни з 5-м середнім ВВП:
('128', 230,356,250,851.19)


(np.int64(128), np.float64(230356250851.18994))

In [99]:
# Функція для обчислення зміни ВВП для країни з 5-м середнім ВВП
def gdp_change():
    avg_gdp = average_gdp()
    country = avg_gdp.index[4]  # Країна з 5-м середнім ВВП
    change = merged_data.loc[country, '2015'] - merged_data.loc[country, '2006']
    print("\nЗміна ВВП для країни з 5-м середнім ВВП:")
    print(f"('{country}', {change:,.2f})")
    return country, change

# Викликаємо функцію
gdp_change()



Середній ВВП за 10 років:
58     3,493,025,339,072.85
23     2,189,794,143,774.91
72     1,769,297,396,603.86
32     1,660,647,466,307.51
128    1,565,459,478,480.66
               ...         
113                     nan
136                     nan
139                     nan
147                     nan
157                     nan
Length: 166, dtype: object

Зміна ВВП для країни з 5-м середнім ВВП:
('128', 230,356,250,851.19)


(np.int64(128), np.float64(230356250851.18994))

In [101]:
# Функція для визначення країни з максимальним % Renewable
def max_renewable():
    country = merged_data['% Renewable'].idxmax()
    max_value = merged_data.loc[country, '% Renewable']
    print("\nКраїна з найбільшим % Renewable:")
    print(f"('{country}', {max_value:.2f})")
    return country, max_value

# Викликаємо функцію
max_renewable()



Країна з найбільшим % Renewable:
('1', 100.00)


(1, np.float64(100.0))

In [103]:
# Створюємо новий стовпець для населення
merged_data['Population'] = merged_data['Energy Supply'] / merged_data['Energy Supply per Capita']

# Функція для визначення країни з 6-м за величиною населенням
def sixth_population():
    sorted_population = merged_data['Population'].sort_values(ascending=False)
    country = sorted_population.index[5]  # 6-е місце
    population = sorted_population[country]
    print("\nКраїна та населення (6-е місце):")
    print(f"('{country}', {population:,.0f})")
    return country, population

# Викликаємо функцію
sixth_population()



Країна та населення (6-е місце):
('128', 143,500,000)


(np.int64(128), 143500000.0)

In [105]:
# Функція для категоризації % Renewable
def renewable_category():
    median_renewable = merged_data['% Renewable'].median()
    merged_data['Renewable Category'] = (merged_data['% Renewable'] >= median_renewable).astype(int)
    print("\nКатегоризація % Renewable:")
    print(merged_data['Renewable Category'].sort_index())

# Викликаємо функцію
renewable_category()



Категоризація % Renewable:
0      1
1      1
2      0
3      0
4      1
      ..
161    1
162    1
163    0
164    1
165    1
Name: Renewable Category, Length: 166, dtype: int64


In [111]:
# Словник для континентів
ContinentDict = {
    'China': 'Asia', 'United States': 'North America', 'Japan': 'Asia',
    'United Kingdom': 'Europe', 'Russian Federation': 'Europe',
    'Canada': 'North America', 'Germany': 'Europe', 'India': 'Asia',
    'France': 'Europe', 'South Korea': 'Asia', 'Italy': 'Europe',
    'Spain': 'Europe', 'Iran': 'Asia', 'Australia': 'Australia',
    'Brazil': 'South America'
}

# Додаємо стовпець для континенту
merged_data['Continent'] = merged_data.index.map(ContinentDict)

# Функція для обчислення статистики за континентами
def continent_stats():
    stats = merged_data.groupby('Continent')['Population'].agg(['size', 'sum', 'mean', 'std'])
    stats['sum'] = stats['sum'].apply(lambda x: f"{x:,.2f}")
    stats['mean'] = stats['mean'].apply(lambda x: f"{x:,.2f}")
    stats['std'] = stats['std'].apply(lambda x: f"{x:,.2f}" if pd.notna(x) else "NaN")
    print("\nСтатистика за континентами:")
    print(stats)

# Викликаємо функцію
continent_stats()



Статистика за континентами:
Empty DataFrame
Columns: [size, sum, mean, std]
Index: []


In [113]:
import matplotlib.pyplot as plt

# Функція для побудови бульбашкової діаграми
def bubble_chart():
    plt.figure(figsize=(14, 8))
    continents_colors = {
        'Asia': 'red', 'Europe': 'blue', 'North America': 'green',
        'South America': 'orange', 'Australia': 'purple'
    }

    # Побудова точок
    for continent, color in continents_colors.items():
        subset = merged_data[merged_data['Continent'] == continent]
        plt.scatter(
            subset['Rank'], subset['% Renewable'],
            s=subset['2015'] / 1e9, alpha=0.6, color=color
        )
        # Підписуємо кожну країну
        for country in subset.index:
            plt.text(
                subset.loc[country, 'Rank'],
                subset.loc[country, '% Renewable'],
                country, fontsize=8, ha='right'
            )

    # Налаштовуємо осі та заголовок
    plt.xlabel('Рейтинг', fontsize=12)
    plt.ylabel('% Відновлюваних джерел енергії', fontsize=12)
    plt.title('Відновлювані джерела енергії та рейтинг країн', fontsize=14)
    plt.grid(alpha=0.3)
    plt.show()

# Викликаємо функцію
bubble_chart()


KeyError: 'Rank'

<Figure size 1400x800 with 0 Axes>