In [None]:
### Завдання 1. GDP (номінальний ВВП за країнами)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1. Зчитати датасет з Вікіпедії
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'
tables = pd.read_html(url)
df = tables[2]  # вибір однієї з таблиць
print(df.head())

In [None]:
# 2. Розмір датасету
print('Розмір датасету:', df.shape)

In [None]:
# 3. Оптимальна кількість стовпців (виводимо всі)
pd.set_option('display.max_columns', None)
df.head()

In [None]:
# 4. Перейменування стовпців
df.columns = ['Country', 'MVF_2024', 'WorldBank_2023', 'OON_2022']
df.head()

In [None]:
# 5. Типи даних
print(df.dtypes)

In [None]:
# 6. Замінити '—' на NaN і перевірити пропуски
df = df.replace('—', np.nan)
print(df.isna().sum())

df = df.apply(pd.to_numeric, errors='ignore')
df = df.fillna(df.mean(numeric_only=True))

In [None]:
# 7. Повторна перевірка пропусків
print(df.isna().sum())

In [None]:
# 8. Перевірка дублікатів
print('Дублікатів:', df.duplicated().sum())
df = df.drop_duplicates()

In [None]:
# 9. Описова статистика
print(df.describe())

In [None]:
# 10. Відхилення між MVF_2024 і WorldBank_2023
df['Diff'] = df['MVF_2024'] - df['WorldBank_2023']
print(df[['Country', 'Diff']].sort_values('Diff', ascending=False).head())

In [None]:
# 11. Кореляція між стовпцями
print(df[['MVF_2024','WorldBank_2023','OON_2022']].corr())

In [None]:
# 12. Середні значення по роках
print(df[['MVF_2024','WorldBank_2023','OON_2022']].mean())

In [None]:
# 13. Стандартне відхилення між роками для кожної країни
df['std'] = df[['MVF_2024','WorldBank_2023','OON_2022']].std(axis=1)
print(df[['Country','std']].sort_values('std', ascending=False).head())

In [None]:
# 14. Країни з найвищими і найнижчими показниками
print('Найвищий MVF_2024:', df.loc[df['MVF_2024'].idxmax(), 'Country'])
print('Найнижчий MVF_2024:', df.loc[df['MVF_2024'].idxmin(), 'Country'])

In [None]:
# 15. Гістограма розподілу MVF_2024
plt.hist(df['MVF_2024'].dropna(), bins=20)
plt.title('Розподіл MVF_2024')
plt.xlabel('ВВП (млн $)')
plt.ylabel('Кількість країн')
plt.show()

In [None]:
# 16. Частка кожної країни в загальному значенні
shares = df[['MVF_2024','WorldBank_2023','OON_2022']].div(df[['MVF_2024','WorldBank_2023','OON_2022']].sum())
print(shares.head())

In [None]:
# 17. Візуалізація змін у показниках
df_sample = df.head(10).set_index('Country')[['MVF_2024','WorldBank_2023','OON_2022']]
df_sample.T.plot(kind='line', figsize=(10,5))
plt.title('Зміни ВВП для вибраних країн')
plt.show()

In [None]:
### Завдання 2. Titanic dataset
# Завантаження датасету
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic = pd.read_csv(url)
print(titanic.head())

In [None]:
# 2. Розмір датасету
print('Розмір:', titanic.shape)

In [None]:
# 3. Типи даних
print(titanic.dtypes)

In [None]:
# 4. Перевірка пропусків та заміна на середнє
print(titanic.isna().sum())
titanic = titanic.fillna(titanic.mean(numeric_only=True))

In [None]:
# 5. Повторна перевірка
print(titanic.isna().sum())

In [None]:
# 6. Перевірка дублікатів
print('Дублікатів:', titanic.duplicated().sum())
titanic = titanic.drop_duplicates()

In [None]:
# 7. Описова статистика
print(titanic.describe())

In [None]:
# 8. Видалення Cabin
titanic = titanic.drop(columns=['Cabin'], errors='ignore')

In [None]:
# 9. Вибір потрібних стовпців
data = titanic[['Survived','Pclass','Sex','Age','Fare']].copy()
data.head()

In [None]:
# 10. Замінити стать на 0/1
data['Sex'] = data['Sex'].map({'male':0,'female':1})
print(data['Sex'].unique())

In [None]:
# 11. Перевірка пропусків
print(data.isna().sum())

In [None]:
# 12–13. Перші та останні рядки
print(data.head())
print(data.tail())

In [None]:
# 14. Виживання за статтю
print(data.groupby('Sex')['Survived'].mean()*100)

In [None]:
# 15. Виживання за класом
print(data.groupby('Pclass')['Survived'].mean()*100)

In [None]:
# 16. Середній вік виживших/не виживших
print(data.groupby('Survived')['Age'].mean())

In [None]:
# 17. Групи за тарифами (Fare)
data['FareGroup'] = pd.cut(data['Fare'], bins=4)
print(data.groupby('FareGroup')['Survived'].mean())

In [None]:
# 18. Середній тариф за класами
print(data.groupby('Pclass')['Fare'].mean())

In [None]:
# 19. Середній вік за класами
print(data.groupby('Pclass')['Age'].mean())

In [None]:
# 20. Гістограма розподілу віку
plt.hist(data[data['Survived']==1]['Age'], bins=20, alpha=0.7, label='Вижив')
plt.hist(data[data['Survived']==0]['Age'], bins=20, alpha=0.7, label='Не вижив')
plt.legend()
plt.title('Розподіл віку')
plt.show()

In [None]:
# 21. Виживання за статтю і класом
print(data.groupby(['Sex','Pclass'])['Survived'].mean()*100)

In [None]:
# 22. Кореляція
print(data.corr(numeric_only=True))

### Висновок 1

In [None]:
# Висновок:
# Проведено попередній аналіз даних ВВП за країнами, очищено дані, обчислено кореляції, побудовано графіки.

### Висновок 2

In [None]:
# Висновок:
# Проведено аналіз даних Titanic: оброблено пропущені дані, виконано статистичний аналіз, досліджено фактори виживання.