In [1]:
import pandas as pd

# Завантаження датасету з вказаного URL
url = "https://github.com/mahi1997/LearnGit/raw/master/museum_visitors.csv"
df = pd.read_csv(url)

# Перетворення стовпця "Date" в тип "datetime"
df['Date'] = pd.to_datetime(df['Date'])

# Тепер стовпець "Date" має тип "datetime" і може бути використаний для роботи з датами

In [3]:
#2. Виведення перших 5 рядків датасету
df.head()

Unnamed: 0,Date,Avila Adobe,Firehouse Museum,Chinese American Museum,America Tropical Interpretive Center
0,2014-01-01,24778,4486,1581,6602
1,2014-02-01,18976,4172,1785,5029
2,2014-03-01,25231,7082,3229,8129
3,2014-04-01,26989,6756,2129,2824
4,2014-05-01,36883,10858,3676,10694


In [4]:
#3. Попередній аналіз даних
# Розмір датасету
df.shape

(59, 5)

In [5]:
#Тип даних
df.dtypes

Date                                    datetime64[ns]
Avila Adobe                                      int64
Firehouse Museum                                 int64
Chinese American Museum                          int64
America Tropical Interpretive Center             int64
dtype: object

In [6]:
#Кількість пропусків
df.isnull().sum()

Date                                    0
Avila Adobe                             0
Firehouse Museum                        0
Chinese American Museum                 0
America Tropical Interpretive Center    0
dtype: int64

In [7]:
#4. Перевірка наявності дублікатів
df.duplicated().sum()

0

In [8]:
# Виділення років зі стовпця "Date" та отримання унікальних років
unique_years = df['Date'].dt.year.unique()

# Виведення унікальних років
print(unique_years)

[2014 2015 2016 2017 2018]


In [9]:
# Створення словника, який містить нові назви стовпців
new_column_names = {
    'Date': 'date',
    'Avila Adobe': 'avila_adobe',
    'Firehouse Museum': 'firehouse_museum',
    'Chinese American Museum': 'chinese_american_museum',
    'America Tropical Interpretive Center': 'america_tropical_interpretive_center'
}

# Зміна назв стовпців у датасеті
df.rename(columns=new_column_names, inplace=True)

# Тепер назви стовпців будуть змінені з великих букв на маленькі та з пробілів на підкреслення

In [10]:
df.head()

Unnamed: 0,date,avila_adobe,firehouse_museum,chinese_american_museum,america_tropical_interpretive_center
0,2014-01-01,24778,4486,1581,6602
1,2014-02-01,18976,4172,1785,5029
2,2014-03-01,25231,7082,3229,8129
3,2014-04-01,26989,6756,2129,2824
4,2014-05-01,36883,10858,3676,10694


In [11]:
#7.	Обчислення середньої щомісячної відвідуваності для кожного музея за весь період.
# Обчислення середнього значення для кожного музею за кожний місяць
average_avila_adobe = df['avila_adobe'].mean()
average_firehouse_museum = df['firehouse_museum'].mean()
average_chinese_american_museum = df['chinese_american_museum'].mean()
average_america_tropical_interpretive_center = df['america_tropical_interpretive_center'].mean()

# Виведення середнього значення для кожного музею за кожний місяць
print("Average Visitors every month for Avila Adobe:", average_avila_adobe)
print("Average Visitors every month for Firehouse Museum:", average_firehouse_museum)
print("Average Visitors every month for Chinese American Museum:", average_chinese_american_museum)
print("Average Visitors every month for America Tropical Interpretive Center:", average_america_tropical_interpretive_center)


Average Visitors every month for Avila Adobe: 24061.661016949154
Average Visitors every month for Firehouse Museum: 6472.830508474576
Average Visitors every month for Chinese American Museum: 2721.2542372881358
Average Visitors every month for America Tropical Interpretive Center: 7107.016949152542


In [12]:
# Виділення років зі стовпця "date"
df['year'] = df['date'].dt.year

# Відфільтрування даних за 2018 рік
data_2018 = df[df['year'] == 2018]

# Знаходження мінімальної та максимальної кількості відвідувачів для кожного музею
min_visitors_2018 = data_2018[['avila_adobe', 'firehouse_museum', 'chinese_american_museum', 'america_tropical_interpretive_center']].min()
max_visitors_2018 = data_2018[['avila_adobe', 'firehouse_museum', 'chinese_american_museum', 'america_tropical_interpretive_center']].max()

# Виведення мінімальної та максимальної кількості відвідувачів для кожного музею за 2018 рік
print("Minimum number of visitors for 2018:")
print(min_visitors_2018)

print("\nMaximum number of visitors for 2018:")
print(max_visitors_2018)


Minimum number of visitors for 2018:
avila_adobe                             14718
firehouse_museum                         3306
chinese_american_museum                  2146
america_tropical_interpretive_center     3180
dtype: int64

Maximum number of visitors for 2018:
avila_adobe                             25173
firehouse_museum                         8013
chinese_american_museum                  4960
america_tropical_interpretive_center     5837
dtype: int64


In [13]:
# Виділення років і місяців зі стовпця "date"
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

# Відфільтрування даних за 2015 рік
data_2015 = df[df['year'] == 2015]

# Групування даних за місяцем та обчислення загальної кількості відвідувачів для кожного місяця
monthly_total_visitors = data_2015.groupby('month')[['avila_adobe', 'firehouse_museum', 'chinese_american_museum', 'america_tropical_interpretive_center']].sum()

# Знаходження місяця з найвищою і найнижчою загальною кількістю відвідувачів
highest_month = monthly_total_visitors.sum(axis=1).idxmax()
lowest_month = monthly_total_visitors.sum(axis=1).idxmin()

# Визначення назв місяців (не цифри)
import calendar
highest_month_name = calendar.month_name[highest_month]
lowest_month_name = calendar.month_name[lowest_month]

# Виведення результатів
print("The month with the highest number of visitors for 2015:", highest_month_name)
print("The month with the lowest number of visitors for 2015:", lowest_month_name)


The month with the highest number of visitors for 2015: May
The month with the lowest number of visitors for 2015: February


In [14]:
# Відфільтрування даних за 2018 рік
data_2018 = df[df['year'] == 2018]

# Визначення літніх і зимових місяців
summer_months = [6, 7, 8]
winter_months = [12, 1, 2]

# Відфільтрування даних для літніх і зимових місяців 2018 року для музею "Avila Adobe"
summer_visitors = data_2018[data_2018['month'].isin(summer_months)]['avila_adobe']
winter_visitors = data_2018[data_2018['month'].isin(winter_months)]['avila_adobe']

# Обчислення середньої кількості відвідувачів для літніх і зимових місяців
average_summer_visitors = summer_visitors.mean()
average_winter_visitors = winter_visitors.mean()

# Виведення результатів порівняння
print("The average number of visitors to the 'Avila Adobe' museum in the summer months of 2018:", average_summer_visitors)
print("The average number of visitors to the 'Avila Adobe' museum in the winter months of 2018:", average_winter_visitors)


The average number of visitors to the 'Avila Adobe' museum in the summer months of 2018: 22040.666666666668
The average number of visitors to the 'Avila Adobe' museum in the winter months of 2018: 15491.5


In [15]:
# Відфільтрування даних за 2016 рік
data_2016 = df[df['year'] == 2016]

# Вибірка стовпців, які містять кількість відвідувачів у музеях
museum_columns = ['avila_adobe', 'firehouse_museum', 'chinese_american_museum', 'america_tropical_interpretive_center']
museum_data_2016 = data_2016[museum_columns]

# Обчислення кореляції між кількістю відвідувачів у музеях та датами
correlation_matrix = museum_data_2016.corr()

# Виведення матриці кореляції
print(correlation_matrix)


                                      avila_adobe  firehouse_museum  \
avila_adobe                              1.000000          0.737200   
firehouse_museum                         0.737200          1.000000   
chinese_american_museum                  0.089054          0.553935   
america_tropical_interpretive_center     0.436561          0.247389   

                                      chinese_american_museum  \
avila_adobe                                          0.089054   
firehouse_museum                                     0.553935   
chinese_american_museum                              1.000000   
america_tropical_interpretive_center                 0.443800   

                                      america_tropical_interpretive_center  
avila_adobe                                                       0.436561  
firehouse_museum                                                  0.247389  
chinese_american_museum                                           0.443800  
america_tr