## **목포 벚꽃 개화시기**
---



*   벚꽃 개화시기 그래프를 보면 한 눈에 보이는 것이 1990년 이전 3월달에 개화를 한 연도는 몇년 안되는 것을 확인할 수 있다. 즉, 점점 개화시기가 빨라지고 있고 1900년대와 2000년대의 차이가 많이 나는 것을 확인할 수 있다.

*   5년 평균 개화시기를 보면 1900년대 전까지는 개화가 대부분 4월에 진행됬고 1990년대 후반 부터는 점점 앞당겨지면서 2010년대에는 대부분 3월달에 개화 한 것을 볼 수 있다. 가장 늦게 개화를 한 1965 ~ 1970년도와 가장 빨리 개화를 한 2020 ~ 2022년도를 비교하면 15일 정도 차이가 난다. 2020년대가 3년 밖에 지나지 않을 것을 감안해도 많이 차이가 나는 것을 확인할 수 있다.





In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
# csv 파일을 읽기 위한 csv모듈 import 
import csv
# 데이터를 차트나 플롯(Plot)으로 그려주는 라이브러리 import
import matplotlib.pyplot as plt
# 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지 numpy import
import numpy as np

# 벚나무 데이터 불러오는 코드 
f = open('CherryBlossoms.csv', 'r', encoding='cp949') 
CherryBlossoms_data = csv.reader(f)
header=next(CherryBlossoms_data)

# 차트나 그래프를 그릴 위치(공간)을 만드는 코드 
fig, ax = plt.subplots(2,2,figsize=(15,7))  #여러개의 그래프를 하나의 그림에 나타내기 위해 subplot 사용 코드 
grid = plt.GridSpec(2,2) # 그래프 공간을 2,2로 나눌 수 있도록 GridSpec 사용 코드

three_month = [] # 3월달에 개화를 한 연도 리스트
three_low = [] # 3월달 개화시기 리스트 

four_month = [] # 4월달에 개화를 한 연도 리스트 
four_low = [] # 4월달 개화시기  리스트 

# 벚나무 데이터 추출을 위한 코드
for row in CherryBlossoms_data :
    # 연도-월-요일이 비어 있지 않으면 if 문 실행 코드 
    if row[0] != "":
        # 3월달에 해당하는 데이터 추출 
        if row[0].split("-")[1] == "03":  # 연도 데이터(row[0])를 split를 사용해 "-" 기준으로 나눈 후 첫번째 인덱스 값이 "03"과 동일한지 구하는 코드
            three_month.append(int(row[0].split('-')[0]))  # 3월달에 개화를 한 해당 연도를 three_month 리스트에 추가 
            three_low.append(int(row[0].split('-')[2]))  # 3월달에 개화를 한 연도에 해당하는 요일을 three_low 리스트에 추가 

        else :
            four_month.append(int(row[0].split('-')[0])) # 4월달에 개화를 한 해당 연도를 four_month 리스트에 추가 
            four_low.append(int(row[0].split('-')[2])) # 4월달에 개화를 한 연도에 해당하는 요일을 four_low 리스트에 추가 


plt.rc('font', family = 'NanumBarunGothic') # 나눔바른 고딕을 기본 글꼴로 설정
plt.rcParams['axes.unicode_minus'] = False # 마이너스 기호 깨짐 방지

# 범위 0,0에 3월달 개화시기를 선 그래프로 표현
plt.subplot(grid[0,0]).plot(three_month, three_low ,'r:*', label = '개화시기') # 그래프 선 색깔 red, 선 종류 :, 마커는 *로 표시, 라벨은 개화시기 
plt.title("1950년 이후 목포 3월 벚꽃 개화 시기",fontsize=18) # 그래프 제목, 제목 크기는 18size
plt.xlabel("연도",fontsize=13)# x축 label, 라벨 크기는 18size
plt.ylabel("요일",fontsize=13)# y축 label, 라벨 크기는 18size
plt.legend() # 범례 표시

# 범위 1,0에 4월달 개화시기를 선 그래프로 출력하는 표현 
plt.subplot(grid[1,0]).plot(four_month, four_low, 'b:*', label = '개화시기')# 그래프 선 색깔 blue, 선 종류 :, 마커는 *로 표시, 라벨은 개화시기 
plt.title("목포 1950년 이후 목포 4월 벚꽃 개화 시기",fontsize=18) # 그래프 제목
plt.xlabel("연도",fontsize=13)# x축 label
plt.ylabel("요일",fontsize=13)# y축 label
plt.legend(loc="upper left") # 범례 표시

# 범위 (0,1), (1,1) 공간을 하나로 묶어 해당 위치에 개화시기를 선 그래프로 표현
plt.subplot(grid[1:]).plot(three_month, three_low, 'r:o', label = '3월')
plt.subplot(grid[1:]).plot(four_month, four_low, 'b:o', label = '4월')
plt.scatter(three_month[three_low.index(min(three_low))], three_low[three_low.index(min(three_low))], color="b",linewidth=5) # 3월달 개화시기 중 가장 빨리 개화한 요일 정점 표시 코드 
plt.scatter(four_month[four_low.index(max(four_low))], four_low[four_low.index(max(four_low))], color="r",linewidth=5) # 4월달 개화시기 중 가장 늦게 개화한 요일 정점 표시 코드
plt.title("1950 이후 목포 벚꽃 개화 시기",fontsize=18)# 그래프 제목
plt.xlabel("연도",fontsize=13)# x축 label
plt.ylabel("요일",fontsize=13)# y축 label
plt.legend() # 범례 표시

fig.tight_layout() #여백 조정
plt.show() # 그래프 나타내기


In [None]:
# 날짜 평균을 구하기 위해 날짜를 조작하는 클래스를 제공하는 datetime 모듈 import
import datetime
# 시간 데이터를 처리하기 위해서 내장 모듈 time import
import time

# 벚나무 데이터 불러오는 코드 
f = open('CherryBlossoms.csv', 'r', encoding='cp949') 
CherryBlossoms_data = csv.reader(f)
header=next(CherryBlossoms_data)

# 차트나 그래프를 그릴 위치(공간)을 만드는 코드 
fig, ax = plt.subplots(1,2,figsize=(12, 5)) #여러개의 그래프를 하나의 그림에 나타내기 위해 subplot 사용 코드 
grid = plt.GridSpec(1,2) # 그래프 공간을 2,2로 나눌 수 있도록 GridSpec 사용 코드

year = [] # 모든 년도 담을 리스트 
low = [] # 모든 날짜를 담을 리스트
 
flower_year_5 = [] # 5년 주기 연도를 담을 리스트
avg_year_5 = [] # 5년 평균 날짜를 담을 리스트

avg_year_1990_5 = [] # 1990년 이후 5년 평균 날짜를 담을 리스트



# 5년 10년 단위로 날짜를 나누는 함수
def year_split(start_year,end_year, year,low):
    result = []
    for i in range(len(year)):
        if start_year <= int(year[i]) <= end_year :
            result.append(low[i])
    return result

# 개화시기 평균을 구하는 함수
def avg_year(avg_year):
    data_avg = []
    sec = []
    for i in avg_year :
        for j in i :
            sec.append(time.mktime(datetime.datetime.strptime(j, "%m-%d").timetuple())) # avg_year에 날짜 데이터를 각각 시간 데이터로 변환 후 추가하는 코드  
        mean = str(datetime.datetime.fromtimestamp(np.mean(sec))) # sec에 들어있는 시간 데이터에 평균을 구해서 다시 날짜 데이터로 바꾼는 함수 
        data_avg.append(mean[5:10]) # 변환된 날짜 데이터를 추가하는 함수 
        sec.clear() # sec에 들어있는 원소를 모두 제거 
    return data_avg

# 3월 4월을 구분하기 위한 함수 
def split_year(avg_year):
    result_data = []
    for i in avg_year:
        # avg_year를 "-" 기준으로 나눈 후 0번째 인덱스가 4이면 if문 실행
        if int(i.split("-")[0]) == 4:
            result_data.append(int(i.split("-")[1])) # 요일을  추가하는 코드
        # 4가 아닐 경우 실행
        else :
            result_data.append(int(i.split("-")[1]) - 32) # 요일 - 32를 한 후 추가하는 코드 
    return result_data

# 평균 개화시기를 구하는 코드 
for row in CherryBlossoms_data :
    # 연도-월-요일이 비어 있지 않으면 if 문 실행 코드 
    if row[0] != "":
        year.append(row[0].split("-")[0]) # 연도를 추가하는 코드
        low.append(row[0][5:]) #날짜를 추가하는 코드 

        # 5년 단위 연도를 구하는 코드 
        if int(row[0].split('-')[0]) % 5 == 0 : 
            flower_year_5.append(row[0].split("-")[0]) # 5년 단위 연도를 추가하는 코드
        


# year_split 함수를 실행해 5년 주기 날짜를 추가하는 코드 
avg_year_5.extend([year_split(1950,1954,year,low),year_split(1955,1959,year,low),year_split(1960,1964,year,low),year_split(1965,1969,year,low),year_split(1970,1974,year,low),
          year_split(1975,1979,year,low),year_split(1980,1984,year,low),year_split(1985,1989,year,low),year_split(1990,1994,year,low),year_split(1995,1999,year,low),
           year_split(2000,2004,year,low),year_split(2005,2009,year,low),year_split(2010,2014,year,low),year_split(2015,2019,year,low),year_split(2020,2022,year,low)])



# year_split 함수를 실행해 1990년 이후 5년 주기 날짜를 추가하는 코드 
avg_year_1990_5.extend([year_split(1990,1994,year,low),year_split(1995,1999,year,low), year_split(2000,2004,year,low),
                   year_split(2005,2009,year,low),year_split(2010,2014,year,low),year_split(2015,2019,year,low)])


avg_year_5 = avg_year(avg_year_5) # avg_year 함수를 실행해 5년 주기 평균을 변수에 할당하는 코드 
avg_year_1990 = avg_year(avg_year_1990_5) # avg_year 함수를 실행해 1990년 이후 5년 주기 평균을 변수에 할당하는 코드 

result_data_5 = split_year(avg_year_5) # split_year 함수를 실행하여 3월, 4월을 구분하여 5년 평균 요일을 해당 변수에 추가하는 코드
result_data_1990_5 = split_year(avg_year_1990) # split_year 함수를 실행하여 3월, 4월을 구분하여 1990년 이후 5년 주기 평균 요일을 해당 변수에 추가하는 코드

plt.rc('font', family = 'NanumBarunGothic') # 나눔바른 고딕을 기본 글꼴로 설정
plt.rcParams['axes.unicode_minus'] = False # 마이너스 기호 깨짐 방지

# 범위 0,0에 5년 평균 개화시기를 선 그래프로 표현
plt.subplot(grid[0,:]).plot(flower_year_5, result_data_5 ,'y:o', label = '개화시기') # 그래프 선 색깔 yellow, 선 종류 :, 마커는 o로 표시, 라벨은 개화시기 
plt.scatter(flower_year_5[result_data_5.index(max(result_data_5))], result_data_5[result_data_5.index(max(result_data_5))], color="b",linewidth=5) # 개화시기 중 가장 늦게 개화한 요일 정점 표시 코드 
plt.scatter(flower_year_5[result_data_5.index(min(result_data_5))], result_data_5[result_data_5.index(min(result_data_5))], color="r",linewidth=5) # 개화시기 중 가장 빨리 개화한 요일 정점 표시 코드 
plt.title("1950년 이후 5년 평균 목포 벚꽃 개화 시기",fontsize=18) # 그래프 제목, 제목 size는 18
plt.xlabel("연도",fontsize=13) # x축 label, 라벨 크기는 13
plt.ylabel("요일",fontsize=13) # y축 label, 라벨 크기는 13
plt.legend() # 범례 표시


fig.tight_layout() # 여백 조정
plt.show() # 그래프 나타내기