[ 지역에 따른 산불 데이터 분석  ]

In [20]:
# 데이터 : 2015 ~ 2024년 산림청 산불상황관제시스템 산불통계데이터 
# 목표 : 지역에 따른 산불 빈도 분석
# 데이터셋 : fire1.xlsx

[1] 모듈 로딩 및 데이터 준비 <hr>

In [21]:
# [1-1] 모듈 로딩
import pandas as pd  # 데이터 분석 및 전처리 관련 모듈

# [1-2] 데이터 준비 

# 데이터 로딩 
fire_data='../1월 23일/fire1.xlsx'
fire=pd.read_excel(fire_data)

# [1-3] 데이터 정보 확인

# 데이터 요약 정보 확인
fire.info()
print()

# 실제 데이터 확인 
print(fire.head(),end='\n\n') # 앞 5열
print(fire.tail()) # 뒷 5열

# 컬럼명 통계치 정보 출력
fire.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5455 entries, 0 to 5454
Data columns (total 18 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   발생일시_년     5455 non-null   int64  
 1   발생일시_월     5455 non-null   int64  
 2   발생일시_일     5455 non-null   int64  
 3   발생일시_시간    5455 non-null   object 
 4   발생일시_요일    5455 non-null   object 
 5   진화종료시간_년   5455 non-null   int64  
 6   진화종료시간_월   5455 non-null   int64  
 7   진화종료시간_일   5455 non-null   int64  
 8   진화종료시간_시간  5455 non-null   object 
 9   발생장소_관서    5454 non-null   object 
 10  발생장소_시도    5455 non-null   object 
 11  발생장소_시군구   5432 non-null   object 
 12  발생장소_읍면    4919 non-null   object 
 13  발생장소_동리    4934 non-null   object 
 14  발생원인_구분    4514 non-null   object 
 15  발생원인_세부원인  5455 non-null   object 
 16  발생원인_기타    5455 non-null   object 
 17  피해면적_합계    5455 non-null   float64
dtypes: float64(1), int64(6), object(11)
memory usage: 767.2+ KB

   발생일시_년  발생일시_월  발생일시_일 발

Unnamed: 0,발생일시_년,발생일시_월,발생일시_일,진화종료시간_년,진화종료시간_월,진화종료시간_일,피해면적_합계
count,5455.0,5455.0,5455.0,5455.0,5455.0,5455.0,5455.0
mean,2019.333639,4.535839,15.511824,2019.370486,4.534922,15.500642,7.336247
std,2.75762,2.981693,8.87555,3.899739,2.978381,8.863134,233.216911
min,2015.0,1.0,1.0,2015.0,1.0,1.0,0.01
25%,2017.0,3.0,8.0,2017.0,3.0,8.0,0.02
50%,2019.0,4.0,16.0,2019.0,4.0,16.0,0.1
75%,2022.0,5.0,23.0,2022.0,5.0,23.0,0.3
max,2024.0,12.0,31.0,2223.0,12.0,31.0,16301.98


[2] 결측치 확인 <hr>

In [22]:
# [2-1] 결측치 확인
print(fire.isna().sum())

# 위의 방법을 통해 "발생장소_관서", "발생장소_시군구", "발생장소_읍면", "발생장소_동리", "발생장소_구분"에서 결측치 발견
# 하지만 "발생장소_시도"를 기준으로 지역에 따른 산불 원인 분석을 실행하였기 때문에, 결측치를 수정하지 않음

발생일시_년         0
발생일시_월         0
발생일시_일         0
발생일시_시간        0
발생일시_요일        0
진화종료시간_년       0
진화종료시간_월       0
진화종료시간_일       0
진화종료시간_시간      0
발생장소_관서        1
발생장소_시도        0
발생장소_시군구      23
발생장소_읍면      536
발생장소_동리      521
발생원인_구분      941
발생원인_세부원인      0
발생원인_기타        0
피해면적_합계        0
dtype: int64


[3] 데이터 분석 <hr>

In [23]:
# [3-1] 시도별로 산불 빈도 분석 

# 필요한 데이터가 들어있는 시리즈 추출
datas=fire['발생장소_시도']

# 빈도값 도출
value1=datas.value_counts()
print(value1)

발생장소_시도
경기    1299
경북     858
강원     741
경남     490
충남     396
전남     377
전북     267
충북     249
인천     183
부산     137
울산     119
대구     106
서울      95
대전      65
세종      39
광주      31
제주       3
Name: count, dtype: int64


In [24]:
# [3-2] 각종 데이터들

# 빈도값의 평균값 구하기
print(f'빈도값의 평균값 : {value1.mean()}',end='\n\n')

# 제주를 제외한 평균값 구하기
print(f'제주 제외 평균값 : {value1[:-1].mean()}',end='\n\n')

# 경기와 제주를 제외한 표준편차 구하기
print(f'경기, 제주 제외 표준편차 : {value1[1:-1].std()}')

빈도값의 평균값 : 320.88235294117646

제주 제외 평균값 : 340.75

경기, 제주 제외 표준편차 : 253.70676737037152


[4] 데이터 비교 <hr>

In [25]:
# [4-1] 비교할 데이터 준비

# 데이터 : 2017 ~ 2023년 산림청 국립산림과학원 대형산불위험예보목록정보 
# 목표 : 지역에 따른 산불 빈도와 지역에 따른 대형산불위험예보의 연관성 분석
# 데이터셋 : alert.xlsx

# 데이터 로딩
alert_data=r'../1월 23일/alert.xlsx'
alert=pd.read_excel(alert_data)

# 데이터 요약 정보 확인
alert.info()
print()

# 실제 데이터 확인 
print(alert.head(),end='\n\n') # 앞 5열
print(alert.tail()) # 뒷 5열

# 컬럼명 통계치 정보 출력
alert.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36851 entries, 0 to 36850
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   예보일시    36851 non-null  datetime64[ns]
 1   시도명     36851 non-null  object        
 2   시군구명    36851 non-null  object        
 3   읍면동명    36851 non-null  object        
 4   실효습도    36851 non-null  float64       
 5   풍속      36851 non-null  float64       
 6   등급      36851 non-null  object        
dtypes: datetime64[ns](1), float64(2), object(4)
memory usage: 2.0+ MB

                 예보일시 시도명    시군구명 읍면동명  실효습도   풍속   등급
0 2017-01-17 15:00:00  강원     인제군   북면  34.6  7.3  주의보
1 2017-01-23 11:00:00  경북  포항시 남구  장기면  30.9  7.3  주의보
2 2017-01-24 14:00:00  전남     여수시  경호동  36.2  7.3  주의보
3 2017-01-27 10:00:00  경북  포항시 북구  기계면  34.2  8.4  주의보
4 2017-01-27 10:00:00  경북     경주시  안강읍  34.1  7.8  주의보

                     예보일시 시도명 시군구명 읍면동명  실효습도   풍속   등급
36846 2023-12-23 14:00:00  경북   영덕  병

Unnamed: 0,예보일시,실효습도,풍속
count,36851,36851.0,36851.0
mean,2020-08-28 18:32:55.305961984,36.441481,8.003167
min,2017-01-17 15:00:00,0.0,7.0
25%,2019-05-08 10:00:00,33.0,7.3
50%,2020-04-30 15:00:00,36.6,7.7
75%,2022-03-05 08:00:00,40.0,8.4
max,2023-12-29 15:00:00,52.6,74.8
std,,4.77178,1.437229


In [26]:
# [4-2] 비교할 데이터 결측치 확인
print(alert.isna().sum())

# 결측치가 발견되지 않음!

예보일시    0
시도명     0
시군구명    0
읍면동명    0
실효습도    0
풍속      0
등급      0
dtype: int64


In [27]:
# [4-3] 필요한 데이터가 들어있는 시리즈 추출

# (1) fire 파일

# 2017~2023년 사이의 데이터만 추출
new_fire=fire[fire['발생일시_년'].isin([2017,2018,2019,2020,2021,2022,2023])]

# 위의 데이터에서 필요 데이터 추출
new_fire_data=new_fire['발생장소_시도']
nfd=new_fire_data.value_counts()
# 서울 데이터는 alert 파일에 없어서 삭제
nfd=nfd.drop('서울')
# 시도별 가나다 순으로 정렬
nfd=nfd.sort_index()
print(nfd,end='\n\n')

# (2) alert 파일
data2=alert['시도명']
alert2=data2.value_counts()
# 시도별 가나다 순으로 정렬
alert2=alert2.sort_index()
print(alert2)

발생장소_시도
강원    495
경기    950
경남    441
경북    693
광주     23
대구     80
대전     48
부산    111
세종     36
울산    105
인천    105
전남    287
전북    219
제주      3
충남    322
충북    185
Name: count, dtype: int64

시도명
강원    14306
경기       70
경남     4219
경북     9489
광주       10
대구      201
대전        1
부산      533
세종       18
울산     1416
인천        9
전남     4689
전북      598
제주      207
충남      471
충북      614
Name: count, dtype: int64


In [28]:
# [4-4] 상관계수 
# 비교할 시리즈 : nfd, alert2

# 두 시리즈를 DataFrame에 추가하기
# DataFrame 전용 메서드 corr()를 이용하기 위함
df=pd.DataFrame({'nfd':nfd, 'alert2':alert2})
corr1=df.corr().loc['nfd','alert2']
print(f'두 시리즈 간의 상관계수 : {corr1}')

# 지역에 따른 산불 빈도 데이터와 지역에 따른 대형산불위험예보 데이터의 상관계수를 분석해본 결과 약 0.49가 나왔다.

# 0과 1의 중간 지점에 위치하여 있으므로 중간 정도 양의 상관관계가 있음을 확인할 수 있음.

두 시리즈 간의 상관계수 : 0.4895053350924464
