# 데이터셋 설명
- **조류-항공기 충돌**이라고도 하는 비행기 조류 충돌은 전 세계 항공 산업의 중요한 안전 문제입니다. **버드 스트라이크**는 **항공기의 이착륙 또는 비행 중에 조류가 비행기와 충돌하여 항공기에 손상을 입히고 승객과 승무원의 생명을 위협하는 경우**를 말합니다. 최근 몇 년 동안 보고된 버드 스트라이크의 수가 증가했는데, 부분적으로는 **항공 교통량이 증가**했기 때문이기도 하지만 향상된 보고 절차와 인식 덕분이기도 합니다.
- 항공기 조류 충돌에 기여하는 패턴과 요인을 더 잘 이해하기 위해 전 세계 항공 당국과 조직에서 많은 양의 데이터를 수집했습니다. 이 데이터 세트에는 **위치, 시간, 조류 유형 및 항공기에 대한 조류 충돌로 인한 손상 정도에 대한 정보**가 포함됩니다. 이 데이터는 위험 요소를 식별하고 버드 스트라이크를 방지하기 위한 전략을 개발하는 데 사용하는 항공 안전 연구자 및 실무자에게 유용합니다.
- 이 데이터 세트에는 공항 보고서, 항공사 사고 데이터베이스 및 야생 동물 관리 프로그램을 포함하여 다양한 소스에서 비행기 조류 충돌에 대한 정보가 포함되어 있습니다. 이 데이터는 **다양한 항공기 유형, 조류 종 및 지리적 위치**를 다루며 현상에 대한 포괄적인 개요를 제공합니다. 이 데이터를 분석하여 **조류 충돌의 빈도, 심각성 및 원인에 대한 통찰력**을 얻고 이 정보를 사용하여 효과적인 예방 조치를 개발할 수 있습니다.

In [8]:
import numpy as np
import pandas as pd

strikes_df = pd.read_csv('bird_strikes2.csv')
strikes_df.head()  # 데이터 확인 5 rows × 26 columns

Unnamed: 0,아이디,항공기유형,고도,충돌추청수,충돌실제수,출동영향,발생날짜,손상여부,출발지역,운항단계,...,총비용,지면의높이,부상자수,대형기여부,공항이름,모델,엔진수,항공사이름,설명,동물종류
0,202152.0,Airplane,> 1000 ft,Over 100,859.0,Engine Shut Down,2000-11-23 00:00:00,Caused damage,New York,Climb,...,30736.0,1500.0,0.0,True,LAGUARDIA NY,B-737-400,2,US AIRWAYS*,FLT 753. PILOT REPTD A HUNDRED BIRDS ON UNKN T...,Unknown bird - medium
1,208159.0,Airplane,< 1000 ft,Over 100,424.0,,2001-07-25 00:00:00,Caused damage,Texas,Landing Roll,...,0.0,0.0,0.0,False,DALLAS/FORT WORTH INTL ARPT,MD-80,2,AMERICAN AIRLINES,102 CARCASSES FOUND. 1 LDG LIGHT ON NOSE GEAR ...,Rock pigeon
2,207601.0,Airplane,< 1000 ft,Over 100,261.0,,2001-09-14 00:00:00,No damage,Louisiana,Approach,...,0.0,50.0,0.0,False,LAKEFRONT AIRPORT,C-500,2,BUSINESS,FLEW UNDER A VERY LARGE FLOCK OF BIRDS OVER AP...,European starling
3,215953.0,Airplane,< 1000 ft,Over 100,806.0,Precautionary Landing,2002-09-05 00:00:00,No damage,Washington,Climb,...,0.0,50.0,0.0,True,SEATTLE-TACOMA INTL,B-737-400,2,ALASKA AIRLINES,"NOTAM WARNING. 26 BIRDS HIT THE A/C, FORCING A...",European starling
4,219878.0,Airplane,< 1000 ft,Over 100,942.0,,2003-06-23 00:00:00,No damage,Virginia,Approach,...,0.0,50.0,0.0,False,NORFOLK INTL,CL-RJ100/200,2,COMAIR AIRLINES,NO DMG REPTD.,European starling


In [9]:
strikes_df.columns  # 컬럼 확인

Index(['아이디', '항공기유형', '고도', '충돌추청수', '충돌실제수', '출동영향', '발생날짜', '손상여부', '출발지역',
       '운항단계', '기상상태', '잔해수집', '잔해전달', '동물크기', '하늘상태', '조종사경고', '총비용', '지면의높이',
       '부상자수', '대형기여부', '공항이름', '모델', '엔진수', '항공사이름', '설명', '동물종류'],
      dtype='object')

In [10]:
birdstrikes_df = strikes_df[['아이디', '항공기유형', '고도', '충돌추청수', '충돌실제수', '출동영향', '발생날짜', '손상여부', '출발지역',
       '운항단계', '기상상태', '잔해수집', '잔해전달', '동물크기', '하늘상태', '조종사경고', '총비용', '지면의높이',
       '부상자수', '대형기여부', '공항이름', '모델', '엔진수', '항공사이름', '설명', '동물종류']]

### 주요 컬럼들의 명칭과 그 의미

- record_id: 각 기록에 대한 고유 식별자
- aircraft_type: 항공기의 유형
- airport_name: 사건이 발생한 공항의 이름
- altitude_bin: 사건이 발생했을 때의 고도 범위
- aircraft_make_model: 항공기의 제조사와 모델명
- wildlife_number_struck: 충돌한 야생동물의 추정 수
- wildlife_number_struck_actual: 충돌한 야생동물의 실제 수
- effect_impact_to_flight: 충돌로 인한 항공기의 비행에 미치는 영향
- flightdate: 사건이 발생한 날짜
- effect_indicated_damage: 충돌로 인한 손상 여부
- remains_of_wildlife_sent_to_smithsonian: 야생동물의 잔해가 스미소니언으로 보내졌는지의 여부
- remarks: 사건에 대한 추가적인 설명 또는 주석
- wildlife_size: 충돌한 야생동물의 크기
- conditions_sky: 사건이 발생했을 때의 하늘 상태
- wildlife_species: 충돌한 야생동물의 종
- pilot_warned_of_birds_or_wildlife: 조종사가 야생동물 충돌 위험에 대해 경고받았는지의 여부
- cost_total: 충돌로 인한 총 비용
- feet_above_ground: 사건이 발생했을 때 항공기의 지면에서의 높이
- number_of_people_injured: 사건으로 인한 부상자 수
- is_aircraft_large: 항공기가 대형인지의 여부

In [11]:
birdstrikes_df.describe()  # 데이터 요약

Unnamed: 0,아이디,충돌실제수,총비용,지면의높이,부상자수
count,25558.0,25558.0,25558.0,25429.0,25558.0
mean,253916.085609,2.691525,5567.354,799.028432,0.001056
std,38510.453382,12.793975,121971.3,1740.079843,0.05042
min,1195.0,1.0,0.0,0.0,0.0
25%,225783.75,1.0,0.0,0.0,0.0
50%,248749.0,1.0,0.0,50.0,0.0
75%,269168.75,1.0,0.0,700.0,0.0
max,321909.0,942.0,12397750.0,18000.0,6.0


In [12]:
birdstrikes_df2 = birdstrikes_df[["충돌실제수", "부상자수"]]
birdstrikes_df2.describe()

Unnamed: 0,충돌실제수,부상자수
count,25558.0,25558.0
mean,2.691525,0.001056
std,12.793975,0.05042
min,1.0,0.0
25%,1.0,0.0
50%,1.0,0.0
75%,1.0,0.0
max,942.0,6.0


In [13]:
birdstrikes_df2.corr()  # 상관관계 

Unnamed: 0,충돌실제수,부상자수
충돌실제수,1.0,0.01015
부상자수,0.01015,1.0


In [14]:
# 데이터 타입 확인
birdstrikes_df.dtypes

아이디      float64
항공기유형     object
고도        object
충돌추청수     object
충돌실제수    float64
출동영향      object
발생날짜      object
손상여부      object
출발지역      object
운항단계      object
기상상태      object
잔해수집        bool
잔해전달        bool
동물크기      object
하늘상태      object
조종사경고     object
총비용      float64
지면의높이    float64
부상자수     float64
대형기여부     object
공항이름      object
모델        object
엔진수       object
항공사이름     object
설명        object
동물종류      object
dtype: object

In [15]:
# 데이터 확인 
birdstrikes_df['발생날짜']  # 전체 데이터 Name: 발생날짜, Length: 25558, dtype: object

0        2000-11-23 00:00:00
1        2001-07-25 00:00:00
2        2001-09-14 00:00:00
3        2002-09-05 00:00:00
4        2003-06-23 00:00:00
                ...         
25553    2011-12-30 00:00:00
25554    2011-12-30 00:00:00
25555                      ?
25556    2011-12-31 00:00:00
25557    2011-12-31 00:00:00
Name: 발생날짜, Length: 25558, dtype: object

이 CSV 파일을 기반으로 수행할 수 있는 다양한 데이터 분석의 예를 제시하겠습니다.

### 기본 통계 분석:

- 어떤 항공기 모델이 가장 많은 충돌을 경험했는지 확인
- 가장 많이 충돌하는 야생동물의 종류 파악
- 충돌로 인한 평균 비용 계산

### 시간대별 분석:
- 연도별, 월별, 일별 충돌 발생 횟수 추이 확인
- 특정 시기(예: 이동하는 새의 계절)에 충돌 발생률이 높아지는지 확인

### 공항별 분석:
- 어떤 공항에서 가장 많은 충돌 사고가 발생했는지 확인
- 공항의 위치(예: 근처에 큰 호수나 습지대가 있는 곳)와 충돌 발생률과의 관계 분석

### 손상 및 비용 분석:
- 야생동물의 크기나 종류에 따른 평균 손상 비용 파악
- 항공기의 크기와 충돌로 인한 평균 손상 비용 간의 관계 분석

### 충돌에 대한 경고 분석:
- 조종사가 야생동물 충돌 위험에 대해 경고받았을 때와 받지 않았을 때의 충돌 발생률 비교

### 고도별 충돌 분석:
- 특정 고도에서의 충돌 발생률이 높은지 분석
- 고도와 충돌로 인한 손상 간의 관계 분석

이러한 분석을 통해 항공 안전에 미치는 요소를 파악하고, 그에 따른 예방 조치나 향후 정책을 마련하는 데 도움이 될 수 있습니다.