- Description: This repo is Fatalities in the Israeli-Palestinian Data Analysis Project. (Middle East War)
- Kaggle: https://www.kaggle.com/code/psleon8245/middle-east-war-data-analysis-project
Selfie | Name | Interests |
---|---|---|
Yeong-Min Ko | AI, Computer Vision, Data Analysis |
# | Column Name | Description | Missing Value |
---|---|---|---|
0 | name | 사망자 이름 | - |
1 | date_of_event | 사건 일자 | - |
2 | age | 사망자 나이 | exist |
3 | citizenship | 국적 | - |
4 | event_location | 사건 장소 | - |
5 | event_location_district | 사건 장소 지구 | - |
6 | event_location_region | 사건 장소 지역 | - |
7 | date_of_death | 사망 일자 | - |
8 | gender | 성별 | exist |
9 | took_part_in_the_hostilities | 교전 참가 여부 | exist |
10 | place_of_residence | 거주지 | exist |
11 | place_of_residence_district | 거주지 지구 | exist |
12 | type_of_injury | 부상 종류 | exist |
13 | ammunition | 탄약 종류 | exist |
14 | killed_by | 살해자 | - |
15 | notes | 사망 원인 | exist |
date | objective | status |
---|---|---|
23.10.28 ~ 23.11.03 | Plan this project | O |
23.11.04 ~ 23.11.10 | Data Acquisition and Understand acquired data | O |
23.11.11 ~ 23.11.11 | Write Worksheets | O |
23.11.12 ~ 23.11.12 | Data Preprocessing | O |
23.11.13 ~ 23.12.01 | Data Visualization | in progress |
23.12.02 ~ 23.12.08 | Finish Project | - |
-
Step1. Understand Data
df.head().T df.info() df.isna().sum() -
Step2. How to preprocess missing value
- age는 평균값으로 대체
- gender, place_of_residence, place_of_residence_district, type_of_injury, note는 최빈값으로 대체
- took_part_in_the_hostilities, ammunition은 변수 자체를 제거
-
Step3. Write Worksheets
No Question 1 어느 국가에서 더 많이 사망하였을까? 2 가장 많은 사상자가 발생한 연도가 언제일까? 3 2014년에 사망자가 많이 발생한 지역 TOP3는 어디인가? 4 2000년부터 2023년까지 일반적으로 어느 지역에서 가장 많은 사망자가 발생했을까? 5 지도를 이용하여 사망자가 발생한 주요 지역을 시각화하면 어떨까? 6 사망자들의 부상 종류 Top3는 무엇일까? 7 성별과 나이별 사망자 수는 어떻게 될까? -
Step4. Data Preprocessing
-
Step5. Data Visualization
date | main work |
---|---|
23.10.20(Fri) | I created this repo. |
23.11.08(Wed) | I acquired datasets in kaggle. |
23.11.09(Thu) | I preprocessed missing values to a variety of methods(ex: replace NaN to mean value). I visualized some data. |
23.11.11(Sat) | I wrote worksheets. |
23.11.12(Sun) | I preprocessed missing values. |
[1] Dataset: https://www.kaggle.com/datasets/willianoliveiragibin/fatalities-in-the-israeli-palestinian/