In [21]:
# Nhập thư viện
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import folium
import warnings
import os

warnings.filterwarnings('ignore')

# Cài đặt style
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

# Tạo thư mục lưu hình nếu chưa có
os.makedirs('../reports/figures/eda', exist_ok=True)

print('Đã nhập thư viện thành công!')
print(f'Phiên bản Pandas: {pd.__version__}')
print(f'Phiên bản Matplotlib: {plt.matplotlib.__version__}')
print(f'Phiên bản Seaborn: {sns.__version__}')

Đã nhập thư viện thành công!
Phiên bản Pandas: 2.3.3
Phiên bản Matplotlib: 3.10.8
Phiên bản Seaborn: 0.13.2


In [22]:
from LoadDT import load_data as loatdata

df = loatdata('global_disaster_response_2018_2024.csv')

In [23]:
# Tải dữ liệu đã được xử lý / kỹ thuật hóa
df = pd.read_csv('global_disaster_response_2018_2024.csv')

# Chuyển cột ngày về datetime nếu tồn tại
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])

import country_converter as coco

# Nếu chưa có cột 'continent', sinh cột này từ tên quốc gia
if 'continent' not in df.columns:
    df['continent'] = coco.CountryConverter().convert(names=df['country'], to='continent')

print(f'Kích thước bộ dữ liệu: {df.shape}')
print(f'\nCác cột: {list(df.columns)}')
df.head()

Kích thước bộ dữ liệu: (50000, 13)

Các cột: ['date', 'country', 'disaster_type', 'severity_index', 'casualties', 'economic_loss_usd', 'response_time_hours', 'aid_amount_usd', 'response_efficiency_score', 'recovery_days', 'latitude', 'longitude', 'continent']


Unnamed: 0,date,country,disaster_type,severity_index,casualties,economic_loss_usd,response_time_hours,aid_amount_usd,response_efficiency_score,recovery_days,latitude,longitude,continent
0,2021-01-31,Brazil,Earthquake,5.99,111,7934365.71,15.62,271603.79,83.21,67,-30.613,-122.557,America
1,2018-12-23,Brazil,Extreme Heat,6.53,100,8307648.99,5.03,265873.81,96.18,55,10.859,-159.194,America
2,2020-08-10,India,Hurricane,1.55,22,765136.99,32.54,49356.49,60.4,22,0.643,-160.978,Asia
3,2022-09-15,Indonesia,Extreme Heat,4.55,94,1308251.31,7.83,237512.88,86.41,47,-33.547,30.35,Asia
4,2022-09-28,United States,Wildfire,3.8,64,2655864.36,21.9,188910.69,72.81,42,-19.17,-117.137,America


In [24]:
print('='*80)
print('THỐNG KÊ TỔNG QUAN BỘ DỮ LIỆU')
print('='*80)

print(f'\n1. Khoảng thời gian:')
print(f'   Bắt đầu: {df["date"].min()}')
print(f'   Kết thúc: {df["date"].max()}')
print(f'   Thời lượng: {(df["date"].max() - df["date"].min()).days} ngày')

print(f'\n2. Phạm vi địa lý:')
print(f'   Số quốc gia: {df["country"].nunique()}')
if 'continent' in df.columns:
    print(f'   Số châu lục: {df["continent"].nunique()}')
else:
    print("   Số châu lục: N/A (không có cột 'continent')")

print(f'\n3. Loại thiên tai:')
print(f'   Số loại: {df["disaster_type"].nunique()}')
print(f'   Tổng số sự kiện thiên tai: {len(df)}')

print(f'\n4. Tác động:')
print(f'   Tổng số thương vong: {df["casualties"].sum():,.0f}')
print(f'   Tổng thiệt hại kinh tế: ${df["economic_loss_usd"].sum():,.0f} USD')
print(f'   Tổng tiền viện trợ: ${df["aid_amount_usd"].sum():,.0f} USD')

print(f'\n5. Phản ứng:')
print(f'   Thời gian phản ứng trung bình: {df["response_time_hours"].mean():.2f} giờ')
print(f'   Hiệu quả phản ứng trung bình: {df["response_efficiency_score"].mean():.2f}/100')
print(f'   Số ngày phục hồi trung bình: {df["recovery_days"].mean():.2f} ngày')

THỐNG KÊ TỔNG QUAN BỘ DỮ LIỆU

1. Khoảng thời gian:
   Bắt đầu: 2018-01-01 00:00:00
   Kết thúc: 2024-12-31 00:00:00
   Thời lượng: 2556 ngày

2. Phạm vi địa lý:
   Số quốc gia: 20
   Số châu lục: 5

3. Loại thiên tai:
   Số loại: 10
   Tổng số sự kiện thiên tai: 50000

4. Tác động:
   Tổng số thương vong: 5,029,557
   Tổng thiệt hại kinh tế: $253,429,672,413 USD
   Tổng tiền viện trợ: $12,500,016,456 USD

5. Phản ứng:
   Thời gian phản ứng trung bình: 12.18 giờ
   Hiệu quả phản ứng trung bình: 87.57/100
   Số ngày phục hồi trung bình: 49.68 ngày
