# Statistik

Pertama-tama, kita akan menginput data dari file "mmsa-icu-beds.csv" dan "KPHL.csv" yang masing-masing berisi data covid di USA dan data cuaca di Philadelphia.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

data_covid=pd.read_csv("mmsa-icu-beds.csv")
data_cuaca=pd.read_csv("KPHL.csv")

Kita akan melihat masing-masing 10 data pertama dari kedua data sebagai sampel data.

In [2]:
print("Sampel Data Covid USA: ")
print(data_covid[:10])
print("-----------------------------------------------------------------------------------------")
print("Sampel Data Cuaca Philadelphia: ")
print(data_cuaca[:10])

Sampel Data Covid USA: 
                                                MMSA total_percent_at_risk  \
0                       San Juan-Carolina-Caguas, PR                52.88%   
1                                      Manhattan, KS                47.29%   
2           Hilton Head Island-Bluffton-Beaufort, SC                62.72%   
3                        Kahului-Wailuku-Lahaina, HI                59.13%   
4                                    Spartanburg, SC                66.12%   
5                                    Baton Rouge, LA                66.60%   
6  Rockingham County-Strafford County, NH, Metrop...                57.72%   
7                                   Salisbury, MD-DE                68.32%   
8                                  Wichita Falls, TX                67.11%   
9                               Colorado Springs, CO                55.96%   

   high_risk_per_ICU_bed  high_risk_per_hospital  icu_beds  hospitals  \
0                    NaN                    

Agar kita bisa mendapat gambaran besar data, maka kita akan melihat beberapa statistik data.

1. Standar Deviasi

    a. Data Covid

In [3]:
print(data_covid.std())

high_risk_per_ICU_bed        720.661896
high_risk_per_hospital     17992.274197
icu_beds                     450.580508
hospitals                     15.377929
total_at_risk             884786.817983
dtype: float64


Dari data tersebut, kita dapat melihat bahwa deviasi pasien "high risk" baik secara total maupun per rumah sakit sangat besar. Ini menunjukkan bahwa sebaran virus corona tidak menentu. Selain itu, deviasi kasur ICU dan pasien per kasur ICU relatif lebih kecil karena kasur ICU merupakan faktor yang bisa dikendalikan dan tiap distribusi ICU ini diregulasi oleh pemerintah. Kemudian, deviasi banyak rumah sakit jauh lebih kecil karena rumah sakit jumlahnya memang tidak terlalu banyak. Seperti halnya dengan kasur ICU juga, pembangunan rumah sakit diregulasi oleh pemerintah sehingga distribusinya lebih merata.

In [4]:
print(data_cuaca.std())

actual_mean_temp         18.947380
actual_min_temp          18.391740
actual_max_temp          19.886070
average_min_temp         15.454917
average_max_temp         16.432768
record_min_temp          19.379854
record_max_temp          12.556242
record_min_temp_year     35.210000
record_max_temp_year     35.722070
actual_precipitation      0.304216
average_precipitation     0.015280
record_precipitation      0.931560
dtype: float64


    b. Data Cuaca

Seperti yang diharapkan, deviasi data cuaca yang merupakan fenomena teratur memiliki deviasi yang relatif rendah. Deviasi yang lebih besar disebabkan nilai data yang lebih besar (seperti tahun yang nilainya ribuan) dan deviasi kecil disebabkan data kecil (seperti nilai presipitasi yang berkisar di 1). 

2. Rata-rata

    a. Data Covid

In [5]:
print(data_covid.mean())

high_risk_per_ICU_bed       1947.356729
high_risk_per_hospital     43787.067561
icu_beds                     360.185185
hospitals                     13.762963
total_at_risk             667188.725022
dtype: float64


Nilai rata-rata diatas menunjukkan tingkat keganasan covid yang mencapai 667 ribu orang per daerah dengan 43 ribu beresiko tinggi, tetapi hanya ada sekitar 14 rumah sakit per daerah. Kasur ICU yang tersedia hanya 360 dan tiap kasur secara ideal harus digunakan 1900 orang secara rata-rata.

    b. Data Cuaca

In [6]:
print(data_cuaca.mean())

actual_mean_temp           55.884932
actual_min_temp            47.265753
actual_max_temp            63.983562
average_min_temp           47.221918
average_max_temp           64.723288
record_min_temp            28.030137
record_max_temp            84.989041
record_min_temp_year     1947.301370
record_max_temp_year     1957.835616
actual_precipitation        0.124548
average_precipitation       0.113781
record_precipitation        2.135452
dtype: float64


Nilai rata-rata tersebut menunjukkan gambaran besar suhu dan presipitasi selama satu tahun di USA. Namun, tentu saja nilai rata-rata tahun rekor maksimum dan minimum suhu tidak berarti apa-apa secara cuaca.

3. Kuartil

    a. Data Covid

In [7]:
print(data_covid.quantile([0.25,0.5,0.75]))

      high_risk_per_ICU_bed  high_risk_per_hospital  icu_beds  hospitals  \
0.25            1487.781317            31005.455625      89.5        5.0   
0.50            1923.676063            42460.360000     221.0        9.0   
0.75            2321.085003            56583.347585     489.5       18.0   

      total_at_risk  
0.25    158747.8375  
0.50    396081.5000  
0.75    932792.5025  


Kita dapat melihat bahwa perbedaan rumah sakit dan kasur ICU di tiap kuartil cukup signifikan. Hal ini disebabkan lebih banyak infrastruktur yang dibangun di daerah yang lebih padat dan sebaliknya. Selain itu, sebaran covid yang mencapai 900 ribu penduduk pada kuartil tiga juga menunjukkan bahwa covid menyebar lebih mudah di daerah padat tersebut.

    b. Data Cuaca

In [8]:
print(data_cuaca.quantile([0.25,0.5,0.75]))

      actual_mean_temp  actual_min_temp  actual_max_temp  average_min_temp  \
0.25              39.0             33.0             46.0              32.0   
0.50              59.0             50.0             69.0              46.0   
0.75              73.0             64.0             82.0              63.0   

      average_max_temp  record_min_temp  record_max_temp  \
0.25              49.0              9.0             73.0   
0.50              66.0             29.0             88.0   
0.75              81.0             46.0             97.0   

      record_min_temp_year  record_max_temp_year  actual_precipitation  \
0.25                1930.0                1931.0                  0.00   
0.50                1960.0                1957.0                  0.00   
0.75                1969.0                1990.0                  0.05   

      average_precipitation  record_precipitation  
0.25                   0.10                  1.55  
0.50                   0.11                  

Seperti yang diharapkan, data temperatur relatif berbeda pada tiap kuartil. Ini wajar karena sepanjang tahun, cuaca berubah drastis mulai dari musim panas hingga musim dingin. Lain halnya, data kuartil presipitasi menunjukkan bahwa kejadian hujan relatif sama sepanjang tahun dan sangat jarang terjadi.

3. Ekstremum

    a. Data Covid

In [9]:
print("Maksimum")
print(data_covid.max())
print("---------------------------------------------------------------------------------------------")
print("Minimum")
print(data_covid.min())

Maksimum
MMSA                      Worcester, MA-CT
total_percent_at_risk               80.73%
high_risk_per_ICU_bed              4489.85
high_risk_per_hospital             91771.3
icu_beds                              2777
hospitals                              100
total_at_risk                   6.1651e+06
dtype: object
---------------------------------------------------------------------------------------------
Minimum
MMSA                      Aberdeen, SD
total_percent_at_risk           38.92%
high_risk_per_ICU_bed          413.668
high_risk_per_hospital         6770.19
icu_beds                             8
hospitals                            1
total_at_risk                  17941.5
dtype: object


Kita dapat melihat bahwa ada daerah yang hanya memiliki satu rumah sakit, sedangkan ada yang memiliki 100. Selain itu, ada daerah yang memiliki 81% pasien beresiko dan ada yang hanya memiliki 39%. Ini menunjukkan sebaran covid dan kapasitas perawatan tiap daerah keduanya memiliki rentang yang sangat besar.

    b. Data Cuaca

In [10]:
print("Maksimum")
print(data_cuaca.max())
print("---------------------------------------------------------------------------------------------")
print("Minimum")
print(data_cuaca.min())

Maksimum
date                     2015-6-9
actual_mean_temp               86
actual_min_temp                77
actual_max_temp                96
average_min_temp               70
average_max_temp               87
record_min_temp                59
record_max_temp               106
record_min_temp_year         2014
record_max_temp_year         2014
actual_precipitation         2.01
average_precipitation        0.15
record_precipitation         8.02
dtype: object
---------------------------------------------------------------------------------------------
Minimum
date                     2014-10-1
actual_mean_temp                10
actual_min_temp                  2
actual_max_temp                 17
average_min_temp                25
average_max_temp                40
record_min_temp                -11
record_max_temp                 61
record_min_temp_year          1872
record_max_temp_year          1874
actual_precipitation             0
average_precipitation         0.08
record_precip

Data tersebut menunjukkan fluktuasi cuaca yang relatif besar. Ada hari dimana temperatur mencapai 96 derajat farenheit dan ada hari dimana temperatur mencapai 2 derajat farenheit.