# Descriptive Statistics - Produksi Padi di Sumatera
Mengidentifikasi hubungan antar fitur pada data Produksi Padi di Sumatera dengan menerapkan salah satu konsep descriptive statistics, yaitu Data Relationship.

Dataset source : https://www.kaggle.com/datasets/ardikasatria/datasettanamanpadisumatera

Dataset memiliki 7 kolom, yaitu:
- Provinsi
- Tahun
- Produksi
- Luas Panen
- Curah Hujan
- Kelembapan
- Suhu rata-rata



## Import Packages

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

## Read CSV File

In [2]:
data = pd.read_csv('https://raw.githubusercontent.com/syifagit/Belajar-Analisis-Data-Dengan-Python/main/Dataset/Dataset%20Tanaman%20Padi%20Sumatera%2C%20Indonesia.csv')
data = pd.DataFrame(data)

In [3]:
data.head()

Unnamed: 0,Provinsi,Tahun,Produksi,Luas Panen,Curah hujan,Kelembapan,Suhu rata-rata
0,Aceh,1993,1329536.0,323589.0,1627.0,82.0,26.06
1,Aceh,1994,1299699.0,329041.0,1521.0,82.12,26.92
2,Aceh,1995,1382905.0,339253.0,1476.0,82.72,26.27
3,Aceh,1996,1419128.0,348223.0,1557.0,83.0,26.08
4,Aceh,1997,1368074.0,337561.0,1339.0,82.46,26.31


## Data Relationship

### Correlation
- *Correlation* mengidentifikasi hubungan 2 fitur numerik dalam sebuah data.
- *Correlation* memiliki nilai dengan rentang -1 hingga 1.
- Memiliki 3 jenis, yaitu:
  - *Positive correlation* : merepresentasikan korelasi bersesuaian.
  - *Negative correlation* : merepresentasikan korelasi berlawanan.
  - *No correlation* : merepresentasikan tidak adanya korelasi.


In [4]:
data.corr()

  data.corr()


Unnamed: 0,Tahun,Produksi,Luas Panen,Curah hujan,Kelembapan,Suhu rata-rata
Tahun,1.0,0.182527,-0.045951,-0.047645,-0.033474,0.004923
Produksi,0.182527,1.0,0.905622,-0.042129,-0.052316,0.04116
Luas Panen,-0.045951,0.905622,1.0,-0.092975,-0.061121,0.115726
Curah hujan,-0.047645,-0.042129,-0.092975,1.0,0.056466,-0.228699
Kelembapan,-0.033474,-0.052316,-0.061121,0.056466,1.0,-0.407799
Suhu rata-rata,0.004923,0.04116,0.115726,-0.228699,-0.407799,1.0


Dari tabel di atas, terlihat bahwa:
- Fitur Produksi dan Luas Panen memiliki nilai korelasi terbesar yaitu 0.905622	-> **Positive Correlation**, yang berarti bahwa Fitur Produksi memiliki korelasi yang bersesuaian dengan Fitur Luas Panen. Semakin besar luas panen, makin semakin besar pula hasil produksinya.
- Fitur Curah Hujan, Kelembapan, dan Suhu rata-rata termasuk ke dalam **No Correlation** jika dihubungkan dengan Fitur Produksi karena nilai korelasinya berada pada rentang -0.05 hingga 0.04.

### Covariance
- Selain menggunakan correlation, kita juga dapat menggunakan *Covariance* untuk mengidentifikasi hubungan antara 2 fitur dalam sebuah data.
- Memiliki 3 jenis, yaitu:
  - *Positive Covariance* : merepresentasikan hubungan bersesuaian.
  - *Negative Covariance* : merepresentasikan hubungan berlawanan.
  - *Zero Covariance* : merepresentasikan tidak adanya hubungan satu sama lain.

In [5]:
data.cov()

  data.cov()


Unnamed: 0,Tahun,Produksi,Luas Panen,Curah hujan,Kelembapan,Suhu rata-rata
Tahun,65.5426,1716192.0,-86585.91,-398.061,-1.32213,0.047713
Produksi,1716192.0,1348821000000.0,244802600000.0,-50491970.0,-296425.416419,57221.362528
Luas Panen,-86585.91,244802600000.0,54173100000.0,-22332040.0,-69404.236608,32242.812252
Curah hujan,-398.061,-50491970.0,-22332040.0,1064967.0,284.287243,-282.51468
Kelembapan,-1.32213,-296425.4,-69404.24,284.2872,23.801517,-2.38154
Suhu rata-rata,0.047713,57221.36,32242.81,-282.5147,-2.38154,1.432907
