# Data Relationship
By definition, data relationship merupakan konsep statistik untuk mengidentifikasi hubungan antar feature bertipe numerik dalam sebuah data. Untuk mengidentifikasi hubungan antar feature bertipe numerik, kita bisa menggunakan dua parameter yaitu correlation dan covariance.

## 1. Correlation
Parameter pertama yang akan kita bahas untuk mengidentifikasi data relationship ialah correlation. Parameter ini digunakan untuk mengidentifikasi korelasi atau hubungan dari dua feature numerik dalam sebuah data. Korelasi ini digambarkan menggunakan nilai dengan rentang -1 hingga 1 [5].

Pada parameter correlation, nilai negatif menggambarkan korelasi berlawanan (negative correlation), sedangkan nilai positif merepresentasikan korelasi bersesuaian (positive correlation). Jika correlation dari dua feature bernilai nol, keduanya dinyatakan tidak memiliki korelasi (no correlation).

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:54aa188e366ee32fb428a6938df3151820230309132752.png" width="300">

Library Pandas telah menyediakan sebuah method untuk menghitung korelasi antar feature dalam sebuah DataFrame. Berikut merupakan contoh kode untuk melakukannya.

In [1]:
import pandas as pd
 
sample_data = {
    'name': ['John', 'Alia', 'Ananya', 'Steve', 'Ben'],
    'age': [24, 22, 23, 25, 28],  
    'communication_skill_score': [85, 70, 75, 90, 90],
    'quantitative_skill_score': [80, 90, 80, 75, 70]
}
 
df = pd.DataFrame(sample_data)
 
df.corr(numeric_only=True)

Unnamed: 0,age,communication_skill_score,quantitative_skill_score
age,1.0,0.848855,-0.922489
communication_skill_score,0.848855,1.0,-0.890724
quantitative_skill_score,-0.922489,-0.890724,1.0


Pada tabel korelasi di atas, dapat dilihat bahwa feature age dan communication_skill_score memiliki korelasi cukup bersesuaian. Sebaliknya, feature age dan quantitative_skill_score memiliki korelasi yang sangat berlawanan.

## 2. Covariance
Selain menggunakan correlation, kita juga bisa menggunakan parameter covariance untuk mengidentifikasi hubungan antar dua feature dalam sebuah dataset. Berdasarkan nilainya, covariance terbagi menjadi tiga bagian seperti berikut.

- Positive covariance yang menggambarkan dua feature yang berkorelasi positif atau bersesuaian.
- Negative covariance yang merepresentasikan dua feature yang berkorelasi negatif atau berlawanan.
- Zero covariance yang menandakan dua feature yang tidak berkorelasi satu sama lain.

Sebagai tool andalan dalam analisis data, library Pandas juga menyediakan sebuah method untuk menghitung covariance antar feature dalam sebuah DataFrame. Berikut merupakan contoh kode untuk melakukannya.

In [2]:
import pandas as pd
 
sample_data = {
    'name': ['John', 'Alia', 'Ananya', 'Steve', 'Ben'],
    'age': [24, 22, 23, 25, 28],  
    'communication_skill_score': [85, 70, 75, 90, 90],
    'quantitative_skill_score': [80, 90, 80, 75, 70]
}
 
df = pd.DataFrame(sample_data)
 
df.cov(numeric_only=True)

Unnamed: 0,age,communication_skill_score,quantitative_skill_score
age,5.3,17.75,-15.75
communication_skill_score,17.75,82.5,-60.0
quantitative_skill_score,-15.75,-60.0,55.0


Jika Anda perhatikan, nilai covariance yang diperoleh memiliki skala yang belum ternormalisasi. Inilah yang menjadi salah satu kesulitan dalam menginterpretasi nilai covariance dari sebuah data.