<a href="https://colab.research.google.com/github/rafasyafiq/DTSRafa/blob/master/Introduction_to_Python_for_Social_Science.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Analytics for Social Science Introduction

**Overview:** 

* Data Analytics untuk Memanipulasi data
* Data Analytics untuk Visualisasi Data
* Data Analytics untuk Analisis Data

## Manipulasi Data menggunakan Pandas

Ada berbanyak cara untuk melakukan manipulasi data menggunakan bahasa pemrograman python. Manipulasi data biasanya berguna untuk menyiapkan, merapihkan, menggabungkan, mengisi data kosong, hingga melakukan penghitungan matematis. Kali ini kita akan mennggunakan Library **Pandas** untuk melakukan manipulasi data

In [0]:
# Meng-import library
import pandas as pd

Dalam praktiknya kali ini kami akan menggunakan dataset Churn Pelanggan Telco yang tersedia di Kaggle. Dataset ini berisi catatan pelanggan yang unik untuk perusahaan telekomunikasi bernama Telco.

Kumpulan data ini mencakup informasi tentang:
* Layanan yang telah didaftarkan oleh setiap pelanggan - telepon, banyak saluran, internet, keamanan online, cadangan online, perlindungan perangkat, dukungan teknis, dan streaming TV dan film.
* Informasi akun pelanggan - berapa lama mereka menjadi pelanggan, kontrak, metode pembayaran, penagihan tanpa kertas, biaya bulanan, dan total biaya.
* Info demografis tentang pelanggan - jenis kelamin, rentang usia, dan jika mereka memiliki mitra dan tanggungan.
* Pelanggan yang pergi dalam sebulan terakhir - kolom ini disebut Churn


####Import dan Eksplorasi Data

In [0]:
# Mengimport data dari URL (Github)
df_link = pd.read_csv('https://raw.githubusercontent.com/rc-dbe/bigdatacertification/master/dataset/churn.csv', sep=';',)

In [0]:
# Menginterpretasikan df_link sebagai variabel df
df = df_link

In [0]:
# Menampilkan dimensi dari dataset
df.shape

In [0]:
# Menampilkan informasi tentang DataFrame termasuk indeks tipe dan tipe kolom, nilai bukan nol, dan penggunaan memori.
df.info()

In [0]:
# Menampilkan 10 baris pertama
df.head(10)

In [0]:
# Menampilkan 5 baris terakhir dari data set
df.tail(5)

#### Pengukuran Central Tendency

In [0]:
# Memilih data yang bersifat numerik
df_num = df[['MonthlyCharges', 'tenure', 'TotalCharges']]

In [0]:
# Menampilkan nilai rata-rata dari dataset
mean= df_num.mean()
mean

In [0]:
# Menampilkan median dari dataset
median= df_num.median()
median

In [0]:
# Menampilkan modus dari dataset
mode= df_num.mode()
mode

In [0]:
# Menampilkan statistik deskriptif yang merangkum kecenderungan utama, dispersi, dan bentuk distribusi dataset
df.describe().transpose()

#### Melakukan Pengukuran Korelasi

Untuk menemukan korelasi berpasangan dari semua kolom dalam bingkai data, kita dapat menggunakan fungsi dataframe.corr () dari Pandas. Nilai NA apa pun secara otomatis dikecualikan dan
setiap kolom tipe data non-numerik dalam bingkai data secara otomatis diabaikan. Baca dokumentasinya [Disini](https://https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html). 

Terdapat empat korelasi yang tersedia pada Library Pandas
*  pearson: standard correlation coefficient
*  kendall: Kendall Tau correlation coefficient
*  spearman: Spearman rank correlation
*  callable: callable with input two 1d ndarrays

In [0]:
# Melakukan pengukuran korelasi data numerik dengan menggunakan cendaal correlation
correlation_matrix = df.corr(method='kendall')

# Menampilkan matriks hasil pengukuran korelasi
correlation_matrix

#### Tabel Kontingensi

In [0]:
# Melakukann penghitunghan dan menampilkan tabel kontingensi
data_crosstab = pd.crosstab(df['PaymentMethod'], 
                            df['Churn'],  
                               margins = False) 
print(data_crosstab) 

### Mengatasi Missing Value

In [0]:
# Menampilkan missing value dari dataset
df.isnull().sum()

In [0]:
# Mengisi dataset dengan nilai median
tc_median = df["TotalCharges"].median()
df["TotalCharges"].fillna(tc_median, inplace=True)

In [0]:
# Menampilkan informasi dataset untuk memeriksa apakah masih terdapat missing value
df.info()

### Melakukan Encoding untuk variabel categorical

In [0]:
# Install Category Encoders
! pip install category_encoders

In [0]:
import category_encoders as ce

encoder = ce.BinaryEncoder(cols=['gender', 
          'SeniorCitizen', 
          'Partner', 
          'Dependents', 
          'PhoneService', 
          'MultipleLines', 
          'InternetService', 
          'OnlineSecurity', 
          'OnlineBackup', 
          'DeviceProtection', 
          'TechSupport', 
          'StreamingTV', 
          'StreamingMovies', 
          'Contract', 
          'PaperlessBilling', 
          'PaymentMethod'])
df_binary = encoder.fit_transform(df)

df_binary.head()

In [0]:
df_binary.info()

In [0]:
df = df_binary.drop("customerID", axis=1)
df.head()

### Normalisasi

Normalisasi adalah mengubah nilai dari data dengan skala [0,1]

In [0]:
column_names = df.columns.tolist()
column_names.remove('Churn')
column_names

In [0]:
#Import MinMax Scaler
from sklearn.preprocessing import MinMaxScaler

# initialize min-max scaler
mm_scaler = MinMaxScaler()
df_norm = df.copy()

# Mengubah seluruh atribut
df_norm[column_names] = mm_scaler.fit_transform(df_norm[column_names])
df_norm.sort_index(inplace=True)
df_norm.head()

### Standarisasi

Standarisasi biasanya berarti menskala ulang data untuk memiliki rata-rata 0 dan standar deviasi 1 (varian unit).

In [0]:
# Import Standard Scaler
from sklearn.preprocessing import StandardScaler

# Initizalize Standard Scaler
standard_scaler = StandardScaler()
df_stand = df.copy()

# Transform all attributes
df_stand[column_names] = standard_scaler.fit_transform(df_stand[column_names])
df_stand.sort_index(inplace=True)
df_stand.head()

##Visualisasi Data dengan Menggunakan MatplotLib
Matplotlib merupakan sebuah library yang dapat terintegrasi dengan pandas dan Numpy, yang bertujuan untuk melakukan visualisasi data


In [0]:
# Import Dataset, kali ini kita akan mengimport data yang sama dengan data sebelumnya
# Import ulang dilakukan untuk melakukan visualisasi data yang belum di manipulasi
df_viz = pd.read_csv('https://raw.githubusercontent.com/rc-dbe/bigdatacertification/master/dataset/churn.csv', sep=';',)

In [0]:
# Import Library
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

plt.rcParams['figure.figsize'] = (7, 7)
plt.style.use('ggplot')

Kita dapat menyesuaikan plot dengan style sheet.
Ada sejumlah gaya yang telah ditentukan yang disediakan oleh matplotlib, yang dapat dilihat [Disini](https://matplotlib.org/3.1.0/gallery/style_sheets/style_sheets_reference.html)

#### Memvisualisasikan Distribusi Data

In [0]:
# Visualize Data Distribution
sns.distplot(df_viz['MonthlyCharges'])

#### Scatter Plot

In [0]:
# Scatter Plot
sns.scatterplot(x="tenure", y="TotalCharges", data= df_viz)

#### Bar Chart

In [0]:
# Bar Chart
sns.barplot(x='Churn',y='tenure',data=df_viz)

#### Pairwise Relationship

In [0]:
# Pairwise relationships
sns.pairplot(df_viz)

## Menganalisis Data dengan Scikit-Learn
Scikit-learn, atau biasa dikenal dengan SKLearn, merupakan sebuah package library python yang menyediakan berbagai modul untuk melakukan proses *machine learning*

Pada praktik kali ini kita akan mencontohkan untuk melakukan sedikit analisis regresi linear menggunakan bahasa pemrograman python

###Regresi Linear
Sebuah pendekatan untuk memodelkan hubungan antara variabel terikat Y dan satu atau lebih variabel bebas yang disebut X. Salah satu kegunaan dari regresi linear adalah untuk melakukan prediksi berdasarkan data-data yang telah dimiliki sebelumnya.

In [0]:
# Import library
import pandas as pd

In [0]:
# Import Dataset
salary_df = pd.read_csv('https://raw.githubusercontent.com/rc-dbe/bigdatacertification/master/dataset/Salary_Data.csv')

In [0]:
Melihat Informasi Dataset
salary_df.info()

In [0]:
# Menampilkan 30 baris pertama dari dataset
salary_df.head(30)

In [0]:
# Menampilkan statistik deskriptif yang merangkum kecenderungan sentral, dispersi, dan bentuk distribusi dataset
salary_df.describe().transpose()

In [0]:
# Import Library untuk Memvisualisasikan the Data
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline


plt.rcParams['figure.figsize'] = (7, 7)
plt.style.use('ggplot')

# Menampilkan distribusi data
sns.scatterplot(x="YearsExperience", y="Salary", data= salary_df)


In [0]:
# Menentukan variabel x dan y
X = salary_df.iloc[:, :-1].values
Y = salary_df.iloc[:, 1].values

In [0]:
# Membuat pemodelan data
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X, Y)

In [0]:
# Menampilkan koefisien dan intersep (konstan)
print('Coefficient = ', lr.coef_)
print('Intercept =', lr.intercept_)

In [0]:
plt.scatter(X, Y)
plt.plot(X, lr.predict(X), color = "green")
plt.title("Salary vs Experience")
plt.xlabel("Years of Experience")
plt.ylabel("Salary")
plt.show()

##Menganalisis Data dengan NetworkX
Library python untuk pembuatan, manipulasi, dan studi tentang struktur, dinamika, dan fungsi jaringan yang kompleks.

### Social Network Analysis

In [0]:
# Import Library
import networkx as nx

Kita akan menggunakan random graph pada percobaan kali ini

In [0]:
# Import Dataset
n = 10  # Mengambil 10 nodes
m = 20  # Menhgambil 20 edges
G = nx.gnm_random_graph(n, m)

In [0]:
#Menampilkan degree dan nilai cluster dari masing masing node
print("node degree clustering")
for v in nx.nodes(G):
    print('%s %d %f' % (v, nx.degree(G, v), nx.clustering(G, v)))


In [0]:
# Menampilkan adjacency list
for line in nx.generate_adjlist(G):
    print(line)

In [0]:
#Melakukan Visualisasi Data
nx.draw(G)
plt.show()