#Lab 02 - DataFrame Basics

Untuk rangkaian latihan ini kita akan mengolah dan menganalisis data AirBnB New York. Data didapatkan dari link ini (https://www.kaggle.com/dgomonov/data-exploration-on-nyc-airbnb) dengan beberapa penyesuaian.

Dalam Lab 02 ini kita akan melakukan loading file csv, kemudian melakukan eksplorasi data untuk melihat langkah data cleansing apa yang perlu dilakukan.

Beberapa hal yang perlu diperhatikan:

1. Adakah kolom yang tidak diperlukan, yang bisa dihapus?
2. Adakah data yang hilang/null? Apa yang harus kita lakukan terhadapnya?
3. Apakah ada data duplikat, dan apa yang harus dilakukan untuk mengolahnya?

Langkah pengolahan dataset
- Loading csv file
- Quick check
- Akses dengan berbagai metode

Berikut ini beberapa pertanyaan untuk latihan :
1. Ada berapa row dan berapa kolom data yang di-load?
2. Apa saja nama kolomnya?
3. Tampilkan data dari baris ke 11 sampai ke 20
4. Tampilkan data dari kolom ke 3 sampai ke 6
5. Berapa nilai rata-rata, maksimum dan minimum untuk kolom2 tertentu?



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Loading data dari file csv.

In [None]:
filename = 'https://raw.githubusercontent.com/urfie/DataAnalytics/main/airbnb_nyc_toclean.csv'
df = pd.read_csv(filename)
df.head()

Melakukan *Quick Checking* untuk melihat sekilas profil dataset.

In [None]:
#show data shape
df.shape

In [None]:
#show dataframe columns
df.columns

In [None]:
#show dataframe info
df.info()

In [None]:
#basic statistics
df.describe()

#Lab 03 - Handling Missing & Duplicates

Dalam lab ini kita akan melakukan eksplorasi dan pengolahan data terkait missing dan duplicate. Langkah yang akan kita lakukan :
- Check missing values
- Check duplicate values
- Check unique values


Berikut ini beberapa pertanyaan untuk latihan :
1. Ada berapa data yang null untuk masing-masing kolom?
2. Adakah data duplikat (row yang persis sama)?
3. Adakah kolom  yang tidak boleh duplikat?
4. Berapa jumlah unique value untuk kolom room_type, neighbourhood, dan availability_365 ?
5. Apa yang perlu dilakukan untuk kasus-kasus di atas?


##Missing Values

In [None]:
#show how many null values for each columns
df.isna().sum()

In [None]:
#Clean missing value
#filling with 0
df['reviews_per_month'].fillna(0, inplace=True)

In [None]:
#drop rows with missing neighbourhood, long, or lat column
df.dropna(subset=['neighbourhood','longitude','latitude'], how='any', inplace=True)

##Duplicate Values

In [None]:
#Check duplicate rows
df.loc[df.duplicated(keep=False)]

In [None]:
#Drop duplicate rows
df_unique=df.drop_duplicates()
df_unique.shape

In [None]:
#

##Unique Value

In [None]:
#let's explore some columns to see unique values
print("\nRoom type : ", df['room_type'].unique())
print("\nMinimum night : ", df['minimum_nights'].unique())
print("\nNeigbourhood : ", df["neighbourhood"].unique())

In [None]:
#perform some cleansing
#1. missing values
#2. duplicate values

#Lab 04 - More Cleansing and Resolving

Selanjutnya kita unggah file referensi, dan akan kita gunakan kolom `neighbourhood` untuk mendapatkan informasi `neighbourhood_group` dari data referensi.


Skenario untuk pengolahan dataframe
1. Load reference
2. Quick check, rename nama kolom
3. Join
4. Cek hasil dan menangani data yang tidak ditemukan

Beberapa pertanyaan untuk latihan :
1. Berapa baris hasil join data a dan data b?
2. Ada berapa yang tidak ketemu hasil combine-nya?
3. Apa value kolom col1 untuk row tertentu? (hasil combine)



In [None]:
ref_file = 'https://raw.githubusercontent.com/urfie/DataAnalytics/main/ref_neighbourhood.csv'
df_ref = pd.read_csv(ref_file)

Lakukan quick check terhadap data yang di-load

In [None]:
df_ref.shape

In [None]:
df_ref.columns

In [None]:
df_ref.head()

Join the dataframes

In [None]:
airbnb = pd.merge(df_unique, df_ref, on='neighbourhood', how='left')

In [None]:
airbnb.shape

In [None]:
#show how many null values for each columns
airbnb.isna().sum()

Tampilkan nilai kolom `neighbourhood` dari record-record yang tidak ditemukan di data referensi.

In [None]:
#show the 'neighbourhood' column for unresolved data
airbnb.loc[airbnb.neighbourhood_group.isna(),'neighbourhood']

Apa yang harus dilakukan dengan data tersebut?
- standarisasi data : trim & lower
- kedua hal tersebut perlu dilakukan terhadap dataset maupun referensinya

In [None]:
#trim and change to lowercase - reference data




In [None]:
#trim and change to lowercase - dataset

Join ulang dan cek hasilnya

In [None]:
#Join ulang



In [None]:
#Check unmatched



#Lab 05 - Analyze & Visualize

Aggregation and Visualization

- Grouping dan Agregat
- Visualisasikan


##Analisis : grouping & Agregasi

Beberapa pertanyaan yang akan kita jawab :
- Ada berapa neighbourhood group?
- Ada berapa listing dalam tiap neighbourhood group?
- Berapa rata2 availability, maksimum review perbulan, mayoritas minimum night, harga maksimum untuk tiap neighbourhood group?
- Ada berapa room type? Berapa jumlah listing untuk masing2 room type dalam tiap2 neighbourhood group?
- Berapa rata2 availability, maksimum review perbulan, mayoritas minimum night, harga maksimum untuk masing2 room type dalam tiap neighbourhood group?


In [None]:
#Jumlah neighbourhood group
airbnb['neighbourhood_group'].unique()

In [None]:
#Rata2 availability untuk tiap neighbourhood group
grouped = airbnb.groupby(["neighbourhood_group"])
grouped.agg(
    avg_availability=('availability_365','mean')
   )#.reset_index()

In [None]:
#Maksimum review-per-bulan, mayoritas minimum night, harga maksimum untuk tiap neighbourhood group
grouped.agg(
    max_reviews=('reviews_per_month','max')
   )#.reset_index()

In [None]:
#Jumlah room type
df['room_type'].unique()

In [None]:
#Rata2 availability untuk tiap room type & neighbourhood group



In [None]:
#Maksimum review-per-bulan, mayoritas minimum night, harga maksimum untuk tiap room type & neighbourhood group




##Visualisasi

- Jumlah host per room type
- Jumlah host per neighbourhood group
- Rata2, minimum, maksimum availability per room type
- Rata2, minimum, maksimum availability per neighbourhood group


In [None]:
#Jumlah host per room type
plt.figure(figsize=(5,5))
sns.countplot(x=airbnb['room_type'])

In [None]:
#Rata2, minimum, maksimum availability per room type
plt.figure(figsize=(6,6))
sns.boxplot(data=airbnb, x='room_type',y='availability_365')

In [None]:
#Jumlah host per neighbourhood group


In [None]:
#Rata2, minimum, maksimum availability per neighbourhood_group



#Miscellaneous

##Menyimpan ke file

Menyimpan dataframe ke dalam file dilakukan dengan perintah `DataFrame.to_`*formatfile*


Misalnya, untuk menyimpan file ke format JSON, dapat dilakukan dengan `df.to_json(namafile)`

In [None]:
airbnb.head().to_json('json_val.json', orient='values') #other option : columns, records, split, index

##Package praktis untuk EDA

Beberapa package praktis untuk melakukan EDA dengan Pandas

###Pandas Profiling


In [None]:
!pip install pandas-profiling==3.1.0

In [None]:
from pandas_profiling import ProfileReport

In [None]:
profile = ProfileReport(df)

In [None]:
profile

###Sweetviz

In [None]:
import sweetviz as sv

my_report = sv.analyze(df)
my_report.show_html()