**Coursebook: Data Wrangling and Visualization**

- Part 2 of Data Science Series
- Course Length: 3 hours
- Last Updated: December 2022

___

- Developed by: [Dwi Gustin Nurdialit](https://github.com/dwiknrd)


## Training Objectives

This coursebook is intended for participants who have completed the preceding courses offered in the **Data Science in Python Specialization**. This is the third course, **Data Wrangling and Visualization** 

The coursebook focuses on:

- Visual Data Exploratory
    + Using `plotly`
    + Plotting using `pandas` object
- Many ways to visualize a context:
    + Categorical ranking
    + Data distribution
    + Correlation between data
    + Time-based evolution

The final part of this course is a Graded Asssignment, where you are expected to apply all that you've learned on a new dataset, and attempt the given questions.

# Data Visualization

Tujuan Visualisasi:

- Exploratory: proses untuk memfamiliarkan diri (berkenalan) dengan data melalui visualisasi, sehingga mendapatkan sebuah insight. Visualisasi yang ditampilkan biasanya sederhana. Analogi: mencari dan mendapatkan batu permata di antara ratusan batu biasa.
- Explanatory: proses untuk menjelaskan atau menyajikan insight yang didapat dari hasil exploratory kepada user/audience. Visualisasi yang ditampilkan biasanya lebih menarik dan meng-highlight insight secara spesifik. Analogi: mempoles batu permata tersebut dan menawarkannya kepada pembeli.

Pada course ini, dititikberatkan pada bagaimana cara kita menampilkan visualisasi data yang **informatif dan tepat**. Untuk memperindah tampilan visualisasi dapat di-eksplorasi secara mandiri melalui dokumentasi yang tersedia.

## 🛠 Libraries

Anda perlu menggunakan `pip install <library_name>` untuk menginstal semua pustaka yang tercantum di bawah ini yang belum diunduh ke mesin Anda. Anda kemudian memuat perpustakaan ke ruang kerja Anda menggunakan `import`:

In [None]:
import pandas as pd
import plotly as pl
import plotly.express as px

## Datasets

Employee promotion dataset publised by [Kaggle](https://www.kaggle.com/c/scitech-epoch-1/data)

In [None]:
promotion = pd.read_csv('data_input/promotion_clean.csv')
promotion.head()

The information of the dataset:

- `employee_id` : Unique ID for employee.
- `department` : Department of employee
- `region` : Region of employment (unordered)
- `education` : Education Level.
- `gender` : Gender of Employee.
- `recruitment_channel` : Channel of recruitment for employees.
- `no_of_trainings` : no. of other training completed in previous year on soft skills, technical skills etc.
- `date_of_birth`: employee date of birth
- `age` : Age of Employee.
- `join_date`: Employee join date
- `previous_year_rating` : Employee Rating for the previous year.
- `length_of_service` : Length of service in years.
- `KPIs_met >80%` : If Percent of KPIs(Key performance Indicators) >80% then 1 else 0.
- `awards_won?` : If awards won during the previous year then 1 else 0.
- `avg_training_score` : Average score in current training evaluations.
- `is_promoted` : Recommended for promotion.

### Data Preprocessing

In [None]:
promotion.info()

Ubah tipe data yang belum sesuai

In [None]:
# Cleansing data
promotion[['department','region','education',
           'gender','recruitment_channel',
           'KPIs_met >80%','awards_won?',
           'is_promoted']] = promotion[['department','region',
                                        'education','gender',
                                        'recruitment_channel',
                                        'KPIs_met >80%','awards_won?',
                                        'is_promoted']].astype('category')

promotion[['date_of_birth','join_date']] = promotion[['date_of_birth','join_date']].astype('datetime64')

## Plotly Python Graphing Library

Library grafik Python [Plotly](https://plotly.com/python/) membuat grafik interaktif berkualitas publikasi. Contoh cara membuat line plot, scatter plot, area chart, bar chart, error bar, box plot, histogram, heatmap, subplot, multiple-axes, polar chart, dan bubble chart.

Modul [`plotly.express`](https://plotly.com/python/plotly-express/) (biasanya diimpor sebagai px) berisi fungsi yang dapat membuat seluruh gambar sekaligus, dan disebut sebagai Plotly Express atau PX. Plotly Express adalah bagian bawaan dari pustaka plotly, dan merupakan titik awal yang disarankan untuk membuat gambar paling umum. Setiap fungsi Plotly Express menggunakan objek grafik secara internal dan mengembalikan object `plotly.graph_objects.Figure`


### Introduction to `plotly.express`

### Your first Visualization

🔻 Pada data kita ingin melihat jumlah pegawai yang mendapatkan promosi disetiap departemen

Kita akan melakukan subset untuk status promosi = `'Yes'`

In [None]:
promoted = promotion[promotion['is_promoted']=='Yes']

Kemudian kita dapat memproses lebih lanjut data kita menjadi format yang lebih sesuai untuk visualisasi kita:

In [None]:
promot_gender =

Visualisasikan:

📝 Plot yang dihasilkan diatas menggunakan fungsi `px.bar()` dan data dimasukkan pada fungsi tersebut. Secara otomatis akan menampilkan visualisasi barplot dengan indeks sebagai sumbu x dan value sebagai sumbu y

🔻 Kita dapat melakukan ini secara iteratif sampai kita memiliki visualisasi yang sesuai dengan tujuan kita. Misalnya kita ingin mengganti nama teks x dan y. Kita dapat menambahkan parameter `labels`

### Basic Visual Enchancement

Seperti yang kami tunjukkan sebelumnya, kami sudah tahu bahwa parameter `plotly.express` sangat dapat dikustomisasi, tetapi itu juga peringatannya: terkadang jumlah opsi sangat berlebihan! Jadi, di bagian ini, kami akan menampilkan beberapa bagian dasar `plotly.express` untuk ditambahkan atau diedit.

Mari kita mulai dengan menambahkan beberapa parameter dan label untuk membuat visualisasi lebih jelas:

## Many Ways to Visualize a Context

Visualisasi adalah cara yang ampuh untuk menyampaikan konteks dari data kami. Jika kita bisa memilih cara yang baik untuk mengkomunikasikan konteks kita, audiens kita akan mendapatkan wawasan yang ingin kita sampaikan.

Pada bagian ini, kita akan membahas beberapa konteks visualisasi dasar:

- Peringkat kategoris
- Distribusi Data
- Korelasi antar data


### Categorical Ranking

Peringkat kategoris adalah salah satu cara paling dasar untuk mengomunikasikan bagaimana variabel kategoris kami dapat menunjukkan perilaku yang berbeda antara levelnya dalam hal output numerik.

Kami akan membahas cara dasar untuk melakukan peringkat kategoris dan cara menguraikan wawasan lebih lanjut menggunakan kumpulan data promosi.

**General Ranking**

Dalam memvisualisasikan peringkat kategoris, kita dapat menggunakan plot **bar** untuk menunjukkan perbedaan besarnya setiap level dalam variabel kategoris kita.

🔻 Untuk memulai, mari kita coba lihat peringkat `departemen` dari segi jumlah pegawai.

Kita akan mulai dengan membuat agregasi data menggunakan `groupby`:

Syntax:

```
df.groupby([COLUMNS_TO_GROUP]).AGGFUNC()[[VALUES]]
df.groupby([COLUMNS_TO_GROUP]).AGGFUNC()[[VALUES]]
```

- `COLUMNS_TO_GROUP` mengacu pada kolom yang ingin dikelompokkan
- `VALUES` mengacu pada kolom yang ingin di-agregasi
- `AGGFUNC` mengacu pada fungsi agregat yang ingin diterapkan pada `VALUES`. Dapat berupa method `.agg()` untuk menspesifikan fungsi agregat untuk masing-masing kolom.

**Istilah group by merupakan gabungan dari proses:**

1. Split: mengelompokkan baris
2. Apply: menerapkan fungsi untuk masing-masing kelompok
3. Combine: mengembalikan hasil dalam bentuk 1 tabel

In [None]:
# aggregation


# using reset_index 



Visualisasi:

In [None]:
# visualization


- documentation about bar chart [here](https://plotly.com/python/bar-charts/)

A simple bar plot, if visualized properly, is really powerful for categorical ranking. Our plot is a very prominent example for that: we could already see which `department` is the highest or the lowest, and we could also see the big picture regarding the ranking in terms of number of employee.


**Breaking Down a Ranking**

Seperti pada contoh sebelumnya, memvisualisasikan peringkat kategoris dapat membantu kita memperoleh beberapa wawasan. Tapi, seringkali, kita perlu membuat beberapa perincian ke peringkat untuk mendapatkan lebih banyak wawasan.

🔻 Mari kita coba, misalnya, memvisualisasikan ulang peringkat tetapi dengan membaginya menjadi status `promotion`:

In [None]:
# code here


Let's take a look into the visualization below:

🎨 You can check the color palette availables through this documentation [here](https://plotly.com/python/builtin-colorscales/) and [here](https://www.w3schools.com/colors/colors_names.asp).

In [None]:
# code here


📝 Barplot diatas dinamakan **stacked bar plot**. 

🔻 Terkadang, kita juga perlu melihat perbedaan yang tepat mengenai breakdown. Untuk tujuan ini, kita dapat menggunakan `barmode='group'` untuk menunjukkan ketinggian relatif dalam perincian:

In [None]:
# visualization


### Data Distribution

Distribusi data, sedikit statistik, cara untuk melihat bagaimana data numerik kami didistribusikan di dalam kumpulan data sampel kami. Satu hal yang harus diperhatikan untuk visualisasi ini: ini hanya berfungsi untuk **variabel numerik kontinu**.

Pada bagian ini, kita akan membahas bagaimana memvisualisasikan dan menginterpretasikan visualisasi distribusi dengan benar menggunakan dataset promosi.

**Simple Numerical Distribution**

Cara paling mudah untuk memvisualisasikan distribusi data adalah menggunakan plot histogram. Plot histogram dapat dibuat dengan menggabungkan variabel numerik kami ke dalam beberapa bin, yang masing-masing memiliki ambang uniknya sendiri.

🔻 Contoh, kita ingin melihat bagaimana `length_of_service` terdistribusi

In [None]:
# visualize


> 📊 documentation about histogram chart [here](https://plotly.com/python/histograms/)

**Breaking Down Numerical Distribution**

Merinci distribusi numerik juga dapat memberi kita lebih banyak wawasan tentang data kita; sangat berguna untuk membandingkan bagaimana distribusi data berbeda antara tingkat kategoris.

Ada beberapa cara untuk memecah distribusi data, dan ini terkait dengan berapa banyak level dalam variabel kategori kami.

In [None]:
# Visualize


### ❓✅ Knowledge Check: Bar plot vs Histogram

Setelah membuat dua plot di atas, apa perbedaan antara plot batang dan histogram?

- Barplot
    + Fungsi : 
    + Data   : 
    + Visual :  
- Histogram 
    + Fungsi : 
    + Data   : 
    + Visual : 

Seperti yang dapat kita lihat dari visualisasi sebelumnya, perincian yang benar dapat menjelaskan lebih lanjut tentang distribusi data numerik.

Tetapi jika kita memiliki lebih dari dua kategori, akan sangat berantakan jika kita masih menggunakan plot histogram. Jadi daripada menggunakan histogram plot, kita bisa menggunakan boxplot untuk menunjukkan distribusi data dan perinciannya.

🔻 Mari kita coba contoh dengan memisahkan distribusi usia berdasarkan departemen dan status promosi:

In [None]:
# visualize


> 📊 documentation about boxplot [here](https://plotly.com/python/box-plots/)

### Correlation Between Data

Korelasi juga merupakan salah satu konteks populer yang bisa kita telusuri. Ini bisa membantu kita mengeksplorasi hubungan apa pun antara variasi dua nilai.

**Between Continous Variables**

Bentuk korelasi yang paling umum adalah antara variabel numerik kontinu. Itu bisa menunjukkan kepada kita jika kedua variabel berbagi pola variasi, yang seringkali, sangat berwawasan untuk menjelaskan kumpulan data kita.

🔻 Sebagai contoh:  For example, mari kita coba memvisualisasikan berapa lama layanan terkait dengan usia untuk sampel Teknologi.

In [None]:
# subset the data only technology


Juga umum untuk memecah informasi di plot pencar kami. Tapi ini relatif sulit dicapai, karena scatter plot sangat mudah berantakan. Jadi cara yang paling mudah adalah dengan membuat plot antar kategori; di plotly.express, kita dapat mencapainya menggunakan parameter `facet`.

Mari kita coba uraikan plot pencar kita berdasarkan status promosi.

> 📊 documentation about scatter plot [here](https://plotly.com/python/line-and-scatter/)

### Time-based Evolution

Evolusi berbasis waktu, atau data time series, adalah analisis sering digunakan dalam setiap aspek bisnis atau domain teknis lainnya. Visualisasi ini bisa membantu untuk melihat dinamika nilai numerik yang lebih jelas dalam hal dimensi waktu.

In [None]:
# Data wrangling
data_2020 = promotion[promotion['join_date'] >= '2020-01-01']


# Visualize


# Additional

## Choropleth Maps

> 📊 Documentation [here](https://plotly.com/python/choropleth-maps/)

In [None]:
gapminder = px.data.gapminder()
gapminder.head()

In [None]:
# Data Preparation
gapminder = px.data.gapminder()

avg_lifeExp = (gapminder['lifeExp']*gapminder['pop']).sum()/gapminder['pop'].sum()

# Visualize
px.choropleth(gapminder, locations="iso_alpha", color="lifeExp",
                    color_continuous_scale='Picnic',
                    color_continuous_midpoint=avg_lifeExp,
                    title="World Average Life Expectancy in 2007 in years was %.1f" % avg_lifeExp)

##  Animations Plotly

### Choroplet

In [None]:
# Visualize
px.choropleth(
    gapminder,
    locations="iso_alpha",
    color="lifeExp",
    animation_frame="year", # parameter untuk menambah fitur animasi
    color_continuous_scale='Picnic',
    color_continuous_midpoint=avg_lifeExp,
    title="World Average Life Expectancy in 2007 in years was %.1f" % avg_lifeExp
)


## Scatter

In [None]:
px.scatter(
    gapminder,
    x="gdpPercap",
    y="lifeExp",
    animation_frame="year", 
    animation_group="country",
    size="pop", 
    color="continent", 
    hover_name="country",
    size_max=55,
    range_x=[100,100000],
    range_y=[25,90],
    log_x=True,
    color_discrete_sequence = ['pink','grey','lightblue','salmon','lightgreen']
)

## Barplot

In [None]:
px.bar(
    gapminder,
    x="continent",
    y="pop",
    color="continent",
    animation_frame="year",
    color_discrete_sequence = px.colors.qualitative.G10
)

# Summary

The coursebook covers many aspects of plotting, including using visualization libraries such as `plotly.express` and other supporting libraries. I hope you've managed to get a good grasp of the plotting philosophy behind `plotly.express`, and have built a few visualizations with it yourself!

Happy coding!

# 📚 References

- 📊 [Data to Viz](https://www.data-to-viz.com/)
- 🛠 [Plotly Express](https://plotly.com/python/plotly-express/)
- 📈 Basic Plot
    + [Bar](https://plotly.com/python/bar-charts/)
    + [Histogram](https://plotly.com/python/histograms/)
    + [Box](https://plotly.com/python/box-plots/)
    + [Line](https://plotly.com/python/line-charts/)
    + [Scatter](https://plotly.com/python/line-and-scatter/)
    + [Heatmap](https://plotly.com/python/2D-Histogram/)
    + [Choropleth](https://plotly.com/python/choropleth-maps/)
- 🎨 Color
    + [Continuous color](https://plotly.com/python/builtin-colorscales/)
    + [Discrete color](https://plotly.com/python/discrete-color/)
    + [Color name](https://www.w3schools.com/colors/colors_names.asp)
- 🔎 Advance Plot
    + [Layouting](https://plotly.com/python/reference/layout/)
        + [Example](https://plotly.com/python/styling-plotly-express/#styling-figures-made-with-plotly-express)
        + Documentation:
            + [update_layout](https://plotly.com/python/reference/layout/)
            + [axes and subplots](https://plotly.com/python/reference/layout/xaxis/)
    + [Animation](https://plotly.com/python/animations/)
    + [Adding traces](https://plotly.com/python/creating-and-updating-figures/#adding-traces)