<a href="https://colab.research.google.com/github/Amaliaaap/Machine-Learning/blob/main/Processing%2C%20Wrangling%2C%20and%20Visualizing%20Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**PROCESSING, WRAGLING, AND VISUALIZING DATA**

Bab ini berfokus pada pengambilan, pemrosesan, pengolahan, dan visualisasi data. Contoh praktis dengan berbagai format data telah digambarkan beserta cara memanfaatkan berbagai kerangka kerja untuk menangani data & peringkasan. Bab ini juga membahas aspek-aspek yang terkait dengan Visualisasi data untuk mendapatkan wawasan.

# 3.1 Data Collection

# 3.1.1 CSV

File CSV (Comma Separated Values) adalah format data yang banyak digunakan dan masih populer di berbagai sistem serta domain. CSV berisi data yang dipisahkan oleh tanda koma (",") untuk memisahkan setiap atributnya. Format ini termasuk salah satu yang tertua namun tetap disukai karena kesederhanaannya dan kompatibilitasnya dengan berbagai aplikasi.

In [None]:
# import required libraries
import csv
import pandas as pd
from pprint import pprint

In [None]:
def print_basic_csv(file_name, delimiter=','):
    """This function extracts and prints csv content from given filename
       Details: https://docs.python.org/2/library/csv.html
    Args:
        file_name (str): file path to be read
        delimiter (str): delimiter used in csv. Default is comma (',')

    Returns:
        None

    """
    csv_rows = list()
    csv_attr_dict = dict()
    csv_reader = None

    # read csv
    csv_reader = csv.reader(open(file_name, 'r'), delimiter=delimiter)

    # iterate and extract data
    for row in csv_reader:
        print(row)
        csv_rows.append(row)

    # prepare attribute lists
    for col in csv_rows[0]:
        csv_attr_dict[col]=list()

    # iterate and add data to attribute lists
    for row in csv_rows[1:]:
        csv_attr_dict['sno'].append(row[0])
        csv_attr_dict['fruit'].append(row[1])
        csv_attr_dict['color'].append(row[2])
        csv_attr_dict['price'].append(row[3])

     # print the result
    print("\n\n")
    print("CSV Attributes::")
    pprint(csv_attr_dict)



def print_tabular_data(file_name,delimiter=","):
    """This function extracts and prints tabular csv content from given filename
       Details: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html
    Args:
        file_name (str): file path to be read
        delimiter (str): delimiter used in csv. Default is comma ('\t')

    Returns:
        None

    """
    df = pd.read_csv(file_name,sep=delimiter)
    print(df)

**Parse menggunakan modul CSV**

Fungsi print_basic_csv() mengambil nama file input beserta pembatasnya sebagai parameter input.

In [None]:
print_basic_csv(r'/content/tabular_csv.csv')

['sno', 'fruit', 'color', 'price']
['1', 'apple', 'red', '110.85']
['2', 'banana', 'yellow', '50.12']
['3', 'mango', 'yellow', '70.29']
['4', 'orange', 'orange', '80.00']
['5', 'kiwi', 'green', '150.00']
['6', 'pineapple', 'yellow', '90.00']
['7', 'guava', 'green', '20.00']



CSV Attributes::
{'color': ['red', 'yellow', 'yellow', 'orange', 'green', 'yellow', 'green'],
 'fruit': ['apple', 'banana', 'mango', 'orange', 'kiwi', 'pineapple', 'guava'],
 'price': ['110.85', '50.12', '70.29', '80.00', '150.00', '90.00', '20.00'],
 'sno': ['1', '2', '3', '4', '5', '6', '7']}


Output pertama pada sel di atas menunjukkan data dalam csv apa adanya. Output kedua adalah output yang diurai yang menampilkan konten csv sebagai pasangan kunci-nilai.

**Parse menggunakan pandas**

Fungsi print_tabular_data() mengambil nama file input beserta pembatas sebagai parameter input. Fungsi ini menggunakan pandas untuk melakukan pekerjaan berat

In [None]:
print_tabular_data(r'/content/tabular_csv.csv')

   sno      fruit   color   price
0    1      apple     red  110.85
1    2     banana  yellow   50.12
2    3      mango  yellow   70.29
3    4     orange  orange   80.00
4    5       kiwi   green  150.00
5    6  pineapple  yellow   90.00
6    7      guava   green   20.00


Output pada sel di atas menunjukkan bagaimana pandas membaca csv dan menyiapkan kerangka data tabular

In [None]:
bentuk lain dari pandas ketika menunjukkan kerangka

In [None]:
df = pd.read_csv('/content/tabular_csv.csv')
df

Unnamed: 0,sno,fruit,color,price
0,1,apple,red,110.85
1,2,banana,yellow,50.12
2,3,mango,yellow,70.29
3,4,orange,orange,80.0
4,5,kiwi,green,150.0
5,6,pineapple,yellow,90.0
6,7,guava,green,20.0


# 3.1.2 JSON

JSON (JavaScript Object Notation) adalah format pertukaran data yang ringan, mudah dibaca manusia, dan banyak digunakan secara global. Sebagai alternatif XML, JSON terdiri dari pasangan kunci-nilai dan dapat diurai dengan mudah dalam berbagai bahasa pemrograman.

In [None]:
# import required libraries
import json
import pandas as pd

In [None]:
def print_nested_dicts(nested_dict,indent_level=0):
    """This function prints a nested dict object
    Args:
        nested_dict (dict): the dictionary to be printed
        indent_level (int): the indentation level for nesting
    Returns:
        None

    """

    for key, val in nested_dict.items():
        if isinstance(val, dict):
          print("{0} : ".format(key))
          print_nested_dicts(val,indent_level=indent_level+1)
        elif isinstance(val,list):
            print("{0} : ".format(key))
            for rec in val:
                print_nested_dicts(rec,indent_level=indent_level+1)
        else:
          print("{0}{1} : {2}".format("\t"*indent_level,key, val))

def extract_json(file_name,do_print=True):
    """This function extracts and prints json content from a given file
    Args:
        file_name (str): file path to be read
        do_print (bool): boolean flag to print file contents or not

    Returns:
        None

    """
    try:
        json_filedata = open(file_name).read()
        json_data = json.loads(json_filedata)

        if do_print:
            print_nested_dicts(json_data)
    except IOError:
        raise IOError("File path incorrect/ File not found")
    except ValueError:
        ValueError("JSON file has errors")
    except Exception:
        raise

def extract_pandas_json(file_name,orientation="records",do_print=True):
    """This function extracts and prints json content from a file using pandas
       This is useful when json data represents tabular, series information
    Args:
        file_name (str): file path to be read
        orientation (str): orientation of json file. Defaults to records
        do_print (bool): boolean flag to print file contents or not

    Returns:
        None

    """
    try:
        df = pd.read_json(file_name,orient=orientation)

        if do_print:
            print(df)
    except IOError:
        raise IOError("File path incorrect/ File not found")
    except ValueError:
        ValueError("JSON file has errors")
    except Exception:
        raise

**Parse menggunakan modul json**

Fungsi extract_json() mengambil nama file input sebagai parameter input.

In [None]:
extract_json(r'/content/sample_json.json')

outer_col_1 : 
	nested_inner_col_1 : val_1
	nested_inner_col_2 : 2
	nested_inner_col_1 : val_2
	nested_inner_col_2 : 2
outer_col_2 : 
	inner_col_1 : 3
outer_col_3 : 4


Fungsi ini menghasilkan output bersarang yang menyerupai struktur JSON itu sendiri di mana nilai outer_col_1 adalah objek bersarang itu sendiri

**Parse menggunakan pandas**

Fungsi extract_pandas_json() mengambil nama file input sebagai parameter input. Fungsi ini menggunakan pandas untuk melakukan pekerjaan berat

In [None]:
extract_pandas_json(r'/content/pandas_json.json')

  col_1 col_2
0     a     b
1     c     d
2     e     f
3     g     h
4     i     j
5     k     l


# 3.1.3 XML

XML (eXtensible Markup Language) adalah format data lama yang masih banyak digunakan untuk berbagi data melalui Internet. Seperti JSON, XML adalah format teks yang dapat dibaca manusia, mendukung Unicode, independen platform, dan sederhana. XML sering digunakan untuk merepresentasikan data dalam berbagai bentuk dan ukuran.

In [None]:
!pip install xmltodict
import xmltodict



In [None]:
# import required libraries
import xml.etree.ElementTree as ET
import xmltodict

In [None]:
def print_nested_dicts(nested_dict,indent_level=0):
    """This function prints a nested dict object
    Args:
        nested_dict (dict): the dictionary to be printed
        indent_level (int): the indentation level for nesting
    Returns:
        None

    """

    for key, val in nested_dict.items():
        if isinstance(val, dict):
          print("{0} : ".format(key))
          print_nested_dicts(val,indent_level=indent_level+1)
        elif isinstance(val,list):
            print("{0} : ".format(key))
            for rec in val:
                print_nested_dicts(rec,indent_level=indent_level+1)
        else:
          print("{0}{1} : {2}".format("\t"*indent_level,key, val))

def print_xml_tree(xml_root,indent_level=0):
    """This function prints a nested dict object
    Args:
        xml_root (dict): the xml tree to be printed
        indent_level (int): the indentation level for nesting
    Returns:
        None

    """
    for child in xml_root: #Fixed: Removed extra indent before 'for'
            print("{0}tag:{1}, attribute:{2}".format(
                                                "\t"*indent_level,
                                                child.tag,
                                                child.attrib))

            print("{0}tag data:{1}".format("\t"*indent_level,
                                            child.text))

            print_xml_tree(child,indent_level=indent_level+1)

def read_xml(file_name):
    """This function extracts and prints XML content from a given file
    Args:
        file_name (str): file path to be read
    Returns:
        None

    """
    try:
        tree = ET.parse(file_name)
        root = tree.getroot()

        print("Root tag:{0}".format(root.tag))
        print("Attributes of Root:: {0}".format(root.attrib))

        print_xml_tree(root)

    except IOError:
        raise IOError("File path incorrect/ File not found")
    except Exception:
        raise

def read_xml2dict_xml(file_name):
    """This function extracts and prints xml content from a file using xml2dict
    Args:
        file_name (str): file path to be read
    Returns:
        None

    """
    try:
        xml_filedata = open(file_name).read()
        ordered_dict = xmltodict.parse(xml_filedata)

        print_nested_dicts(ordered_dict)
    except IOError:
        raise IOError("File path incorrect/ File not found")
    except ValueError:
        ValueError("XML file has errors")
    except Exception:
        raise

**Parsing menggunakan modul XML**

Fungsi read_xml() mengambil nama file input sebagai parameter input.

In [None]:
read_xml(r'/content/sample_xml.xml')

Root tag:records
Attributes of Root:: {'attr': 'sample xml records'}
tag:record, attribute:{'name': 'rec_1'}
tag data:
	  
	tag:sub_element, attribute:{}
	tag data:
	    
		tag:detail1, attribute:{}
		tag data:Attribute 1
		tag:detail2, attribute:{}
		tag data:2
	tag:sub_element_with_attr, attribute:{'attr': 'complex'}
	tag data:
	    Sub_Element_Text
	  
	tag:sub_element_only_attr, attribute:{'attr_val': 'only_attr'}
	tag data:None
tag:record, attribute:{'name': 'rec_2'}
tag data:
	  
	tag:sub_element, attribute:{}
	tag data:
	    
		tag:detail1, attribute:{}
		tag data:Attribute 1
		tag:detail2, attribute:{}
		tag data:2
	tag:sub_element_with_attr, attribute:{'attr': 'complex'}
	tag data:
	    Sub_Element_Text
	  
	tag:sub_element_only_attr, attribute:{'attr_val': 'only_attr'}
	tag data:None
tag:record, attribute:{'name': 'rec_3'}
tag data:
	  
	tag:sub_element, attribute:{}
	tag data:
	    
		tag:detail1, attribute:{}
		tag data:Attribute 1
		tag:detail2, attribute:{}
		tag data:2
	

Fungsi ini menghasilkan keluaran bersarang yang menyerupai struktur XML itu sendiri. Fungsi ini memberikan fleksibilitas dalam hal mengidentifikasi struktur dan mengurai simpul XML sebagaimana diperlukan.

**Mengurai menggunakan xmltodict**

Fungsi read_xml2dict_xml() mengambil nama berkas masukan sebagai parameter masukan. Fungsi ini menggunakan xmltodict untuk melakukan pekerjaan berat

In [None]:
read_xml2dict_xml(r'/content/sample_xml.xml')

records : 
	@attr : sample xml records
record : 
		@name : rec_1
sub_element : 
			detail1 : Attribute 1
			detail2 : 2
sub_element_with_attr : 
			@attr : complex
			#text : Sub_Element_Text
sub_element_only_attr : 
			@attr_val : only_attr
		@name : rec_2
sub_element : 
			detail1 : Attribute 1
			detail2 : 2
sub_element_with_attr : 
			@attr : complex
			#text : Sub_Element_Text
sub_element_only_attr : 
			@attr_val : only_attr
		@name : rec_3
sub_element : 
			detail1 : Attribute 1
			detail2 : 2
sub_element_with_attr : 
			@attr : complex
			#text : Sub_Element_Text
sub_element_only_attr : 
			@attr_val : only_attr


Output dalam sel di atas menunjukkan bagaimana xmltodict membaca file XML. Fungsi ini menggunakan pustaka xmltodict untuk melakukan penelusuran simpul dan mengekstrak informasi yang relevan.

# 3.1.4 HTML and Scraping

Hyper Text Markup Language (HTML) adalah bahasa markup yang mirip dengan XML. HTML terutama digunakan oleh browser web dan aplikasi serupa untuk merender halaman web untuk konsumsi.

In [None]:
from IPython.core.display import display, HTML
display(HTML("""
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>My First Heading</h1>
<p>My first paragraph.</p>

</body>
</html>
"""))

Peramban menggunakan tag markup untuk memahami instruksi khusus seperti pemformatan teks, penempatan, hyperlink, dan sebagainya, tetapi hanya menyajikan konten untuk dilihat pengguna akhir. Untuk kasus penggunaan di mana data/informasi berada di halaman HTML, kita memerlukan teknik khusus untuk mengekstrak konten ini.

# 3.1.5 Web Scraping

Pengikisan web adalah teknik untuk mengikis atau mengekstrak data dari web, khususnya dari halaman web. Pengikisan web dapat melibatkan penyalinan data secara manual atau penggunaan otomatisasi untuk merayapi, mengurai, dan mengekstrak informasi dari halaman web. Dalam sebagian besar konteks, pengikisan web mengacu pada perayapan otomatis situs web tertentu atau bagian dari web untuk mengekstrak dan mengurai informasi yang nantinya dapat digunakan untuk analisis atau kasus penggunaan lainnya.

In [None]:
!pip install requests beautifulsoup4



In [None]:
import requests
from bs4 import BeautifulSoup

# URL situs yang akan di-scrape (ganti dengan situs yang diizinkan)
url = "https://example.com"

# Mengirim permintaan HTTP ke situs
response = requests.get(url)

# Periksa apakah request berhasil (status code 200)
if response.status_code == 200:
    # Parsing HTML dengan BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Contoh: Mengambil semua judul artikel dalam tag <h2>
    titles = soup.find_all("h2")

    # Menampilkan hasil
    for idx, title in enumerate(titles, 1):
        print(f"{idx}. {title.text.strip()}")
else:
    print("Gagal mengambil halaman, status code:", response.status_code)


# 3.1.6 SQL

Basis data muncul sejak tahun 1970-an dan mewakili sejumlah besar data yang disimpan dalam bentuk relasional. Data yang tersedia dalam bentuk tabel dalam basis data, atau lebih spesifiknya, basis data relasional, terdiri dari format data terstruktur lain yang kita temukan saat mengerjakan berbagai kasus penggunaan. Selama bertahun-tahun, telah tersedia berbagai jenis basis data, sebagian besar sesuai dengan standar SQL.