# Fancy classes, fancy objects

Kami membuat class yang lebih menarik dengan metode canggih seperti mengimpor dataset, mendapatkan statistik deskriptif, dan mengganti nama kolom. Juga, kami membahas praktik terbaik untuk membuat dan mendokumentasikan class sesuai dengan PEP-8.

## Working with a DataSet to Create DataFrames

### Return Statement I

Sekarang mari kita telusuri pernyataan `return`.

In [1]:
class DataShell:
    def __init__(self, x):
        return x

Dalam potongan kode di atas, Anda mungkin diharapkan melihat function `print()` alih-alih pernyataan `return`. Perbedaan antara keduanya adalah bahwa `print()` mengeluarkan string ke konsol, sedangkan pernyataan return keluar dari function saat ini (atau method) dan menyerahkan nilai yang dikembalikan ke pemanggilnya. Dalam hal ini, pemanggil dapat memiliki function lain, antara lain. Jika ini terdengar membingungkan, jangan takut, kami akan terus berlatih!

### Return Statement II: The Return of the DataShell

Sekarang mari kita kembali ke class `DataShell` yang telah kita kerjakan sebelumnya, dan refactor sedemikian rupa sehingga ia menggunakan pernyataan `return` alih-alih function `print()`.

Perhatikan bahwa karena kita sekarang menggunakan pernyataan `return`, kita perlu memasukkan pemanggilan ke method object dalam function `print()`.

In [5]:
# Create class: DataShell
class DataShell:
  
    # Initialize class with self and dataList as arguments
    def __init__(self, dataList):
        # Set data as instance variable, and assign it the value of dataList
        self.data = dataList
        
    # Define method that returns data: show
    def show(self):
        return self.data
        
    # Define method that prints average of data: avg 
    def avg(self):
        # Declare avg and assign it the average of data
        avg = sum(self.data)/float(len(self.data))
        # Return avg
        return avg

# List    
integer_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Instantiate DataShell taking integer_list as argument: my_data_shell
my_data_shell = DataShell(integer_list)

# Print output of your object's show method
print(my_data_shell.show())

# Print output of your object's avg method
print(my_data_shell.avg())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
5.5


**Catatan** : Kita melihat pernyataan `return` sebelumnya dalam latihan function, pernyataan `return` sangat berguna saat menulis method untuk class dan method. Anggap saja sebagai cara untuk memungkinkan object berbicara dengan object lain, karena mereka dapat mengembalikan informasi yang berguna ketika dipanggil.

### Return Statement III: A More Powerful DataShell

Dalam latihan ini, class `DataShell` akan berevolusi dari hanya mengonsumsi list menjadi mengonsumsi file CSV sehingga dapat melakukan hal-hal yang lebih canggih.

Untuk itu, kita akan menggunakan pernyataan `return` sekali lagi.

In [6]:
us_life_expectancy = 'datasets/us_life_expectancy.csv'

In [7]:
# Load numpy as np and pandas as pd
import numpy as np
import pandas as pd

# Create class: DataShell
class DataShell:
  
    # Initialize class with self and inputFile
    def __init__(self, inputFile):
        self.file = inputFile
        
    # Define generate_csv method, with self argument
    def generate_csv(self):
        self.data_as_csv = pd.read_csv(self.file)
        return self.data_as_csv

# Instantiate DataShell with us_life_expectancy as input argument
data_shell = DataShell(us_life_expectancy)

# Call data_shell's generate_csv method, assign it to df
df = data_shell.generate_csv()

# Print df
print(df)

           country code  year  life_expectancy
0    United States  USA  1880        39.410000
1    United States  USA  1890        45.209999
2    United States  USA  1901        49.299999
3    United States  USA  1902        50.500000
4    United States  USA  1903        50.599998
..             ...  ...   ...              ...
112  United States  USA  2011        78.681999
113  United States  USA  2012        78.820999
114  United States  USA  2013        78.959999
115  United States  USA  2014        79.099998
116  United States  USA  2015        79.244003

[117 rows x 4 columns]


**Catatan** : Sekarang Anda mulai membangun class dengan functionality yang lebih canggih!

## Renaming Columns and the Five-Figure Summary

### Data as Attributes

Dalam latihan pengkodean sebelumnya, Anda menulis method di dalam class `DataShell` Anda yang mengembalikan DataFrame Pandas.

Di sini, kita akan menempatkan data ke dalam class kita, sebagai instance variable. Ini agar kita dapat melakukan hal-hal bagus nanti, seperti mengganti nama kolom, serta mendapatkan statistik deskriptif.

In [11]:
# Import numpy as np, pandas as pd
import numpy as np
import pandas as pd

# Create class: DataShell
class DataShell:
  
    # Define initialization method
    def __init__(self, filepath):
        # Set filepath as instance variable  
        self.filepath = filepath
        # Set data_as_csv as instance variable
        self.data_as_csv = pd.read_csv(filepath)

# Instantiate DataShell as us_data_shell
us_data_shell = DataShell(us_life_expectancy)

# Print your object's data_as_csv attribute
print(us_data_shell.data_as_csv)

           country code  year  life_expectancy
0    United States  USA  1880        39.410000
1    United States  USA  1890        45.209999
2    United States  USA  1901        49.299999
3    United States  USA  1902        50.500000
4    United States  USA  1903        50.599998
..             ...  ...   ...              ...
112  United States  USA  2011        78.681999
113  United States  USA  2012        78.820999
114  United States  USA  2013        78.959999
115  United States  USA  2014        79.099998
116  United States  USA  2015        79.244003

[117 rows x 4 columns]


**Catatan** : Sekarang class Anda memiliki kemampuan menyimpan data sebagai instance variable, yang berarti Anda dapat menjalankan method pada mereka!

### Renaming Columns

Methods dapat sangat berguna untuk memanipulasi data object mereka. Dalam latihan ini, kami akan membuat method di dalam class `DataShell`, sehingga kita dapat mengganti nama kolom data kita.

In [15]:
# Create class DataShell
class DataShell:
  
    # Define initialization method
    def __init__(self, filepath):
        self.filepath = filepath
        self.data_as_csv = pd.read_csv(filepath)
    
    # Define method rename_column, with arguments self, column_name, and new_column_name
    def rename_column(self, column_name, new_column_name):
        self.data_as_csv.columns = self.data_as_csv.columns.str.replace(column_name, new_column_name)

# Instantiate DataShell as us_data_shell with argument us_life_expectancy
us_data_shell = DataShell(us_life_expectancy)

# Print the datatype of your object's data_as_csv attribute
print(us_data_shell.data_as_csv.dtypes)

# Rename your objects column 'code' to 'country_code'
us_data_shell.rename_column('code', 'country_code')

# Again, print the datatype of your object's data_as_csv attribute
print(us_data_shell.data_as_csv.dtypes)

country             object
code                object
year                 int64
life_expectancy    float64
dtype: object
country             object
country_code        object
year                 int64
life_expectancy    float64
dtype: object


**Catatan** : Sekarang Anda dapat menggunakan objects method Anda untuk mengubah datanya. Dengan cara apa lagi Anda dapat memodifikasi data object Anda?

### Self-Describing DataShells

Dalam latihan ini Anda akan menambahkan fungsionalitas ke class `DataShell` Anda sehingga mengembalikan informasi tentang dirinya sendiri.

In [16]:
# Create class DataShell
class DataShell:

    # Define initialization method
    def __init__(self, filepath):
        self.filepath = filepath
        self.data_as_csv = pd.read_csv(filepath)

    # Define method rename_column, with arguments self, column_name, and new_column_name
    def rename_column(self, column_name, new_column_name):
        self.data_as_csv.columns = self.data_as_csv.columns.str.replace(column_name, new_column_name)
        
    # Define get_stats method, with argument self
    def get_stats(self):
        # Return a description data_as_csv
        return self.data_as_csv.describe()
    
# Instantiate DataShell as us_data_shell
us_data_shell = DataShell(us_life_expectancy)

# Print the output of your objects get_stats method
print(us_data_shell.get_stats())

              year  life_expectancy
count   117.000000       117.000000
mean   1956.752137        66.556684
std      34.398252         9.551079
min    1880.000000        39.410000
25%    1928.000000        58.500000
50%    1957.000000        69.599998
75%    1986.000000        74.772003
max    2015.000000        79.244003


**Catatan** : Tidak hanya `DataShell` class Anda menyimpan data, itu juga dapat memodifikasinya, dan menghasilkan informasi tentang itu! Jenis data apa lagi yang bisa Anda simpan? Dan prosedur apa lagi yang bisa Anda lakukan pada data seperti itu?

## OOP Best Practices

### Reading Other People's Code

1. Lihat Kode GitHub.
2. Lihat contoh kode Python yang bagus
3. Baca codebase.

### Spark Class: The Class

In [23]:
class DataFrame(object):
    """A distributed collection of data grouped into named columns.
    A :class:`DataFrame` is equivalent to a relational table in Spark SQL,
    and can be created using various functions in :class:`SparkSession`::
        people = spark.read.parquet("...")
    Once created, it can be manipulated using the various domain-specific-language
    (DSL) functions defined in: :class:`DataFrame`, :class:`Column`.
    To select a column from the data frame, use the apply method::
        ageCol = people.age
    A more concrete example::
        # To create DataFrame using SparkSession
        people = spark.read.parquet("...")
        department = spark.read.parquet("...")
        people.filter(people.age > 30)
        .join(department, people.deptId == department.id) \\
            .groupBy(department.name, "gender")
            .agg({"salary": "avg", "age": "max"})
    .. versionadded:: 1.3
    """

### Spark Class: The Constructor

In [24]:
def __init__(self, jdf, sql_ctx):
    self._jdf = jdf
    self.sql_ctx = sql_ctx
    self._sc = sql_ctx and sql_ctx._sc
    self.is_cached = False
    self._schema = None # initialized lazily
    self._lazy_rdd = None
    # Check whether _repr_html is supported or not, we use it to avoid calling _
    # by __repr__ and _repr_html_ while eager evaluation opened.
    self._support_repr_html = False

### Spark Class: A Method

In [25]:
def printSchema(self):
    """Prints out the schema in the tree format.
    >>> df.printSchema()
    root
    |-- age: integer (nullable = true)
    |-- name: string (nullable = true)
    <BLANKLINE>
    """
    print(self._jdf.schema().treeString())

### PEP Style

* https://www.python.org/dev/peps/pep-0008

### Separations of Concerns

<img src="figure/separations.png" width=500px height=500px align=left />

### Naming classes

Apa praktik terbaik, menurut [PEP-8](https://www.python.org/dev/peps/pep-0008/#class-names), untuk memberi nama class?

* `CamelCase` adalah praktik terbaik untuk class yang mudah dibaca.

### Got Characters?

Menurut [PEP-8](https://www.python.org/dev/peps/pep-0008/#maximum-line-length), berapakah jumlah karakter maksimum per baris kode?

* PEP-8 merekomendasikan maksimal **79** karakter per baris kode!

### Class mana yang memiliki docstrings yang sesuai?

❌ **Option A:**

In [None]:
class DataShell:

    A simple class that brings a csv object in-memory as a 
    numpy matrix so you can perform operations on it.

    def __init__(self, filename):
        self.filename = filename

✅ **Option B:**

In [None]:
class DataShell:
    """
    A simple class that brings a csv object in-memory as a 
    numpy matrix so you can perform operations on it.
    """
    def __init__(self, filename):
        self.filename = filename

❌ **Option C:**

In [None]:
class DataShell:
    # A simple class that brings a csv object in-memory as a numpy matrix so you can perform operations on it.
    def __init__(self, filename):
        self.filename = filename