In [None]:
# numpy 자료 출처 : https://www.youtube.com/watch?v=JExG53x9LBo&list=PLnp1rUgG4UVa3XeP0fsp1lrO3EVO-Xwai 
# pandas 자료 출처 : Gyuwon Hong

# 검은 테마로 설정해서 보시길!
# 제 pandas 버전은 1.5.3 입니다. 현재 PyPi에서 설치가능한 latest는 2.0.3 버전 입니다.
# 다소 변동사항이 있으나, 크게 본질은 바뀌지 않으니 최고의 개발자들이 어떻게 패키지를 변화시키고 발전 시키는 지 흐름을 읽어보세요. 

In [1]:
from typing import List, Iterable

import numpy as np
import pandas as pd
import seaborn as sns

# <font color="yellow"> numpy </font>

In [None]:
# 통계, 분석, AI 분야의 라이브러리 내부에 다양한 수치연산 필요함
>> 수치연산을 얼마나 효율적으로 처리하는가에 따라 성능에 많은 영향을 줌
>> numpy는 ndarray라는 자료를 바탕으로 강력한 연산 기능 제공

# numpy와 다른 python 패키지의 관계

numpy : 난수 생성, 행렬 연산, 간단한 통계 분석

##############################
+ scipy : 수치해석
+ sympy : 기호계산
+ pandas : 데이터 처리
+ tensorflow : ML / DL
+ matplotlib / seaborn : 그래픽
##############################

= 간결한 코드 구현
= 빠른 연산 속도
= numpy 보다 복잡한 형태의 자료 생성, 수정

## <font color="pink"> numpy.ndarray 만들기 </font>

#### Let's move function <a href="https://numpy.org/doc/stable/reference/generated/numpy.array.html" style="color: yellow; font-size: 24pt;"> numpy.array() </a> document site !

In [None]:
## (1) numpy.array는 자료형이 아니다. numpy.ndarray의 object를 만들어내는 method다. 클래스와 메서드를 정확히 구분해야 한다.
## (2) numpy.array가 파이썬에서 일반적으로 클래스명을 쓸 때 사용하는 Camel Case(example: Numpy, ExampleClass)가 아닌 것은, numpy는 c로 구현이 되었기 때문이다.

In [2]:
# jupyter에서 DocString 출력하기
np.array?

[1;31mDocstring:[0m
array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0,
      like=None)

Create an array.

Parameters
----------
object : array_like
    An array, any object exposing the array interface, an object whose
    __array__ method returns an array, or any (nested) sequence.
    If object is a scalar, a 0-dimensional array containing object is
    returned.
dtype : data-type, optional
    The desired data-type for the array.  If not given, then the type will
    be determined as the minimum type required to hold the objects in the
    sequence.
copy : bool, optional
    If true (default), then the object is copied.  Otherwise, a copy will
    only be made if __array__ returns a copy, if obj is a nested sequence,
    or if a copy is needed to satisfy any of the other requirements
    (`dtype`, `order`, etc.).
order : {'K', 'A', 'C', 'F'}, optional
    Specify the memory layout of the array. If object is not an array, the
    newly created array will be i

## <font color="pink"> Element By Element 연산 </font>

#### list로 각 element 간의 연산을 구현할 때 (두 list 객체를 zip으로 엮어 iteration을 돌림)

In [3]:
list_a: List[int] = [1, 2, 3]
list_b: List[int] = [4, 5, 6]
list_c: List[int] = []

for elem_a, elem_b in zip(list_a, list_b):
    list_c.append(elem_a + elem_b)

print(list_c)

[5, 7, 9]


#### np.array로 각 element 간의 연산을 구현할 때 (두 ndarray 객체 간의 연산자 사용이 가능)

In [4]:
# np.array 코드
ndarray_a: np.array = np.array([1, 2, 3])
ndarray_b: np.array = np.array([4, 5, 6])

ndarray_c = ndarray_a + ndarray_b
print(ndarray_c)

[5 7 9]


#### 그럼 list 객체끼리 연산자를 사용하면? element 간의 연산이 아닌, list를 extend() 하는 것과 같다. ( list.append() != list.extend() )

In [5]:
print([1, 2, 3] + [4, 5, 6])

[1, 2, 3, 4, 5, 6]


## <font color="pink"> 내부 Element 변경 </font>

#### list로 Element 간의 연산을 구현할 때

In [6]:
# list
test_lst = [ [1, 2, 3, 4] for _ in range(3) ]   
print("# 3행 | 4열 | 2차원 리스트", test_lst, "", sep="\n")

# 3행 | 4열 | 2차원 리스트
[[1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4]]



#### ndarray로 Element 간의 연산을 구현할 때

In [7]:
# ndarray
test_ndarray = np.array(test_lst) 
print("# 3행 | 4열 | 2차원 np.ndarray", test_ndarray, sep="\n")

# 3행 | 4열 | 2차원 np.ndarray
[[1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]]


#### list로 내부 element 값을 바꿀 시

In [8]:
def exchange_list(input_lst: List[int]) -> List[int]: 
    
    output_lst = []
    
    # iteration
    for row in input_lst:
        row[2], row[3], row[0], row[1] = row

        # append element
        output_lst.append(row)

    return output_lst

output_lst = exchange_list(test_lst)
output_lst

[[3, 4, 1, 2], [3, 4, 1, 2], [3, 4, 1, 2]]

#### nd.array로 내부 Element 값을 바꿀 시

In [9]:
def exchange_ndarray(input_ndarray: np.ndarray) -> np.ndarray:
    return input_ndarray[ :, [2, 3, 0, 1]]


output_ndarray = exchange_ndarray(test_ndarray)
output_ndarray

array([[3, 4, 1, 2],
       [3, 4, 1, 2],
       [3, 4, 1, 2]])

## <font color="pink"> numpy는 list 보다 훨씬 빠르다 </font>

In [10]:
print("# list")
%timeit exchange_list(test_lst) # ms (마이크로초)

print("\n# ndarray")
%timeit exchange_ndarray(test_ndarray) # µs (밀리초)

# 1 ms == 0.001 µs

# list
750 ns ± 43.7 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)

# ndarray
4.51 µs ± 209 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


### <font color="greenyellow"> ★ Why? </font>

In [None]:
# ndarray가 list 보다 빠른 이유?

https://github.com/numpy/numpy/blob/maintenance/1.7.x/numpy/core/include/numpy/ndarraytypes.h#L646

list
https://hg.python.org/cpython/file/3.6/Include/listobject.h#l23

int
https://hg.python.org/cpython/file/3.6/Include/longintrepr.h/#l85

## <font color="pink"> numpy.ndarray attribute </font>

In [11]:
type(dir)

builtin_function_or_method

In [12]:
# attribute 확인한는 builtin_function_or_method
dir(np.ndarray)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',

In [None]:
# 주요 Attribute

ndim : int
   Number of array dimensions.

shape : tuple of ints
   Tuple of array dimensions.

size : intm
   Number of elements in the array.

itemsize : int
   Length of one array element in bytes.

dtype : dtype object
   Data-type of the array’s elements.


strides : tuple of ints
   Tuple of bytes to step in each dimension when traversing an array.

In [13]:
# function : Print ndarray attribute 
def printInfo(ndarray):
    data = ["ndarray.ndim", "ndarray.shape", "ndarray.size", "ndarray.dtype", "ndarray.itemsize", "ndarray.strides"]

    for elem in data:
        print("%-20s" % elem, eval(elem))

ndarray = np.array([[0, 1, 2], [3, 4, 5]], dtype=np.int32)
printInfo(ndarray)

# ndim     : shape[0] * shape[1]
# shape    : (행의 개수, 열의 개수)
# size     : 총 요소(element) 합계 (shape[0] * shape[1])
# itemsize : dtype의 byte 수로 표현
# strides  : 차원별로 이동할 때 사용되는 byte 수 (1차원 간의 이동 : 3개 elem 12byte) (1차원 내부의 2차원 간의 이동 : elem 간의 이동 4byte)

ndarray.ndim         2
ndarray.shape        (2, 3)
ndarray.size         6
ndarray.dtype        int32
ndarray.itemsize     4
ndarray.strides      (12, 4)


### How to change ndim?

In [14]:
ndarray = np.array(
    [
        [
            [0, 1, 2],
            [3, 4, 5],
            [6, 7, 8]
        ],[
            [0, 1, 2],
            [3, 4, 5],
            [6, 7, 8]
        ]
    ]
    , dtype=np.int64)
printInfo(ndarray)

ndarray.ndim         3
ndarray.shape        (2, 3, 3)
ndarray.size         18
ndarray.dtype        int64
ndarray.itemsize     8
ndarray.strides      (72, 24, 8)


# <font color="yellow"> pandas </font>

In [None]:
# 흔히 RDB(Relational DatabBase)에 사용하는 행과 열로 이루어진 구조의 데이터를 다루는 데 특화된 라이브러리이다.
# pandas하면 pandas.DataFrame만을 생각하고 동일시 하는데, 그렇게 생각하면 데이터 전처리하는 데 큰 오류를 범한다.
# 왜냐면? pandas.DataFrame의 특정 열을 추출하면 pandas.Series 타입으로 나오기 때문이다.
# 또 numpy의 ndarray를 pandas.Series에 대입하여 값을 바꾸기도 한다.

# 그리고 spark에도 DataFrame이라는 자료형이 있다. pyspark.sql.DataFrame 이라는 자료형이다.
# 그러니까 데이터를 다루기 전 정확한 라이브러리의 모듈과 자료형을 이해하고 써야 한다.
# 그렇지 않으면 여러 플랫폼을 같이 쓸 때, 코드 상의 혼돈을 초래할 수 밖에 없다.

# 정확히 자료형을 이해해야 그 객체 안에 있는 메서드를 도큐먼트에서 찾아서 활용할 수 있고, 그러면 인터넷에 남이 쓴 레퍼런스 볼 일이 적어진다.
# 인터넷에 있는 레퍼런스는 정확한 게 아닌 게 상당히 많다.
# 도큐먼트 보는 건 프로그래밍을 하는 사람에게 선택이 아니라 필수사항이다.

## 테스트 데이터 불러오기

In [15]:
iris = sns.load_dataset("iris")
iris = iris[:5].copy()

|       |       | Column Index 0 | Column Index 1 | Column Index 2 | Column Index 3 | Column Index 4 |
|:-----:|:-----:| :------------------:|:-----------:|:------------:|:-----------:|:-------:|
|  |index  | sepal_length      | sepal_width | petal_length | petal_width | species |
| Row Index 0 | 0     | 5.1      | 3.5 | 1.4 | 0.2 | setosa |
| Row Index 1 | 1     | 4.9      | 3.0 | 1.4 | 0.2 | setosa |
| Row Index 2 | 2     | 4.7      |3.2  | 1.3 | 0.2 | setosa|

## <font color="pink"> Row Index </font>

In [16]:
# 데이터프레임의 인덱스는 기본적으로 row의 인덱스를 말한다.
print("# index values : ", iris.index)

# row index의 타입은 pandas.core.indexes.range.RangeIndex 이다.
print(type(iris.index))

"""
class RangeIndex(Index):

    Immutable Index implementing a monotonic integer range.

    RangeIndex is a memory-saving special case of an Index limited to representing
    monotonic ranges with a 64-bit dtype. Using RangeIndex may in some instances
    improve computing speed.

    This is the default index type used
    by DataFrame and Series when no explicit index is provided by the user.

    Parameters
    ----------
    start : int (default: 0), range, or other RangeIndex instance
        If int and "stop" is not given, interpreted as "stop" instead.
    stop : int (default: 0)
    step : int (default: 1)
    dtype : np.int64
        Unused, accepted for homogeneity with other index types.
    copy : bool, default False
        Unused, accepted for homogeneity with other index types.
    name : object, optional
        Name to be stored in the index.
"""

print("\n", iris)
# name 파라미터에서 볼 수 있듯이, index에 이름을 지정할 수도 있다.

# index values :  RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>

    sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [17]:
# range와 같이 start가 0에서 시작하며, stop, step에 있다.
print(iris.index)

RangeIndex(start=0, stop=5, step=1)


### 최고의 개발자들이 만드는 변화 

In [18]:
# 그런데, 0~4 사이의 인덱스에서 중간인 3을 드랍하면 어떻게 될까?
index_drop_iris: pd.core.indexes.numeric.Int64Index  = iris.drop(3).index
index_drop_iris

# 타입이 Int64Index로 바껴 버렸다. (pandas 패키지의 core 폴더 안의 indexes 폴더 안의 numeric 모듈 안의 Int64Index)

Int64Index([0, 1, 2, 4], dtype='int64')

In [20]:
# 그렇다고 항상 타입이 바뀌지는 않는다. 마지막 인덱스인 4를 드랍하면, 그래도 RangeIndex의 start, stop, step이 성사되어 타입이 유지된다.
# start부터 stop까지 step의 간격이 유지되면 타입은 변하지 않는다.
iris.drop(4).index

RangeIndex(start=0, stop=4, step=1)

In [21]:
# ★★★ 근런데 pandas.Int64Index는 pandas 1.4.0 버전에서 앞으로 deprecated 될 예정이라는 말과 함께 NumericIndex를 권장한다. 내 판다스 버전은 1.5.3 이다. ★★★
# https://pandas.pydata.org/pandas-docs/version/1.5/reference/api/pandas.Int64Index.html
# 지금은 사라졌지만, 대체되는 NumericIndex 클래스의 소스 코드를 겨우 찾았다. Int64Index/UInt64Index/Float64Index를 통합시켜 버린 것 같다.

Index = object # 상속받는 모듈이 없어서 Error를 막기 위해 임시로 최상위 클래스인 object로 두었다.

class NumericIndex(Index):
    """
    Immutable numeric sequence used for indexing and alignment.

    The basic object storing axis labels for all pandas objects.
    NumericIndex is a special case of `Index` with purely numpy int/uint/float labels.

    .. versionadded:: 1.4.0

    Parameters
    ----------
    data : array-like (1-dimensional)
    dtype : NumPy dtype (default: None)
    copy : bool
        Make a copy of input ndarray.
    name : object
        Name to be stored in the index.

    Attributes
    ----------
    None

    Methods
    -------
    None

    See Also
    --------
    Index : The base pandas Index type.
    Int64Index : Index of purely int64 labels (deprecated).
    UInt64Index : Index of purely uint64 labels (deprecated).
    Float64Index : Index of  purely float64 labels (deprecated).

    Notes
    -----
    An NumericIndex instance can **only** contain numpy int64/32/16/8, uint64/32/16/8 or
    float64/32/16 dtype. In particular, ``NumericIndex`` *can not* hold Pandas numeric
    dtypes (:class:`Int64Dtype`, :class:`Int32Dtype` etc.).
    """

    pass

In [None]:
# 변화가 끝이 아니다. 1.4.x 버전에서 앞으로 NumericIndex으로 대체한다고 했다가
# 2.0.x 버전에서는 전혀 보이질 않고, pandas.Index로 바꿔 놓았다. 참.. 변화가 빠르다. 그래도 이런 부분들을 다 외울 필요는 없다.
# https://pandas.pydata.org/docs/reference/api/pandas.Index.html

class Index(IndexOpsMixin, PandasObject):
    """
    .. versionchanged:: 2.0.0 
        
        Changed in version 2.0.0: Index can hold all numpy numeric dtypes (except float16). Previously only int64/uint64/float64 dtypes were accepted.

    """
    pass

# pandas.Int64Index는 pandas 1.5.x 버전까지만 사용가능하다. 하지만 stable 버전이 2.0.0 버전이니 1.x 버전도 좀 지나면 쓰지 않고 pandas.Index로 이제는 바뀔 것이다.

# 재미있는 요소다. 다시 한번 말하지만 이런 부분을 외울 필요는 없다. 프로그래밍에 감이 잡히면, 프로그래밍이 암기가 아니라 이해하고 활용하는 영역이라는 걸 깨닫게 된다.
# 유사하게 Spark를 써보면 알겠지만, 2.X 버전부터는 1.X에서 따로 놀던 SQLContext, HiveContext, SparkContext를 합친 SparkSession이라는 통합된 Entry Point를 만들어 놓았다.
# 이처럼 프로그래밍에서는 사용시 흩어진 요소들을 뭉치고 하나로 만들기도 한다.

# 중요한 건 그 기반에 되는 CS 요소를 이해하는 것. 여전히 pandas.Index는 docstring에는 NumericIndex와 똑같은 설명을 적어두었다.
# Immutable sequence used for indexing and alignment. (인덱싱 및 정렬에 사용되는 불변 시퀀스)
# 불변 객체이고, indexing이 가능다는 성질은 여전히 남아 있다. 달라진 건 object와 float64, signed/unsiged int64를 합쳐 놓았다는 것이다.
# 그리고 float16을 제외시켜 버렸다는 사실과 함께.

# 플랫폼이든 프로그래밍이든 CS를 잘 알아야 변화에 빠르게 적응할 수 있다.
# 그것이 되면 도큐먼트를 통해 변화를 캐치하고, 본질은 변하지 않는 다는 걸 알게 된다.
# 그 본질이 변하게 될 경우 최소한 Major Version의 변화라도 나타날 것이다.

In [23]:
iris.index[0] = 11111
# 보다시피 Immutable(불변)이며, 인덱스의 element를 변경하려면 (TypeError: Index does not support mutable operations)가 난다.

TypeError: Index does not support mutable operations

### <font color="greenyellow"> ★ What is Default Row Index ? </font>

In [24]:
# 데이터를 소스에서 처음 읽을 때, index의 default 타입은 pandas.core.indexes.range.RangeIndex 이다.
# pandas.core.indexes.range.RangeIndex는 2.x 버전에도 여전히 존재한다.
index_reset_iris: pd.core.indexes.range.RangeIndex = iris.reset_index(drop=True).index 
print(type(index_reset_iris))

# 보통 pandas.DataFrame.reset_index()로 데이터프레임의 인덱스를 초기화 시키는 데, 이때 RangeIndex(start=0, stop=(데이터프레임의 행수), step=1)로 들어간다는 것이다.
print(iris.reset_index(drop=True).index)

<class 'pandas.core.indexes.range.RangeIndex'>
RangeIndex(start=0, stop=5, step=1)


### 인덱스 내부 값을 바꾸고 싶다면?

In [25]:
# 아까 봤듯 index는 immutable하기 때문에 개별 요소를 바꿀 수 없다.
# 하지만, index 개수와 동일한 size의 container type의 객체를 넣으면 바뀐다. 
# 이는 RangeIndex에서 Int64Index로 바꾸겠다는 말이다.

iris.index = [ i for i in range(1_000, 1_000 + len(iris)) ]
iris.index

Int64Index([1000, 1001, 1002, 1003, 1004], dtype='int64')

## <font color="pink"> Column Index </font>

In [26]:
# 데이터프레임의 컬럼에도 인덱스로 접근할 수 있다.
# 다만 pandas.DataFrame.index 로 접근하는 게 아니라 pandas.DataFrame.columns로 접근하다
iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

In [27]:
# 컬럼의 타입은 pandas.core.indexes.base.Index이다.
# 보통 컬럼으로 문자열을 지정하기 때문에 문자열을 담을 수 있는 Index 객체가 온 것이다.
# 아까 pandas 2.X 버전부터는 pandas.Index가 NumericIndex를 대체한다고 했다.
# 근데, pandas.Index에는 default parameter로 dtype이 있는 데, default value가 object이다.
# 그래서 pandas.Index라는 객체는 signed/unsigned Int64, Float64, Object 타입의 element를 담을 수 있는 컨테이너라고 보면 된다.
type(iris.columns)

pandas.core.indexes.base.Index

### 그러면 컬럼에 문자열이 아닌 Integer를 넣으면 어떻게 될까?

In [60]:
# 컬럼의 값을 바꾸는 건 2가지 방법이 있다.

# (1) 많은 사람들이 쓰는 방법
iris.columns = [1, 2, 3, 4, 5]
print(iris, "\n")

# 컬럼 사이즈와 크기가 같은 Iterable한 객체를 대입하는 것이다.
# 많은 사람들이 list만 쓰겠지만, 사실 tuple도 되는 것 봐서 여러가지가 올 수 있을 것 같아서 document를 봤다.
# Index or array-like 란다. 당연히 array-like스러운 tuple, range에도 인덱스가 있으니 가능하다. 열거형인 Enum도 가능하다. Iterable한 객체이면 되는 듯 하다.
tuple_obj: Iterable[int] = (1, 2, 3, 4, 5)
iris.columns = tuple_obj
print(iris, "\n")

range_obj: Iterable[int] = range(0, 5, 1)
iris.columns = range_obj
print(iris, "\n")


# python >= 3.4
from enum import Enum

class EnumClass(Enum):
    ONE = 1
    TWO = 2
    THREE = 3
    FOUR = 4
    FIVE = 5

# 열거형 object가 Iterable한 객체인지 확인
if isinstance(EnumClass, Iterable):
    print("Enum을 상속받은 EnumClass는 Iterable한 객체!\n")

iris.columns = EnumClass
print(iris)

     1    2    3    4       5
0  5.1  3.5  1.4  0.2  setosa
1  4.9  3.0  1.4  0.2  setosa
2  4.7  3.2  1.3  0.2  setosa
3  4.6  3.1  1.5  0.2  setosa
4  5.0  3.6  1.4  0.2  setosa 

     1    2    3    4       5
0  5.1  3.5  1.4  0.2  setosa
1  4.9  3.0  1.4  0.2  setosa
2  4.7  3.2  1.3  0.2  setosa
3  4.6  3.1  1.5  0.2  setosa
4  5.0  3.6  1.4  0.2  setosa 

     0    1    2    3       4
0  5.1  3.5  1.4  0.2  setosa
1  4.9  3.0  1.4  0.2  setosa
2  4.7  3.2  1.3  0.2  setosa
3  4.6  3.1  1.5  0.2  setosa
4  5.0  3.6  1.4  0.2  setosa 

Enum을 상속받은 EnumClass는 Iterable한 객체!

   EnumClass.ONE  EnumClass.TWO  EnumClass.THREE  EnumClass.FOUR  \
0            5.1            3.5              1.4             0.2   
1            4.9            3.0              1.4             0.2   
2            4.7            3.2              1.3             0.2   
3            4.6            3.1              1.5             0.2   
4            5.0            3.6              1.4             0.2   

  EnumCl

In [30]:
# (2) 사람들이 잘 모르는 방법
iris.rename?

# iris.rename에 mapper(key: value) 타입의 객체를 넣어주어 하는 방법. 
# 보통 데이터프레임에는 axis가 있어 축을 설정 할 수 있다.

# 내가 이 방법을 좋아하는 raw 데이터가 있을 때 원본 데이터의 column명을 지정해서 바꾸기 때문이다.
# 위 columns는 바꿀 컬럼명의 순서가 일치해야 하지만, 얘는 매핑해서 넣기 때문에 순서가 뒤바껴도 상관없다.

# 두번째로 columns = [] 는 바꾸고 싶은 컬럼명이든 그렇지 않은 컬럼명이든 무조건 넣어서 container의 사이즈를 맞춰줘야 하는 데,
# 이 친구는 그렇게 하지 않아도 된다. 다음 예제를 보길.

[1;31mSignature:[0m
[0miris[0m[1;33m.[0m[0mrename[0m[1;33m([0m[1;33m
[0m    [0mmapper[0m[1;33m:[0m [1;34m'Renamer | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m:[0m [1;34m'Renamer | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcolumns[0m[1;33m:[0m [1;34m'Renamer | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0minplace[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mlevel[0m[1;33m:[0m [1;34m'Level'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0merrors[0m[1;33m:[0m [1;34m'IgnoreRaise'[0m [1;33m=[0m [1;34m'ignore'[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [

In [31]:
iris.rename({4: "d", 1: "a", 2: "b"}, axis=1)

Unnamed: 0,a,b,3,d,5
1000,5.1,3.5,1.4,0.2,setosa
1001,4.9,3.0,1.4,0.2,setosa
1002,4.7,3.2,1.3,0.2,setosa
1003,4.6,3.1,1.5,0.2,setosa
1004,5.0,3.6,1.4,0.2,setosa


# 마지막으로 나의 조언

In [32]:
# 데이터프레임 쓰면서 데이터프레임 객체 생성하고 자꾸 transform 시킨 객체를 새로운 객체에 대입하는 코드가 많다.

# 예를 들면 이런 코드 (1)
iris = iris.reset_index(drop=True)

# 예를 들면 이런 코드 (2)
iris = iris.drop_duplicates()

In [33]:
# 그런데 이런 코드 실행할 때마다 메모리 주소가 바뀐다. 
iris = iris.reset_index(drop=True)
print("메모리 주소 : ", id(iris))

iris = iris.reset_index(drop=True)
print("메모리 주소 : ", id(iris))

메모리 주소 :  2232523190768
메모리 주소 :  2232523182800


### 여기서 질문

In [34]:
pd.DataFrame.append?

"""
.. deprecated:: 1.4.0
    Use :func:`concat` instead. For further details see
    :ref:`whatsnew_140.deprecations.frame_series_append`
"""

'\n.. deprecated:: 1.4.0\n    Use :func:`concat` instead. For further details see\n    :ref:`whatsnew_140.deprecations.frame_series_append`\n'

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mDataFrame[0m[1;33m.[0m[0mappend[0m[1;33m([0m[1;33m
[0m    [0mself[0m[1;33m,[0m[1;33m
[0m    [0mother[0m[1;33m,[0m[1;33m
[0m    [0mignore_index[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mverify_integrity[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0msort[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'DataFrame'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Append rows of `other` to the end of caller, returning a new object.

.. deprecated:: 1.4.0
    Use :func:`concat` instead. For further details see
    :ref:`whatsnew_140.deprecations.frame_series_append`

Columns in `other` that are not in the caller are added as new columns.

Parameters
----------
other : DataFrame or Series/dict-like object, or list of these
    The data to append.
ig

In [None]:
# pd.DataFrame.append가 왜 deprecated 됬을 까?
# 이유는 copy 때문이다. pd.DataFrame.append는 내부적으로 dataframe을 복제(copy)하여 행을 추가해서 반환하는 함수이다.

# 이게 무슨 말이나면, 순간적이긴 하나 heap이랑 stack의 영역에 데이터프레임이 두 개 생긴다는 것이다.
# 당연히 지금은 작은 데이터로도 잘 돌아가니 문제 없어 보이는 데, 만약 데이터가 크면 어떨 까?
# 만약 5G 짜리 데이터프레임이 순간적으로 하나 더 생기면 당신의 컴퓨터는 감당할 수 있는 가?

## etc : 5G vs 5GiB  ~ 차이가 있습니다. 알아두시면 좋습니다. 

In [None]:
# 이전에 썼던 데이터프레임을 재반복 사용한다면 상관없다.
# 그런데 보통 전처리 과정은 DAG(Directed Acyclic Graph) 형태로 비순환 그래프로 처리하기 때문에
# 이전에 사용했던 객체를 메모리에서 할당해제하거나 같은 메모리를 계속 사용하게 만들어줘야 한다.

In [35]:
pd.concat?

# pd.concat은 데이터프레임을 병합할 때 copy 옵션을 줘서 새로운 데이터프레임을 만드는 게 아닌, 기존 데이터프레임을 그대로 붙일 수 있다.
# 물론 그대로 붙이기 때문에 두 데이터프레임을 담은 변수에 변화가 일어나지 않게 유의해야 할 것이다.

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mconcat[0m[1;33m([0m[1;33m
[0m    [0mobjs[0m[1;33m:[0m [1;34m'Iterable[NDFrame] | Mapping[HashableT, NDFrame]'[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mjoin[0m[1;33m:[0m [1;34m'str'[0m [1;33m=[0m [1;34m'outer'[0m[1;33m,[0m[1;33m
[0m    [0mignore_index[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mkeys[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mlevels[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mverify_integrity[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0msort[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool'[

In [36]:
# 데이터프레임을 쓴다면 code를 이렇게 쓰는 것을 추천한다.
iris.reset_index(drop=True, inplace=True)
iris.drop_duplicates(inplace=True)
# inplace 옵션이 있다면 추가해서 True를 주어라. 대부분 default value로 False가 지정 되어 있을 것이다.

In [39]:
# 위와 같은 방식으로 쓰면
iris = iris.reset_index(drop=True)
iris = iris.drop_duplicates()
# 이렇게 다시 변수에 할당하는 코드 안 쓰고 적용된다. 코드도 훨씬 간결해진다.

# drop() method를 호출해서 어차피 index만 초기화 할 껀데, 뭐하러 객체의 memory address를 바꿀 껀가?
# 물론 iris = iris.reset_index(drop=True) 이 까지는 원래 변수에 재 할당을 하니 기존의 memory address를 참조하는 변수가
# 다른 memory address를 참조하게 되어 기존 메모리가 할당 해제되어 큰 문제는 없겠다.

# 그런데
iris2 = iris.reset_index(drop=True)
iris3 = iris2.drop_duplicates()
# 이렇게 transform을 주면서 매번 새로운 변수를 생성하여 할당하면
# heap, stack 메모리 관리를 제대로 못하는 코드이기 때문에 메모리가 쌓여 OOM(Out Of Memory) 에러가 발생한다.

# 결론 DataFrame 클래스 내부의 메서드 중에 inplace 옵션이 있다면 적극 활용하자.
# 음.. pd.Series, loc/iloc, apply function을 설명하고 싶지만 글이 길어져서 각자 잘 공부하리라 믿는다.