# ![title](https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg)

`pandas`는 데이터 분석/조작 도구를 제공하는 오픈소스 Python 패키지다.
특히 **관계형(Relational)** 구조를 가지는 데이터를 보다 쉽고 직관적으로 사용할 수 있도록 빠르고 유연하며 표현력이 뛰어난 기능을 다양하게 제공한다.

> pandas로 다루기 적합한 데이터들은 다음과 같다.
- SQL 테이블 또는 Excel 스프레드시트에서와 같은 유형의 테이블 형식 데이터
- 정렬 및 정렬되지 않은 시계열(time series) 데이터
- 행 및 열 레이블이 있는 임의의 행렬 데이터
- 기타 모든 형태의 관찰/통계 데이터 세트

# <font color="blue">pandas 특징</font>

- 핵심 기능이 Cython 코드를 통해 조정되어 매우 빠른 성능을 나타낸다.
- 두 가지 기본 데이터 구조인 Series(1차원) 및 DataFrame(2차원)을 지원하며, 이는 금융, 통계, 사회 과학 및 엔지니어링 등 많은 영역에서 대부분의 일반적인 사용 사례를 처리할 수 있다.
- R과 결합해서 R DataFrame으로 사용할 수 있다.
- NumPy 기반으로 구축되어 데이터 사이언스 분야의 다른 라이브러리와 연동/결합해서 사용하기 쉽도록 고안되어 있다.

# <font color="blue">pandas 주요 기능</font>

- 누락된 데이터(missing data, missing value)를 쉽게 처리할 수 있다.
- 크기 가변성: 기존의 객체에 같은 차원 또는 더 높은 차원의 객체를 쉽게 적용시킬 수 있고, 또한 새로운 열을 삽입하거나 기존 열을 삭제하는 것도 쉽게 가능하다.
- 자동 및 명시적 데이터 정렬: 레이블(label)을 부여해서 데이터를 명시적으로 정렬하거나, 계산을 통해 자동으로 데이터를 정렬하는 기능을 제공한다.
- 데이터 집계 및 변환을 위해 데이터 세트에 대해 분할-적용-결합 작업을 수행 하는 강력하고 유연한 기능별 그룹화 기능을 제공한다.
- 다른 Python 및 NumPy 데이터 구조를 가지는 데이터를 쉽게 불러올 수 있다.
- 레이블 또는 데이터 기반의 인덱싱, 슬라이싱 기능을 제공하며 하위 데이터 세트 집합을 쉽게 생성할 수 있다.
- 데이터 세트의 병합 및 결합, 분리와 분할이 직관적이다.
- 기존 데이터 세트를 유연하게 재구성하거나 피벗 형태를 취할 수 있다.
- 각 축에 대해 계층적 레이블을 지정할 수 있다.
- CSV, Excel, HDF5 파일 및 데이터베이스에서 데이터를 불러오거나 저장할 수 있다.
- 시계열 관련 기능: 날짜 범위 생성 및 빈도 변환, 창 통계 이동, 날짜 이동 및 지연 등.

# <font color="blue">pandas 불러오기</font>

pandas는 일반적으로 pd라는 별칭으로 불러온다.

In [None]:
import pandas as pd

print(pd.__version__)

# <font color="blue">pandas에서 사용하는 자료 구조</font>

pandas에서는 다음과 같은 자료 구조를 사용한다.

*   시리즈(Series)
*   데이터프레임(DataFrame)

## <font color="green">1. 시리즈(Series)</font>

시리즈는 1차원 배열과 유사하게 사용할 수 있다.

list 등의 객체를 전달하여 시리즈 객체를 생성할 수 있다.

In [None]:
num_list = [2, 3, 5, 7, 11]
sr = pd.Series(num_list)

print(sr)
print(type(sr))

list 내 각각의 요소에 대해서 인덱스가 0부터 차례대로 부여되어 시리즈 객체를 출력할 때 자동으로 표시된다.

혹은 인덱스를 직접 입력할 수도 있다.

In [None]:
menu_list = ["토스트", "제육볶음", "치킨"]
index_list = ["아침", "점심", "저녁"]
sr = pd.Series(menu_list, index_list)

print(sr)

인덱스나 값만 추출할 수도 있다.

In [None]:
print(sr.index)
print(sr.values)
# print(type(sr.values))

## <font color="green">2. 데이터프레임(DataFrame)</font>

데이터프레임은 2차원 배열과 유사하게 사용할 수 있다.

중첩 list 등의 객체를 전달하여 데이터프레임 객체를 생성할 수 있다.

In [None]:
nums = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
df = pd.DataFrame(nums)

print(df)
print(type(df))

마찬가지로 list 내 각각의 요소에 대해서 인덱스가 0부터 차례대로 부여되어 시리즈 객체를 출력할 때 자동으로 표시된다.

또한 인덱스를 직접 입력할 수도 있다.

In [None]:
menu = [["토스트", "시리얼", "스크램블드에그"], ["제육볶음", "칼국수", "육개장"], ["치킨", "삼겹살", "라면"]]
index = ["아침", "점심", "저녁"]
columns = ["월", "화", "수"]
df = pd.DataFrame(menu, index, columns)

print(df)

인덱스나 값만 추출할 수도 있다.

In [None]:
print(df.index)
print(df.columns)
print(df.values)
# print(type(df.values))

# <font color="blue">데이터 조회 및 처리</font>

In [None]:
import numpy as np
import pandas as pd

arr = np.random.randint(100, size=(10, 10))
df = pd.DataFrame(arr, index=list("ABCDEFGHIJ"), columns=list("abcdefghij"))
display(df)

## <font color="green">간략한 데이터 조회</font>

### df.컬럼명

컬럼의 라벨을 이용해서 특정 열을 선택할 수 있다.

데이터프레임 객체를 생성할 때 컬럼명에 대한 요소 또한 생성되기 때문에 변수를 호출하듯이 사용할 수 있다.

In [None]:
df.a
print(type(df.a))

### df.head(), df.tail()

위(아래)에서부터 n개의 행을 선택한다.

숫자를 전달하지 않으면 5개의 행을 선택한다.

In [None]:
df.head(2)

In [None]:
df.tail(3)

In [None]:
df.head()

In [None]:
df.tail()

## <font color="green">인덱싱, 슬라이싱</font>

In [None]:
display(df)

### 기본적인 인덱싱과 슬라이싱

**열**의 라벨을 이용해서 **인덱싱**을 할 수 있다.

In [None]:
df["a"] # df.a

**행**의 라벨을 이용해서 **슬라이싱**을 할 수 있다.

이 때, 파이썬의 일반적인 슬라이싱과 다르게 마지막 요소까지 범위에 포함된다.

In [None]:
df["A":"C"]

열의 순서를 이용해서 인덱싱을 할 수 **없다.**

In [None]:
# df[0]

하지만 행의 순서를 이용해서 슬라이싱은 할 수 있다.

이 때는 파이썬의 일반적인 슬라이싱 문법과 동일하다.

In [None]:
df[0:3]

### df.at, df.iat

라벨 또는 인덱스를 이용해서 특정 위치의 데이터를 가져온다.

In [None]:
df.at["B", "c"]

In [None]:
df.iat[4, 4]

### df.loc, df.iloc

행과 열을 지정하여 데이터를 선택할 수 있다.

*   df.loc[[행], [열]] : 행과 열의 라벨을 이용해서 데이터를 선택한다.
*   df.iloc[[행], [열]] : 행과 열의 인덱스를 이용해서 데이터를 선택한다.

In [None]:
print(df.loc["A", "a"])
print(df.iloc[9, 9])

여러 개의 행과 열을 지정할 수도 있다.

연속되지 않는 행과 열을 지정하거나 중복해서 지정할 수도 있다.

In [None]:
df.loc[["E", "C", "A"], ["c", "c", "c"]]

슬라이싱을 사용할 수 있다.

df.loc의 경우, 인덱스명으로 슬라이싱을 하며 또한 슬라이싱 범위에 end 오프셋이 포함된다.

df.iloc의 경우, 일반적인 슬라이싱 문법과 동일하다.

In [None]:
df.loc["A":"E", "f":"j"]

In [None]:
df.iloc[0:5:2, 5:10:2]

인덱싱과 슬라이싱을 함께 사용할 수도 있다.

In [None]:
df.loc[["H", "I"], ::2]

In [None]:
df.loc["E":"J", ["a", "b", "c", "c", "b", "a"]]

In [None]:
df.iloc[[3, 5, 7], 1::3]

## <font color="green">데이터 수정</font>

In [None]:
display(df)

인덱싱과 슬라이싱을 통해 선택된 위치에 값을 대입하여 데이터를 수정할 수 있다.

In [None]:
df["e"] = df["f"] = 0
df

In [None]:
df["E":"F"] = 0
df

In [None]:
df.at["E", "e"] = 1
df

In [None]:
df.iat[5, 5] = -1
df

In [None]:
df.loc["D":"G":3, "d":"g":3] = -2
df

In [None]:
df.iloc[-3:, -3:] = -3
df

## <font color="green">데이터 정렬</font>

In [None]:
display(df)

### df.sort_values()

행 또는 열을 하나 지정해서 값에 따라 정렬한다.

기본 값은 열을 지정해서 값에 따라 오름차순으로 정렬하는 것이다.

In [None]:
df.sort_values("a")

행을 지정해서 정렬하려면 axis 인수에 1 또는 "columns"를 전달한다.

In [None]:
df.sort_values("A", "columns")

내림차순으로 정렬하려면 ascending 인수에 False를 전달한다.

In [None]:
df.sort_values("b", axis=0, ascending=False)

### df.sort_index()

행 또는 열에 대해 정렬한다.

기본 값은 인덱스를 오름차순으로 정렬하는 것이다.

컬럼명에 따라 내림차순으로 정렬하려면 axis 인수와 ascending 인수를 설정한다.

In [None]:
df.sort_index(axis="columns", ascending=False)

# <font color="blue">데이터프레임 조작</font>

## <font color="green">새로운 행 또는 열 추가</font>

In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2, 3], [7, 8, 9], [13, 14, 15]], index=list("ABC"), columns=list("abc"))
display(df)

### 리스트를 이용해서 새로운 행 또는 열 추가

리스트를 이용해서 기존의 데이터프레임 객체에 새로운 행 또는 열을 추가할 수 있다.

새로 추가할 라벨을 통해 인덱싱 후 추가할 리스트를 대입한다.

In [None]:
df.loc["D"] = [19, 20, 21] # 새로운 행 추가
df

In [None]:
df["d"] = [4, 10, 16, 22] # 새로운 열 추가
df

### 다차원 배열을 이용해서 새로운 행 또는 열 추가

리스트를 이용해서 새로운 행 또는 열을 추가하는 것과 동일하다.

In [None]:
df.loc["E"] = np.array([25, 26, 27, 28]) # 새로운 행 추가
df

In [None]:
df["e"] = np.array([5, 11, 17, 23, 29]) # 새로운 열 추가
df

### 시리즈를 이용해서 새로운 행 또는 열 추가

시리즈 객체를 이용해서 기존의 데이터프레임 객체에 새로운 행 또는 열을 추가할 수 있다.

이때 시리즈 객체가 *같은 인덱스를 갖도록 작성*한다.

인덱스를 정확하게 명시하지 않으면 추가되는 열의 요소는 NaN으로 초기화된다.

In [None]:
df.loc["F"] = pd.Series(np.array([31, 32, 33, 34, 35]), index=df.columns) # 새로운 행을 추가하기 때문에 시리즈 객체의 인덱스를 기존의 데이터프레임 객체의 컬럼명으로 지정한다.
df

In [None]:
df["f"] = pd.Series(np.array([6, 12, 18, 24, 30, 36]), index=df.index) # 새로운 열을 추가하기 때문에 시리즈 객체의 인덱스를 기존의 데이터프레임 객체의 인덱스로 지정한다.
df

In [None]:
sr = pd.Series(np.array([11, 22, 33, 44, 55, 66]))
print(sr)

In [None]:
df.loc["G"] = sr
display(df)

## <font color="green">행/열의 변경</font>

In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
display(df)

### df.reindex()

새로운 행 또는 열을 추가한다.

추가되는 행 또는 열의 요소는 NaN으로 초기화된다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [None]:
df.reindex(index=[0, 1, 2, 3], columns=[0, 1, 2, 3])

행 또는 열의 순서를 임의로 섞을 수도 있다.

또한 기존에 존재하던 라벨을 일부러 생략해서 행 또는 열을 제거할 수도 있다.

In [None]:
df.reindex(index=[0, 1], columns=[1, 0])

기본적인 인덱싱을 할 때, 조건식을 전달할 수 있다.

열 또는 데이터프레임 전체에 대해 조건식을 작성할 수 있다.

In [None]:
df

In [None]:
df[df.a > 50] # df의 a열의 요소 중 50을 초과하는 값이 있을 때 해당 값의 행을 선택

In [None]:
df[df % 2 == 0] # df의 모든 요소 중 짝수를 선택

## <font color="green">행/열의 삭제</font>

In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], index=["A", "B"], columns=["a", "b"])
display(df)

### df.drop()

행 또는 열을 삭제한다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [None]:
df.drop("B") # 행 삭제

In [None]:
df.drop("b", axis=1) # 열 삭제

## <font color="green">데이터프레임 간의 조합</font>

In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], index=["A", "B"], columns=["a", "b"])
display(df)

### df.append()

새로운 행을 추가한다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [None]:
df2 = df.copy()
df3 = df.append(df2)
df3

ignore_index 인자의 값을 True로 전달하여 추가할 객체의 인덱스를 무시할 수 있다.

In [None]:
df4 = df.append(df2, ignore_index=True)
df4

### pd.concat()

두 개 이상의 데이터프레임 객체를 연결한다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [None]:
df3 = pd.concat([df, df2])
df3

인덱스의 라벨이 일치할 때, axis 인자를 전달하여 행의 방향으로 추가할 수도 있다.

In [None]:
df3 = pd.DataFrame([[5, 6], [7, 8]], index=["A", "B"], columns=["c", "d"])
df4 = pd.concat([df, df3], axis=1)
df4

# <font color="blue">통계</font>

In [None]:
import numpy as np
import pandas as pd
arr = np.random.randint(100, size=(10, 10))
df = pd.DataFrame(arr, index=list("ABCDEFGHIJ"), columns=list("abcdefghij"))
display(df)

### df.describe()

각 열에 대한 주요 통계 수치들을 산출한다.

In [None]:
df.describe()

### df.count()

각 행/열에 대한 요소의 개수를 산출한다.

In [None]:
df["k"] = pd.Series(np.arange(10), list("ABCDEFGHIJ"))
display(df)

In [None]:
df.count(axis=1) # 각 행의 요소의 개수

In [None]:
df.count() # 각 열의 요소의 개수

### df.mean()

각 행/열에 대한 평균을 산출한다.

In [None]:
df.mean(axis=1) # 각 행의 평균

In [None]:
# arr = df.to_numpy()
arr = np.array(df)
arr.mean()

In [None]:
df.mean() # 각 열의 평균

### df.std()

각 행/열에 대한 표준편차를 산출한다.

In [None]:
df.std(axis=1) # 각 행의 표준편차

In [None]:
df.std() # 각 열의 표준편차

### df.min(), df.max()

각 행/열에 대한 최소/최대값을 산출한다.

In [None]:
df.min(axis=1) # 각 행의 최소값

In [None]:
df.min() # 각 열의 최소값

In [None]:
df.max(axis=1) # 각 행의 최대값

In [None]:
df.max() # 각 열의 최대값

# <font color="blue">고급 문법</font>

## <font color="red">Boolean Indexing</font>

In [None]:
import numpy as np
import pandas as pd

a = np.arange(10).reshape((10, 1))
b = np.random.randint(10, size=(10, 1))
c = np.random.randint(2, size=(10, 1))
d = np.concatenate([a, b, c], axis=1)
df = pd.DataFrame(d, columns=["a", "b", "c"])

df

데이터프레임 객체에 산술, 비교 연산을 시도할 수 있다.

연산은 numpy의 다차원 배열처럼 각각의 요소에 대해서 적용된다.

In [None]:
df + 100 # 데이터프레임 객체를 구성하는 모든 요소에 대해서 각각 100씩 더함

In [None]:
df % 2 == 0 # 데이터프레임 객체를 구성하는 모든 요소에 대해서 짝수 여부를 판별

특정 열을 선택해서 연산을 시도할 수도 있다.

열을 선택하면 시리즈 객체로 반환되기 때문에 연산 결과도 시리즈 객체로 나타난다.

In [None]:
df["a"] > 4 # a열에 존재하는 모든 값들에 대해서 4보다 큰지 비교

1. 시리즈 객체의 요소들이 *논리값*을 가지고,
2. 시리즈 객체와 데이터프레임 객체의 **index**가 일치할 때,
3. 시리즈 객체를 데이터프레임 객체에 전달해서 특정 행만 취할 수 있다,

In [None]:
df[df["a"] > 4] # a열에 대해서 4보다 큰 값을 가지는 행만 선택

In [None]:
df[df["b"] % 2 == 0] # b열에 대해서 짝수인 값을 가지는 행만 선택

In [None]:
df[df["c"] == 1] # c열에 대해서 1인 값을 가지는 행만 선택

&, |, ~ 기호를 이용해서 and, or, not 연산 또한 가능하다.

In [None]:
df[(df["a"] < 5) & (df["b"] < 5)] # a, b열의 값이 모두 5보다 작은 행을 선택

In [None]:
df[(df["a"] % 2 != 0) | (df["b"] % 2 == 0)] # a열의 값이 홀수이거나 b열의 값이 짝수인 행을 선택

In [None]:
df[~(df["c"] == 0)] # c열의 값이 0이 아닌 행을 선택

boolean indexing을 만족하는 행에 대해 값을 할당할 수도 있다.

In [None]:
df[df["c"] == 0] = -1 # c열의 값이 0인 모든 행에 -1을 대입
df

조건을 만족하는 모든 행의 값이 변경되기 때문에, 특정 열의 값만 변경하고 싶으면 해당 열을 먼저 선택한 후 처리하면 된다.

In [None]:
df["c"][df["c"] == -1] = 0
df

## <font color="green">결측값 처리</font>

현실 세계에서 실제로 수집한 빅 데이터를 이용하고자 할 때, 종종 일부 데이터가 누락되는 경우가 있다.

이러한 데이터를 결측값(missing data, missing value)라고 하며, 통계학 혹은 기계 학습 등의 분야에서 분석을 진행하기 전, 결측값을 어떻게 처리하느냐에 따라 결과가 달라지기도 한다.

Pandas에서는 결측값을 다루기 위한 몇 가지 방법을 제공한다.

In [None]:
import numpy as np
import pandas as pd

arr = np.random.randint(0, 10, (5, 5))
df = pd.DataFrame(arr, index=list("ABCDE"), columns=list("abcde"))

# 결측값 설정
# pandas에서는 결측값을 numpy의 nan으로 설정한다.
# df.at["B", "c"] = np.nan # int 자료형으로 선언된 데이터프레임에, at 속성을 이용해서 float 값을 대입할 수 없음.
df.at["B", "c"] = None
df.loc["C", "c"] = np.nan
df.loc["D", "e"] = None

df

### df.isna(), df.notna()

데이터가 NaN인지 아닌지 검사한다.

In [None]:
checked_df = df.isna()
checked_df

In [None]:
checked_df2 = df.notna()
checked_df2

### df.dropna()

행 또는 열에 대해 결측값을 제거한다.

기본 설정은 결측값이 존재하는 행을 모두 제거하는 방식이다.

In [None]:
cleared_row_df = df.dropna()
cleared_row_df

axis 인수를 설정하면 결측값이 있는 열을 선택해서 제거할 수 있다.

In [None]:
cleared_col_df = df.dropna(axis=1)
cleared_col_df

특정 행 또는 열만 선택해서 결측값이 있으면 제거할 수 있다.

In [None]:
# 열을 선택해서 결측값이 있는 행 제거
a = df[["c", "d", "e"]].dropna()
a

In [None]:
# 행을 선택해서 결측값이 있는 열 제거
b = df["B":"D"].dropna(axis=1)
b

### df.fillna()

결측값을 다른 값으로 채운다.

In [None]:
filled_df = df.fillna(-9999)
filled_df

method 인자를 전달하면 열 기준 바로 앞/뒤에 있는 값으로 채울 수도 있다.

method 인자의 값이 "pad" 혹은 "ffill"이면 앞의 값으로 채우고, "backfill" 혹은 "bfill"이면 뒤의 값으로 채운다.

In [None]:
# filled_df2 = df.fillna(method="pad")
# filled_df2 = df.fillna(method="ffill")
filled_df2 = df.ffill()
filled_df2

In [None]:
# filled_df3 = df.fillna(method="backfill")
# filled_df3 = df.fillna(method="bfill")
filled_df3 = df.bfill()
filled_df3

limit 인자를 이용해서 채워 넣을 행의 수를 제한할 수도 있다.

In [None]:
# filled_df4 = df.fillna(method="ffill", limit=1)
filled_df4 = df.ffill(limit=1)
filled_df4

In [None]:
# filled_df5 = df.fillna(method="bfill", limit=1)
filled_df5 = df.bfill(limit=1)
filled_df5

## <font color="green">데이터프레임 재구조화</font>

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(16).reshape(4, 4), index=list("ABCD"), columns=list("abcd"))

year_df = pd.DataFrame([2019, 2020, 2019, 2020], index=list("ABCD"), columns=["year"])
class_df = pd.DataFrame(list("AABB"), index=list("ABCD"), columns=["class"])

df = pd.concat([year_df, class_df, df], axis=1)
df

### pd.pivot_table(), df.pivot()

![title](https://pandas.pydata.org/docs/_images/reshaping_pivot.png)

두 개의 열을 선택해서 각각 index와 column으로 사용하는 피벗 테이블을 생성한다.

In [None]:
df

In [None]:
pivot1 = pd.pivot_table(df, index="year", columns="class")
pivot1

In [None]:
pivot2 = df.pivot(index="class", columns="year")
pivot2

### pd.melt

![title](https://pandas.pydata.org/docs/_images/reshaping_melt.png)

열을 분해해서 열의 이름과 해당 열에 존재하는 데이터를 모두 표시해준다.

In [None]:
df

In [None]:
melted_df = pd.melt(df)
melted_df

id_vars 인수를 통해 분해하지 않을 열을 선택할 수 있다.

In [None]:
melted_df2 = pd.melt(df, id_vars=["year", "class"])
melted_df2

value_vars 인수를 통해 분해할 열만 선택할 수도 있다.

변수 열의 이름과 값 열의 이름 또한 설정할 수 있다.

In [None]:
melted_df3 = pd.melt(df, value_vars=["d"], var_name="Col. d", value_name="values of d")
melted_df3

### df.stack(), sr.unstack()

![title](https://pandas.pydata.org/docs/_images/reshaping_stack.png)

stack 함수는 데이터프레임을 시리즈로 변환한다.

In [None]:
df

In [None]:
stacked_sr = df.stack()
stacked_sr

![title](https://pandas.pydata.org/docs/_images/reshaping_unstack.png)

unstack 함수를 통해 시리즈를 데이터프레임으로 되돌릴 수도 있다.

In [None]:
unstacked_df = stacked_sr.unstack()
unstacked_df

## <font color="green">그룹화</font>

groupby 함수를 통해 특정 인덱스 또는 열을 기준으로 같은 데이터끼리 묶어서 처리할 수 있다.

일반적으로 groupby 함수 단독으로 사용하지 않고, 주로 통계 관련 함수와 함께 사용한다.

In [None]:
df = pd.DataFrame({
    "A": np.random.randint(2, size=100),
    "B": np.random.randint(3, size=100),
    "C": np.random.rand(100),
    "D": np.random.randn(100)
})
df

In [None]:
df.groupby("A").sum()

In [None]:
df.groupby("B").sum()

In [None]:
df.groupby(["A", "B"]).mean()

데이터프레임 재구조화 관련 함수와 함께 사용하면 다양한 동작이 가능하다.

In [None]:
df.melt().groupby("variable").mean()

In [None]:
df.stack().groupby(level=1).mean()

In [None]:
df.mean()

## <font color="green">기타</font>

### 다중 색인

index, columns를 중첩 형태로 전달해서 다중 색인을 설정할 수 있다.

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(16).reshape(4, 4),
                  index=[[1, 1, 2, 2], ["IT", "일본어", "IT", "일본어"]],
                  columns=[["100기", "100기", "101기", "101기"], ["오전", "오후", "오전", "오후"]])

df

In [None]:
df["100기"]

In [None]:
df["100기", "오후"]

In [None]:
df.loc[1, "100기"]

In [None]:
df.loc[1, "100기"]["IT":"IT"]
# df.loc[1, "100기"].loc["IT"]

In [None]:
swapped_df = df.swaplevel(0, 1)
swapped_df

In [None]:
swapped_df2 = df.swaplevel(0, 1, axis=1)
swapped_df2

### 축 재설정

In [None]:
import pandas as pd

df = pd.DataFrame({
    "idx1": [1, 1, 2, 2],
    "idx2": list("ABAB"),
    "data1": range(4),
    "data2": range(5, 9)
})
df

In [None]:
# index를 column으로써 데이터 추가
reset_df = df.reset_index()
reset_df

In [None]:
# 열을 index로 설정
set_df = df.set_index(["idx1", "idx2"])
set_df

In [None]:
# index 이름 재설정
set_df2 = set_df.set_axis([["C", "C", "D", "D"], [3, 4, 5, 6]])
set_df2

In [None]:
# columns 이름 재설정
set_df3 = set_df2.set_axis(["input", "output"], axis=1)
set_df3

### 시각화

plot 함수를 쓰게 되면, pandas 모듈 내부에서 파이썬 시각화 라이브러리인 matplotlib을 호출하여 그래프로 표시해준다.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
rand_sr = pd.Series(np.random.rand(100)) # 0 이상 1 미만의 임의의 실수 100개 생성
rand_sr.plot()
plt.show()

In [None]:
randn_sr = pd.Series(np.random.randn(100)) # 평균 0 표준편차 1인 임의의 실수 100개 생성
randn_sr.plot()
plt.show()

In [None]:
random_df = pd.DataFrame({
    "rand": rand_sr,
    "randn": randn_sr
})
random_df.plot()
plt.show()

In [None]:
x = np.linspace(0, 2 * np.pi, 10)
sin_cos_df = pd.DataFrame({
    "sin": np.sin(x),
    "cos": np.cos(x)
})
sin_cos_df.plot()
plt.show()

시각화와 관련하여 자세한 내용은 matplotlib을 확인하자.