## 패키지 import

In [1]:
import pandas as pd

## DataFrame 객체 생성
* **`pd.DataFrame()`**
>* 주요 파라미터
>    * data
>        * 데이터프레임에 저장할 데이터
>        * list, dict, numpy배열, Series객체 등으로 생성
>    * index 
>        * 인덱스 라벨 지정
>        * 생략 시 RangeIndex(0, 1, 2, ...)
>    * columns
>        * 컬럼 라벨 지정
>        * 생략 시 RangeIndex(0, 1, 2, ...)
>    * dtype
>        * 데이터의 자료형 지정
>        * 지정하지 않으면 자동 판단
>    * copy
>        * 원본 데이터 복사할지 여부 지정
        

In [2]:
data = [100,50,30,10]
idx = ['A', 'B', 'O', 'AB']
s = pd.Series(data, 
              index = idx,
              name='혈액형별인원수')
display(s)
print('type:', type(s))
print('shape:', s.shape)


# ------------------------------------
# 위에서 만든 Series로 데이터프레임 생성
# diaplsy
# type 확인
# shape 확인
# ------------------------------------
df = pd.DataFrame(s)
display(df)
df.shape, df.ndim, type(df)

A     100
B      50
O      30
AB     10
Name: 혈액형별인원수, dtype: int64

type: <class 'pandas.core.series.Series'>
shape: (4,)


Unnamed: 0,혈액형별인원수
A,100
B,50
O,30
AB,10


((4, 1), 2, pandas.core.frame.DataFrame)

In [3]:
# ------------------
# 리스트로 데이터프레임 생성
# 인덱스라벨 : ['A', 'B', 'O', 'AB']
# 컬럼라벨 : ['혈액형별 인원수']
# ------------------

data = [100,50,30,10]
df = pd.DataFrame(data, 
                  index= ["A", "B", "O", "AB"],
                  columns=['혈액형별 인원수'])
display(df)

Unnamed: 0,혈액형별 인원수
A,100
B,50
O,30
AB,10


In [4]:
# ------------------
# 중첩 리스트로 데이터프레임 생성
# 인덱스라벨 : ['아빠', '엄마', '첫째', '둘째', '셋째']
# 컬럼라벨 : ['이름', '나이', '성별', '키', '혈액형']
# ------------------

data = [['김철수',45,'남',175,'A'],
        ['이영희',43,'여',168,'B'],
        ['김선우',13,'남',160,'A'],
        ['김지우',10,'여',140,'O'],
        ['김현우',7,'남',125,'AB'] 
        ]
idx = ['아빠', '엄마', '첫째', '둘째', '셋째']
columns = ['이름', '나이', '성별', '키', '혈액형']

df = pd.DataFrame(data, index=idx, columns=columns)
display(df)
df.shape, df.ndim, df.size

Unnamed: 0,이름,나이,성별,키,혈액형
아빠,김철수,45,남,175,A
엄마,이영희,43,여,168,B
첫째,김선우,13,남,160,A
둘째,김지우,10,여,140,O
셋째,김현우,7,남,125,AB


((5, 5), 2, 25)

In [5]:
# ------------------
# 딕셔너리로 데이터프레임 생성
# 인덱스라벨 : ['아빠', '엄마', '첫째', '둘째', '셋째']
# 컬럼라벨 : ['이름', '나이', '성별', '키', '혈액형']
# ------------------

data = {'이름':['김철수', '이영희', '김선우', '김지우', '김현우'],
     '나이':[45, 43, 13, 10, 7],
     '성별':['남', '여', '남', '여', '남'],
     '키':[175,168,160,140,125],
     '혈액형':['A', 'B', 'A', 'O', 'AB']}

idx = ['아빠', '엄마', '첫째', '둘째', '셋째']
df = pd.DataFrame(data, index=idx)
df


Unnamed: 0,이름,나이,성별,키,혈액형
아빠,김철수,45,남,175,A
엄마,이영희,43,여,168,B
첫째,김선우,13,남,160,A
둘째,김지우,10,여,140,O
셋째,김현우,7,남,125,AB


## index 재설정
* `df.reset_index()`
    * 인덱스라벨을 RangeIndex로 초기화 
* `df.set_index('컬럼')`
    * 특정 컬럼을 인덱스라벨로 지정

In [6]:
# ------------------------------------
#  인덱스라벨 이름 지정 : '역할'
#  인덱스라벨을 RangeIndex로 초기화
# ------------------------------------
df.index.name = "역할"
df.reset_index()

Unnamed: 0,역할,이름,나이,성별,키,혈액형
0,아빠,김철수,45,남,175,A
1,엄마,이영희,43,여,168,B
2,첫째,김선우,13,남,160,A
3,둘째,김지우,10,여,140,O
4,셋째,김현우,7,남,125,AB


In [7]:
# ------------------------------------
# 인덱스라벨을 RangeIndex로 초기화
# 기존 인덱스라벨은 제거
# ------------------------------------

df.reset_index(drop=True)

Unnamed: 0,이름,나이,성별,키,혈액형
0,김철수,45,남,175,A
1,이영희,43,여,168,B
2,김선우,13,남,160,A
3,김지우,10,여,140,O
4,김현우,7,남,125,AB


In [8]:
# ------------------------------------
# '이름'컬럼을 인덱스로 지정
# ------------------------------------
df.set_index("이름")

Unnamed: 0_level_0,나이,성별,키,혈액형
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
김철수,45,남,175,A
이영희,43,여,168,B
김선우,13,남,160,A
김지우,10,여,140,O
김현우,7,남,125,AB


In [9]:
# ------------------------------------
# 중첩인덱스 지정
# 역할, 이름
# ------------------------------------

# 인덱스가 리셋되면서 인덱스 라벨이 컬럼이 됨
df.index.name = "역할"
df = df.reset_index()

# 중첩인덱스 지정
df = df.set_index(["역할", "이름"])

In [10]:
# ------------------------------------
# 중첩인덱스 확인
# - 튜플로 지정됨
# ------------------------------------

df.index

MultiIndex([('아빠', '김철수'),
            ('엄마', '이영희'),
            ('첫째', '김선우'),
            ('둘째', '김지우'),
            ('셋째', '김현우')],
           names=['역할', '이름'])

In [20]:
# ------------------------------------
# 중첩인덱스 접근
# - 튜플로 접근
# ------------------------------------
display(df.loc[("셋째", "김현우")])
df.sort_index().loc[("아빠", "김철수"):]

나이       7
성별       남
키      125
혈액형     AB
Name: (셋째, 김현우), dtype: object

Unnamed: 0_level_0,Unnamed: 1_level_0,나이,성별,키,혈액형
역할,이름,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
아빠,김철수,45,남,175,A
엄마,이영희,43,여,168,B
첫째,김선우,13,남,160,A


## 인덱스라벨, 라벨컬럼라벨 변경
* `데이터프레임.rename({현재라벨:변경할라벨, ...})`
    * `axis=0` >>> 인덱스라벨 변경
    * `axis=1` >>> 컬럼라벨 변경

In [23]:
# ------------------
# 인덱스라벨 변경
# 아빠 --> 아버지
# 엄마 --> 어머니
# ------------------
df.rename({"아빠":"아버지", "엄마":"어머니"})


Unnamed: 0_level_0,Unnamed: 1_level_0,나이,성별,키,혈액형
역할,이름,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
아버지,김철수,45,남,175,A
어머니,이영희,43,여,168,B
첫째,김선우,13,남,160,A
둘째,김지우,10,여,140,O
셋째,김현우,7,남,125,AB


In [32]:
# ------------------
# 컬럼라벨 변경
# 나이 --> 연령
# ------------------
df.rename({"나이":"연령"}, axis=1)
df.rename(columns={"나이":"연령"})

Unnamed: 0_level_0,Unnamed: 1_level_0,연령,성별,키,혈액형
역할,이름,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
아빠,김철수,45,남,175,A
엄마,이영희,43,여,168,B
첫째,김선우,13,남,160,A
둘째,김지우,10,여,140,O
셋째,김현우,7,남,125,AB
