# Pandas

# * R이 좋아요? Python이 좋아요?
- R보다 Python이 머신러닝 등의 학습이 더 쉬움
    - scikit-learn 패키지안에 왠만한 머신러닝은 다 들어가 있음
    - 특히 딥러닝 쪽으로 넘어가면 프로그래밍 쪽 능력이 더 강해야하며, 메이저한 딥러닝 언어 중 R에서 출발한 언어는 없음
        - Tensorflow: python 기반 (Google)
        - PyTorch: Lua 기반 torch를 python으로 wrapping한 것. (Facebook)
        - Caffe: C++ 기반 (Berkeley AI Research (BAIR))
- R보다 Python이 표준 프로그래밍 언어로 웹(Django, Flask)이나 GUI 프로그램(PyQt등) 등 더욱 다양한곳에서 활용 가능
- R보다 Python이 성능이 더 좋음

## 1. What is pandas
- Python ANd Data AnalysiS or PANel Data AnalysiS
- 이름에서 알 수 있듯이 데이터 분석을 위한 오픈소스 python 라이브러리
- numpy패키지를 기반으로 사용하고 있기 때문에 성능이 좋고, 사용하기가 아주 편리하다(numpy 문법과 python 문법 동시 만족).
- Panel data: 다차원의 구조화된 데이터(계량경제학)
- 워스 맥키니(Wes Mckinney)가 2009년 금융데이터 분석을 위하여 설계 및 개발 시작
- R과 Matlab 사용자가 접근하기 용이(DataFrame과 data.frame이 유사함)

## 2. pandas 자료구조

- Series(1차원), DataFrame(2차원), Panel(3차원)
- Series: list와 비슷하지만, 각자 index를 따로 가지고 있다.
- DataFrame: 가장 많이 쓰게 되는 표 형식의 2차원 데이터 타입. pandas가 익숙해지면 excel보다 낫다.
- Panel: 3D label array, 여러 데이터프레임을 포함

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'0.22.0'

### 2.1. Series

- 값(Value)과 값에 대한 인덱스(index)로 이루어진 1차원 배열 모습의 자료구조이며, 각 요소는 NumPy의 데이터 타입
    - Series는 다른 1차원 배열과 비교하여 간과하기 쉽지만 기본적으로는 이 자체가 하나의 column을 구성하는 자료형이라고 생각하면 혼동을 줄일 수 있다.
    - 숫자 인덱스와 (label) 인덱스의 두 종류가 있다.
    - 어떻게 보자면 키와 값을 갖는 딕셔너리와 매우 유사하지만, 시리즈는 순서가 있으며 같은 자료형만을 받을 수 있다.
- numpy.ndarray의 서브클래스
    - ndarray와 같이 하나의 Series 객체의 값은 동일한 데이터 타입
- 리스트, 딕셔너리 혹은 다른 시리즈로 부터 생성 (거꾸로 2차원의 DataFrame에서 한줄(column이던 row던)을 가져오면 Series)

#### 2.1.1. Series 생성

- from list

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [4]:
print(s.values)
print(s.index)

[ 1.  3.  5. nan  6.  8.]
RangeIndex(start=0, stop=6, step=1)


- from dictionary

In [5]:
s = pd.Series({'A': 7, 'B': 0, 'C': -3, 'D': 8})
s

A    7
B    0
C   -3
D    8
dtype: int64

#### 2.1.2 인덱스

In [6]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=['A', 'B', 'C', 'D', 'E', 'F'])
s

A    1.0
B    3.0
C    5.0
D    NaN
E    6.0
F    8.0
dtype: float64

In [7]:
print(s.values)
print(s.index)

[ 1.  3.  5. nan  6.  8.]
Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')


- index 변경

In [8]:
s.index = (0, 1, 2, 3, 4, 5)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [9]:
s.reset_index(inplace = True, drop=True)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [10]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=['A', 'B', 'C', 'D', 'E', 'F'])
s

A    1.0
B    3.0
C    5.0
D    NaN
E    6.0
F    8.0
dtype: float64

#### * 숫자인덱스 vs (라벨)인덱스

In [11]:
s[0], s[3], s[5]

(1.0, nan, 8.0)

In [12]:
s['A'], s['D'], s['F']

(1.0, nan, 8.0)

In [13]:
s.A, s.D, s.F

(1.0, nan, 8.0)

In [14]:
s.0 # 문자형 숫자 라벨의 경우에도 이런식으로 사용은 불가능

SyntaxError: invalid syntax (<ipython-input-14-14d52086dfb5>, line 1)

- with fancy indexing

In [16]:
s[[0, 3, 5]]

A    1.0
D    NaN
F    8.0
dtype: float64

#### 2.1.3. 슬라이싱

In [17]:
s[0:3] # 숫자 인덱싱은 보통 파이썬 문법과 동일하게 마지막 인덱스 포함 안함

A    1.0
B    3.0
C    5.0
dtype: float64

In [18]:
s['A':'D'] # (라벨) 인덱싱은 마지막 라벨까지 포함

A    1.0
B    3.0
C    5.0
D    NaN
dtype: float64

#### 2.1.4. 필터링, 연산 그리고 할당
- numpy와 동일

In [19]:
s = pd.Series({'A':7, 'B':0, 'C':-3, 'D':8})

s[s > 0]

A    7
D    8
dtype: int64

In [20]:
s * 10

A    70
B     0
C   -30
D    80
dtype: int64

#### 2.1.5. Series 간 연산
- 같은 인덱스를 가진 자료끼리 연산한다

In [21]:
s1 = pd.Series({'A':7, 'B':0, 'C':-3, 'D':8})
s2 = pd.Series(list(range(4)))
s1+s2

A   NaN
B   NaN
C   NaN
D   NaN
0   NaN
1   NaN
2   NaN
3   NaN
dtype: float64

In [22]:
s1 = pd.Series({'A':7, 'B':0, 'C':-3, 'D':8})
s2 = pd.Series(list(range(4)), index=['A', 'B', 'C', 'D'])
s1+s2

A     7
B     1
C    -1
D    11
dtype: int64

#### 2.1.6. 데이터 처리
- NaN 데이터를 처리할 수 있음
- fillna(): 특정 값으로 nan을 채움
- dropna(): nan인 값을 제거

#### 2.1.7. 시리즈에 이름정해주기
- Series는 나중에 DataFrame에서의 컬럼이 되며, 이때 컬럼명이 바로 series의 이름이다.

In [23]:
s

A    7
B    0
C   -3
D    8
dtype: int64

In [24]:
s.name = 'number'
s

A    7
B    0
C   -3
D    8
Name: number, dtype: int64

### * 하나의 셀에서 여러 값을 출력하기 위한 주피터(IPython) 옵션 설정

In [25]:
a=3;b=2
a
b

2

In [26]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [27]:
a=3;b=2
a
b

3

2

### 2.2. DataFrame(기초)
- Index와 Value와 Column으로 이루어진 데이터 타입
- Column은 Series
- 엑셀의 테이블 형태로 구성, Column별로 같은 데이터 타입(즉, DataFrame안에서는 컬럼별로 다양한 데이터 타입이 존재할 수 있다.)
- DataFrame은 바로 뒤에 붙는 대괄호 안에는 무조건 컬럼명이 들어가서 '컬럼'을 선택하게 되며, row를 선택하고 싶은 경우에는 .iloc혹은 .loc을 이용하여야 함 (여기서 loc이나 iloc뒤에는 대괄호 []가 붙는것을 유념하자! 괄호() 아님!)
    - .loc[행(라벨), 열(라벨)]
    - .iloc[행(숫자), 열(숫자)]

### * 엑셀이랑 다를바가 무어냐!
- 엑셀은 아주 간편하고 직관적 버뜨,
    - 대용량 데이터를 다루는데 명확한 한계
    - 고수준의 통계와 자동화가 어려움
    - 변수가 매우 적다면 엑셀로도 버텨볼 만 하지만
    - 독립변수가 대여섯개인 다중회귀분석만 들어가도 한계가 명확
- 그리고 실제로 프로그래밍의 단계를 살펴보아도,
    - 엑셀의 경우
        - 적용하고 싶은 내용 구상
        - 엑셀에 어떻게 적용을 시켜주어야 할 지 고민(Converting)[만약 엑셀 함수로 적용되지 않으면? VBA 등장]
        - 엑셀 구현
    - Pandas의 경우 문법만 숙지하고 있다면 머릿속에서 구상한 내용을 바로 구현해 낼 수 있다.(사실 숙지되지 않았어도 구글갓님이 계시고, 왠만한 기능은 다 구현되어 있어 믿고 찾으면 된다.)

#### 2.2.1. DataFrame 생성하기

- 1) 기본 생성(values, index, columns 설정하여 만들기)

In [28]:
values = [[10, 20, 30], [40, 50, 60], [70, 80, 90]]
index = [1,2,3]
columns = ['A', 'B', 'C']
df = pd.DataFrame(values, index=index, columns=columns)
df

Unnamed: 0,A,B,C
1,10,20,30
2,40,50,60
3,70,80,90


- 2) 부분 생성(세가지 요소 중 하나를 만든 뒤 나머지를 추가하는 방법) 혹은 insert

- 2-1) 먼저 DataFrame을 만든 뒤(어떤 column 들이 있는지 정의 후) 거기에 값을 추가하는 방법

In [29]:
df = pd.DataFrame(columns=['name', 'grade'])
df

Unnamed: 0,name,grade


- column단위 추가

In [30]:
df['name'] = ['James', 'Michael']
df['grade'] = ['A+', 'B']
df['addr'] = ['dorm', 'house'] # 없는 컬럼명에 값을 추가하면, 새로 입력한 컬럼명의 컬럼이 생성되며 값이 입력됨.
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house


- row단위 추가

In [31]:
df = df.append([{'name': 'Adam', 'grade': 'C', 'addr': 'dorm'}], ignore_index=True) # dataframe간의 추가에도 사용 가능
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm


In [32]:
# 리스트로 추가
df.loc[len(df)] = ['Rachel', 'F', 'house']
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm
3,Rachel,F,house


In [33]:
# 딕셔너리로 추가
df.loc[len(df)] = {'name': 'MJ', 'grade': 'F', 'addr': 'house'}
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm
3,Rachel,F,house
4,MJ,F,house


- 2-2) dictionary로 만들기

- list in dictionary(column 단위 생성, 가장 많이 쓰임)

In [34]:
dic = {'name': ['James', 'Michael', 'Adam', 'Rachel'], 'grade': ['A+', 'B', 'C', 'F'], 'addr': ['dorm', 'house', 'dorm', 'house']}
dic

{'addr': ['dorm', 'house', 'dorm', 'house'],
 'grade': ['A+', 'B', 'C', 'F'],
 'name': ['James', 'Michael', 'Adam', 'Rachel']}

In [35]:
df = pd.DataFrame(dic) # dictionary에는 순서가 없어서 컬럼명은 a-z정렬되서 나온다.
df

Unnamed: 0,addr,grade,name
0,dorm,A+,James
1,house,B,Michael
2,dorm,C,Adam
3,house,F,Rachel


In [36]:
df = pd.DataFrame(dic, columns=['name', 'grade', 'addr']) # 컬럼 순서지정
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm
3,Rachel,F,house


- dictionary in list(row 단위 생성)

In [37]:
lst = [
    {'name': 'James', 'grade': 'A+', 'addr': 'dorm'},
    {'name': 'Michael', 'grade': 'B', 'addr': 'house'},
    {'name': 'Adam', 'grade': 'C', 'addr': 'dorm'},
    {'name': 'Rachel', 'grade': 'F', 'addr': 'house'},
]
lst

[{'addr': 'dorm', 'grade': 'A+', 'name': 'James'},
 {'addr': 'house', 'grade': 'B', 'name': 'Michael'},
 {'addr': 'dorm', 'grade': 'C', 'name': 'Adam'},
 {'addr': 'house', 'grade': 'F', 'name': 'Rachel'}]

In [38]:
df = pd.DataFrame(lst)
df

Unnamed: 0,addr,grade,name
0,dorm,A+,James
1,house,B,Michael
2,dorm,C,Adam
3,house,F,Rachel


- 2-3) column명 재설정
    - .rename(columns={컬럼명:바꿀컬럼명,...})
    - index도 가능하지만, 하나하나 선택해서 바꿀일이 없음

In [39]:
df

Unnamed: 0,addr,grade,name
0,dorm,A+,James
1,house,B,Michael
2,dorm,C,Adam
3,house,F,Rachel


In [40]:
df.rename(columns={'name':'names'})

Unnamed: 0,addr,grade,names
0,dorm,A+,James
1,house,B,Michael
2,dorm,C,Adam
3,house,F,Rachel


- 2-4) index 수정 방법
    - 먼저 pd.DataFrame으로 생성할 때 index파라미터에 index값을 주거나
    - 나중에 .index로 index 값을 불러온 뒤 새로 대입한다

In [41]:
df = pd.DataFrame(dic, columns=['name', 'grade', 'addr'], index=['한놈', '두식이', '석삼', '너구리'])
df

Unnamed: 0,name,grade,addr
한놈,James,A+,dorm
두식이,Michael,B,house
석삼,Adam,C,dorm
너구리,Rachel,F,house


In [42]:
df = pd.DataFrame(dic, columns=['name', 'grade', 'addr'])
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm
3,Rachel,F,house


In [43]:
df.index = ['한놈', '두식이', '석삼', '너구리']
df

Unnamed: 0,name,grade,addr
한놈,James,A+,dorm
두식이,Michael,B,house
석삼,Adam,C,dorm
너구리,Rachel,F,house


index 리셋하기
- drop=True - 새롭게 생성되는 인덱스 컬럼을 삭제(기본 False. False시에는 인덱스가 리셋되며, 과거 인덱스 기록은 새로운 컬럼으로 추가됨)
- inplace=True - 함수를 사용하는 객체 자체로 변경(새로운 데이터프레임 리턴하지 않음)

In [44]:
df.reset_index(inplace=True, drop=True)
df

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm
3,Rachel,F,house


In [45]:
df['score'] = [100, 90, 70, 40]
df

Unnamed: 0,name,grade,addr,score
0,James,A+,dorm,100
1,Michael,B,house,90
2,Adam,C,dorm,70
3,Rachel,F,house,40


In [46]:
df['cnt'] = 1 # 브로드캐스팅도 작동한다
df

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1
2,Adam,C,dorm,70,1
3,Rachel,F,house,40,1


#### 2.2.2. Dataframe 확인

- 1) 구성요소 확인
    - .values
    - .columns
    - .index

In [47]:
df.values
df.columns
df.index

array([['James', 'A+', 'dorm', 100, 1],
       ['Michael', 'B', 'house', 90, 1],
       ['Adam', 'C', 'dorm', 70, 1],
       ['Rachel', 'F', 'house', 40, 1]], dtype=object)

Index(['name', 'grade', 'addr', 'score', 'cnt'], dtype='object')

RangeIndex(start=0, stop=4, step=1)

- 2) dtype확인

In [48]:
df.dtypes
# 각 column과 그 column의 데이터 타입이 출력된다.
# dataframe은 column단위 series가 모여 만들어진 것이기 때문에 dataframe은 항상 column단위가 기본이 된다.

name     object
grade    object
addr     object
score     int64
cnt       int64
dtype: object

- 3) dataframe 확인
    - .head(2): 처음 두행만 확인, 숫자 안쓸시 기본 5개
    - .tail(2): 마지막 두행만 확인, 숫자 안쓸시 기본 5개

In [49]:
df.head(2)

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1


In [50]:
df.tail(2)

Unnamed: 0,name,grade,addr,score,cnt
2,Adam,C,dorm,70,1
3,Rachel,F,house,40,1


#### 2.2.3. 선택

- 열단위 선택: 데이터프레임이름[컬럼이름]
- 행단위 선택: 데이터프레임이름.loc[행 인덱스 라벨] or 데이터프레임이름.iloc[행 숫자 인덱스]
- 데이터 선택: 데이터프레임이름.loc[행 인덱스 라벨, 컬럼이름] or 데이터프레임이름.iloc[행 숫자 인덱스, 컬럼 숫자 인덱스]

In [51]:
df

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1
2,Adam,C,dorm,70,1
3,Rachel,F,house,40,1


In [52]:
# 열선택
df.grade, df['grade'], type(df['grade']) # 한 컬럼은 series

(0    A+
 1     B
 2     C
 3     F
 Name: grade, dtype: object, 0    A+
 1     B
 2     C
 3     F
 Name: grade, dtype: object, pandas.core.series.Series)

In [53]:
# 행선택
df.loc[3], type(df.loc[3]) # 한 row도 series

(name     Rachel
 grade         F
 addr      house
 score        40
 cnt           1
 Name: 3, dtype: object, pandas.core.series.Series)

# * 잠깐, 한 series 안에는 같은 자료형만 들어갈 수 있다며?
- 근데 string과 int가 어떻게 같이 들어가지?
- 'object'형 dtype

In [54]:
df.loc[3,'grade']

'F'

- 슬라이싱도 가능(.loc, .iloc에서만 가능)

In [55]:
df

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1
2,Adam,C,dorm,70,1
3,Rachel,F,house,40,1


In [56]:
df.loc[0:3] # 시리즈에서와 같이 라벨 인덱스 슬라이싱은 끝 문자까지 포함됨

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1
2,Adam,C,dorm,70,1
3,Rachel,F,house,40,1


In [57]:
df.loc[0:3, 'name':'addr']

Unnamed: 0,name,grade,addr
0,James,A+,dorm
1,Michael,B,house
2,Adam,C,dorm
3,Rachel,F,house


- Fancy indexing 가능

In [58]:
df.loc[[0, 2, 3], ['name', 'addr']]

Unnamed: 0,name,addr
0,James,dorm
2,Adam,dorm
3,Rachel,house


In [59]:
df[['name', 'grade']]

Unnamed: 0,name,grade
0,James,A+
1,Michael,B
2,Adam,C
3,Rachel,F


- boolean indexing 가능

In [60]:
df[df['name'] == 'James']

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1


In [61]:
df[(df['name'] == 'James') | ((df['score'] > 30) & (df['addr'] == 'house'))]

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1
3,Rachel,F,house,40,1


#### 2.2.4. 연산
- 기본적으로 컬럼별, element wise연산
- 즉, series연산과 동일(각 컬럼 = series)
- 컬럼과 컬럼의 사칙연산은 series끼리의 같은 index연산으로 볼 수 있다.
    - 연산시 새로운 series를 리턴

In [62]:
df

Unnamed: 0,name,grade,addr,score,cnt
0,James,A+,dorm,100,1
1,Michael,B,house,90,1
2,Adam,C,dorm,70,1
3,Rachel,F,house,40,1


In [63]:
df['avg_score'] = df['score']/df['cnt']
df

Unnamed: 0,name,grade,addr,score,cnt,avg_score
0,James,A+,dorm,100,1,100.0
1,Michael,B,house,90,1,90.0
2,Adam,C,dorm,70,1,70.0
3,Rachel,F,house,40,1,40.0


- apply
    - 연산과정에서 가장 많이 쓰는 메서드
    - 단순 사칙연산이 아닌 내가 새롭게 정의한 함수를 컬럼 내 모든 데이터에 적용할 때 사용
    - 리턴결과는 series이다.

In [64]:
def score_scaler(x):
    return x/100
df['score'].apply(score_scaler)
df

0    1.0
1    0.9
2    0.7
3    0.4
Name: score, dtype: float64

Unnamed: 0,name,grade,addr,score,cnt,avg_score
0,James,A+,dorm,100,1,100.0
1,Michael,B,house,90,1,90.0
2,Adam,C,dorm,70,1,70.0
3,Rachel,F,house,40,1,40.0


In [65]:
def score_scaler(x):
    return x/100
df['scaled_score'] = df['score'].apply(score_scaler)
df

Unnamed: 0,name,grade,addr,score,cnt,avg_score,scaled_score
0,James,A+,dorm,100,1,100.0,1.0
1,Michael,B,house,90,1,90.0,0.9
2,Adam,C,dorm,70,1,70.0,0.7
3,Rachel,F,house,40,1,40.0,0.4


In [66]:
df['scaled_score'] = df['score'].apply(lambda x: x/100)
df

Unnamed: 0,name,grade,addr,score,cnt,avg_score,scaled_score
0,James,A+,dorm,100,1,100.0,1.0
1,Michael,B,house,90,1,90.0,0.9
2,Adam,C,dorm,70,1,70.0,0.7
3,Rachel,F,house,40,1,40.0,0.4


#### 2.2.6 삭제
- .drop(): 기본 row(axis=0), axis=1로 column 삭제 가능, 원본데이터를 건드리지 않고 삭제된 결과 반환
- del: 메모리 상 object 삭제하는 keyword, 컬럼 제거 가능(column은 한개의 series이므로 제거가능-row제거 불가), 원본데이터 삭제

In [67]:
df.drop([2,3]) # 2, 3 row 제거, axis=0 생략

Unnamed: 0,name,grade,addr,score,cnt,avg_score,scaled_score
0,James,A+,dorm,100,1,100.0,1.0
1,Michael,B,house,90,1,90.0,0.9


In [68]:
df.drop(["grade", "score"], axis=1) # grade, score column 제거

Unnamed: 0,name,addr,cnt,avg_score,scaled_score
0,James,dorm,1,100.0,1.0
1,Michael,house,1,90.0,0.9
2,Adam,dorm,1,70.0,0.7
3,Rachel,house,1,40.0,0.4


In [69]:
del df['cnt']
df

Unnamed: 0,name,grade,addr,score,avg_score,scaled_score
0,James,A+,dorm,100,100.0,1.0
1,Michael,B,house,90,90.0,0.9
2,Adam,C,dorm,70,70.0,0.7
3,Rachel,F,house,40,40.0,0.4


#### 2.2.5. 기타 유용한 메서드들

- 1) 통계량(숫자 columns에 한함)
    - .describe(): 요약통계량
    - .sum(): 컬럼의 합
    - .size(): 컬럼의 크기(길이)
    - .agg(): 해당 컬럼 종합 결과, min=최소값, mean=평균값 등

In [70]:
df.describe()

Unnamed: 0,score,avg_score,scaled_score
count,4.0,4.0,4.0
mean,75.0,75.0,0.75
std,26.457513,26.457513,0.264575
min,40.0,40.0,0.4
25%,62.5,62.5,0.625
50%,80.0,80.0,0.8
75%,92.5,92.5,0.925
max,100.0,100.0,1.0


- 2) info
    - .info(verbose=True)

In [71]:
df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
name            4 non-null object
grade           4 non-null object
addr            4 non-null object
score           4 non-null int64
avg_score       4 non-null float64
scaled_score    4 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 272.0+ bytes


- 3) 컬럼의 형 변환
    - .astype(): 컬럼의 형 변환
    - .to_numeric(): 숫자형 데이터로 형 변환

- 4) sort
    - .sort_index(): index로 정렬, 기본 오름차순
    - .sort_values(by='column'): column내 값으로 정렬, 기본 오름차순

In [72]:
df.sort_index(ascending=False)

Unnamed: 0,name,grade,addr,score,avg_score,scaled_score
3,Rachel,F,house,40,40.0,0.4
2,Adam,C,dorm,70,70.0,0.7
1,Michael,B,house,90,90.0,0.9
0,James,A+,dorm,100,100.0,1.0


In [73]:
df.sort_values(by='addr', ascending=False)

Unnamed: 0,name,grade,addr,score,avg_score,scaled_score
1,Michael,B,house,90,90.0,0.9
3,Rachel,F,house,40,40.0,0.4
0,James,A+,dorm,100,100.0,1.0
2,Adam,C,dorm,70,70.0,0.7


- 5) 축변환
    - .T: transpose

- 6) concat
    - 기본 세로결합(열방향 결합), axis=0
    - axis=1일 때 가로결합

- 7) groupby
    - 특정 컬럼의 중복되는 row를 합쳐 새로운 데이터 프레임을 만드는 방법

In [74]:
df.groupby("addr").size().reset_index(name="거주형태별 인원")

Unnamed: 0,addr,거주형태별 인원
0,dorm,2
1,house,2


In [75]:
df.groupby("addr")['score'].agg(["min", "max", "mean"])

Unnamed: 0_level_0,min,max,mean
addr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
dorm,70,100,85
house,40,90,65


#### 2.2.6. merge (= sql join)
- 두개 이상의 데이터 프레임을 합쳐서 합쳐진 데이터를 출력하는 방법
- 아래와 같이 이름과 주소 데이터가 있는 데이터 프레임과 이름과 인구가 있는 데이터 프레임을 합쳐서 이름과 주소와 인구가 있는 데이터 프레임을 만드는 방법

---

<center>이름과 주소</center>

|Name|Addr|
|---|---|
|A|Seoul|
|B|Pusan|
|C|Incheon|

---

<center>이름과 인구</center>

|Name|Population|
|---|---|
|A|1000|
|B|300|
|C|200|

---

<center>이름과 주소와 인구</center>

|Name|Addr|Population|
|---|---|---|
|A|Seoul|1000|
|B|Pusan|300|
|C|Incheon|200|

- pd.merge(df1, df2, how='left;right;inner;outer', on=[공통컬럼], left_on=[컬럼], right_on=[컬럼], left_index=True, right_index=True)

# 실습

In [76]:
import random
# 랜덤한 이름 출력하는 함수
def get_name():
    names = ["Adam", "Alan", "Alex", "Alvin", "Andrew",
             "Anthony", "Arnold", "Jin", "Billy", "Anchal"]
    return random.choice(names)

# 랜덤한 나이 출력
def get_age(start=20, end=40):
    return np.random.randint(start, end + 1)

## UserID, Name, Age를 컬럼으로 갖는 8개 row를 갖는 user_df라는 데이터프레임을 만드시오
- 중복된 이름은 있으면 안된다.

In [77]:
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])
for idx in range(1, 9):
    name = get_name()

    # 중복 이름 제거
    while name in list(user_df["Name"]):
        name = get_name()

    # 데이터 name_df insert
    data = {"Name": name, "UserID": idx, "Age": get_age()}
    user_df.loc[len(user_df)] = data

user_df

Unnamed: 0,UserID,Name,Age
0,1,Anthony,25
1,2,Jin,20
2,3,Anchal,22
3,4,Arnold,23
4,5,Alan,21
5,6,Alex,20
6,7,Alvin,38
7,8,Adam,30


## ID와 Money를 컬럼으로 갖는 데이터프레임 생성

In [78]:
money_df = pd.DataFrame(columns=["ID", "Money"])

for idx in range(15):
    money = np.random.randint(1, 21) * 1000
    data = {"Money": money, "ID": random.randint(1, 8)}
    money_df.loc[len(money_df)] = data

money_df

Unnamed: 0,ID,Money
0,4,4000
1,8,10000
2,2,18000
3,2,19000
4,5,8000
5,2,10000
6,8,19000
7,5,1000
8,4,17000
9,8,2000


## money_df의 유일값 확인

In [79]:
ids = money_df["ID"].unique()
ids.sort()
ids

array([1, 2, 3, 4, 5, 8], dtype=object)

## money_df를 기준 데이터프레임으로 ID 컬럼을 기준 컬럼으로 merge
- user_df 데이터프레임의 UserID 컬럼을 ID로 변경
- merge시에 같은 이름의 컬럼이 존재하며, 이 컬럼을 기준으로 merge할 경우 따로 기준 컬럼을 명시해주지 않아도 됨

In [80]:
user_df.rename(columns={"UserID": "ID"}, inplace=True)
user_df

Unnamed: 0,ID,Name,Age
0,1,Anthony,25
1,2,Jin,20
2,3,Anchal,22
3,4,Arnold,23
4,5,Alan,21
5,6,Alex,20
6,7,Alvin,38
7,8,Adam,30


In [81]:
result_df = money_df.merge(user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,4,4000,Arnold,23
1,4,17000,Arnold,23
2,8,10000,Adam,30
3,8,19000,Adam,30
4,8,2000,Adam,30
5,2,18000,Jin,20
6,2,19000,Jin,20
7,2,10000,Jin,20
8,5,8000,Alan,21
9,5,1000,Alan,21


## Name으로 Groupby하고 Money 데이터를 합친 사람별 전체 돈을 합친 결과인 money_list 데이터 프레임을 만드시오

In [82]:
money_list = result_df.groupby("Name").sum()["Money"].reset_index()
money_list

Unnamed: 0,Name,Money
0,Adam,31000
1,Alan,47000
2,Anchal,15000
3,Anthony,20000
4,Arnold,21000
5,Jin,47000


In [83]:
money_list = result_df.groupby("Name").agg("sum").reset_index()[["Name", "Money"]]
money_list

Unnamed: 0,Name,Money
0,Adam,31000
1,Alan,47000
2,Anchal,15000
3,Anthony,20000
4,Arnold,21000
5,Jin,47000


## user_df와 money_list를 merge한 후 NaN값은 0으로 채운 결과를 result 데이터프레임에 저장

In [84]:
result = pd.merge(user_df, money_list, how='outer').fillna(value=0)
result

Unnamed: 0,ID,Name,Age,Money
0,1,Anthony,25,20000.0
1,2,Jin,20,47000.0
2,3,Anchal,22,15000.0
3,4,Arnold,23,21000.0
4,5,Alan,21,47000.0
5,6,Alex,20,0.0
6,7,Alvin,38,0.0
7,8,Adam,30,31000.0


In [85]:
result.dtypes

ID         int64
Name      object
Age        int64
Money    float64
dtype: object

## Money컬럼을 float에서 int로 변경

In [86]:
result["Money"] = result["Money"].astype("int")
result

Unnamed: 0,ID,Name,Age,Money
0,1,Anthony,25,20000
1,2,Jin,20,47000
2,3,Anchal,22,15000
3,4,Arnold,23,21000
4,5,Alan,21,47000
5,6,Alex,20,0
6,7,Alvin,38,0
7,8,Adam,30,31000


In [87]:
result.dtypes

ID        int64
Name     object
Age       int64
Money     int32
dtype: object

## data.pkl로 저장

In [88]:
import pickle
with open("data.pkl", "wb") as f:
    pickle.dump(result, f)