# 판다스 라이브러리 사용법 강좌
### (파이썬을 활용하는 데이터 과학을 위한)

- Nick McCullum, [The Ultimate Guide to the Pandas Library for Data Science in Python](https://www.freecodecamp.org/news/the-ultimate-guide-to-the-pandas-library-for-data-science-in-python/), [free code camp](https://www.freecodecamp.org), 2020-07-08.

![](https://www.freecodecamp.org/news/content/images/size/w2000/2020/07/pandas-logo.png)

## 1. 판다스 소개
- [Pandas](https://nickmccullum.com/advanced-python/pandas)는 Numpy를 기반으로 개발된 파이썬 라이브러리
- [Wes McKinney](https://wesmckinney.com/)는 재무 관련 전문가로서 자신의 작업에 활용할 목적으로 판다스를 개발함
- [라이브러리 웹 사이트](https://pandas.pydata.org/)에 따르면, <br>
  판다스는 "빠르고, 강력하고, 유연하며, 쉽게 사용할 수 있는, <br>
  오픈 소스 데이터 분석/처리 도구로서, <br>
  파이썬 프로그래밍 언어를 기반으로 개발되었음"
- Pandas는 "panel data"의 합성어
    - [패널 데이터](https://ko.wikipedia.org/wiki/패널데이터)는 종단 자료라고도 하는데, <br>
      여러 개체를 오랜 기간 동안 추적하여 측정한 데이터를 의미함
    - DataFrame 자료구조를 통하여 (엑셀 스프레드시트와 유사한) 표 형태의 데이터 처리 방법을 제공함
    - 이 지침서는 pandas 기본을 가르쳐서 데이터 중심의 파이썬 애플리케이션 개발에 활용하도록 함

<img src='https://courses.byui.edu/econ_150/econ_150_old_site/images/0-0_Math_Review_35.jpg' width='600' align='center' style='margin: 0px -50px;' />

[<img src='https://user-images.githubusercontent.com/10287629/87214869-83e59680-c36b-11ea-8a57-ab4448f804ef.png' width='600' align='center' style='margin: 0px 0px;' />](https://ourworldindata.org/owid-grapher)

- Pandas는 오픈 소스 라이브러리
    - 누구나 소스 코드를 열람 가능함
    - 누구나 (pull 요청을 통하여) 소스 코드에 대한 제안이 가능함
    - [https://github.com/pandas-dev/pandas](https://github.com/pandas-dev/pandas)
- Pandas 강점
    - Pandas는 (엑셀 스프레드시트와 유사하게) 이차원 데이터에 대한 작업을 위하여 만들어진 도구임
    - Numpy 라이브러리가 특별한 속성과 메소드를 가지는 array(배열)라는 내장 자료구조를 가지듯이,
    - Pandas 라이브러리는 DataFrame이라는 내장된 이차원 자료 구조를 가지고 있음

[목차로 돌아가기](#목차)

## 2. pd.Series()

- [pandas Series](https://nickmccullum.com/advanced-python/pandas-series/)는 판다스 라이브러리의 핵심 구성 요소
- pandas Series는 판다스 라이브러리에 포함된 특별한 유형의 자료구조
- pandas Series는 Numpy array와 유사하지만,
    - Numpy array에는 수치형 인덱스만을 지정할 수 있는 반면에,
    - pandas Series에는 이름을 지정한 인덱스나 datetime 인덱스를 지정할 수 있음

In [4]:
# 본 문서의 이후에서는 다음 두 사항이 이미 임포트 되었다고 가정하고 진행함
import numpy as np
import pandas as pd

- pandas Series 생성 방법

    1) pd.Series()에 리스트를 전달하여, 기본 정수형 인덱스를 지정한 Series 생성

    2) pd.Series()에 리스트를 전달하되, 레이블을 인덱스로 지정한 Series 생성

    3) pd.Series()에 사전을 전달하여, 키를 인덱스로 지정한 Series 생성

In [5]:
# pandas Series 생성을 위한 준비
labels = ['a', 'b', 'c']        # Series에 인덱스로 지정할 레이블
my_list = [10, 20, 30]          # Series에 저장할 데이터
arr = np.array([10, 20, 30])
d = {'a':10, 'b':20, 'c':30}
arr

array([10, 20, 30])

In [6]:
# 1) pd.Series()에 my_list를 전달하고, 기본 정수형 인덱스를 지정한 Series 생성
#    둘째 열은 우리가 전달한 리스트 my_list의 자료,
#    첫째 열은 데이터에 대한 인덱스
pd.Series(my_list)

0    10
1    20
2    30
dtype: int64

In [7]:
# 2) pd.Series()에 my_list를 전달하고, labels를 인덱스로 지정한 Series 생성
#    둘째 열은 우리가 전달한 리스트 my_list의 자료,
#    첫째 열은 레이블로 지정된 인덱스
#    레이블 인덱스를 지정하면, Series가 dictionary와 유사함을 알 수 있음
pd.Series(my_list, index=labels)

a    10
b    20
c    30
dtype: int64

In [8]:
# 레이블 인덱스를 지정한 Series에서는, 레이블 인덱스 대신에 수치 인덱스도 사용 가능함
Series = pd.Series(my_list, index=labels)
print(f"Series[0]: {Series[0]}, Series['a']: {Series['a']}")
print(Series[0], Series['a'])

Series[0]: 10, Series['a']: 10
10 10


In [9]:
# 3) pd.Series()에 사전 d를 전달하여, key를 인덱스로 지정한 Series 생성
pd.Series(d)

a    10
b    20
c    30
dtype: int64

- Pandas Series가 Numpy array보다 편리한 점
    - Numpy array에 저장되는 자료의 자료형은 단일 자료형으로 통일되어야 함
        - 모두 문자열, 모두 정수형, 또는 모두 논리형...
        - 단일 Numpy array에 문자열, 정수형 또는 논리형 등의 자료를 혼합하여 저장할 수 없음
    - pandas Series는 이러한 제약을 극복하여, 매우 유연함
        - 단일 pandas Series에 문자열, 정수형 또는 논리형 등의 자료를 혼합하여 저장할 수 있음
        - 심지어 단일 pandas Series에 파이썬 내장 함수도 저장할 수 있음

In [10]:
pd.Series(['apple', 3.14, True, 1])  # 여러 자료형을 혼합하여 저장 가능함

0    apple
1     3.14
2     True
3        1
dtype: object

In [11]:
pd.Series([sum, print, len])  # 함수 자체를 저장 가능함(문자열 표시 따옴표 없음!)

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

[목차로 돌아가기](#목차)

## 3. pd.Dataframe()

- Numpy에서는 벡터와 행렬을 제공함
    - 벡터는 일차원 Numpy array
    - 행렬은 이차원 Numpy array
- Pandas에서도 벡터와 행렬을 제공하며, Numpy보다 더 유연하고 강력함
    - 벡터에 해당하는 일차원 pandas Series
    - 행렬에 해당하는 이차원 pandas DataFrame
- Pandas DataFrame
    - 이차원 자료구조로서, 행과 열 모두에 레이블 지정이 가능함
    - 마이크로소프트 엑셀, 구글 시트 등의 스프레드시트와 유사함
    - pandas DataFrame의 예시, 아래에서는 이러한 데이터프레임을 생성하는 과정을 소개할 예정임
![df](https://user-images.githubusercontent.com/10287629/87275658-8f76c000-c519-11ea-84f5-af332ee8bdcc.png)

### 3.1 판다스 데이터 프레임 생성

In [12]:
# 일단 필요한 라이브러리 임포트
# (사실 한 번만 임포트하면 되고, 앞에서 이미 임포트 했으므로, 여기서는 불필요함)
import numpy as np
import pandas as pd

In [13]:
# 행과 열 레이블로 사용할 리스트 정의
rows = ['X', 'Y', 'Z']
cols = ['A', 'B', 'C', 'D', 'E']
print(f'rows: {rows}')
print(f'cols: {cols}')

rows: ['X', 'Y', 'Z']
cols: ['A', 'B', 'C', 'D', 'E']


In [14]:
# np.random.randint(): [최소값, 최대값) 범위의 균일 분포에서 정수 난수 한 개 생성
# np.random.rand():    [0, 1) 범위의 균일 분포에서 난수 행렬 생성
    ## 범위 표현할 때 대괄호[]로 하면 최소값과 최대값을 포함한단 뜻이고, 소괄호()로 하면 해당값은 포함안된다는 뜻이다.
    ## 즉, [0,1)은 0 ~ 0.999999... 까지를 의미하며 1은 포함이 되지 않는다.
# np.random.randn():   표준정규분포에서 난수 행렬 생성

# 표준정규분포는 평균이 0이고 표준편자가 1인 정규분포

# 난수 발생시키는 함수 random. 난수 발생기의 seed 값을 0으로 지정(이후 발생되는 난수 패턴이 고정되도록)
np.random.seed(0)

# 데이터로 사용할 넘파이 표준정규분포 난수 행렬 생성
# np.random.randn(3, 5) = 3행 5열 난수 행렬을 생성하고, np.round(~,2) = 소수점 이하 2자리만 남도록 반올림 처리
data = np.round(np.random.randn(3, 5), 2)
data

array([[ 1.76,  0.4 ,  0.98,  2.24,  1.87],
       [-0.98,  0.95, -0.15, -0.1 ,  0.41],
       [ 0.14,  1.45,  0.76,  0.12,  0.44]])

In [15]:
# 데이터프레임 생성
# data = 표 안의 수치 / rows = 인덱스(X,Y,Z) / cols = 컬럼(열)의 이름(A,B,C,D,E) 를 의미한다.
pd.DataFrame(data, rows, cols)

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,-0.1,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [16]:
# 비슷한 데이터프레임을 다음과 같이 생성할 수도 있음
# 위와 똑같은 내용이지만 다음과 같이 데이터 값과, 인덱스 이름, 열 이름을 직접적으로 적을 수도 있다.
pd.DataFrame(np.round(np.random.randn(3, 5), 2), ['X', 'Y', 'Z'], ['A', 'B', 'C', 'D', 'E'])

Unnamed: 0,A,B,C,D,E
X,0.33,1.49,-0.21,0.31,-0.85
Y,-2.55,0.65,0.86,-0.74,2.27
Z,-1.45,0.05,-0.19,1.53,1.47


In [17]:
# data는 3 X 5 행렬인데, cols와 rows를 반대로 지정하면, 오류 발생
# pd.DataFrame(data, cols, rows)
# ValueError: Shape of passed values is (3, 5), indices imply (5, 3)

![df](https://user-images.githubusercontent.com/10287629/87275658-8f76c000-c519-11ea-84f5-af332ee8bdcc.png)
- pandas DataFrame: "레이블이 지정된 다수 열의 집합인데, 모든 열이 동일한 행 인덱스를 공유함"
- pandas DataFrame을 구성하는 각 열은 pandas Series에 해당함
- pandas DataFrame: "동일한 행 인덱스를 공유하는 pandas Series의 집합"

### 3.2 판다스 데이터프레임에서 인덱싱
리스트 인덱싱과 비슷하게 대괄호를 사용함

In [18]:
df = pd.DataFrame(data, rows, cols)

df['A']  # 'A'열만 인덱싱 (A열만 보여달라는 뜻)

X    1.76
Y   -0.98
Z    0.14
Name: A, dtype: float64

In [19]:
df['E']  # 'E' 열만 인덱싱

X    1.87
Y    0.41
Z    0.44
Name: E, dtype: float64

In [20]:
col_list = ['A', 'E']  # 인덱싱 희망하는 열을 리스트로 준비
df[col_list]           # 인덱싱 희망하는 열을 리스트로 인덱싱

Unnamed: 0,A,E
X,1.76,1.87
Y,-0.98,0.41
Z,0.14,0.44


In [21]:
df[['A', 'E']]  #df[col_list] (A열과 E열을 보여달라는 뜻)

Unnamed: 0,A,E
X,1.76,1.87
Y,-0.98,0.41
Z,0.14,0.44


In [22]:
# 이중 인덱싱
df['A']['X']  # df[열_레이블][행_레이블] 인덱싱으로 스칼라 값 접근 (A열의 X행을 보여달라는 뜻)

1.76

In [23]:
df['B']['Z']  # df[열_레이블][행_레이블] 인덱싱으로 스칼라 값 접근

1.45

### 3.3 판다스 데이터프레임에서 지정(assign)

In [24]:
df['D']['Y'] = 0 # df[열_레이블][행_레이블] 인덱싱으로 스칼라 값 접근하여 수정 값 지정 (D열의 Y행 값을 0으로 수정)
df['D']['Y']     # 수정된 값 확인

0.0

In [25]:
df['D'] = [3, 2, 1]  # 특정 열 값을 지정 (D열의 값이 각각 3, 2, 1로 수정)
df['D']              # 수정된 값과 자료형 확인

X    3
Y    2
Z    1
Name: D, dtype: int64

In [26]:
# 행 선택 및 지정은 뒤에서 loc[]를 배운 후에...

### 3.4 판다스 데이터프레임에서 열 생성/삭제 방법

In [27]:
df = pd.DataFrame(data, rows, cols)  # df 다시 초기화
df

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [28]:
df['A + B']= df['A'] + df['B']  # 기존 열로부터 새로운 열 생성 (A와 B의 값을 더한 A+B라는 열을 새로 생성)
df

Unnamed: 0,A,B,C,D,E,A + B
X,1.76,0.4,0.98,2.24,1.87,2.16
Y,-0.98,0.95,-0.15,0.0,0.41,-0.03
Z,0.14,1.45,0.76,0.12,0.44,1.59


In [29]:
# drop() 호출로 열 삭제
# drop() 메소드는 본래 행 삭제용인데, axis=1 옵션으로 열 삭제

# axis=0 -> 행 방향으로 찾으라는 뜻(기본값) / axis=1 -> 열 방향으로 찾으라는 뜻
# 때문에 아래 코드에 axis=1 대신 0을 삽입하게 되면 행 방향에서 'A+B'를 찾게 되고
# A+B'는 열에 존재하고 있기 때문에 찾을 수 없다는 오류가 뜨게 된다.

df.drop('A + B', axis=1)  # 삭제된 것처럼 출력되지만, 실제 df는 불변이고, 결과가 복사본으로 출력됨

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [30]:
# pandas는 항상 복사본으로 결과를 출력하여 보여주기 때문에 원본은 변하지 않고 그대로 있음.
# -> pandas는 원본을 유지한다는 특징이 있다.
df  # 원본 df['A + B']열이 삭제되지 않았음

Unnamed: 0,A,B,C,D,E,A + B
X,1.76,0.4,0.98,2.24,1.87,2.16
Y,-0.98,0.95,-0.15,0.0,0.41,-0.03
Z,0.14,1.45,0.76,0.12,0.44,1.59


- 데이터프레임 열 삭제 방법
    - 방법 1) `inplace=True` 옵션
        - drop() 메소드를 포함한 많은 메소드가 원본을 변경하지 않고, 복사본을 출력함
        - 원본을 수정하라는 옵션
    - 방법 2) 복사본을 원본에 저장

In [31]:
# 원본 변경 방법 1
# inplace=True -> 복사본 말고 원본에서 작업하라는 뜻. 원본이 변하게 됨.
df.drop('A + B', axis=1, inplace=True)  # 열 삭제 방법 1)
df

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [32]:
# 원본 변경 방법 2 
df['A + B']= df['A'] + df['B']  # 기존 열로부터 새로운 열 생성
print(df)
# df = () -> 실행한 결과를 df에 저장하라는 뜻. 즉 실행 복사본이 원본을 덮어씀.
df = df.drop('A + B', axis=1)           # 열 삭제 방법 2)
df

      A     B     C     D     E  A + B
X  1.76  0.40  0.98  2.24  1.87   2.16
Y -0.98  0.95 -0.15  0.00  0.41  -0.03
Z  0.14  1.45  0.76  0.12  0.44   1.59


Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [33]:
# axis=0이 기본 값이기 때문에 행을 삭제 할 때는 생략해도 무관
df.drop('Z')  # 데이터프레임 행 삭제, 복사본을 출력

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41


In [34]:
df  # 원본에서는 행 삭제되지 않았음

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [35]:
df.drop('Z', inplace=True)  # 원본 삭제 지시
df                          # 원본 삭제 확인

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41


In [36]:
df = pd.DataFrame(data, rows, cols) # df 다시 초기화
df = df.drop('Z')                   # 행 삭제 후 원본에 다시 저장
df                                  # 행 삭제 확인

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41


### 3.5 판다스 데이터프레임에서 행 선택
    - df.loc[행_레이블] 속성
    - df.iloc[행_인덱스] 속성

In [37]:
df

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41


In [38]:
df.loc['X']  # .loc[행_레이블] 속성으로 행 선택

A    1.76
B    0.40
C    0.98
D    2.24
E    1.87
Name: X, dtype: float64

In [39]:
df.iloc[0]   # .iloc[행_인덱스] 속성으로 행 선택

A    1.76
B    0.40
C    0.98
D    2.24
E    1.87
Name: X, dtype: float64

In [40]:
# 행 선택하여 값 지정
my_row_data = np.arange(10, 15, 1)  # 행 데이터 준비
print(f'my_row_data: {my_row_data}')
df.loc['X'] = my_row_data  # 특정 행을 loc[행_레이블]로 선택하여 값 지정
df                         # 수정된 행 확인

my_row_data: [10 11 12 13 14]


Unnamed: 0,A,B,C,D,E
X,10.0,11.0,12.0,13.0,14.0
Y,-0.98,0.95,-0.15,0.0,0.41


### 3.6 행/열 개수 확인

In [41]:
df.shape

(2, 5)

In [42]:
# df 초기화
df = pd.DataFrame(data, rows, cols)
df

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


### 3.7 판다스 데이터프레임 슬라이싱

In [43]:
# 슬라이싱: 잘라낸다는 뜻. 특정 열이나 행만 가져오는 것. 인덱싱과 동일한 개념
# (A 및 B) 열 슬라이싱 (열 슬라이싱에서는 df[열_리스트]
df[['A', 'B']]  # df[열_리스트], 여기서 ['A', 'B']가 열_리스트 

Unnamed: 0,A,B
X,1.76,0.4
Y,-0.98,0.95
Z,0.14,1.45


In [44]:
# (X 및 Z) 행 슬라이싱 (행 슬라이싱에서는 df.loc[행_리스트])
# 행에 접근하는 것이기 때문에 loc를 사용
# 문자로 고를 때는 그냥 loc를 사용하고, 만약에 숫자로 고른다면 iloc를 사용한다 (=df.iloc[[0,2]])
df.loc[['X', 'Z']]  # df.loc[행_리스트], , 여기서 ['X', 'Z']가 열_리스트

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Z,0.14,1.45,0.76,0.12,0.44


In [45]:
## (A 및 B) 열 및 (X 및 Y) 행 함께 슬라이싱
df[['A', 'B']].loc[['X', 'Y']]  # df[열_리스트].loc[행_리스트]

Unnamed: 0,A,B
X,1.76,0.4
Y,-0.98,0.95


In [46]:
df[['A', 'B']].iloc[[0,1]]  # 수치로 행을 고를 때는 iloc

Unnamed: 0,A,B
X,1.76,0.4
Y,-0.98,0.95


In [47]:
df['A'].loc['X'] # 단일열/행 일 때는 df['A']['X']도 가능

1.76

- pd.df 슬라이싱 연습
    - 기본 형식: `df[열_리스트].loc[행_리스트]` 및 `df[열_리스트].iloc[행_인덱스_리스트]`
    - 예외: `df[단일_열].loc[단일_행]` 대신에 `df[단일_열][단일_행]` 허용

In [48]:
df        

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [49]:
df['B']  # 단일 열

X    0.40
Y    0.95
Z    1.45
Name: B, dtype: float64

In [50]:
df.loc['Y']  # 단일 행

A   -0.98
B    0.95
C   -0.15
D    0.00
E    0.41
Name: Y, dtype: float64

In [51]:
df['B']['Y']  # 단일 열 및 단일 행

0.95

In [52]:
df['B'].loc['Y']  # 단일 열 및 단일 행

0.95

In [53]:
df

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [54]:
df[['A', 'C']] # 복수 열

Unnamed: 0,A,C
X,1.76,0.98
Y,-0.98,-0.15
Z,0.14,0.76


In [55]:
df[['A', 'C']].loc['Y']  # 복수 열 및 단일 행

A   -0.98
C   -0.15
Name: Y, dtype: float64

In [56]:
df[['A', 'C']].loc[['X', 'Z']]  # 복수 열 및 복수 행

Unnamed: 0,A,C
X,1.76,0.98
Z,0.14,0.76


In [57]:
df.loc[['X', 'Z']]  # 복수 행

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Z,0.14,1.45,0.76,0.12,0.44


In [58]:
df['B'].loc[['X', 'Z']]  # 단일 열 및 복수 행

X    0.40
Z    1.45
Name: B, dtype: float64

In [59]:
df[['A', 'C']].loc[['X', 'Y']]  # 복수 열 및 복수 행

Unnamed: 0,A,C
X,1.76,0.98
Y,-0.98,-0.15


In [60]:
df[['A', 'C']].iloc[[0, 2]]  # loc[] 부분을 iloc[]로 변경

Unnamed: 0,A,C
X,1.76,0.98
Z,0.14,0.76


### 3.8 데이터프레임에서 조건부 행 선택

- 데이터프레임은 RDB 테이블과 유사한 구조
- 특정 열 값에 대한 조건에 부합하는 행 선택
- df 모든 값에서 특정 조건에 부합하는 값 선택

In [61]:
print(df)  # print(df)와 그냥 df의 차이. 그냥 df가 표 형식으로 더 보기 좋음
df >= 0.0  # 조건식: 데이터프레임 내부 각 스칼라 값마다 조건을 출력해 줌
           # df 안의 원소값 하나하나가 0.0보다 큰지 비교

      A     B     C     D     E
X  1.76  0.40  0.98  2.24  1.87
Y -0.98  0.95 -0.15  0.00  0.41
Z  0.14  1.45  0.76  0.12  0.44


Unnamed: 0,A,B,C,D,E
X,True,True,True,True,True
Y,False,True,False,True,True
Z,True,True,True,True,True


In [62]:
# df 내부의 모든 값에 대한 조건부 추출 
# df[]은 어떤 열이나 행을 고를 때 쓰는 방식이었음
df[df >= 0.0]  # df[조건식]: 조건을 만족하는 값만 출력되고, 조건에 위배되는 값은 NaN으로 출력됨
               # NaN: Not a Number 이라는 뜻 -> 값이 없다.

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,,0.95,,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [63]:
# 특정 열에 대한 조건식
df['C'] >= 0.0  # 조건식: C 열에 대해서 조건 판정 (-> C열이 0보다 크거나 같은가?)

X     True
Y    False
Z     True
Name: C, dtype: bool

In [64]:
# 특정 열에 대한 조건에 부합하는 행 추출
df[df['C'] >= 0.0]  # df[조건식]: C 열에 대해서 조건 판정하여 만족하는 값만 출력

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Z,0.14,1.45,0.76,0.12,0.44


In [65]:
print(df)
df[(df['A'] < 0.0) & (df['C'] < 0.0)]  # 연산 우선순위 지정을 위한 괄호 필수!
# and로 결합했으니, 조건 두 개를 모두 만족하는 값을 찾음
# df[df['A'] < 0.0 & df['C'] < 0.0]    # 괄호 없으면 오류 발생

      A     B     C     D     E
X  1.76  0.40  0.98  2.24  1.87
Y -0.98  0.95 -0.15  0.00  0.41
Z  0.14  1.45  0.76  0.12  0.44


Unnamed: 0,A,B,C,D,E
Y,-0.98,0.95,-0.15,0.0,0.41


In [66]:
print(df)
# df['Y'] >= 0  # 오류 발생!!!
# 위 조건은 행에 대한 조건이므로 df.loc[]를 썼어야 함
# df[]는 열에 대한 조건으로 A~E를 적었으면 에러가 나지 않았을 것임
df.loc['Y'] >= 0

      A     B     C     D     E
X  1.76  0.40  0.98  2.24  1.87
Y -0.98  0.95 -0.15  0.00  0.41
Z  0.14  1.45  0.76  0.12  0.44


A    False
B     True
C    False
D     True
E     True
Name: Y, dtype: bool

In [67]:
# df[df.loc['Y'] >= 0]  # index 오류 발생!!!
# '열에 대한 조건으로 행을 검색'한다는 기본 개념에 부합하지 않음!! 

### 3.9 판다스 데이터프레임 인덱스 수정

In [68]:
df                # 인덱스 열에 (행) 레이블이 저장되어 있었음

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [69]:
df.index          # 인덱스(즉, 행 레이블) 확인

Index(['X', 'Y', 'Z'], dtype='object')

In [70]:
df.reset_index()  # -> 기존의 인덱스를 초기화하여 일반 열로 바꾸고, 인덱스를 새롭게 설정
                  # 인덱스 열이 수치형으로 (초기화) 생성되고, 
                  # 원래의 행 레이블이 index라는 이름의 일반 열로 변경됨 (원본 불변)
                  # 이제 인덱스는 X,Y,Z가 아닌 새롬게 생성된 0,1,2

Unnamed: 0,index,A,B,C,D,E
0,X,1.76,0.4,0.98,2.24,1.87
1,Y,-0.98,0.95,-0.15,0.0,0.41
2,Z,0.14,1.45,0.76,0.12,0.44


In [71]:
df # .reset_index() 수행에도 불구하고 원본은 불변 -> 원본이 변경되지 않음. 복사본으로 작업
   # 원본을 수정하려면, inplace=True 옵션을 쓰거나, 수행한 결과를 원본에 다시 저장해야 함

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [72]:
# 기존 일반 열을 인덱스 열로 지정 가능함
df.set_index('A') # -> A라는 이름을 가진 인덱스가 됨

Unnamed: 0_level_0,B,C,D,E
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1.76,0.4,0.98,2.24,1.87
-0.98,0.95,-0.15,0.0,0.41
0.14,1.45,0.76,0.12,0.44


In [73]:
df # .reset_index() 수행에도 불구하고 원본은 불변
   # 원본을 수정하려면, inplace=True 옵션을 쓰거나, 원본에 다시 저장해야 함

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


- 주의 사항
    - .set_index() 및 .reset_index() 메소드는 원본을 수정하지 않고, 수정된 복사본을 출력함
    - 원본 수정을 원한다면, inplace=True 옵션을 쓰거나, 원본에 다시 저장해야 함
        - `df.reset_index(inplace=True)`
        - `df = df.reset_index()`
    - 새로운 인덱스로 기존 데이터프레임 인덱스를 수정하려면
        - 새로운 인덱스 레이블을 저장한 넘파이 어레이를 생성하고
        - 이 어레이를 데이터프레임의 새로운 열로 추가하고
        - 이 열을 .set_index() 명령으로 인덱스로 지정해야 함

In [74]:
# 실습을 위해 df2라는 데이터프레임 새로 생성
df2 = pd.DataFrame(data, rows, cols)  # pd.DataFrame()으로 생성
# 새로운 인덱스 레이블을 넘파이 어레이로 생성하고, 새 열로 추가 (원본이 변경됨) 
df2['new'] = np.array(['alpha', 'beta', 'gamma'])    
df2

Unnamed: 0,A,B,C,D,E,new
X,1.76,0.4,0.98,2.24,1.87,alpha
Y,-0.98,0.95,-0.15,0.0,0.41,beta
Z,0.14,1.45,0.76,0.12,0.44,gamma


In [75]:
df2.set_index('new', inplace=True)  # 추가된 새 열을 인덱스로 설정, inplace=True를 사용하여 원본까지 변경
df2                                  # named index

Unnamed: 0_level_0,A,B,C,D,E
new,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
alpha,1.76,0.4,0.98,2.24,1.87
beta,-0.98,0.95,-0.15,0.0,0.41
gamma,0.14,1.45,0.76,0.12,0.44


In [76]:
# 실습을 위해 df3라는 데이터프레임 새로 생성
df3 = pd.DataFrame(data, ['alpha', 'beta', 'gamma'], cols)  # pd.DataFrame()으로 생성
df3                                                         # un-named index

Unnamed: 0,A,B,C,D,E
alpha,1.76,0.4,0.98,2.24,1.87
beta,-0.98,0.95,-0.15,0.0,0.41
gamma,0.14,1.45,0.76,0.12,0.44


In [77]:
# 이름 없는 인덱스
df3.index.name = 'new'  # 인덱스 이름을 'new'로 지정
df3

Unnamed: 0_level_0,A,B,C,D,E
new,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
alpha,1.76,0.4,0.98,2.24,1.87
beta,-0.98,0.95,-0.15,0.0,0.41
gamma,0.14,1.45,0.76,0.12,0.44


In [78]:
# 이름 있는 인덱스
df3.index.name = None   # 인덱스 이름 제거
df3

Unnamed: 0,A,B,C,D,E
alpha,1.76,0.4,0.98,2.24,1.87
beta,-0.98,0.95,-0.15,0.0,0.41
gamma,0.14,1.45,0.76,0.12,0.44


### 3.10 판다스 데이터프레임 열 이름 변경

In [79]:
df

Unnamed: 0,A,B,C,D,E
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [80]:
df.columns  # 열 레이블 확인 -> 열의 이름 확인

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [81]:
df.columns = np.arange(1, 6, 1)  # 열 인덱스를 수치로 변경하여 지정
df

Unnamed: 0,1,2,3,4,5
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [82]:
df[1]  # 열 인덱스를 수치로 변경하였기 때문에 수치로 지정하여 슬라이싱

X    1.76
Y   -0.98
Z    0.14
Name: 1, dtype: float64

In [83]:
df.rename(columns = {1: "A", 2: "B", 3: "C"}, inplace=True) # 열의 이름 변경, 원본도 변경
df

Unnamed: 0,A,B,C,4,5
X,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


In [84]:
df.rename(index = {'X': 'XX'}, inplace=True) # 행의 이름 변경, 원본도 변경
df

Unnamed: 0,A,B,C,4,5
XX,1.76,0.4,0.98,2.24,1.87
Y,-0.98,0.95,-0.15,0.0,0.41
Z,0.14,1.45,0.76,0.12,0.44


## 4. 판다스 데이터프레임에서 결측치 처리하는 방법

결측치를 포함한 데이터는 삭제하거나, 아니면 적당한 값으로 채워 주어야 함

1. 결측치를 가진 행을 통째로 삭제
2. 적당한 값을 대입

### 4.1 결측치 처리 방법 설명을 위한 데이터프레임 준비

In [85]:
# NaN 값을 일부러 생성하려면 np.nan 속성을 활용
# 판다스 NaN(not a number)은 파이썬의 None, SQL의 null에 해당하는 값 
np.nan

nan

In [86]:
# 결측치 처리 방법 설명을 위한 데이터프레임 생성
df = pd.DataFrame(
    np.array([
        [1, 5, 1],
        [2, np.nan, 2],
        [np.nan, np.nan, 3]
    ])
)
df.columns = ['A', 'B', 'C']
df

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,,2.0
2,,,3.0


### 4.2 df.dropna() 메소드 - 결측치 포함 행 삭제
- `df.dropna()` 메소드는 NaN 값이 포함된 행을 모두 삭제함
- `df.dropna()` 메소드는 원본은 불변으로 남기고, <br>
    (NaN 값이 포함된 행을 모두 삭제한) 복사본을 반환하므로, <br>
    원본이 수정되길 원한다면, 다음 두 방법 중의 하나를 적용해야 함
    - 반환된 복사본을 원본에 다시 저장
    - inplace=True 옵션을 사용

In [87]:
df.dropna()  # 0번 행만 남은 복사본을 반환함, 원본은 불변

Unnamed: 0,A,B,C
0,1.0,5.0,1.0


- `df.dropna(axis=1)` 메소드는 NaN 값이 포함된 (행이 아니라) 열을 모두 삭제함

In [88]:
df.dropna(axis=1)  # 결측치를 포함한 A,B열은 삭제되고 C열만 남은 복사본을 반환함

Unnamed: 0,C
0,1.0
1,2.0
2,3.0


### 4.3 df.fillna() 메소드 - 결측치 값 대체
- `df.fillna()` 메소드는 NaN 값을 지정한 값으로 대체함
    - 결측치를 임의의 특정 값으로 대체
    - 결측치를 해당 열의 평균 값으로 대체

In [89]:
df  # 원본 데이터프레임 확인

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,,2.0
2,,,3.0


In [90]:
df.fillna(0)  # 임의로 지정한 값 0으로 대체

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,0.0,2.0
2,0.0,0.0,3.0


In [91]:
df  # 원본 데이터프레임 확인

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,,2.0
2,,,3.0


In [92]:
df.mean()  # 모든 열마다 평균 값 확인

A    1.5
B    5.0
C    2.0
dtype: float64

In [93]:
# 모든 열에 대하여 해당 열 평균 값으로 대체
df.fillna(df.mean())  

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,5.0,2.0
2,1.5,5.0,3.0


In [94]:
df  # 원본 데이터프레임 확인

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,,2.0
2,,,3.0


In [95]:
df['B'].mean()  # B 열 평균 값 확인

5.0

In [96]:
# B 열에 대해서만 B 열 평균 값으로 대체
df['B'].fillna(df['B'].mean())  

0    5.0
1    5.0
2    5.0
Name: B, dtype: float64

In [97]:
# B 열에 대해서만 B 열 평균 값으로 대체하여 원본 수정
df['B'].fillna(df['B'].mean(), inplace=True) # df = df['B'].fillna(df['B'].mean()) 와 동일
                                              # 그러나 B열에 대해서만 값을 저장하는 것이기 때문에
                                              # B열의 값만 남게 되므로 이 경우에는 적절한 방법이 아님
df

Unnamed: 0,A,B,C
0,1.0,5.0,1.0
1,2.0,5.0,2.0
2,,5.0,3.0


## 5. 판다스 데이터프레임 집계
### 5.1 df.groupby() 메소드
- 행을 특정 열 값에 근거하여 그룹으로 묶어서 집계 함수를 적용하는 기능을 수행
- 예를 들어서 '학급' ['A', 'B', 'C']에 따라서 반별 평균을 계산
- SQL `group by` 문장과 유사한 기능을 제공

In [98]:
# groupby 공부를 위한 데이터프레임 준비
df = pd.DataFrame([ ['Google', 'Sam', 200, 100],
                    ['Google', 'Charlie', 120, 60],
                    ['Salesforce','Ralph', 125, 62.5],
                    ['Salesforce','Emily', 250, 125],
                    ['Adobe','Rosalynn', 150, 75],
                    ['Adobe','Chelsea', 500, 250], ])
df.columns = ['company', 'person', 'amount', 'amount2']
df

Unnamed: 0,company,person,amount,amount2
0,Google,Sam,200,100.0
1,Google,Charlie,120,60.0
2,Salesforce,Ralph,125,62.5
3,Salesforce,Emily,250,125.0
4,Adobe,Rosalynn,150,75.0
5,Adobe,Chelsea,500,250.0


In [99]:
# pandas.core.groupby.generic.DataFrameGroupBy 객체가 반환됨
df.groupby('company')  

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000025B5CCB7250>

In [100]:
for group, rows in df.groupby('company'):
    print(f'group: {group}')
    print(f'{rows}')
    print()

group: Adobe
  company    person  amount  amount2
4   Adobe  Rosalynn     150     75.0
5   Adobe   Chelsea     500    250.0

group: Google
  company   person  amount  amount2
0  Google      Sam     200    100.0
1  Google  Charlie     120     60.0

group: Salesforce
      company person  amount  amount2
2  Salesforce  Ralph     125     62.5
3  Salesforce  Emily     250    125.0



In [101]:
df.groupby('company').mean()  # 그룹별 평균 (모든 수치 열에 대해서 반환)

Unnamed: 0_level_0,amount,amount2
company,Unnamed: 1_level_1,Unnamed: 2_level_1
Adobe,325.0,162.5
Google,160.0,80.0
Salesforce,187.5,93.75


In [102]:
df.groupby('company').mean()['amount']  # 그룹별 평균 중에서 amount 열만 반환 (-> amount에 대한 평균값만)

company
Adobe         325.0
Google        160.0
Salesforce    187.5
Name: amount, dtype: float64

In [103]:
df.groupby('company').sum()  #  그룹별 합계 (모든 수치 열에 대해서 반환)

Unnamed: 0_level_0,amount,amount2
company,Unnamed: 1_level_1,Unnamed: 2_level_1
Adobe,650,325.0
Google,320,160.0
Salesforce,375,187.5


In [104]:
df.groupby('company').std()  #  그룹별 표준편차 (모든 수치 열에 대해서 반환)

Unnamed: 0_level_0,amount,amount2
company,Unnamed: 1_level_1,Unnamed: 2_level_1
Adobe,247.487373,123.743687
Google,56.568542,28.284271
Salesforce,88.388348,44.194174


In [105]:
df.groupby('company').min()  #  그룹별 최소 (모든 수치 열에 대해서 반환)

Unnamed: 0_level_0,person,amount,amount2
company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adobe,Chelsea,150,75.0
Google,Charlie,120,60.0
Salesforce,Emily,125,62.5


In [106]:
df.groupby('company').max()  #  그룹별 최대 (모든 수치 열에 대해서 반환)

Unnamed: 0_level_0,person,amount,amount2
company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adobe,Rosalynn,500,250.0
Google,Sam,200,100.0
Salesforce,Ralph,250,125.0


### 5.2 df.describe() 메소드

In [107]:
df.describe()  # df 전체에 대한 기술 통계량 확인

Unnamed: 0,amount,amount2
count,6.0,6.0
mean,224.166667,112.083333
std,143.889425,71.944713
min,120.0,60.0
25%,131.25,65.625
50%,175.0,87.5
75%,237.5,118.75
max,500.0,250.0


In [108]:
df.groupby('company').describe()  # df.groupby()에 대한 기술 통계량 확인

Unnamed: 0_level_0,amount,amount,amount,amount,amount,amount,amount,amount,amount2,amount2,amount2,amount2,amount2,amount2,amount2,amount2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Adobe,2.0,325.0,247.487373,150.0,237.5,325.0,412.5,500.0,2.0,162.5,123.743687,75.0,118.75,162.5,206.25,250.0
Google,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0,2.0,80.0,28.284271,60.0,70.0,80.0,90.0,100.0
Salesforce,2.0,187.5,88.388348,125.0,156.25,187.5,218.75,250.0,2.0,93.75,44.194174,62.5,78.125,93.75,109.375,125.0


In [109]:
df.groupby('company').describe()['amount']  # amount열에 대해서만 보여줌

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Adobe,2.0,325.0,247.487373,150.0,237.5,325.0,412.5,500.0
Google,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
Salesforce,2.0,187.5,88.388348,125.0,156.25,187.5,218.75,250.0


## 6. 판다스 데이터프레임 결합
### 6.1 pd.concat() 메소드

In [110]:
# 문자열에 대한 concat 연산 -> 문자열 연결: concat
str1 = "Hello "
str2 = "World!"
str1 + str2

'Hello World!'

In [111]:
# 데이터프레임 준비
df1 = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'C': ['C0', 'C1', 'C2', 'C3'],
                     'D': ['D0', 'D1', 'D2', 'D3'], },
                   index=[0, 1, 2, 3, ])
print(df1, '\n')
df2 = pd.DataFrame({ 'A': ['A4', 'A5', 'A6', 'A7'],
                     'B': ['B4', 'B5', 'B6', 'B7'],
                     'C': ['C4', 'C5', 'C6', 'C7'],
                     'D': ['D4', 'D5', 'D6', 'D7'], },
                   index=[4, 5, 6, 7, ])
print(df2, '\n')
df3 = pd.DataFrame({ 'A': ['A8', 'A9', 'A10', 'A11'],
                     'B': ['B8', 'B9', 'B10', 'B11'],
                     'C': ['C8', 'C9', 'C10', 'C11'],
                     'D': ['D8', 'D9', 'D10', 'D11'], },
                   index=[8, 9, 10, 11, ])
df3

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3 

    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7 



Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [112]:
pd.concat([df1, df2, df3, ]) # 기본값이 행 방향 (axis=0) 연결 -> df1,df2,df3 을 세로로 연결

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [113]:
pd.concat([df1, df2, df3, ], axis=1) # 열 방향 (axis=1) 연결 -> df1,df2,df3 을 가로로 연결
# 행 인덱스를 각 df마다 지정했기 때문에, 계단 모양으로 합병되고, NaN 값이 채워짐
# 열의 이름이 다 ABCD로 같기 때문에 아래와 같이 ABCDABCDABCD 반복

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [114]:
# 열의 이름을 ABCD와 겹치지 않게 EFCH로 지정, 행은 0123으로 동일하게 지정
# 열 방향으로 이어붙이면 ABCDEFDH로 자연스러움
df4 = pd.DataFrame({ 'E': ['E0', 'E1', 'E2', 'E3'],
                     'F': ['F0', 'F1', 'F2', 'F3'],
                     'G': ['G0', 'G1', 'G2', 'G3'],
                     'H': ['H0', 'H1', 'H2', 'H3'], },
                   index=[0, 1, 2, 3, ])
df4

Unnamed: 0,E,F,G,H
0,E0,F0,G0,H0
1,E1,F1,G1,H1
2,E2,F2,G2,H2
3,E3,F3,G3,H3


In [115]:
pd.concat([df1, df4, ], axis=1)  # 두 df의 행 인덱스가 동일한 상태에서, 열 방향 연결

Unnamed: 0,A,B,C,D,E,F,G,H
0,A0,B0,C0,D0,E0,F0,G0,H0
1,A1,B1,C1,D1,E1,F1,G1,H1
2,A2,B2,C2,D2,E2,F2,G2,H2
3,A3,B3,C3,D3,E3,F3,G3,H3


### 6.2 pd.merge() 메소드
- SQL `join`과 유사한 판다스 merge() 메소드
- `pd.merge(left_df, right_df, how=조인_형식, on='key')`
    - 조인_형식 = 완전 내부 'inner' | 왼쪽 내부 'left' | 오른쪽 내부 'right' | 완전 외부 'outer'
    - left_df와 right_df에 공통되는 key 열을 기준으로 지정한 조인_형식으로 병합
    - 두 df의 조인 키 이름이 다르다면,  
      left_df의 조인 키가 left_key이고 right_df의 조인 키가 right_key라면,  
      `left_on='left_key'`로, `right_on='right_key'`로 조인 키를 각각 지정

In [116]:
고객 = pd.DataFrame({ '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
                      '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희'], },
                      columns=['고객번호', '이름'])
고객

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [117]:
입금 = pd.DataFrame({ '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
                     '입금액': [10000, 20000, 15000, 5000, 100000, 30000], 
                     '입금일': ['2020-03-01', '2020-03-02', '2020-04-01', 
                              '2020-05-01', '2020-06-01', '2020-07-01'], },
                   columns=['고객번호', '입금액', '입금일'])
입금

Unnamed: 0,고객번호,입금액,입금일
0,1001,10000,2020-03-01
1,1001,20000,2020-03-02
2,1005,15000,2020-04-01
3,1006,5000,2020-05-01
4,1008,100000,2020-06-01
5,1001,30000,2020-07-01


In [118]:
pd.merge(고객, 입금, how='outer', on='고객번호')   # 양쪽 외부 조인 방식
# 왼쪽 테이블은 고객, 오른쪽 테이블은 입금
# 외부 조인을 하게 되면 양쪽 테이블 모두에 존재하지 않더라도, 두 테이블 중 한 쪽에만 존재하더라도 보여줌
    # ex) 입금 실적이 없는 도우너, 또치, 길동 / 입금 실적이 있지만 고객테이블에 기입되어있지 않은 1008

Unnamed: 0,고객번호,이름,입금액,입금일
0,1001,둘리,10000.0,2020-03-01
1,1001,둘리,20000.0,2020-03-02
2,1001,둘리,30000.0,2020-07-01
3,1002,도우너,,
4,1003,또치,,
5,1004,길동,,
6,1005,희동,15000.0,2020-04-01
7,1006,마이콜,5000.0,2020-05-01
8,1007,영희,,
9,1008,,100000.0,2020-06-01


In [119]:
pd.merge(고객, 입금,how='inner', on='고객번호')  # 내부 조인 방식

Unnamed: 0,고객번호,이름,입금액,입금일
0,1001,둘리,10000,2020-03-01
1,1001,둘리,20000,2020-03-02
2,1001,둘리,30000,2020-07-01
3,1005,희동,15000,2020-04-01
4,1006,마이콜,5000,2020-05-01


In [120]:
pd.merge(고객, 입금,how='left', on='고객번호')   # 왼쪽 외부 조인 방식

Unnamed: 0,고객번호,이름,입금액,입금일
0,1001,둘리,10000.0,2020-03-01
1,1001,둘리,20000.0,2020-03-02
2,1001,둘리,30000.0,2020-07-01
3,1002,도우너,,
4,1003,또치,,
5,1004,길동,,
6,1005,희동,15000.0,2020-04-01
7,1006,마이콜,5000.0,2020-05-01
8,1007,영희,,


In [121]:
pd.merge(고객, 입금,how='right', on='고객번호')   # 오른쪽 외부 조인 방식

Unnamed: 0,고객번호,이름,입금액,입금일
0,1001,둘리,10000,2020-03-01
1,1001,둘리,20000,2020-03-02
2,1001,둘리,30000,2020-07-01
3,1005,희동,15000,2020-04-01
4,1006,마이콜,5000,2020-05-01
5,1008,,100000,2020-06-01


### 6.3 df.join() 메소드
- SQL `join` 과 유사한 판다스 `df.join()` 메소드
- `df_left.join(df_right, how=조인_형식)`
    - df_left에 df_right를 조인 형식으로 병합하되, 행 인덱스를 조인 기준으로 활용
    - pd.merge() 메소드와 유사하지만, on 옵션이 생략된 형태
    - 행 인덱스를 조인 기준 열로 사용함
    - 조인_형식 = 'inner' | 'left' | 'right' | 'outer'
    


- concat과 merge는 판다스가 가지고 있는 메소드이기 때문에 pd.~로 표기한다.
- 그러나, join은 데이터프레임이 가지고 있는 메소드로 df.~로 표기한다. (-> 표기법 차이 인지)

In [122]:
호감도1 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                   index=['a', 'c', 'e'],
                   columns=['서울', '부산'])
호감도1

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [123]:
호감도2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                   index=['b', 'c', 'd', 'e'],
                   columns=['대구', '광주'])
호감도2

Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [124]:
호감도1.join(호감도2, how='outer')  # 양쪽 외부 조인

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [125]:
호감도1.join(호감도2, how='inner')  # 내부 조인 방식

Unnamed: 0,서울,부산,대구,광주
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [126]:
호감도1.join(호감도2, how='left')  # 왼쪽 외부 조인 방식

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [127]:
호감도1.join(호감도2, how='right')  # 오른쪽 외부 조인 방식

Unnamed: 0,서울,부산,대구,광주
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### 6.4 데이터프레임 결합 요약

|                               구분                               | 결합 기준 |                                         결합 방법                                        |
|:-----------------------------------------------------------------|:---------:|:-----------------------------------------------------------------------------------------|
| pd.concat([df1, df2, ], axis=축, join=조인_형식) |  행 index | axis{0/’index’, 1/’columns’}, default 0  <br><br>join{‘inner’, ‘outer’}, default ‘outer’ |
| pd.merge(df1, df2, on='key', how=조인_형식)      |   key 열  |                  how{‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’                 |
| df_left.join(df_right, how=조인_형식)                            |  행 index |                  how{‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘left’                  |

## 7. 기타 일상적인 판다스 작업

In [128]:
# 7 장을 위한 df 준비
df = pd.DataFrame({'col1':['A','B','C','D'],
                   'col2':[2,7,3,7],
                   'col3':['apple','love','joy','banana'], })
df

Unnamed: 0,col1,col2,col3
0,A,2,apple
1,B,7,love
2,C,3,joy
3,D,7,banana


### 7.1 Sereis.unique()

In [129]:
# df.unique()  # 오류, 데이터프레임이 아니라 Series에 대하여 호출해야 함

In [130]:
# df의 col2 열에 등장하는 값을 중복 없이 확인
df['col2'].unique()  # 특정 Series 내부의 중복없는 값을 반환

array([2, 7, 3], dtype=int64)

### 7.2 Series.nunique()

In [131]:
# df의 col2 열에 등장하는 중복 없는 값의 개수 확인
df['col2'].nunique()  # 특정 Series 내부의 중복없는 값 개수를 반환

3

### 7.3 Series.value_counts()

In [132]:
# df의 col2 열에 등장하는 값의 도수 확인
df['col2'].value_counts()  # 특정 Series 내부의 값 출현 도수를 반환

7    2
2    1
3    1
Name: col2, dtype: int64

### 7.4 Series.apply()

In [133]:
df

Unnamed: 0,col1,col2,col3
0,A,2,apple
1,B,7,love
2,C,3,joy
3,D,7,banana


In [134]:
# df의 col2 열 값마다 적용하려는 함수를 정의
def exponentify(x):  # 함수 정의
    return x**x

# df의 col2 열 값마다 exponentify() 함수를 적용
df['col2'].apply(exponentify)  # 특정 Series에 대하여 함수 적용

0         4
1    823543
2        27
3    823543
Name: col2, dtype: int64

In [135]:
# df의 col3 열 값마다 len() 함수를 적용
df['col3'].apply(len)  # 특정 Series에 대하여 내장 함수 적용

0    5
1    4
2    3
3    6
Name: col3, dtype: int64

### 7.5 df.sort_values()

In [136]:
# col2 값을 기준으로 df를 정렬한 복사본을 출력 
df.sort_values('col2')  # 특정 열을 기준으로 정렬 (원본은 불변)

Unnamed: 0,col1,col2,col3
0,A,2,apple
2,C,3,joy
1,B,7,love
3,D,7,banana


## 8. 판다스에서 입출력
### 8.1 판다스에서 로컬 데이터 입출력
- pd.read_csv(), df.to_csv()
- pd.read_json(), df.to_json()
- pd.read_html(), df.to_html()
- pd.read_excel('my_excel.xlsx', sheet_name='my_sheet'), df.to_excel('my_df.xlsx, sheet_name='my_sheet')

[stock_prices.csv](https://raw.githubusercontent.com/nickmccullum/advanced-python/master/stock_prices/stock_prices.csv)를 `다른 이름으로 저장`하여 파일 저장

In [138]:
import pandas as pd
pd.read_csv('stock_prices.csv')   # 현행 폴더에서 stock_prices.csv 파일 읽어오기

Unnamed: 0,Period,Alphabet Inc Price,Amazon.com Inc Price,Facebook Inc Price,Microsoft Corp Price
0,2020-04-06 00:00:00,1167.150000,1970.70,163.000,161.590
1,2020-04-03 00:00:00,1097.880000,1906.59,154.180,153.830
2,2020-04-02 00:00:00,1120.840000,1918.83,158.190,155.260
3,2020-04-01 00:00:00,1105.620000,1907.70,159.600,152.110
4,2020-03-31 00:00:00,1162.810000,1949.72,166.800,157.710
...,...,...,...,...,...
1259,2015-04-09 00:00:00,539.299623,383.54,82.170,41.480
1260,2015-04-08 00:00:00,540.127350,381.20,82.275,41.420
1261,2015-04-07 00:00:00,535.549915,374.41,82.320,41.530
1262,2015-04-06 00:00:00,535.295614,377.04,82.440,41.545


In [143]:
# 현행 폴더에서 stock_prices.csv 파일을 읽어서 데이터프레임 new_df로 저장
new_df = pd.read_csv('./stock_prices.csv')   # 'stock_prices.csv' 와 같은 표현. './'는 현행 폴더 밑에 저장하라는 뜻
new_df.sample(3)   # new_df에서 무작위로 3 개 행을 출력.
# ()사이에 숫자를 적지 않으면 기본 값으로 5개 출력
# new_df.head(3) -> 앞에서부터 3개 출력
# new_df.tail(3) -> 뒤에서부터 3개 출력

Unnamed: 0,Period,Alphabet Inc Price,Amazon.com Inc Price,Facebook Inc Price,Microsoft Corp Price
1191,2015-07-16 00:00:00,579.85,475.48,90.85,46.66
142,2019-09-12 00:00:00,1234.25,1843.55,187.47,137.52
1076,2015-12-29 00:00:00,776.6,693.97,107.26,56.55


In [140]:
# 파일로 저장하기 위한 데이터프레임 준비
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(50,3))   # 무작위 수치로 50 행 3 열 데이터프레임 df 생성 
df.sample(3)  # 생성된 df에서 무작위로 3 개 행을 출력

Unnamed: 0,0,1,2
6,-2.055852,-0.864045,-0.165571
35,-2.635994,0.761695,0.339617
0,0.326098,0.635519,-1.40729


In [141]:
df.to_csv('my_new_csv.csv')  # df를 행 인덱스 포함하여 my_new_csv.csv 파일로 저장

- 저장된 csv 파일을 엑셀에서 열어보면, 행 인덱스도 함께 저장되어 있음
![my_new_csv csv](https://user-images.githubusercontent.com/10287629/87510715-0a251400-c6af-11ea-9970-a98b7a1ba789.png)

In [None]:
# df를 행 인덱스 제거하고 my_new_csv2.csv 파일로 저장
df.to_csv('my_new_csv2.csv', index=False)  # 행 인덱스 제외하고 저장

- 행 인덱스 제외하고 저장된 csv 파일
![my_new_csv2 csv](https://user-images.githubusercontent.com/10287629/87511040-a94a0b80-c6af-11ea-8d94-5d46a2f21e46.png)

### 8. 2 판다스에서 리모트 데이터 입출력

- 깃허브 저장소를 활용한 파일 공유 방법  
    - 깃허브 저장소 https://github.com/logistex/vd/blob/master/DataScience/data/CCTV_in_Seoul.csv 에서 볼 수 있는 내용을 파일로 다운로드하려면 
    - 위 주소에서 
        `github` 부분을 `raw.githubusercontent`로 변경하고  
        `/blob` 부분을 삭제하여 만든 경로로 접속하여 파일 다운로드가 가능함
        
         위 주소를 변경한 주소는 아래와 같음. 아래 주소에 접속하면 원데이터를 날 것 그대로 보여줌
    - https://raw.githubusercontent.com/logistex/vd//master/DataScience/data/CCTV_in_Seoul.csv 경로에 접속하여 `다른 이름으로 저장(A)...` 단축 메뉴로 파일 다운로드 가능함
- 나의 파일을 공유하려면 
    - 깃허브 저장소에 자신의 파일을 `Add file > Upload files` 수행하고, `Commit changes` 수행한 후, 
    - 위에서 설명한 형식의 경로를 공유하면 됨

- 이후 실습에 사용할 데이터
    - 내용을 열람하려면 [여기](https://github.com/nicholasmccullum/advanced-python/blob/master/stock_prices/stock_prices.csv)  https://github.com/nicholasmccullum/advanced-python/blob/master/stock_prices/stock_prices.csv 
    - 파일로 다운로드 하려면 [여기](https://raw.githubusercontent.com/nickmccullum/advanced-python/master/stock_prices/stock_prices.csv) https://raw.githubusercontent.com/nickmccullum/advanced-python/master/stock_prices/stock_prices.csv 

- 리모트 csv 파일 읽어오기  

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/nickmccullum/advanced-python/master/stock_prices/stock_prices.csv')
df

- 리모트 json 파일 읽어오기

In [None]:
df = pd.read_json('https://raw.githubusercontent.com/nickmccullum/advanced-python/master/stock_prices/stock_prices.json')
df

- 리모트 xlsx 파일 읽어오기

In [None]:
df = pd.read_excel('https://raw.githubusercontent.com/nickmccullum/advanced-python/master/stock_prices/stock_prices.xlsx')
df

- 교재에 등장하는 인구 데이터 파일 읽어오기

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/logistex/vd/master/DataScience/data/01.%20CCTV_result.csv')
df.sample(5)