# Pandas

* [pandas](https://pandas.pydata.org/pandas-docs/stable/, "pandas link")
* 관계 또는 레이블링 데이터로 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지

---

In [13]:
!pip install pandas



In [1]:
import pandas as pd
import numpy as np
pd.__version__

'1.3.4'

## Pandas 데이터 구조


### Series

* 모든 데이터 타입을 저장할 수 있는 레이블(index)이 지정된 1차원 배열
* 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트, 튜플 등으로 생성

In [15]:
# list
s = pd.Series([0.3, 0.5, 0.5, 0.75, 1.0],
              index=['a', 'b', 'c', 'd', 'e'])
s

a    0.30
b    0.50
c    0.50
d    0.75
e    1.00
dtype: float64

In [16]:
s['c']

0.5

In [17]:
s[['a', 'c']]

a    0.3
c    0.5
dtype: float64

In [18]:
'b' in s

True

In [19]:
s.values

array([0.3 , 0.5 , 0.5 , 0.75, 1.  ])

In [20]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [21]:
s.unique()

array([0.3 , 0.5 , 0.75, 1.  ])

In [22]:
s.value_counts()

0.50    2
0.30    1
0.75    1
1.00    1
dtype: int64

In [23]:
s.isin([0.5])

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [24]:
pop_dict = {'서울': 2,
           '충주': 380,
           '춘천': 330}
phone = pd.Series(pop_dict)
phone

서울      2
충주    380
춘천    330
dtype: int64

In [25]:
phone['충주']

380

In [26]:
phone['서울':'충주']

서울      2
충주    380
dtype: int64

### DataFrame

* 시리즈가 열 방향으로 여러 개 합쳐진 2차원 자료 구조
* 열(columns), 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트로 생성

In [27]:
pd.DataFrame([pop_dict, {'서울': 1,
                       '충주': 2}])

Unnamed: 0,서울,충주,춘천
0,2,380,330.0
1,1,2,


In [28]:
ran = pd.DataFrame(np.random.rand(5, 5),
            columns=['a', 'b', 'c', 'd', 'e'],
            index=['0', '1', '2', '3', '4'])
ran

Unnamed: 0,a,b,c,d,e
0,0.968973,0.136923,0.537409,0.178358,0.665842
1,0.132228,0.176875,0.08688,0.478719,0.824451
2,0.948215,0.596673,0.593496,0.670397,0.494134
3,0.358363,0.196642,0.866984,0.870557,0.611717
4,0.528233,0.664844,0.866114,0.669895,0.105102


In [29]:
A = ran['a']*10000
B = ran['b']*10000
C = ran['c']*10000
D = ran['d']*10000
E = ran['e']*10000
print(E)
type(E)

0    6658.416545
1    8244.509056
2    4941.342927
3    6117.172832
4    1051.023986
Name: e, dtype: float64


pandas.core.series.Series

In [30]:
df = pd.DataFrame({'a': A, 'b': B, 'c': C, 'd': D, 'e': E})
df

Unnamed: 0,a,b,c,d,e
0,9689.734719,1369.225128,5374.093696,1783.578737,6658.416545
1,1322.279458,1768.748604,868.802447,4787.185371,8244.509056
2,9482.148029,5966.730945,5934.958408,6703.968855,4941.342927
3,3583.629463,1966.415438,8669.837173,8705.570833,6117.172832
4,5282.334182,6648.443979,8661.142191,6698.948553,1051.023986


In [31]:
print(df.index)
print(df.columns)

Index(['0', '1', '2', '3', '4'], dtype='object')
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [32]:
df['a']

0    9689.734719
1    1322.279458
2    9482.148029
3    3583.629463
4    5282.334182
Name: a, dtype: float64

In [33]:
df.loc['0']

a    9689.734719
b    1369.225128
c    5374.093696
d    1783.578737
e    6658.416545
Name: 0, dtype: float64

In [34]:
df['new'] = (df['d']+df['e'])
df

Unnamed: 0,a,b,c,d,e,new
0,9689.734719,1369.225128,5374.093696,1783.578737,6658.416545,8441.995282
1,1322.279458,1768.748604,868.802447,4787.185371,8244.509056,13031.694427
2,9482.148029,5966.730945,5934.958408,6703.968855,4941.342927,11645.311782
3,3583.629463,1966.415438,8669.837173,8705.570833,6117.172832,14822.743665
4,5282.334182,6648.443979,8661.142191,6698.948553,1051.023986,7749.972539


In [35]:
df.T

Unnamed: 0,0,1,2,3,4
a,9689.734719,1322.279458,9482.148029,3583.629463,5282.334182
b,1369.225128,1768.748604,5966.730945,1966.415438,6648.443979
c,5374.093696,868.802447,5934.958408,8669.837173,8661.142191
d,1783.578737,4787.185371,6703.968855,8705.570833,6698.948553
e,6658.416545,8244.509056,4941.342927,6117.172832,1051.023986
new,8441.995282,13031.694427,11645.311782,14822.743665,7749.972539


In [36]:
df.values

array([[ 9689.73471856,  1369.22512789,  5374.09369551,  1783.5787371 ,
         6658.4165446 ,  8441.9952817 ],
       [ 1322.27945785,  1768.74860369,   868.80244707,  4787.18537083,
         8244.5090565 , 13031.69442732],
       [ 9482.14802892,  5966.73094529,  5934.95840824,  6703.96885521,
         4941.34292684, 11645.31178204],
       [ 3583.62946335,  1966.41543802,  8669.83717294,  8705.57083305,
         6117.17283245, 14822.74366549],
       [ 5282.33418236,  6648.44397855,  8661.1421906 ,  6698.94855285,
         1051.02398577,  7749.97253861]])

In [37]:
df.values[0]

array([9689.73471856, 1369.22512789, 5374.09369551, 1783.5787371 ,
       6658.4165446 , 8441.9952817 ])



---



## 인덱싱(Indexing)

### DataFrame 인덱싱

| 사용 방법 | 설명 |
|-----------|------|
| `df[val]` | 하나의 컬럼 또는 여러 컬럼을 선택 |
| `df.loc[val]` | 레이블값으로 로우의 부분집합 선택 |
| `df.loc[:, val]` | 레이블값으로 컬럼의 부분집합 선택 |
| `df.loc[val1, val2]` | 레이블값으로 로우와 컬럼의 부분집합 선택 |
| `df.iloc[where]` | 정수 색인으로 로우의 부분집합 선택 |
| `df.iloc[:, where]` | 정수 색인으로 컬럼의 부분집합 선택 |
| `df.iloc[where_i, where_j]` | 정수 색인으로 로우와 컬럼의 부분집합 선택 |
| `df.at[label_i, label_j]` | 로우와 컬럼의 레이블로 단일 값 선택 |
| `df.iat[i, j]` | 로우와 컬럼의 정수 색인으로 단일 값 선택 |
| `reindex` | 하나 이상의 축을 새로운 색인으로 재색인 |
| `get_value, set_value` | 로우와 컬럼의 이름으로 값 선택 |

In [43]:
df.loc[(df.a > 2000) & (df.new < 10000)]

Unnamed: 0,a,b,c,d,e,new
0,9689.734719,1369.225128,5374.093696,1783.578737,6658.416545,8441.995282
4,5282.334182,6648.443979,8661.142191,6698.948553,1051.023986,7749.972539


In [9]:
df = pd.DataFrame(np.random.randint(0, 30, (5, 5)),
                 index=list('01234'),
                 columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,1,20,15,1,14
1,10,18,28,2,12
2,26,26,2,11,6
3,26,9,20,1,26
4,15,3,9,17,7


In [34]:
df.loc[:, 'a']

0     1
1    10
2    26
3    26
4    15
Name: a, dtype: int32

In [36]:
df.iloc[:, 0]

0     1
1    10
2    26
3    26
4    15
Name: a, dtype: int32

In [37]:
df.at['0', 'a']

1

In [38]:
df.iat[0, 0]

1

In [43]:
df.reindex(index=list('43210'))

Unnamed: 0,a,b,c,d,e
4,15,3,9,17,7
3,26,9,20,1,26
2,26,26,2,11,6
1,10,18,28,2,12
0,1,20,15,1,14


In [56]:
df.loc[(df.a>20) & (df.b<10)]

Unnamed: 0,a,b,c,d,e
3,26,9,20,1,26


## 데이터 연산

In [46]:
s1 = pd.Series([1, 3, 5, 7, 9], index=[0, 1, 2, 3, 4])
s2 = pd.Series([2, 4, 6, 8, 10], index=[1 ,2, 3, 4, 5])
print(s1, s2)

0    1
1    3
2    5
3    7
4    9
dtype: int64 1     2
2     4
3     6
4     8
5    10
dtype: int64


In [45]:
s1+s2

0     NaN
1     5.0
2     9.0
3    13.0
4    17.0
5     NaN
dtype: float64

In [47]:
s1.add(s2, fill_value=0)

0     1.0
1     5.0
2     9.0
3    13.0
4    17.0
5    10.0
dtype: float64

In [53]:
df1 = pd.DataFrame(np.random.randint(0, 20, (3, 3)),
                                    columns=list('ACD'))
df1

Unnamed: 0,A,C,D
0,10,9,8
1,13,8,9
2,0,15,5


In [54]:
df2 = pd.DataFrame(np.random.randint(0, 20, (5, 5)),
                  columns=list('BAECD'))
df2

Unnamed: 0,B,A,E,C,D
0,6,11,11,10,5
1,3,18,19,5,1
2,4,3,7,19,4
3,16,4,17,6,4
4,9,18,16,18,13


In [55]:
df1+df2

Unnamed: 0,A,B,C,D,E
0,21.0,,19.0,13.0,
1,31.0,,13.0,10.0,
2,3.0,,34.0,9.0,
3,,,,,
4,,,,,


### 연산자 범용 함수

| Python 연산자 | Pandas 메소드             |
|---------------|---------------------------|
| ``+``         | ``add``, ``radd``     |
| ``-``         | ``sub``, ``rsub``, ``subtract`` |
| ``*``         | ``mul``, ``rmul``, ``multiply`` |
| ``/``         | ``truediv``, ``div``, ``rdiv``, ``divide``|
| ``//``        | ``floordiv``, ``rfloordiv`` |
| ``%``         | ``mod``                 |
| ``**``        | ``pow``, ``rpow``      |

#### add()

### 정렬(Sort)

### 순위(Ranking)

* 수 목록 내에서 개별 수의 크기 순위 계산
```
DataFrame.rank(self, 
            axis = 0, # 기본값 0(index)으로, index 축을 기준으로 순위 계산 
    		method = 'average', # 동점을 가진 데이터들의 순위를 정하는 방법
    		numeric_only = None, # True로 설정된 경우 숫자 열만 순위를 부여 
    		na_option = 'keep', # NaN 값 순위를 부여하는 방법
    		ascending = True, # 오름차순 또는 내림차순 정렬
    		pct = False) # 반환 된 순위를 백분위 수 형식으로 표시할지 여부
```

| method | 설명 |
|--------|------|
| `average` | 기본값. 순위에 같은 값을 가지는 항목들의 평균값을 사용 |
| `min` | 같은 값을 가지는 그룹을 낮은 순위로 지정 |
| `max` | 같은 값을 가지는 그룹을 높은 순위로 지정 |
| `first` | 데이터 내의 위치에 따라 순위 지정 |
| `dense` | 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가 |

## 데이터 결합

### concat() / append()

In [4]:
s1 = pd.Series(['a', 'b'], index=[1, 2])
s2 = pd.Series(['c', 'd'], index=[3, 4])
pd.concat([s1, s2])

1    a
2    b
3    c
4    d
dtype: object

* 쉽게 데이터 만드는 함수

In [3]:
def create(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols}
    print(data)
    return pd.DataFrame(data, idx)

### column명은 같고, index는 다른 df 결합

In [8]:
df1 = create('ABC', [1, 2])
df1

{'A': ['a1', 'a2'], 'B': ['b1', 'b2'], 'C': ['c1', 'c2']}


Unnamed: 0,A,B,C
1,a1,b1,c1
2,a2,b2,c2


In [10]:
df2 = create('ABC', [3, 4])
df2

{'A': ['a3', 'a4'], 'B': ['b3', 'b4'], 'C': ['c3', 'c4']}


Unnamed: 0,A,B,C
3,a3,b3,c3
4,a4,b4,c4


In [12]:
pd.concat([df1, df2])

Unnamed: 0,A,B,C
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4


column에 맞춰 인덱스 확장

### column명이 다르고, index는 같은 결합

In [5]:
df3 = create('AB', [0, 1])
df4 = create('CD', [0, 1])

{'A': ['a0', 'a1'], 'B': ['b0', 'b1']}
{'C': ['c0', 'c1'], 'D': ['d0', 'd1']}


In [17]:
df3

Unnamed: 0,A,B
0,a0,b0
1,a1,b1


In [18]:
df4

Unnamed: 0,C,D
0,c0,d0
1,c1,d1


In [20]:
pd.concat([df3, df4])

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


column, index 모두 확장

### 결합 방향
- `axis = 0 / 1`: 열 확장 (컬럼 수 증가)

In [6]:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


- `verify_integrity=True`

In [24]:
pd.concat([df1, df3], verify_integrity=True) # 오류. row indx의 일치 여부 확인.

ValueError: Indexes have overlapping values: Int64Index([1], dtype='int64')

- `ignore_index=True`: row index를 무시하고 새로 index 생성

In [29]:
pd.concat([df1, df3], ignore_index=True)

Unnamed: 0,A,B,C
0,a1,b1,c1
1,a2,b2,c2
2,a0,b0,
3,a1,b1,


* column이 일부 겹치고, index는 다른 경우

In [26]:
df5 = create('ABC', [1, 2])
df6 = create('BCD', [3, 4])

{'A': ['a1', 'a2'], 'B': ['b1', 'b2'], 'C': ['c1', 'c2']}
{'B': ['b3', 'b4'], 'C': ['c3', 'c4'], 'D': ['d3', 'd4']}


In [27]:
print(df5)
print(df6)
pd.concat([df5, df6])

    A   B   C
1  a1  b1  c1
2  a2  b2  c2
    B   C   D
3  b3  c3  d3
4  b4  c4  d4


Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


겹치치 않는 column에 대한 데이터는 NaN, index도 확장

In [28]:
pd.concat([df5, df6], join='inner') # column이 같은 것만 연결

Unnamed: 0,B,C
1,b1,c1
2,b2,c2
3,b3,c3
4,b4,c4


### 병합과 조인

- `pd.merge()`: 공통 컬럼 기준으로 병합

In [7]:
df1 = pd.DataFrame({'학생': ['홍길동', '이수신', '임꺽정', '김유신'],
                   '학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이수신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [8]:
df2 = pd.DataFrame({'학생': ['홍길동', '이수신', '임꺽정', '김유신'],
                   '입학년도': [2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이수신,2016
2,임꺽정,2019
3,김유신,2020


In [10]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이수신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [11]:
df4 = pd.DataFrame({'학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과'],
                   '학과장': ['황희', '장영실', '안창호', '정약용']})
df4

Unnamed: 0,학과,학과장
0,경영학과,황희
1,교육학과,장영실
2,컴퓨터학과,안창호
3,통계학과,정약용


In [13]:
pd.merge(df3, df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이수신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [14]:
df5 = pd.DataFrame({'학과': ['경영학과', '교육학과', '교육학과', '컴퓨터학과', '컴퓨터학과', '통계학과'],
                   '과목': ['경영개론', '기초수학', '물리학', '프로그래밍', '운영체제', '확률론']})
df5

Unnamed: 0,학과,과목
0,경영학과,경영개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터학과,프로그래밍
4,컴퓨터학과,운영체제
5,통계학과,확률론


In [24]:
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이수신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [17]:
pd.merge(df1, df5) # 공통 컬럼 기준으로 병합

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영개론
1,이수신,교육학과,기초수학
2,이수신,교육학과,물리학
3,임꺽정,컴퓨터학과,프로그래밍
4,임꺽정,컴퓨터학과,운영체제
5,김유신,통계학과,확률론


- `on='column_n'`: 병합 기준 컬럼 지정

In [29]:
pd.merge(df1, df2, on='학생')

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이수신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [19]:
df6 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '성적': ['A', 'A+', 'B', 'A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


- 기준 컬럼 이름이 다른 경우: `left_on`, `right_on`

In [30]:
pd.merge(df1, df6, left_on='학생', right_on='이름').drop('이름', axis=1) # 중복된 데이터 제거

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,임꺽정,컴퓨터학과,B
2,김유신,통계학과,A+


- 공통 컬럼이 없는 경우: 오류

In [32]:
mdf1 = df1.set_index('학생')
mdf2 = df2.set_index('학생')

In [33]:
mdf1

Unnamed: 0_level_0,학과
학생,Unnamed: 1_level_1
홍길동,경영학과
이수신,교육학과
임꺽정,컴퓨터학과
김유신,통계학과


In [34]:
mdf2

Unnamed: 0_level_0,입학년도
학생,Unnamed: 1_level_1
홍길동,2012
이수신,2016
임꺽정,2019
김유신,2020


In [38]:
pd.merge(mdf1, mdf2) # 공통 컬럼이 없음

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

- 인덱스를 기준으로 하는 경우: `left_index=True`, `right_index=True`

In [39]:
pd.merge(mdf1, mdf2, left_index=True, right_index=True)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이수신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


+ `join()`: 인덱스를 기준으로 결합

In [40]:
mdf1.join(mdf2)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이수신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


- 기준값이 각각 인덱스, 컬럼인 경우

In [41]:
pd.merge(mdf1, df6, left_index=True, right_on='이름')

Unnamed: 0,학과,이름,성적
0,경영학과,홍길동,A
2,컴퓨터학과,임꺽정,B
3,통계학과,김유신,A+


In [44]:
df7 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정'],
                   '주문음식': ['햄버거', '피자', '짜장면']})
df7

Unnamed: 0,이름,주문음식
0,홍길동,햄버거
1,이순신,피자
2,임꺽정,짜장면


In [45]:
df8 = pd.DataFrame({'이름': ['홍길동', '이순신', '김유신'],
                   '주문음료': ['사이다', '콜라', '커피']})
df8

Unnamed: 0,이름,주문음료
0,홍길동,사이다
1,이순신,콜라
2,김유신,커피


In [46]:
pd.merge(df7, df8)

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,사이다
1,이순신,피자,콜라


공통된 항목에 대해서만 병합: inner join  

`how='inner'`

In [47]:
pd.merge(df7, df8, how='outer')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,사이다
1,이순신,피자,콜라
2,임꺽정,짜장면,
3,김유신,,커피


In [49]:
pd.merge(df7, df8, how='left') # df7의 케이스 모두 병합

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,사이다
1,이순신,피자,콜라
2,임꺽정,짜장면,


In [50]:
pd.merge(df7, df8, how='right') # df8의 케이스 모두 병합

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,사이다
1,이순신,피자,콜라
2,김유신,,커피


In [52]:
df9 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '순위': [4, 1, 3, 2]})
df9

Unnamed: 0,이름,순위
0,홍길동,4
1,이순신,1
2,임꺽정,3
3,김유신,2


In [53]:
df10 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '순위': [3, 4, 2, 1]})
df10

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,4
2,임꺽정,2
3,김유신,1


In [54]:
pd.merge(df9, df10, on='이름')

Unnamed: 0,이름,순위_x,순위_y
0,홍길동,4,3
1,이순신,1,4
2,임꺽정,3,2
3,김유신,2,1


이름을 기준으로 컬럼명이 중복되는 데이터를 각각 맞추어 병합

In [56]:
pd.merge(df9, df10, on='이름', suffixes=['_성적', '_인기'])

Unnamed: 0,이름,순위_성적,순위_인기
0,홍길동,4,3
1,이순신,1,4
2,임꺽정,3,2
3,김유신,2,1


## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)

| 집계                     | 설명                     |
|--------------------------|--------------------------|
| ``count`` | 전체 개수 |
| ``head``, ``tail`` | 앞의 항목 일부 반환, 뒤의 항목 일부 반환 |
| ``describe`` | Series, DataFrame의 각 컬럼에 대한 요약 통계 |
| ``min``, ``max`` | 최소값, 최대값           |
| ``cummin``, ``cummax`` | 누적 최소값, 누적 최대값 |
| ``argmin``, ``argmax`` | 최소값과 최대값의 색인 위치 |
| ``idxmin``, ``idxmax`` | 최소값과 최대값의 색인값 |
| ``mean``, ``median`` | 평균값, 중앙값 |
| ``std``, ``var`` | 표준편차(Standard deviation), 분산(Variance) |
| ``skew`` | 왜도(skewness) 값 계산 |
| ``kurt`` | 첨도(kurtosis) 값 계산 |
| ``mad`` | 절대 평균 편차(Mean Absolute Deviation) |
| ``sum``, ``cumsum`` | 전체 항목 합, 누적합 |
| ``prod``, ``cumprod`` | 전체 항목 곱, 누적곱 |
| ``quantile`` | 0부터 1까지의 분위수 계산 |
| ``diff`` | 1차 산술차 계산 |
| ``pct_change`` | 퍼센트 변화율 계산 |
| ``corr``, ``cov`` | 상관관계, 공분산 계산 |



In [12]:
df = pd.DataFrame([[1, 2, np.nan], 
                   [3, 3, 4], 
                   [np.nan, np.nan, np.nan], 
                   [7, 5, 6]], 
                  index=[1, 2, 3, 4], columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1,1.0,2.0,
2,3.0,3.0,4.0
3,,,
4,7.0,5.0,6.0


In [13]:
df.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,2.0
mean,3.666667,3.333333,5.0
std,3.05505,1.527525,1.414214
min,1.0,2.0,4.0
25%,2.0,2.5,4.5
50%,3.0,3.0,5.0
75%,5.0,4.0,5.5
max,7.0,5.0,6.0


In [15]:
print(df.idxmin())
print(df.idxmax())
print(df.mean())
print(df.std())

A    1
B    1
C    2
dtype: int64
A    4
B    4
C    4
dtype: int64
A    3.666667
B    3.333333
C    5.000000
dtype: float64
A    3.055050
B    1.527525
C    1.414214
dtype: float64


In [16]:
df.corr()

Unnamed: 0,A,B,C
A,1.0,1.0,1.0
B,1.0,1.0,1.0
C,1.0,1.0,1.0


In [17]:
df.corrwith(df.B)

A    1.0
B    1.0
C    1.0
dtype: float64

In [19]:
df['A'].value_counts()

1.0    1
3.0    1
7.0    1
Name: A, dtype: int64

In [21]:
df['A'].unique()

array([ 1.,  3., nan,  7.])

### GroupBy 연산

In [27]:
df = pd.read_excel('/JupyterNotbook/DataMining/df.xlsx')
df = pd.concat([df, pd.DataFrame({'c4': np.random.random(7)})], axis=1)
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,3,0.403263
1,a,B,2,0.585773
2,b,B,2,0.329785
3,b,A,7,0.400206
4,c1,D,8,0.796594
5,d,c2,9,0.292581
6,b,c2,3,0.626921


In [29]:
df.groupby('c1').mean() # c1을 기준으로 같은 값을 가지는 행끼리 묶어주고, 그것끼리 평균

Unnamed: 0_level_0,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,0.494518
b,4.0,0.452304
c1,8.0,0.796594
d,9.0,0.292581


In [30]:
df.groupby(['c1', 'c2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,c3,c4
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,3.0,0.403263
a,B,2.0,0.585773
b,A,7.0,0.400206
b,B,2.0,0.329785
b,c2,3.0,0.626921
c1,D,8.0,0.796594
d,c2,9.0,0.292581


In [31]:
df.groupby(['c1', 'c2']).size()

c1  c2
a   A     1
    B     1
b   A     1
    B     1
    c2    1
c1  D     1
d   c2    1
dtype: int64

In [33]:
df.groupby(['c1', 'c2'])['c4'].mean() # 묶고, c4에 대한 평균만

c1  c2
a   A     0.403263
    B     0.585773
b   A     0.400206
    B     0.329785
    c2    0.626921
c1  D     0.796594
d   c2    0.292581
Name: c4, dtype: float64

In [34]:
df.groupby(['c1', 'c2'])[['c4']].mean() # DataFrame 형태

Unnamed: 0_level_0,Unnamed: 1_level_0,c4
c1,c2,Unnamed: 2_level_1
a,A,0.403263
a,B,0.585773
b,A,0.400206
b,B,0.329785
b,c2,0.626921
c1,D,0.796594
d,c2,0.292581


In [35]:
df.groupby('c1')['c3'].median()

c1
a     2.5
b     3.0
c1    8.0
d     9.0
Name: c3, dtype: float64

In [38]:
df.groupby('c1')['c3'].agg(['mean', 'min', 'max']) # 연산 집합

Unnamed: 0_level_0,mean,min,max
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,2.5,2,3
b,4.0,2,7
c1,8.0,8,8
d,9.0,9,9


## 문자열 연산

#### 문자열 연산자

* 파이썬의 문자열 연산자를 거의 모두 반영

| 함수 | 설명 |
| --- | --- |
| `capitalize()` | 첫 문자를 대문자로하고, 나머지 문자를 소문자로 하는 문자열 반환 |
| `casefold()` | 모든 대소문자 구분을 제거 |
| `count(sub, [, start[, end]])` | [start, end] 범위에서 부분 문자열 sub의 중복되지 않은 수를 반환 |
| `find(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `rfind(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 큰 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `index(sub [, start [, end]])` | find()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `rindex(sub [, start [, end]])` | rfind()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `isalnum()` | 문자열의 모든 문자가 영숫자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isalpha()` | 문자열의 모든 문자가 영문자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isdecimal()` | 문자열의 모든 문자가 10진수 문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isdigit()` | 문자열의 모든 문자가 숫자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isnumeric()` | 문자열의 모든 문자가 수치형이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isidentifier()` | 문자열이 유효한 식별자인 경우 True 반환 |
| `isspace()` | 문자열 내에 공백 문자가 있고, 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `istitle()` | 문자열이 제목이 있는 문자열에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `islower()` | 문자열의 모든 문자가 소문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isupper()` | 문자열의 문자가 모두 대문자에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `join(iterable)` | iterable에 있는 문자열에 연결된 문자열을 반환 |
| `center(width [, fillchar])` | 길이 너비만큼 중앙정렬된 문자열 반환 |
| `ljust(width [, fillchar])` | 너미만큼의 문자열에서 왼쪽 정렬된 문자열을 반환 |
| `rjust(width [, fillchar])` | 너미만큼의 문자열에서 오른쪽 정렬된 문자열을 반환 |
| `lower()` | 모든 대소문자가 소문자로 변환된 문자열을 반환 |
| `upper()` | 문자열에서 모든 문자를 대문자로 변환한 문자열을 반환 |
| `title()` | 문자열에서 첫 글자만 대문자이고 나머지는 소문자인 문자열 반환 |
| `swapcase()` | 문자열에서 소문자를 대문자로 대문자를 소문자로 변환한 문자열 반환 |
| `strip([chars])` | 문자열 양쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `lstrip([chars])` | 문자열 왼쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `rstrip([chars])` | 문자열 오른쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `partition(sep)` | 문자열에서 첫번째 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `rpartition(sep)` | 문자열에서 마지막 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `replace(old, new[,count])` | 문자열의 모든 old를 new로 교체한 문자열을 반환 |
| `split(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `rsplit(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `splitlines([keepends])` | 문자열에서 라인 단위로 구분하여 리스트를 반환 |
| `startswith(prefix [, start[, end]])` | [start, end] 범위에서 지정한 prefix로 시작하면 True, 아니면 False 반환 |
| `endswith(suffix [, start[, end]])` | [start, end] 범위에서 지정한 suffix로 끝나면 True, 아니면 False 반환 |
| `zfill(width)` | 너비 만큼의 문자열에서 비어있는 부분에 ‘0’이 채워진 문자열 반환 |

In [46]:
name_list = ['Sun Jo', 'Steven Jobs', 'Larry Page', 'Elon Musk', np.nan, 'Bill Gates', 'Mark Zuckerberg', 'Jeff Bezos']
names = pd.Series(name_list)

In [47]:
names.str.len()

0     6.0
1    11.0
2    10.0
3     9.0
4     NaN
5    10.0
6    15.0
7    10.0
dtype: float64

In [42]:
names.str.split()

0             [Sun, Jo]
1        [Steven, Jobs]
2         [Larry, Page]
3          [Elon, Musk]
4                   NaN
5         [Bill, Gates]
6    [Mark, Zuckerberg]
7         [Jeff, Bezos]
dtype: object

In [48]:
names = pd.DataFrame(names)
names

Unnamed: 0,0
0,Sun Jo
1,Steven Jobs
2,Larry Page
3,Elon Musk
4,
5,Bill Gates
6,Mark Zuckerberg
7,Jeff Bezos


In [49]:
names.str.upper()

AttributeError: 'DataFrame' object has no attribute 'str'

## 데이터 읽기 및 저장

| 함수 | 설명 |
|------|------|
| `read_csv` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: ',') |
| `read_table` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: '\t') |
| `read_fwf` | 고정폭 컬럼 형식에서 데이터 읽기 (구분자 없는 데이터) |
| `read_clipboard` | 클립보드에 있는 데이터 읽기. 웹페이지에 있는 표를 읽어올 때 유용 |
| `read_excel` | 엑셀 파일(xls, xlsx)에서 표 형식 데이터 읽기 |
| `read_hdf` | Pandas에서 저장한 HDFS 파일의 데이터 읽기 |
| `read_html` | HTML 문서 내의 모든 테이블 데이터 읽기 |
| `read_json` | JSON에서 데이터 읽기 |
| `read_msgpack` | 메시지팩 바이너리 포맷으로 인코딩된 pandas 데이터 읽기 |
| `read_pickle` | 파이썬 피클 포맷으로 저장된 객체 읽기 |
| `read_sas` | SAS 시스템의 사용자 정의 저장 포맷 데이터 읽기 |
| `read_sql` | SQL 질의 결과를 DataFrame 형식으로 읽기 |
| `read_stata` | Stata 파일에서 데이터 읽기 |
| `read_feather` | Feather 바이너리 파일 포맷의 데이터 읽기 |

### 텍스트 파일 읽기/쓰기

In [58]:
%%writefile example.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Overwriting example.csv


In [59]:
ls

 D 드라이브의 볼륨: SSD
 볼륨 일련 번호: D498-E52F

 D:\JupyterNotbook\DataMining 디렉터리

2022-04-02  오후 11:18    <DIR>          .
2022-04-02  오후 11:18    <DIR>          ..
2022-03-31  오후 08:41    <DIR>          .ipynb_checkpoints
2022-04-02  오후 10:45             9,384 df.xlsx
2022-04-02  오후 11:19                89 example.csv
2022-04-02  오후 11:17                64 example2.csv
2022-03-31  오후 08:44            12,745 HW1.Pandas.ipynb
2022-03-28  오후 03:54            88,808 NumPy1.ipynb
2022-04-02  오후 11:18           246,772 Pandas.ipynb
               6개 파일             357,862 바이트
               3개 디렉터리  232,513,953,792 바이트 남음


In [60]:
pd.read_csv('/JupyterNotbook/DataMining/example.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [64]:
%%writefile example2.csv
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Overwriting example2.csv


In [65]:
pd.read_csv('/JupyterNotbook/DataMining/example2.csv', header=None)

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [66]:
pd.read_csv('example2.csv', names=['a', 'b', 'c', 'd', 'e', 'text'])

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [67]:
pd.read_csv('example2.csv', names=['a', 'b', 'c', 'd', 'e', 'text'], index_col='text')

Unnamed: 0_level_0,a,b,c,d,e
text,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hi,1,2,3,4,5
pandas,6,7,8,9,10
csv,11,12,13,14,15


In [None]:
import textwrap
%%writefile example3.textwrap

In [68]:
%%writefile example3.txt
   a   b   c
1 0.1 0.2 0.3
2 0.4 0.5 0.6
3 0.6 0.5 0.4

Writing example3.txt


In [70]:
pd.read_table('example3.txt', sep='\s+') # 개수와 상관없이 \n을 기준으로 구분

Unnamed: 0,a,b,c
1,0.1,0.2,0.3
2,0.4,0.5,0.6
3,0.6,0.5,0.4


In [77]:
%%writefile example4.csv
a, b, c, d, e, text
1, 2, 3, NA, 5, hi
6, 7, NULL, 9, 10, pandas
11, 12, 13, 14, 15, csv

Overwriting example4.csv


In [78]:
pd.read_csv('example4.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2,3.0,,5,hi
1,6,7,,9.0,10,pandas
2,11,12,13.0,14.0,15,csv


In [79]:
%%writefile example5.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Writing example5.csv


In [81]:
pd.read_csv('example5.csv', nrows=5)

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv
3,a,b,c,d,e,text
4,1,2,3,4,5,hi


## 데이터 정제

### 누락값

* 존재하지 않는 데이터

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

In [59]:
a = np.array([1 ,2, np.nan, 4, 5])
print(a)
a.dtype

[ 1.  2. nan  4.  5.]


dtype('float64')

In [60]:
a.sum()

nan

In [55]:
np.nansum(a)

7.0

In [50]:
pd.Series([1 ,2, np.nan, 4, None])

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

In [52]:
pd.Series([1 ,2, np.nan, 4, None]).sum()

7.0

#### 누락값 처리

| 인자 | 설명 |
|------|------|
| `isnull()` | 누락되거나 NA인 값을 불리언 값으로 반환 | 
| `notnull()` | `issull()`의 반대 | 
| `dropna()` | 누락된 데이터가 있는 축 제외 | 
| `fillna()` | 누락된 값을 대체하거나 `ffill`이나 `bfill`로 보간 메소드 적용 | 

In [5]:
s = pd.Series([1, 2, np.nan, 'stirng', None])
s

0         1
1         2
2       NaN
3    stirng
4      None
dtype: object

In [7]:
s.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [8]:
s[s.notnull()]

0         1
1         2
3    stirng
dtype: object

In [10]:
s.dropna()

0         1
1         2
3    stirng
dtype: object

In [12]:
s.fillna(0)

0         1
1         2
2         0
3    stirng
4         0
dtype: object

In [13]:
s.fillna(method='ffill')

0         1
1         2
2         2
3    stirng
4    stirng
dtype: object

In [14]:
s.fillna(method='bfill')

0         1
1         2
2    stirng
3    stirng
4      None
dtype: object

In [15]:
df = pd.DataFrame(np.random.rand(10, 3), columns=list('ABC'))
df.iloc[3:5, 0] = np.nan
df.iloc[4:6, 1] = np.nan
df.iloc[5:8, 2] = np.nan
df

Unnamed: 0,A,B,C
0,0.041493,0.282118,0.703938
1,0.210826,0.427204,0.211956
2,0.301293,0.625739,0.467968
3,,0.599662,0.575114
4,,,0.181565
5,0.10388,,
6,0.484109,0.754187,
7,0.741993,0.710893,
8,0.512784,0.233818,0.609769
9,0.631951,0.945521,0.765276


In [16]:
df.dropna()

Unnamed: 0,A,B,C
0,0.041493,0.282118,0.703938
1,0.210826,0.427204,0.211956
2,0.301293,0.625739,0.467968
8,0.512784,0.233818,0.609769
9,0.631951,0.945521,0.765276


In [17]:
df.dropna(axis='rows') # df.dropna(axis='0')

Unnamed: 0,A,B,C
0,0.041493,0.282118,0.703938
1,0.210826,0.427204,0.211956
2,0.301293,0.625739,0.467968
8,0.512784,0.233818,0.609769
9,0.631951,0.945521,0.765276


In [21]:
df.dropna(axis='columns') df.dropna(axis=1)

0
1
2
3
4
5
6
7
8
9


In [31]:
df.fillna(method='ffill', axis=1) # 행 기준 앞 = 앞 행

Unnamed: 0,A,B,C
0,0.041493,0.282118,0.703938
1,0.210826,0.427204,0.211956
2,0.301293,0.625739,0.467968
3,,0.599662,0.575114
4,,,0.181565
5,0.10388,0.10388,0.10388
6,0.484109,0.754187,0.754187
7,0.741993,0.710893,0.710893
8,0.512784,0.233818,0.609769
9,0.631951,0.945521,0.765276


In [23]:
df.fillna(method='bfill', axis=1)

Unnamed: 0,A,B,C
0,0.041493,0.282118,0.703938
1,0.210826,0.427204,0.211956
2,0.301293,0.625739,0.467968
3,0.599662,0.599662,0.575114
4,0.181565,0.181565,0.181565
5,0.10388,,
6,0.484109,0.754187,
7,0.741993,0.710893,
8,0.512784,0.233818,0.609769
9,0.631951,0.945521,0.765276


### 중복 제거

In [34]:
df = pd.DataFrame({'c1': ['a', 'b', 'c']*2+['b']+['c'], 
                'c2': [1, 2, 1, 1, 2, 3, 3, 4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [39]:
df.duplicated()

0    False
1    False
2    False
3     True
4     True
5    False
6    False
7    False
dtype: bool

In [40]:
df.drop_duplicates()

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
5,c,3
6,b,3
7,c,4


## 데이터 재구조화

* stack(), unstack() 함수를 이용해 데이터프레임의 구조 변경
* stack : 위에서 아래로 (행방향)
* unstack : 왼쪽에서 오른쪽으로 (열방향)

## 데이터 조회

* query() 함수를 이용한 조건에 맞는 데이터 조회

In [42]:
data = pd.DataFrame({'age': [10, 10, 20, 21],
                    'weight': [20, 30, 60, 70]})
data

Unnamed: 0,age,weight
0,10,20
1,10,30
2,20,60
3,21,70


In [43]:
data.query('age == 10')

Unnamed: 0,age,weight
0,10,20
1,10,30


In [44]:
data.query('age in [10, 20]')

Unnamed: 0,age,weight
0,10,20
1,10,30
2,20,60


In [45]:
data.query('weight >= 70' and 'age >= 20')

Unnamed: 0,age,weight
2,20,60
3,21,70


## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly