# Pandas

* [pandas](https://pandas.pydata.org/pandas-docs/stable/, "pandas link")
* 관계 또는 레이블링 데이터로 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지

---

In [1]:
# !pip install pandas
import numpy as np
import pandas as pd

## Pandas 데이터 구조


### Series

* 모든 데이터 타입을 저장할 수 있는 레이블(index)이 지정된 1차원 배열
* 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트, 튜플 등으로 생성

In [2]:
s = pd.Series([0.3, 0.5, 0.5, 0.75, 1.0],
              index=['a', 'b', 'c', 'd', 'e'])
s

a    0.30
b    0.50
c    0.50
d    0.75
e    1.00
dtype: float64

In [3]:
s['c']

0.5

In [4]:
s[['c', 'd', 'e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [5]:
s.values

array([0.3 , 0.5 , 0.5 , 0.75, 1.  ])

In [6]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [7]:
s.unique()

array([0.3 , 0.5 , 0.75, 1.  ])

In [8]:
s.value_counts()

0.50    2
1.00    1
0.30    1
0.75    1
dtype: int64

In [9]:
s.isin([0.5, 0.75])

a    False
b     True
c     True
d     True
e    False
dtype: bool

In [10]:
pop_dict = {"서울특별시": 9720846,
            "부산광역시": 3404423,
            "인천광역시": 2947217,
            "대구광역시": 2427954,
            "대전광역시": 1471040,
            "광주광역시": 1455048}
population = pd.Series(pop_dict)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [11]:
population['서울특별시']

9720846

In [12]:
population['서울특별시':'인천광역시']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame

* 시리즈가 열 방향으로 여러 개 합쳐진 2차원 자료 구조
* 열(columns), 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트로 생성

In [13]:
pd.DataFrame([{'A':2, 'B':4, 'D':3}, {'A':4, 'B':5, 'C':7}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [14]:
pd.DataFrame(np.random.rand(5, 5),
             columns=['A', 'B', 'C', 'D', 'E'],
             index=[1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.411143,0.804139,0.072007,0.85511,0.600797
2,0.986625,0.760309,0.590703,0.680284,0.028652
3,0.675685,0.677946,0.836645,0.727679,0.50538
4,0.247263,0.841043,0.573282,0.379876,0.139856
5,0.32263,0.999221,0.354825,0.163102,0.882364


In [15]:
pop_male = {"서울특별시": 4732275,
            "부산광역시": 1668618,
            "인천광역시": 1476813,
            "대구광역시": 1198815,
            "대전광역시": 734441,
            "광주광역시": 720060}
male = pd.Series(pop_male)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
dtype: int64

In [16]:
pop_female = {"서울특별시": 4988571,
              "부산광역시": 1735805,
              "인천광역시": 1470404,
              "대구광역시": 1229139,
              "대전광역시": 736599,
              "광주광역시": 734988}
female = pd.Series(pop_female)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
dtype: int64

In [18]:
korea_df = pd.DataFrame({"인구수":population,
                         "남자인구수":male,
                         "여자인구수":female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [20]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [21]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [22]:
korea_df['여자인구수']

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [23]:
korea_df['서울특별시':'인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404




---



## 인덱싱(Indexing)

### DataFrame 인덱싱

| 사용 방법 | 설명 |
|-----------|------|
| `df[val]` | 하나의 컬럼 또는 여러 컬럼을 선택 |
| `df.loc[val]` | 레이블값으로 로우의 부분집합 선택 |
| `df.loc[:, val]` | 레이블값으로 컬럼의 부분집합 선택 |
| `df.loc[val1, val2]` | 레이블값으로 로우와 컬럼의 부분집합 선택 |
| `df.iloc[where]` | 정수 색인으로 로우의 부분집합 선택 |
| `df.iloc[:, where]` | 정수 색인으로 컬럼의 부분집합 선택 |
| `df.iloc[where_i, where_j]` | 정수 색인으로 로우와 컬럼의 부분집합 선택 |
| `df.at[label_i, label_j]` | 로우와 컬럼의 레이블로 단일 값 선택 |
| `df.iat[i, j]` | 로우와 컬럼의 정수 색인으로 단일 값 선택 |
| `reindex` | 하나 이상의 축을 새로운 색인으로 재색인 |
| `get_value, set_value` | 로우와 컬럼의 이름으로 값 선택 |

In [24]:
korea_df['남자인구수']

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [25]:
korea_df.남자인구수

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [26]:
korea_df.여자인구수

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [27]:
korea_df['남여비율'] = (korea_df['남자인구수'] * 100 / korea_df['여자인구수'])
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [28]:
korea_df.남여비율

서울특별시     94.862336
부산광역시     96.129346
인천광역시    100.435867
대구광역시     97.532907
대전광역시     99.707032
광주광역시     97.968946
Name: 남여비율, dtype: float64

In [29]:
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0,720060.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0,734988.0
남여비율,94.86234,96.12935,100.4359,97.53291,99.70703,97.96895


In [30]:
korea_df.values

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.34988000e+05, 9.79689464e+01]])

In [31]:
korea_df.values[0]

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [32]:
korea_df.loc[:'인천광역시', :'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [33]:
korea_df.loc[(korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [34]:
korea_df.loc[(korea_df.여자인구수 < 2000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [35]:
korea_df.loc[(korea_df.인구수 > 2500000) & (korea_df.남여비율 > 100)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [36]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


## 데이터 연산

In [37]:
s1 = pd.Series([1, 3, 5, 7, 9], index=[0, 1, 2, 3, 4])
s2 = pd.Series([2, 4, 6, 8, 10], index=[1, 2, 3, 4, 5])
print(s1 + s2)

0     NaN
1     5.0
2     9.0
3    13.0
4    17.0
5     NaN
dtype: float64


In [38]:
s1.add(s2, fill_value=0)

0     1.0
1     5.0
2     9.0
3    13.0
4    17.0
5    10.0
dtype: float64

In [39]:
df1 = pd.DataFrame(np.random.randint(0, 20, (3, 3)),
                   columns=list('ACD'))
df1

Unnamed: 0,A,C,D
0,9,0,15
1,5,5,18
2,8,2,15


In [40]:
df2 = pd.DataFrame(np.random.randint(0, 20, (5, 5)),
                   columns=list('BAECD'))
df2

Unnamed: 0,B,A,E,C,D
0,11,16,3,2,9
1,19,2,7,2,4
2,6,4,7,4,10
3,17,1,13,17,4
4,10,6,13,15,16


In [41]:
df1 + df2

Unnamed: 0,A,B,C,D,E
0,25.0,,2.0,24.0,
1,7.0,,7.0,22.0,
2,12.0,,6.0,25.0,
3,,,,,
4,,,,,


In [42]:
df1.add(df2, fill_value=0)

Unnamed: 0,A,B,C,D,E
0,25.0,11.0,2.0,24.0,3.0
1,7.0,19.0,7.0,22.0,7.0
2,12.0,6.0,6.0,25.0,7.0
3,1.0,17.0,17.0,4.0,13.0
4,6.0,10.0,15.0,16.0,13.0


### 연산자 범용 함수

| Python 연산자 | Pandas 메소드             |
|---------------|---------------------------|
| ``+``         | ``add``, ``radd``     |
| ``-``         | ``sub``, ``rsub``, ``subtract`` |
| ``*``         | ``mul``, ``rmul``, ``multiply`` |
| ``/``         | ``truediv``, ``div``, ``rdiv``, ``divide``|
| ``//``        | ``floordiv``, ``rfloordiv`` |
| ``%``         | ``mod``                 |
| ``**``        | ``pow``, ``rpow``      |

#### add()

In [43]:
a = np.random.randint(1, 10, size=(3,3))
a

array([[6, 9, 6],
       [3, 3, 8],
       [3, 1, 2]])

In [44]:
a + a[0]

array([[12, 18, 12],
       [ 9, 12, 14],
       [ 9, 10,  8]])

In [45]:
df = pd.DataFrame(a, columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,6,9,6
1,3,3,8
2,3,1,2


In [46]:
df + df.iloc[0]

Unnamed: 0,A,B,C
0,12,18,12
1,9,12,14
2,9,10,8


In [47]:
df.add(df.iloc[0])

Unnamed: 0,A,B,C
0,12,18,12
1,9,12,14
2,9,10,8


### 정렬(Sort)

In [48]:
s = pd.Series(range(5), index=list('ADBCE'))
s

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [49]:
s.sort_index()

A    0
B    2
C    3
D    1
E    4
dtype: int64

In [50]:
s.sort_values()

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [51]:
df = pd.DataFrame(np.random.randint(0, 6, (4, 4)),
                 index=[2, 4, 1, 3],
                 columns=list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,5,2,3,2
4,5,1,4,5
1,1,1,4,1
3,4,3,4,5


In [52]:
df.sort_index()

Unnamed: 0,B,D,A,C
1,1,1,4,1
2,5,2,3,2
3,4,3,4,5
4,5,1,4,5


In [53]:
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2,3,5,2,2
4,4,5,5,1
1,4,1,1,1
3,4,4,5,3


In [54]:
df.sort_values(by='A')

Unnamed: 0,B,D,A,C
2,5,2,3,2
4,5,1,4,5
1,1,1,4,1
3,4,3,4,5


In [55]:
df.sort_values(by=['A', 'C'])

Unnamed: 0,B,D,A,C
2,5,2,3,2
1,1,1,4,1
4,5,1,4,5
3,4,3,4,5


### 순위(Ranking)

* 수 목록 내에서 개별 수의 크기 순위 계산
```
DataFrame.rank(self, 
            axis = 0, # 기본값 0(index)으로, index 축을 기준으로 순위 계산 
    		method = 'average', # 동점을 가진 데이터들의 순위를 정하는 방법
    		numeric_only = None, # True로 설정된 경우 숫자 열만 순위를 부여 
    		na_option = 'keep', # NaN 값 순위를 부여하는 방법
    		ascending = True, # 오름차순 또는 내림차순 정렬
    		pct = False) # 반환 된 순위를 백분위 수 형식으로 표시할지 여부
```

| method | 설명 |
|--------|------|
| `average` | 기본값. 순위에 같은 값을 가지는 항목들의 평균값을 사용 |
| `min` | 같은 값을 가지는 그룹을 낮은 순위로 지정 |
| `max` | 같은 값을 가지는 그룹을 높은 순위로 지정 |
| `first` | 데이터 내의 위치에 따라 순위 지정 |
| `dense` | 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가 |

In [56]:
s = pd.Series([-2, 3, 7, 3, 8, 9, 3, -4, 2, 6])
s

0   -2
1    3
2    7
3    3
4    8
5    9
6    3
7   -4
8    2
9    6
dtype: int64

In [57]:
s.rank()

0     2.0
1     5.0
2     8.0
3     5.0
4     9.0
5    10.0
6     5.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [58]:
s.rank(method='first')

0     2.0
1     4.0
2     8.0
3     5.0
4     9.0
5    10.0
6     6.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [59]:
s.rank(method='min')

0     2.0
1     4.0
2     8.0
3     4.0
4     9.0
5    10.0
6     4.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [60]:
s.rank(method='max')

0     2.0
1     6.0
2     8.0
3     6.0
4     9.0
5    10.0
6     6.0
7     1.0
8     3.0
9     7.0
dtype: float64

## 데이터 결합

### concat() / append()

In [61]:
s1 = pd.Series(['a', 'b'], index=[1, 2])
s2 = pd.Series(['c', 'd'], index=[3, 4])
pd.concat([s1, s2])

1    a
2    b
3    c
4    d
dtype: object

In [62]:
def create_df(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols}
    print(data)
    return pd.DataFrame(data, idx)

In [63]:
df1 = create_df('AB', [1, 2])
df1

{'A': ['a1', 'a2'], 'B': ['b1', 'b2']}


Unnamed: 0,A,B
1,a1,b1
2,a2,b2


In [64]:
df2 = create_df('AB', [3, 4])
df2

{'A': ['a3', 'a4'], 'B': ['b3', 'b4']}


Unnamed: 0,A,B
3,a3,b3
4,a4,b4


In [65]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [66]:
df3 = create_df('AB', [0, 1])
df3

{'A': ['a0', 'a1'], 'B': ['b0', 'b1']}


Unnamed: 0,A,B
0,a0,b0
1,a1,b1


In [67]:
df4 = create_df('CD', [0, 1])
df4

{'C': ['c0', 'c1'], 'D': ['d0', 'd1']}


Unnamed: 0,C,D
0,c0,d0
1,c1,d1


In [68]:
pd.concat([df3, df4])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [69]:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [70]:
pd.concat([df1, df3])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
0,a0,b0
1,a1,b1


In [71]:
pd.concat([df1, df3], verify_integrity=True) # row index의 중복 여부 확인

ValueError: Indexes have overlapping values: Int64Index([1], dtype='int64')

In [72]:
pd.concat([df1, df3], ignore_index=True) # 기존의 row index를 무시하고 새로 생성

Unnamed: 0,A,B
0,a1,b1
1,a2,b2
2,a0,b0
3,a1,b1


In [73]:
df5 = create_df('ABC', [1, 2])
df6 = create_df('BCD', [3, 4])

{'A': ['a1', 'a2'], 'B': ['b1', 'b2'], 'C': ['c1', 'c2']}
{'B': ['b3', 'b4'], 'C': ['c3', 'c4'], 'D': ['d3', 'd4']}


In [74]:
pd.concat([df5, df6])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


In [75]:
pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,b1,c1
2,b2,c2
3,b3,c3
4,b4,c4


### 병합과 조인

In [76]:
df1 = pd.DataFrame({'학생': ['홍길동', '이순신', '임꺽정', '김유신'],
                    '학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [77]:
df2 = pd.DataFrame({'학생': ['홍길동', '이순신', '임꺽정', '김유신'],
                    '입학년도': [2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [80]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [81]:
df4 = pd.DataFrame({'학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과'],
                    '학과장': ['황희', '장영실', '안창호', '정약용']})
df4

Unnamed: 0,학과,학과장
0,경영학과,황희
1,교육학과,장영실
2,컴퓨터학과,안창호
3,통계학과,정약용


In [82]:
pd.merge(df3, df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이순신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [83]:
df5 = pd.DataFrame({'학과': ['경영학과', '교육학과', '교육학과', '컴퓨터학과', '컴퓨터학과', '통계학과'],
                    '과목': ['경영개론', '기초수학', '물리학', '프로그래밍', '운영체제', '확률론']})
df5

Unnamed: 0,학과,과목
0,경영학과,경영개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터학과,프로그래밍
4,컴퓨터학과,운영체제
5,통계학과,확률론


In [84]:
pd.merge(df1, df5)

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영개론
1,이순신,교육학과,기초수학
2,이순신,교육학과,물리학
3,임꺽정,컴퓨터학과,프로그래밍
4,임꺽정,컴퓨터학과,운영체제
5,김유신,통계학과,확률론


In [85]:
pd.merge(df1, df2, on='학생')

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [86]:
df6 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                    '성적': ['A', 'A+', 'B', 'A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


In [87]:
pd.merge(df1, df6, left_on='학생', right_on='이름')

Unnamed: 0,학생,학과,이름,성적
0,홍길동,경영학과,홍길동,A
1,이순신,교육학과,이순신,A+
2,임꺽정,컴퓨터학과,임꺽정,B
3,김유신,통계학과,김유신,A+


In [88]:
pd.merge(df1, df6, left_on='학생', right_on='이름').drop('이름', axis=1)

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,이순신,교육학과,A+
2,임꺽정,컴퓨터학과,B
3,김유신,통계학과,A+


In [89]:
df7 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정'],
                    '주문음식': ['햄버거', '피자', '짜장면']})
df7

Unnamed: 0,이름,주문음식
0,홍길동,햄버거
1,이순신,피자
2,임꺽정,짜장면


In [90]:
df8 = pd.DataFrame({'이름': ['홍길동', '이순신', '김유신'],
                    '주문음료': ['콜라', '사이다', '커피']})
df8

Unnamed: 0,이름,주문음료
0,홍길동,콜라
1,이순신,사이다
2,김유신,커피


In [91]:
pd.merge(df7, df8)

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [92]:
pd.merge(df7, df8, how='inner')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [93]:
pd.merge(df7, df8, how='outer')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,
3,김유신,,커피


In [94]:
pd.merge(df7, df8, how='left')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,


In [95]:
pd.merge(df7, df8, how='right')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,김유신,,커피


In [96]:
df9 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                    '순위': [3, 2, 4, 1]})
df9

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,2
2,임꺽정,4
3,김유신,1


In [97]:
df10 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                     '순위': [4, 1, 3, 2]})
df10

Unnamed: 0,이름,순위
0,홍길동,4
1,이순신,1
2,임꺽정,3
3,김유신,2


In [98]:
pd.merge(df9, df10, on='이름')

Unnamed: 0,이름,순위_x,순위_y
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


In [99]:
pd.merge(df9, df10, on='이름', suffixes=['_인기', '_성적'])

Unnamed: 0,이름,순위_인기,순위_성적
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)

| 집계                     | 설명                     |
|--------------------------|--------------------------|
| ``count`` | 전체 개수 |
| ``head``, ``tail`` | 앞의 항목 일부 반환, 뒤의 항목 일부 반환 |
| ``describe`` | Series, DataFrame의 각 컬럼에 대한 요약 통계 |
| ``min``, ``max`` | 최소값, 최대값           |
| ``cummin``, ``cummax`` | 누적 최소값, 누적 최대값 |
| ``argmin``, ``argmax`` | 최소값과 최대값의 색인 위치 |
| ``idxmin``, ``idxmax`` | 최소값과 최대값의 색인값 |
| ``mean``, ``median`` | 평균값, 중앙값 |
| ``std``, ``var`` | 표준편차(Standard deviation), 분산(Variance) |
| ``skew`` | 왜도(skewness) 값 계산 |
| ``kurt`` | 첨도(kurtosis) 값 계산 |
| ``mad`` | 절대 평균 편차(Mean Absolute Deviation) |
| ``sum``, ``cumsum`` | 전체 항목 합, 누적합 |
| ``prod``, ``cumprod`` | 전체 항목 곱, 누적곱 |
| ``quantile`` | 0부터 1까지의 분위수 계산 |
| ``diff`` | 1차 산술차 계산 |
| ``pct_change`` | 퍼센트 변화율 계산 |
| ``corr``, ``cov`` | 상관관계, 공분산 계산 |



In [100]:
df = pd.DataFrame([[1, 1.2, np.nan],
                   [2.4, 5.5, 4.2],
                   [np.nan, np.nan, np.nan],
                   [0.44, -3.1, -4.1]],
                  index=[1, 2, 3, 4],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2
3,,,
4,0.44,-3.1,-4.1


In [101]:
df.head(2)

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2


In [102]:
df.tail(2)

Unnamed: 0,A,B,C
3,,,
4,0.44,-3.1,-4.1


In [103]:
df.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,2.0
mean,1.28,1.2,0.05
std,1.009554,4.3,5.868986
min,0.44,-3.1,-4.1
25%,0.72,-0.95,-2.025
50%,1.0,1.2,0.05
75%,1.7,3.35,2.125
max,2.4,5.5,4.2


In [104]:
print(df.idxmin())
print(df.idxmax())
print(df.mean())
print(df.std())

A    4
B    4
C    4
dtype: int64
A    2
B    2
C    2
dtype: int64
A    1.28
B    1.20
C    0.05
dtype: float64
A    1.009554
B    4.300000
C    5.868986
dtype: float64


In [105]:
df.corr()

Unnamed: 0,A,B,C
A,1.0,0.970725,1.0
B,0.970725,1.0,1.0
C,1.0,1.0,1.0


In [106]:
df.corrwith(df.B)

A    0.970725
B    1.000000
C    1.000000
dtype: float64

### GroupBy 연산

In [107]:
df = pd.DataFrame({'c1':['a', 'a', 'b', 'b', 'c', 'd', 'b'],
                   'c2':['A', 'B', 'B', 'A', 'D', 'C', 'C'],
                   'c3':[3, 2, 3, 7, 8, 9, 3],
                   'c4':np.random.random(7)})
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,3,0.982776
1,a,B,2,0.218608
2,b,B,3,0.645766
3,b,A,7,0.581444
4,c,D,8,0.515476
5,d,C,9,0.941002
6,b,C,3,0.35237


In [108]:
df.groupby('c1').mean()

Unnamed: 0_level_0,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,0.600692
b,4.333333,0.526527
c,8.0,0.515476
d,9.0,0.941002


In [109]:
df.groupby(['c1', 'c2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,c3,c4
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,3,0.982776
a,B,2,0.218608
b,A,7,0.581444
b,B,3,0.645766
b,C,3,0.35237
c,D,8,0.515476
d,C,9,0.941002


In [110]:
df.groupby(['c1', 'c2'])['c4'].mean()

c1  c2
a   A     0.982776
    B     0.218608
b   A     0.581444
    B     0.645766
    C     0.352370
c   D     0.515476
d   C     0.941002
Name: c4, dtype: float64

In [111]:
df.groupby(['c1', 'c2'])[['c4']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,c4
c1,c2,Unnamed: 2_level_1
a,A,0.982776
a,B,0.218608
b,A,0.581444
b,B,0.645766
b,C,0.35237
c,D,0.515476
d,C,0.941002


In [112]:
df.groupby(['c1', 'c2'])['c4'].agg(['mean', 'min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,min,max
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,A,0.982776,0.982776,0.982776
a,B,0.218608,0.218608,0.218608
b,A,0.581444,0.581444,0.581444
b,B,0.645766,0.645766,0.645766
b,C,0.35237,0.35237,0.35237
c,D,0.515476,0.515476,0.515476
d,C,0.941002,0.941002,0.941002


## 문자열 연산

#### 문자열 연산자

* 파이썬의 문자열 연산자를 거의 모두 반영

| 함수 | 설명 |
| --- | --- |
| `capitalize()` | 첫 문자를 대문자로하고, 나머지 문자를 소문자로 하는 문자열 반환 |
| `casefold()` | 모든 대소문자 구분을 제거 |
| `count(sub, [, start[, end]])` | [start, end] 범위에서 부분 문자열 sub의 중복되지 않은 수를 반환 |
| `find(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `rfind(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 큰 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `index(sub [, start [, end]])` | find()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `rindex(sub [, start [, end]])` | rfind()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `isalnum()` | 문자열의 모든 문자가 영숫자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isalpha()` | 문자열의 모든 문자가 영문자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isdecimal()` | 문자열의 모든 문자가 10진수 문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isdigit()` | 문자열의 모든 문자가 숫자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isnumeric()` | 문자열의 모든 문자가 수치형이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isidentifier()` | 문자열이 유효한 식별자인 경우 True 반환 |
| `isspace()` | 문자열 내에 공백 문자가 있고, 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `istitle()` | 문자열이 제목이 있는 문자열에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `islower()` | 문자열의 모든 문자가 소문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isupper()` | 문자열의 문자가 모두 대문자에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `join(iterable)` | iterable에 있는 문자열에 연결된 문자열을 반환 |
| `center(width [, fillchar])` | 길이 너비만큼 중앙정렬된 문자열 반환 |
| `ljust(width [, fillchar])` | 너미만큼의 문자열에서 왼쪽 정렬된 문자열을 반환 |
| `rjust(width [, fillchar])` | 너미만큼의 문자열에서 오른쪽 정렬된 문자열을 반환 |
| `lower()` | 모든 대소문자가 소문자로 변환된 문자열을 반환 |
| `upper()` | 문자열에서 모든 문자를 대문자로 변환한 문자열을 반환 |
| `title()` | 문자열에서 첫 글자만 대문자이고 나머지는 소문자인 문자열 반환 |
| `swapcase()` | 문자열에서 소문자를 대문자로 대문자를 소문자로 변환한 문자열 반환 |
| `strip([chars])` | 문자열 양쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `lstrip([chars])` | 문자열 왼쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `rstrip([chars])` | 문자열 오른쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `partition(sep)` | 문자열에서 첫번째 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `rpartition(sep)` | 문자열에서 마지막 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `replace(old, new[,count])` | 문자열의 모든 old를 new로 교체한 문자열을 반환 |
| `split(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `rsplit(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `splitlines([keepends])` | 문자열에서 라인 단위로 구분하여 리스트를 반환 |
| `startswith(prefix [, start[, end]])` | [start, end] 범위에서 지정한 prefix로 시작하면 True, 아니면 False 반환 |
| `endswith(suffix [, start[, end]])` | [start, end] 범위에서 지정한 suffix로 끝나면 True, 아니면 False 반환 |
| `zfill(width)` | 너비 만큼의 문자열에서 비어있는 부분에 ‘0’이 채워진 문자열 반환 |

In [113]:
name_list = ['Sun Jo', 'Steven Jobs', 'Larry Page', 'Elon Musk', None,
             'Bill Gates', 'MarZuckerberg','Jeff Bezos']
names = pd.Series(name_list)
names

0           Sun Jo
1      Steven Jobs
2       Larry Page
3        Elon Musk
4             None
5       Bill Gates
6    MarZuckerberg
7       Jeff Bezos
dtype: object

In [114]:
names.str.lower()

0           sun jo
1      steven jobs
2       larry page
3        elon musk
4             None
5       bill gates
6    marzuckerberg
7       jeff bezos
dtype: object

In [115]:
names.str.len()

0     6.0
1    11.0
2    10.0
3     9.0
4     NaN
5    10.0
6    13.0
7    10.0
dtype: float64

In [116]:
names.str.split()

0          [Sun, Jo]
1     [Steven, Jobs]
2      [Larry, Page]
3       [Elon, Musk]
4               None
5      [Bill, Gates]
6    [MarZuckerberg]
7      [Jeff, Bezos]
dtype: object

## 데이터 읽기 및 저장

| 함수 | 설명 |
|------|------|
| `read_csv` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: ',') |
| `read_table` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: '\t') |
| `read_fwf` | 고정폭 컬럼 형식에서 데이터 읽기 (구분자 없는 데이터) |
| `read_clipboard` | 클립보드에 있는 데이터 읽기. 웹페이지에 있는 표를 읽어올 때 유용 |
| `read_excel` | 엑셀 파일(xls, xlsx)에서 표 형식 데이터 읽기 |
| `read_hdf` | Pandas에서 저장한 HDFS 파일의 데이터 읽기 |
| `read_html` | HTML 문서 내의 모든 테이블 데이터 읽기 |
| `read_json` | JSON에서 데이터 읽기 |
| `read_msgpack` | 메시지팩 바이너리 포맷으로 인코딩된 pandas 데이터 읽기 |
| `read_pickle` | 파이썬 피클 포맷으로 저장된 객체 읽기 |
| `read_sas` | SAS 시스템의 사용자 정의 저장 포맷 데이터 읽기 |
| `read_sql` | SQL 질의 결과를 DataFrame 형식으로 읽기 |
| `read_stata` | Stata 파일에서 데이터 읽기 |
| `read_feather` | Feather 바이너리 파일 포맷의 데이터 읽기 |

### 텍스트 파일 읽기/쓰기

## 데이터 정제

### 누락값

* 존재하지 않는 데이터

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### 누락값 처리

| 인자 | 설명 |
|------|------|
| `isnull()` | 누락되거나 NA인 값을 불리언 값으로 반환 | 
| `notnull()` | `issull()`의 반대 | 
| `dropna()` | 누락된 데이터가 있는 축 제외 | 
| `fillna()` | 누락된 값을 대체하거나 `ffill`이나 `bfill`로 보간 메소드 적용 | 

In [117]:
s = pd.Series([1, 2, np.nan, 'String', None])
s

0         1
1         2
2       NaN
3    String
4      None
dtype: object

In [118]:
s.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [119]:
s[s.notnull()]

0         1
1         2
3    String
dtype: object

In [120]:
s.dropna()

0         1
1         2
3    String
dtype: object

In [121]:
s.fillna(0)

0         1
1         2
2         0
3    String
4         0
dtype: object

In [122]:
s.fillna(method='ffill') # fill values forward. 맨 처음 누락값은 채울 수 없음

0         1
1         2
2         2
3    String
4    String
dtype: object

In [123]:
s.fillna(method='bfill') # fill values backward. 맨 마지막 누락값은 채울 수 없음

0         1
1         2
2    String
3    String
4      None
dtype: object

In [124]:
df = pd.DataFrame(np.random.randn(10, 3), columns=list('ABC'))
df.iloc[3:5, 0] = np.nan
df.iloc[4:6, 1] = np.nan
df.iloc[5:8, 2] = np.nan
df

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
3,,0.460178,0.062329
4,,,0.244906
5,0.835919,,
6,-1.046937,0.269309,
7,0.741188,0.374963,
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


In [125]:
df.dropna()

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


In [126]:
df.dropna(axis=0) # axis='rows'

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


In [127]:
df.dropna(axis=1) # axis='columns'

0
1
2
3
4
5
6
7
8
9


In [128]:
df.fillna(method='ffill', axis=0) # row 방향의 forward

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
3,0.483829,0.460178,0.062329
4,0.483829,0.460178,0.244906
5,0.835919,0.460178,0.244906
6,-1.046937,0.269309,0.244906
7,0.741188,0.374963,0.244906
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


In [129]:
df.fillna(method='ffill', axis=1) # column 방향의 forward

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
3,,0.460178,0.062329
4,,,0.244906
5,0.835919,0.835919,0.835919
6,-1.046937,0.269309,0.269309
7,0.741188,0.374963,0.374963
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


In [130]:
df.fillna(method='bfill', axis=0)

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
3,0.835919,0.460178,0.062329
4,0.835919,0.269309,0.244906
5,0.835919,0.269309,-0.779727
6,-1.046937,0.269309,-0.779727
7,0.741188,0.374963,-0.779727
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


In [131]:
df.fillna(method='bfill', axis=1)

Unnamed: 0,A,B,C
0,2.12261,1.32979,0.591164
1,-0.75317,1.453069,0.716986
2,0.483829,-0.917717,1.436266
3,0.460178,0.460178,0.062329
4,0.244906,0.244906,0.244906
5,0.835919,,
6,-1.046937,0.269309,
7,0.741188,0.374963,
8,-1.026588,-0.017277,-0.779727
9,-0.882695,-0.208105,-0.181833


### 중복 제거

In [132]:
df = pd.DataFrame({'c1':['a','b','c'] * 2 + ['b'] + ['c'],
                   'c2':[1, 2, 1, 1, 2, 3, 3, 4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [133]:
df.duplicated()

0    False
1    False
2    False
3     True
4     True
5    False
6    False
7    False
dtype: bool

In [134]:
df.drop_duplicates()

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
5,c,3
6,b,3
7,c,4


## 데이터 재구조화

* stack(), unstack() 함수를 이용해 데이터프레임의 구조 변경
* stack : 위에서 아래로 (행방향)
* unstack : 왼쪽에서 오른쪽으로 (열방향)

## 데이터 조회

* query() 함수를 이용한 조건에 맞는 데이터 조회

In [135]:
data = pd.DataFrame({'age':[10, 10, 21, 22], 'weight':[20, 30, 60, 70]})
data

Unnamed: 0,age,weight
0,10,20
1,10,30
2,21,60
3,22,70


In [136]:
data.query('age == 10')

Unnamed: 0,age,weight
0,10,20
1,10,30


In [137]:
data.query('age >= 22')

Unnamed: 0,age,weight
3,22,70


In [138]:
data.query('age in [21, 22]')

Unnamed: 0,age,weight
2,21,60
3,22,70


In [139]:
data.query('(age == 10) and (weight >= 30)')

Unnamed: 0,age,weight
1,10,30


## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly