<a href="https://colab.research.google.com/github/younghun-cha/DM_2022/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

* [pandas](https://pandas.pydata.org/pandas-docs/stable/, "pandas link")
* 관계 또는 레이블링 데이터로 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지

---

In [None]:
!pip install pandas



In [None]:
import numpy as np
import pandas as pd
pd.__version__

'1.3.4'

## Pandas 데이터 구조


### Series

* 모든 데이터 타입을 저장할 수 있는 레이블(index)이 지정된 1차원 배열
* 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트, 튜플 등으로 생성

In [None]:
# list
s = pd.Series([0.3, 0.5, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e'])
s

a    0.30
b    0.50
c    0.50
d    0.75
e    1.00
dtype: float64

In [None]:
s['c']

0.5

In [None]:
s[['c', 'd', 'e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [None]:
'b' in s

True

In [None]:
s.values

array([0.3 , 0.5 , 0.5 , 0.75, 1.  ])

In [None]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
s.unique()

array([0.3 , 0.5 , 0.75, 1.  ])

In [None]:
s.value_counts()

0.50    2
0.30    1
0.75    1
1.00    1
dtype: int64

In [None]:
s.isin([0.5, 0.75])

a    False
b     True
c     True
d     True
e    False
dtype: bool

In [None]:
# dictionary
pop_dict = {"서울특별시": 9720846,
           "부산광역시": 3404423,
           "인천광역시": 2947217,
           "대구광역시": 2467554,
           "대전광역시": 1471040,
           "광주광역시": 1455048}
population = pd.Series(pop_dict)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2467554
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [None]:
population["서울특별시"]

9720846

In [None]:
population["서울특별시":"인천광역시"]

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame

* 시리즈가 열 방향으로 여러 개 합쳐진 2차원 자료 구조
* 열(columns), 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트로 생성

In [None]:
# dictionary
pd.DataFrame([{'A':2, 'B':4, 'D':3}, {'A':4, 'B':5, 'C':7}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [None]:
# list
pd.DataFrame(np.random.rand(5,5),
             columns=['A', 'B', 'C', 'D', 'E'],
             index=[1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.600544,0.823422,0.407091,0.088031,0.600931
2,0.963148,0.149503,0.332842,0.599574,0.219931
3,0.899993,0.09049,0.166675,0.934046,0.236444
4,0.105794,0.169308,0.011463,0.77316,0.885984
5,0.377521,0.858936,0.102834,0.57478,0.842785


In [None]:
# Series
pop_male = {"서울특별시": 4732275, 
            "부산광역시": 1668618,
           "인천광역시": 1476813,
           "대구광역시": 1198815,
           "대전광역시": 734441,
           "광주광역시": 720060}
male = pd.Series(pop_male)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
dtype: int64

In [None]:
pop_female = {"서울특별시": 4988571, 
            "부산광역시": 1735805,
           "인천광역시": 1470404,
           "대구광역시": 1229139,
           "대전광역시": 736599,
           "광주광역시": 734988}
female = pd.Series(pop_female)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
dtype: int64

In [None]:
korea_df = pd.DataFrame({"인구수": population,
                         "남자인구수": male,
                         "여자인구수": female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2467554,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [None]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [None]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [None]:
korea_df["여자인구수"]

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [None]:
korea_df["서울특별시":"인천광역시"]

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404




---



## 인덱싱(Indexing)

### DataFrame 인덱싱

| 사용 방법 | 설명 |
|-----------|------|
| `df[val]` | 하나의 컬럼 또는 여러 컬럼을 선택 |
| `df.loc[val]` | 레이블값으로 로우의 부분집합 선택 |
| `df.loc[:, val]` | 레이블값으로 컬럼의 부분집합 선택 |
| `df.loc[val1, val2]` | 레이블값으로 로우와 컬럼의 부분집합 선택 |
| `df.iloc[where]` | 정수 색인으로 로우의 부분집합 선택 |
| `df.iloc[:, where]` | 정수 색인으로 컬럼의 부분집합 선택 |
| `df.iloc[where_i, where_j]` | 정수 색인으로 로우와 컬럼의 부분집합 선택 |
| `df.at[label_i, label_j]` | 로우와 컬럼의 레이블로 단일 값 선택 |
| `df.iat[i, j]` | 로우와 컬럼의 정수 색인으로 단일 값 선택 |
| `reindex` | 하나 이상의 축을 새로운 색인으로 재색인 |
| `get_value, set_value` | 로우와 컬럼의 이름으로 값 선택 |

In [None]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2467554,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [None]:
korea_df["남자인구수"]

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [None]:
korea_df.남자인구수

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [None]:
korea_df.여자인구수

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [None]:
korea_df["남여비율"] = (korea_df["남자인구수"] * 100 / korea_df["여자인구수"])

In [None]:
korea_df.남여비율

서울특별시     94.862336
부산광역시     96.129346
인천광역시    100.435867
대구광역시     97.532907
대전광역시     99.707032
광주광역시     97.968946
Name: 남여비율, dtype: float64

In [None]:
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2467554.0,1471040.0,1455048.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0,720060.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0,734988.0
남여비율,94.86234,96.12935,100.4359,97.53291,99.70703,97.96895


In [None]:
korea_df.values

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.46755400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.34988000e+05, 9.79689464e+01]])

In [None]:
korea_df.values[0]

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [None]:
korea_df.loc[:'인천광역시', :'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [None]:
korea_df.loc[(korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2467554,1198815,1229139,97.532907


In [None]:
korea_df.loc[(korea_df.인구수 < 2000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [None]:
korea_df.loc[(korea_df.인구수 > 2500000) & (korea_df.남여비율 > 100)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [None]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


## 데이터 연산

In [None]:
s1 = pd.Series([1, 3, 5, 7, 9], index = [0, 1, 2, 3, 4])
s2 = pd.Series([2, 4, 6, 8, 10], index = [1, 2, 3, 4, 5])
print(s1)
print(s2)
print(s1 + s2)  # index 값을 기준으로 더함 / 없는 index는 nan

0    1
1    3
2    5
3    7
4    9
dtype: int64
1     2
2     4
3     6
4     8
5    10
dtype: int64
0     NaN
1     5.0
2     9.0
3    13.0
4    17.0
5     NaN
dtype: float64


In [None]:
s1.add(s2, fill_value=0) # 없는 index는 0으로 취급해서 더함

0     1.0
1     5.0
2     9.0
3    13.0
4    17.0
5    10.0
dtype: float64

In [None]:
df1 = pd.DataFrame(np.random.randint(0, 20, (3, 3)),
                  columns=list('ACD'))
df1

Unnamed: 0,A,C,D
0,16,17,11
1,7,9,18
2,19,13,10


In [None]:
df2 = pd.DataFrame(np.random.randint(0, 20, (5,5)),
                  columns=list('BAECD'))
df2

Unnamed: 0,B,A,E,C,D
0,19,12,5,10,5
1,6,7,14,4,3
2,11,17,14,15,14
3,15,18,15,0,12
4,14,7,4,15,0


In [None]:
df1 + df2

Unnamed: 0,A,B,C,D,E
0,28.0,,27.0,16.0,
1,14.0,,13.0,21.0,
2,36.0,,28.0,24.0,
3,,,,,
4,,,,,


### 연산자 범용 함수

| Python 연산자 | Pandas 메소드             |
|---------------|---------------------------|
| ``+``         | ``add``, ``radd``     |
| ``-``         | ``sub``, ``rsub``, ``subtract`` |
| ``*``         | ``mul``, ``rmul``, ``multiply`` |
| ``/``         | ``truediv``, ``div``, ``rdiv``, ``divide``|
| ``//``        | ``floordiv``, ``rfloordiv`` |
| ``%``         | ``mod``                 |
| ``**``        | ``pow``, ``rpow``      |

#### add()

In [None]:
df = pd.DataFrame(np.random.randint(1, 10, size=(3, 3)),
                 columns = list('ABC'))
df

Unnamed: 0,A,B,C
0,2,9,1
1,8,6,9
2,9,6,9


In [None]:
df + df.iloc[0]  # 0번째 행이 broadcast 해서 더해짐

Unnamed: 0,A,B,C
0,4,18,2
1,10,15,10
2,11,15,10


In [None]:
df.add(df.iloc[0])

Unnamed: 0,A,B,C
0,4,18,2
1,10,15,10
2,11,15,10


### 정렬(Sort)

In [None]:
s = pd.Series(range(5), index=['A', 'D', 'B', 'C', 'E'])
s

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [None]:
s.sort_index()

A    0
B    2
C    3
D    1
E    4
dtype: int64

In [None]:
s.sort_values()

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [None]:
df = pd.DataFrame(np.random.randint(0, 6, (4, 4)),
                 index = [2, 4, 1, 3],
                 columns=list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,2,2,3,1
4,3,0,5,4
1,2,3,4,4
3,4,0,0,1


In [None]:
df.sort_index()

Unnamed: 0,B,D,A,C
1,2,3,4,4
2,2,2,3,1
3,4,0,0,1
4,3,0,5,4


In [None]:
df.sort_index(axis = 1) # columns 정렬

Unnamed: 0,A,B,C,D
2,3,2,1,2
4,5,3,4,0
1,4,2,4,3
3,0,4,1,0


In [None]:
df.sort_values(by='A')

Unnamed: 0,B,D,A,C
3,4,0,0,1
2,2,2,3,1
1,2,3,4,4
4,3,0,5,4


In [None]:
df.sort_values(by=['A', 'C']) # A 정렬하고 C 정렬

Unnamed: 0,B,D,A,C
3,4,0,0,1
2,2,2,3,1
1,2,3,4,4
4,3,0,5,4


### 순위(Ranking)

* 수 목록 내에서 개별 수의 크기 순위 계산
```
DataFrame.rank(self, 
            axis = 0, # 기본값 0(index)으로, index 축을 기준으로 순위 계산 
    		method = 'average', # 동점을 가진 데이터들의 순위를 정하는 방법
    		numeric_only = None, # True로 설정된 경우 숫자 열만 순위를 부여 
    		na_option = 'keep', # NaN 값 순위를 부여하는 방법
    		ascending = True, # 오름차순 또는 내림차순 정렬
    		pct = False) # 반환 된 순위를 백분위 수 형식으로 표시할지 여부
```

| method | 설명 |
|--------|------|
| `average` | 기본값. 순위에 같은 값을 가지는 항목들의 평균값을 사용 |
| `min` | 같은 값을 가지는 그룹을 낮은 순위로 지정 |
| `max` | 같은 값을 가지는 그룹을 높은 순위로 지정 |
| `first` | 데이터 내의 위치에 따라 순위 지정 |
| `dense` | 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가 |

In [None]:
s = pd.Series([-2, 3, 7, 3, 8, 9, 3, -4, 2, 6])
s

0   -2
1    3
2    7
3    3
4    8
5    9
6    3
7   -4
8    2
9    6
dtype: int64

In [None]:
s.rank() 
# 최솟값부터 rank 1을 부여, 기본은 method = average. 3의 값을 가진 1, 3, 6번 index가 각각 rank 4, 5, 6을 가져가야하는데 평균 5로 가짐

0     2.0
1     5.0
2     8.0
3     5.0
4     9.0
5    10.0
6     5.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [None]:
s.rank(method='max') # 1, 3, 6 index가 4, 5, 6 rank 중 가장 큰 값인 6을 가져감

0     2.0
1     6.0
2     8.0
3     6.0
4     9.0
5    10.0
6     6.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [None]:
s.rank(method='min') # 1, 3, 6 index가 4, 5, 6 rank 중 가장 작은 값인 4를 가져감

0     2.0
1     4.0
2     8.0
3     4.0
4     9.0
5    10.0
6     4.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [None]:
s.rank(method = 'first') # 동 순위를 가져가지 않음

## 데이터 결합

### concat() / append()

In [None]:
s1 = pd.Series(['a', 'b'], index = [1, 2])
s2 = pd.Series(['c', 'd'], index = [3, 4])
pd.concat([s1, s2])

1    a
2    b
3    c
4    d
dtype: object

In [None]:
def create_df(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols}
    print(data)
    return pd.DataFrame(data, idx)

In [None]:
df1 = create_df('AB', [1, 2])
df1

{'A': ['a1', 'a2'], 'B': ['b1', 'b2']}


Unnamed: 0,A,B
1,a1,b1
2,a2,b2


In [None]:
df2 = create_df("AB", [3, 4])
df2

{'A': ['a3', 'a4'], 'B': ['b3', 'b4']}


Unnamed: 0,A,B
3,a3,b3
4,a4,b4


In [None]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [None]:
df3 = create_df("AB", [0, 1])
df3

{'A': ['a0', 'a1'], 'B': ['b0', 'b1']}


Unnamed: 0,A,B
0,a0,b0
1,a1,b1


In [None]:
df4 = create_df("CD", [0, 1])
df4

{'C': ['c0', 'c1'], 'D': ['d0', 'd1']}


Unnamed: 0,C,D
0,c0,d0
1,c1,d1


In [None]:
pd.concat([df3, df4])

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [None]:
pd.concat([df3, df4], axis = 1) # 열 확장 방향으로 연결

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [None]:
print(df1)
print(df3)

    A   B
1  a1  b1
2  a2  b2
    A   B
0  a0  b0
1  a1  b1


In [None]:
pd.concat([df1, df3])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
0,a0,b0
1,a1,b1


In [None]:
pd.concat([df1, df3], verify_integrity=True) # 오류. row index의 일치 여부 확인. 

ValueError: Indexes have overlapping values: Int64Index([1], dtype='int64')

In [None]:
pd.concat([df1, df3], ignore_index=True) # row index를 무시하고 새로 index 생성

Unnamed: 0,A,B
0,a1,b1
1,a2,b2
2,a0,b0
3,a1,b1


In [None]:
df5 = create_df('ABC', [1, 2])
df6 = create_df('BCD', [3, 4])

{'A': ['a1', 'a2'], 'B': ['b1', 'b2'], 'C': ['c1', 'c2']}
{'B': ['b3', 'b4'], 'C': ['c3', 'c4'], 'D': ['d3', 'd4']}


In [None]:
print(df5)
print(df6)
pd.concat([df5, df6])

    A   B   C
1  a1  b1  c1
2  a2  b2  c2
    B   C   D
3  b3  c3  d3
4  b4  c4  d4


Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


In [None]:
pd.concat([df5, df6], join='inner') # column이 같은 것만 연결

Unnamed: 0,B,C
1,b1,c1
2,b2,c2
3,b3,c3
4,b4,c4


### 병합과 조인

In [None]:
df1 = pd.DataFrame({'학생':['홍길동', '이순신', '임꺽정', '김유신'],
                   '학과':['경영학과', '교육학과', '컴퓨터학과', '통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [None]:
df2 = pd.DataFrame({'학생':['홍길동', '이순신', '임꺽정', '김유신'],
                   '입학년도':[2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [None]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [None]:
df4 = pd.DataFrame({'학과':['경영학과', '교육학과', '컴퓨터학과', '통계학과'],
                   '학과장':['황희', '장영실', '안창호', '정약용']})
df4

Unnamed: 0,학과,학과장
0,경영학과,황희
1,교육학과,장영실
2,컴퓨터학과,안창호
3,통계학과,정약용


In [None]:
pd.merge(df3, df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이순신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [None]:
df5 = pd.DataFrame({'학과':['경영학과', '교육학과', '교육학과', '컴퓨터학과', '컴퓨터학과', '통계학과'],
                   '과목':['경영학개론', '기초수학', '물리학', '프로그래밍', '운영체제', '확률론']})
df5

Unnamed: 0,학과,과목
0,경영학과,경영학개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터학과,프로그래밍
4,컴퓨터학과,운영체제
5,통계학과,확률론


In [None]:
print(df1)

    학생     학과
0  홍길동   경영학과
1  이순신   교육학과
2  임꺽정  컴퓨터학과
3  김유신   통계학과


In [None]:
pd.merge(df1, df5)

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영학개론
1,이순신,교육학과,기초수학
2,이순신,교육학과,물리학
3,임꺽정,컴퓨터학과,프로그래밍
4,임꺽정,컴퓨터학과,운영체제
5,김유신,통계학과,확률론


In [None]:
pd.merge(df1, df2, on='학생') # 병합의 기준 컬럼 지정

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [None]:
df6 = pd.DataFrame({'이름':['홍길동', '이순신', '임꺽정', '김유신'],
                   '성적':['A', 'A+', 'B', 'A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


In [None]:
pd.merge(df1, df6, left_on='학생', right_on='이름') # 병합의 기준이 되는 컬럼 레이블이 서로 다를 때

Unnamed: 0,학생,학과,이름,성적
0,홍길동,경영학과,홍길동,A
1,이순신,교육학과,이순신,A+
2,임꺽정,컴퓨터학과,임꺽정,B
3,김유신,통계학과,김유신,A+


In [None]:
pd.merge(df1, df6, left_on='학생', right_on='이름').drop('이름', axis=1) # 컬럼 drop

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,이순신,교육학과,A+
2,임꺽정,컴퓨터학과,B
3,김유신,통계학과,A+


In [None]:
mdf1 = df1.set_index('학생')
mdf1

Unnamed: 0_level_0,학과
학생,Unnamed: 1_level_1
홍길동,경영학과
이순신,교육학과
임꺽정,컴퓨터학과
김유신,통계학과


In [None]:
mdf2 = df2.set_index('학생')
mdf2

Unnamed: 0_level_0,입학년도
학생,Unnamed: 1_level_1
홍길동,2012
이순신,2016
임꺽정,2019
김유신,2020


In [None]:
pd.merge(mdf1, mdf2) # 공통 컬럼 레이블이 없어져서 오류 발생

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [None]:
pd.merge(mdf1, mdf2, left_index=True, right_index=True)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [None]:
mdf1.join(mdf2) # 인덱스를 기준으로 결합

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [None]:
pd.merge(mdf1, df6, left_index=True, right_on='이름') # mdf1은 index로, df6는 컬럼병 '이름'을 기준으로 병합

Unnamed: 0,학과,이름,성적
0,경영학과,홍길동,A
1,교육학과,이순신,A+
2,컴퓨터학과,임꺽정,B
3,통계학과,김유신,A+


In [None]:
df7 = pd.DataFrame({'이름':['홍길동', '이순신', '임꺽정'],
                   '주문음식':['햄버거', '피자', '짜장면']})
df7

Unnamed: 0,이름,주문음식
0,홍길동,햄버거
1,이순신,피자
2,임꺽정,짜장면


In [None]:
df8 = pd.DataFrame({'이름':['홍길동', '이순신', '김유신'],
                   '주문음료':['콜라', '사이다', '커피']})
df8

Unnamed: 0,이름,주문음료
0,홍길동,콜라
1,이순신,사이다
2,김유신,커피


In [None]:
pd.merge(df7, df8) # inner join = default. 서로 공통으로 존재하는 인스턴스에 대해서만 merge

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [None]:
pd.merge(df7, df8, how='inner')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [None]:
pd.merge(df7, df8, how='outer')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,
3,김유신,,커피


In [None]:
pd.merge(df7, df8, how='left')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,


In [None]:
pd.merge(df7, df8, how='right')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,김유신,,커피


In [None]:
df9 = pd.DataFrame({'이름':['홍길동', '이순신', '임꺽정', '김유신'],
                   '순위':[3, 2, 4, 1]})
df9

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,2
2,임꺽정,4
3,김유신,1


In [None]:
df10 = pd.DataFrame({'이름':['홍길동', '이순신', '임꺽정', '김유신'],
                   '순위':[4, 1, 3, 2]})
df10

Unnamed: 0,이름,순위
0,홍길동,4
1,이순신,1
2,임꺽정,3
3,김유신,2


In [None]:
pd.merge(df9, df10, on='이름')

Unnamed: 0,이름,순위_x,순위_y
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


In [None]:
pd.merge(df9, df10, on='이름', suffixes=['_인기', '_성적'])

Unnamed: 0,이름,순위_인기,순위_성적
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)

| 집계                     | 설명                     |
|--------------------------|--------------------------|
| ``count`` | 전체 개수 |
| ``head``, ``tail`` | 앞의 항목 일부 반환, 뒤의 항목 일부 반환 |
| ``describe`` | Series, DataFrame의 각 컬럼에 대한 요약 통계 |
| ``min``, ``max`` | 최소값, 최대값           |
| ``cummin``, ``cummax`` | 누적 최소값, 누적 최대값 |
| ``argmin``, ``argmax`` | 최소값과 최대값의 색인 위치 |
| ``idxmin``, ``idxmax`` | 최소값과 최대값의 색인값 |
| ``mean``, ``median`` | 평균값, 중앙값 |
| ``std``, ``var`` | 표준편차(Standard deviation), 분산(Variance) |
| ``skew`` | 왜도(skewness) 값 계산 |
| ``kurt`` | 첨도(kurtosis) 값 계산 |
| ``mad`` | 절대 평균 편차(Mean Absolute Deviation) |
| ``sum``, ``cumsum`` | 전체 항목 합, 누적합 |
| ``prod``, ``cumprod`` | 전체 항목 곱, 누적곱 |
| ``quantile`` | 0부터 1까지의 분위수 계산 |
| ``diff`` | 1차 산술차 계산 |
| ``pct_change`` | 퍼센트 변화율 계산 |
| ``corr``, ``cov`` | 상관관계, 공분산 계산 |



In [None]:
df = pd.DataFrame([[1, 1.2, np.nan], 
                  [2.4, 5.5, 4.2],
                 [np.nan, np.nan, np.nan],
                 [0.44, -3.1, -4.1]],
                 index = [1, 2, 3, 4],
                 columns = ['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2
3,,,
4,0.44,-3.1,-4.1


In [None]:
df.head(2)

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2


In [None]:
df.tail(2)

Unnamed: 0,A,B,C
3,,,
4,0.44,-3.1,-4.1


In [None]:
df.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,2.0
mean,1.28,1.2,0.05
std,1.009554,4.3,5.868986
min,0.44,-3.1,-4.1
25%,0.72,-0.95,-2.025
50%,1.0,1.2,0.05
75%,1.7,3.35,2.125
max,2.4,5.5,4.2


In [None]:
print(df.idxmin())
print(df.idxmax())
print(df.mean())
print(df.std())

A    4
B    4
C    4
dtype: int64
A    2
B    2
C    2
dtype: int64
A    1.28
B    1.20
C    0.05
dtype: float64
A    1.009554
B    4.300000
C    5.868986
dtype: float64


In [None]:
df.corr() # 상관계수

Unnamed: 0,A,B,C
A,1.0,0.970725,1.0
B,0.970725,1.0,1.0
C,1.0,1.0,1.0


In [None]:
df.corrwith(df.B) # 특정 변수와의 상관계수

A    0.970725
B    1.000000
C    1.000000
dtype: float64

In [None]:
df['B'].unique() # 중복을 제거한 유니크 값

array([ 1.2,  5.5,  nan, -3.1])

In [None]:
df['A'].value_counts() # 값의 빈도

1.00    1
2.40    1
0.44    1
Name: A, dtype: int64

### GroupBy 연산

In [None]:
df = pd.DataFrame({'c1': ['a', 'a', 'b', 'b', 'c', 'd', 'b'],
                  'c2': ['A', 'B', 'B', 'A', 'D', 'C', 'C'],
                  'c3': [3, 2, 3, 7, 8, 9, 3],
                  'c4': np.random.random(7)})
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,3,0.321444
1,a,B,2,0.776228
2,b,B,3,0.397175
3,b,A,7,0.518714
4,c,D,8,0.493104
5,d,C,9,0.485309
6,b,C,3,0.428121


In [None]:
df.groupby('c1').mean() # c2 컬럼은 char이라 평균을 구할 수 없어 제거됨

Unnamed: 0_level_0,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,0.548836
b,4.333333,0.448003
c,8.0,0.493104
d,9.0,0.485309


In [None]:
df.groupby(['c1', 'c2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,c3,c4
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,3.0,0.321444
a,B,2.0,0.776228
b,A,7.0,0.518714
b,B,3.0,0.397175
b,C,3.0,0.428121
c,D,8.0,0.493104
d,C,9.0,0.485309


In [None]:
df.groupby(['c1', 'c2']).size() # 그룹을 존재하는 값들의 크기 (개수)

c1  c2
a   A     1
    B     1
b   A     1
    B     1
    C     1
c   D     1
d   C     1
dtype: int64

In [None]:
df.groupby(['c1', 'c2'])['c4'].mean() # Series

c1  c2
a   A     0.321444
    B     0.776228
b   A     0.518714
    B     0.397175
    C     0.428121
c   D     0.493104
d   C     0.485309
Name: c4, dtype: float64

In [None]:
df.groupby(['c1', 'c2'])[['c4']].mean() # DataFrame

Unnamed: 0_level_0,Unnamed: 1_level_0,c4
c1,c2,Unnamed: 2_level_1
a,A,0.321444
a,B,0.776228
b,A,0.518714
b,B,0.397175
b,C,0.428121
c,D,0.493104
d,C,0.485309


In [None]:
df.groupby('c1')['c3'].count()

c1
a    2
b    3
c    1
d    1
Name: c3, dtype: int64

In [None]:
df.groupby('c1')['c3'].median()

c1
a    2.5
b    3.0
c    8.0
d    9.0
Name: c3, dtype: float64

In [None]:
df.groupby('c1')['c4'].agg(['mean', 'min', 'max'])

Unnamed: 0_level_0,mean,min,max
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.548836,0.321444,0.776228
b,0.448003,0.397175,0.518714
c,0.493104,0.493104,0.493104
d,0.485309,0.485309,0.485309


## 문자열 연산

#### 문자열 연산자

* 파이썬의 문자열 연산자를 거의 모두 반영

| 함수 | 설명 |
| --- | --- |
| `capitalize()` | 첫 문자를 대문자로하고, 나머지 문자를 소문자로 하는 문자열 반환 |
| `casefold()` | 모든 대소문자 구분을 제거 |
| `count(sub, [, start[, end]])` | [start, end] 범위에서 부분 문자열 sub의 중복되지 않은 수를 반환 |
| `find(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `rfind(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 큰 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `index(sub [, start [, end]])` | find()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `rindex(sub [, start [, end]])` | rfind()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `isalnum()` | 문자열의 모든 문자가 영숫자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isalpha()` | 문자열의 모든 문자가 영문자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isdecimal()` | 문자열의 모든 문자가 10진수 문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isdigit()` | 문자열의 모든 문자가 숫자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isnumeric()` | 문자열의 모든 문자가 수치형이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isidentifier()` | 문자열이 유효한 식별자인 경우 True 반환 |
| `isspace()` | 문자열 내에 공백 문자가 있고, 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `istitle()` | 문자열이 제목이 있는 문자열에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `islower()` | 문자열의 모든 문자가 소문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isupper()` | 문자열의 문자가 모두 대문자에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `join(iterable)` | iterable에 있는 문자열에 연결된 문자열을 반환 |
| `center(width [, fillchar])` | 길이 너비만큼 중앙정렬된 문자열 반환 |
| `ljust(width [, fillchar])` | 너미만큼의 문자열에서 왼쪽 정렬된 문자열을 반환 |
| `rjust(width [, fillchar])` | 너미만큼의 문자열에서 오른쪽 정렬된 문자열을 반환 |
| `lower()` | 모든 대소문자가 소문자로 변환된 문자열을 반환 |
| `upper()` | 문자열에서 모든 문자를 대문자로 변환한 문자열을 반환 |
| `title()` | 문자열에서 첫 글자만 대문자이고 나머지는 소문자인 문자열 반환 |
| `swapcase()` | 문자열에서 소문자를 대문자로 대문자를 소문자로 변환한 문자열 반환 |
| `strip([chars])` | 문자열 양쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `lstrip([chars])` | 문자열 왼쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `rstrip([chars])` | 문자열 오른쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `partition(sep)` | 문자열에서 첫번째 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `rpartition(sep)` | 문자열에서 마지막 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `replace(old, new[,count])` | 문자열의 모든 old를 new로 교체한 문자열을 반환 |
| `split(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `rsplit(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `splitlines([keepends])` | 문자열에서 라인 단위로 구분하여 리스트를 반환 |
| `startswith(prefix [, start[, end]])` | [start, end] 범위에서 지정한 prefix로 시작하면 True, 아니면 False 반환 |
| `endswith(suffix [, start[, end]])` | [start, end] 범위에서 지정한 suffix로 끝나면 True, 아니면 False 반환 |
| `zfill(width)` | 너비 만큼의 문자열에서 비어있는 부분에 ‘0’이 채워진 문자열 반환 |

In [None]:
name_list = ['Sun Jo', 'Steven Jobs', 'Larry Page', 'Elon Musk', None, 'Bill Gates', "Mark Zuckerberg", "Zeff Bezos"]
names = pd.Series(name_list)
names

0             Sun Jo
1        Steven Jobs
2         Larry Page
3          Elon Musk
4               None
5         Bill Gates
6    Mark Zuckerberg
7         Zeff Bezos
dtype: object

In [None]:
names.str.lower()

0             sun jo
1        steven jobs
2         larry page
3          elon musk
4               None
5         bill gates
6    mark zuckerberg
7         zeff bezos
dtype: object

In [None]:
names.str.len()

0     6.0
1    11.0
2    10.0
3     9.0
4     NaN
5    10.0
6    15.0
7    10.0
dtype: float64

In [None]:
names.str.split()

0             [Sun, Jo]
1        [Steven, Jobs]
2         [Larry, Page]
3          [Elon, Musk]
4                  None
5         [Bill, Gates]
6    [Mark, Zuckerberg]
7         [Zeff, Bezos]
dtype: object

## 데이터 읽기 및 저장

| 함수 | 설명 |
|------|------|
| `read_csv` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: ',') |
| `read_table` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: '\t') |
| `read_fwf` | 고정폭 컬럼 형식에서 데이터 읽기 (구분자 없는 데이터) |
| `read_clipboard` | 클립보드에 있는 데이터 읽기. 웹페이지에 있는 표를 읽어올 때 유용 |
| `read_excel` | 엑셀 파일(xls, xlsx)에서 표 형식 데이터 읽기 |
| `read_hdf` | Pandas에서 저장한 HDFS 파일의 데이터 읽기 |
| `read_html` | HTML 문서 내의 모든 테이블 데이터 읽기 |
| `read_json` | JSON에서 데이터 읽기 |
| `read_msgpack` | 메시지팩 바이너리 포맷으로 인코딩된 pandas 데이터 읽기 |
| `read_pickle` | 파이썬 피클 포맷으로 저장된 객체 읽기 |
| `read_sas` | SAS 시스템의 사용자 정의 저장 포맷 데이터 읽기 |
| `read_sql` | SQL 질의 결과를 DataFrame 형식으로 읽기 |
| `read_stata` | Stata 파일에서 데이터 읽기 |
| `read_feather` | Feather 바이너리 파일 포맷의 데이터 읽기 |

### 텍스트 파일 읽기/쓰기

In [None]:
%%writefile example1.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Writing example1.csv


In [None]:
ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: EC96-8CAA

 C:\Users\SOP\Desktop\3. Pandas 디렉터리

2022-03-31  오후 12:39    <DIR>          .
2022-03-31  오후 12:39    <DIR>          ..
2022-03-25  오후 12:47    <DIR>          .ipynb_checkpoints
2022-03-31  오후 12:39                89 example1.csv
2022-03-31  오후 12:38           286,206 Pandas.ipynb
               2개 파일             286,295 바이트
               3개 디렉터리  59,282,735,104 바이트 남음


In [None]:
pd.read_csv('example1.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [None]:
%%writefile example2.csv
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Writing example2.csv


In [None]:
ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: EC96-8CAA

 C:\Users\SOP\Desktop\3. Pandas 디렉터리

2022-03-31  오후 12:40    <DIR>          .
2022-03-31  오후 12:40    <DIR>          ..
2022-03-25  오후 12:47    <DIR>          .ipynb_checkpoints
2022-03-31  오후 12:39                89 example1.csv
2022-03-31  오후 12:40                68 example2.csv
2022-03-31  오후 12:40           289,259 Pandas.ipynb
               3개 파일             289,416 바이트
               3개 디렉터리  59,274,223,616 바이트 남음


In [None]:
pd.read_csv('example2.csv', header=None) # header가 없다고 명시

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [None]:
pd.read_csv('example2.csv', names=['a', 'b', 'c', 'd', 'e', 'text'])

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [None]:
pd.read_csv('example2.csv', names=['a', 'b', 'c', 'd', 'e', 'text'], index_col = 'text')

Unnamed: 0_level_0,a,b,c,d,e
text,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hi,1,2,3,4,5
pandas,6,7,8,9,10
csv,11,12,13,14,15


In [None]:
%%writefile example3.txt
     a   b   c
1   0.1 0.2 0.3
2   0.4 0.5 0.6
3   0.7 0.8 0.9

Writing example3.txt


In [None]:
pd.read_table('example3.txt', sep='\s+')

Unnamed: 0,a,b,c
1,0.1,0.2,0.3
2,0.4,0.5,0.6
3,0.7,0.8,0.9


In [None]:
%%writefile example4.csv
a, b, c, d, e, text
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv

Writing example4.csv


In [None]:
pd.read_csv('example4.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2.0,,4.0,5,hi
1,6,7.0,8.0,,10,pandas
2,11,,13.0,14.0,15,csv


In [None]:
%%writefile example5.csv
a, b, c, d, e, text
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv

Writing example5.csv


In [None]:
pd.read_csv('example5.csv', nrows=5) # 가지고 오는 행의 개수

Unnamed: 0,a,b,c,d,e,text
0,1,2.0,,4.0,5,hi
1,6,7.0,8.0,,10,pandas
2,11,,13.0,14.0,15,csv
3,1,2.0,,4.0,5,hi
4,6,7.0,8.0,,10,pandas


## 데이터 정제

### 누락값

* 존재하지 않는 데이터

#### None: 파이썬 누락 데이터

In [None]:
a = np.array([1, 2, None, 4, 5])
a

array([1, 2, None, 4, 5], dtype=object)

In [None]:
a.sum() # 오류발생

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

#### NaN: 누락된 수치 데이터

In [None]:
a = np.array([1, 2, np.nan, 4, 5])
print(a)
a.dtype

[ 1.  2. nan  4.  5.]


dtype('float64')

In [None]:
a.sum()

nan

In [None]:
np.nansum(a)

12.0

In [None]:
pd.Series([1, 2, np.nan, 4, None])

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

#### 누락값 처리

| 인자 | 설명 |
|------|------|
| `isnull()` | 누락되거나 NA인 값을 불리언 값으로 반환 | 
| `notnull()` | `issull()`의 반대 | 
| `dropna()` | 누락된 데이터가 있는 축 제외 | 
| `fillna()` | 누락된 값을 대체하거나 `ffill`이나 `bfill`로 보간 메소드 적용 | 

In [None]:
s = pd.Series([1, 2, np.nan, 'string', None])
s

0         1
1         2
2       NaN
3    string
4      None
dtype: object

In [None]:
s.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [None]:
s[s.notnull()]

0         1
1         2
3    string
dtype: object

In [None]:
s.dropna()

0         1
1         2
3    string
dtype: object

In [None]:
s.fillna(0) # na 존재하면 0으로 채우기

0         1
1         2
2         0
3    string
4         0
dtype: object

In [None]:
s.fillna(method = 'ffill') # na 존재하면 앞의 인자로 채우기

0         1
1         2
2         2
3    string
4    string
dtype: object

In [None]:
s.fillna(method = 'bfill') # 뒤의 값이 없어서 참조할 수 없으니 그냥 None으로 남음

0         1
1         2
2    string
3    string
4      None
dtype: object

In [None]:
df = pd.DataFrame(np.random.rand(10, 3), columns = list('ABC'))
df.iloc[3:5, 0] = np.nan
df.iloc[4:6, 1] = np.nan
df.iloc[5:8, 2] = np.nan
df

Unnamed: 0,A,B,C
0,0.128596,0.663428,0.366097
1,0.574112,0.064554,0.650018
2,0.59214,0.826804,0.072088
3,,0.396096,0.60601
4,,,0.814578
5,0.388979,,
6,0.621383,0.820476,
7,0.355814,0.31166,
8,0.410268,0.850815,0.270282
9,0.235623,0.532136,0.851126


In [None]:
df.dropna()

Unnamed: 0,A,B,C
0,0.128596,0.663428,0.366097
1,0.574112,0.064554,0.650018
2,0.59214,0.826804,0.072088
8,0.410268,0.850815,0.270282
9,0.235623,0.532136,0.851126


In [None]:
df.dropna(axis='rows') # axis = 0

Unnamed: 0,A,B,C
0,0.128596,0.663428,0.366097
1,0.574112,0.064554,0.650018
2,0.59214,0.826804,0.072088
8,0.410268,0.850815,0.270282
9,0.235623,0.532136,0.851126


In [None]:
df.dropna(axis='columns') # axis = 1

0
1
2
3
4
5
6
7
8
9


In [None]:
df.fillna(method = 'ffill', axis = 0)

Unnamed: 0,A,B,C
0,0.128596,0.663428,0.366097
1,0.574112,0.064554,0.650018
2,0.59214,0.826804,0.072088
3,0.59214,0.396096,0.60601
4,0.59214,0.396096,0.814578
5,0.388979,0.396096,0.814578
6,0.621383,0.820476,0.814578
7,0.355814,0.31166,0.814578
8,0.410268,0.850815,0.270282
9,0.235623,0.532136,0.851126


In [None]:
df.fillna(method = 'bfill', axis = 1)

Unnamed: 0,A,B,C
0,0.128596,0.663428,0.366097
1,0.574112,0.064554,0.650018
2,0.59214,0.826804,0.072088
3,0.396096,0.396096,0.60601
4,0.814578,0.814578,0.814578
5,0.388979,,
6,0.621383,0.820476,
7,0.355814,0.31166,
8,0.410268,0.850815,0.270282
9,0.235623,0.532136,0.851126


### 중복 제거

In [None]:
df = pd.DataFrame({'c1':['a', 'b', 'c'] * 2 + ['b'] + ['c'],
                    'c2': [1, 2, 1, 1, 2, 3, 3, 4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [None]:
df.duplicated()

0    False
1    False
2    False
3     True
4     True
5    False
6    False
7    False
dtype: bool

In [None]:
df.drop_duplicates()

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
5,c,3
6,b,3
7,c,4


## 데이터 재구조화

* stack(), unstack() 함수를 이용해 데이터프레임의 구조 변경
* stack : 위에서 아래로 (행방향)
* unstack : 왼쪽에서 오른쪽으로 (열방향)

## 데이터 조회

* query() 함수를 이용한 조건에 맞는 데이터 조회

In [None]:
data = pd.DataFrame({'age':[10, 10, 21, 22], 'weight':[20, 30, 60, 70]})
data

Unnamed: 0,age,weight
0,10,20
1,10,30
2,21,60
3,22,70


In [None]:
data.query('age==10')

Unnamed: 0,age,weight
0,10,20
1,10,30


In [None]:
data.query('age>=22')

Unnamed: 0,age,weight
3,22,70


In [None]:
data.query('age in [21, 22]')

Unnamed: 0,age,weight
2,21,60
3,22,70


In [None]:
data.query('(age == 10) and (weight >= 30)')

Unnamed: 0,age,weight
1,10,30


## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly