# Pandas

* [pandas](https://pandas.pydata.org/pandas-docs/stable/, "pandas link")
* 관계 또는 레이블링 데이터로 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지

---

In [1]:
# !pip install pandas
import numpy as np
import pandas as pd

## Pandas 데이터 구조


### Series

* 모든 데이터 타입을 저장할 수 있는 레이블(index)이 지정된 1차원 배열
* 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트, 튜플 등으로 생성

In [2]:
s = pd.Series([0.3,0.5,0.5,0.75,1.0],
             index = ['a','b','c','d','e'])
s

a    0.30
b    0.50
c    0.50
d    0.75
e    1.00
dtype: float64

In [4]:
s['c']

0.5

In [7]:
s[['c','d','e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [8]:
s.values

array([0.3 , 0.5 , 0.5 , 0.75, 1.  ])

In [9]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [10]:
s.unique()

array([0.3 , 0.5 , 0.75, 1.  ])

In [11]:
s.value_counts()

0.50    2
1.00    1
0.75    1
0.30    1
dtype: int64

In [13]:
s.isin([0.5,0.75])

a    False
b     True
c     True
d     True
e    False
dtype: bool

In [14]:
pop_dict = {"서울특별시": 9720846,
            "부산광역시": 3404423,
            "인천광역시": 2947217,
            "대구광역시": 2427954,
            "대전광역시": 1471040,
            "광주광역시": 1455048}
population = pd.Series(pop_dict)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [15]:
population['서울특별시']

9720846

In [16]:
population['서울특별시':'인천광역시']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame

* 시리즈가 열 방향으로 여러 개 합쳐진 2차원 자료 구조
* 열(columns), 인덱스(index), 값(values)으로 구성
* 딕셔너리, 리스트로 생성

In [18]:
pd.DataFrame([{'A':2, 'B':4, 'D':3},{'A':4, 'B':5,'C':7}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [20]:
pd.DataFrame(np.random.rand(5,5),
            columns=['A','B','C','D','E'],
            index=[1,2,3,4,5])

Unnamed: 0,A,B,C,D,E
1,0.308667,0.376067,0.841331,0.285703,0.551037
2,0.294416,0.279511,0.137353,0.977708,0.77884
3,0.225032,0.416566,0.408288,0.50958,0.858586
4,0.170002,0.835798,0.537084,0.566743,0.820388
5,0.566803,0.650132,0.27401,0.058505,0.787284


In [21]:
pop_male = {"서울특별시": 4732275,
            "부산광역시": 1668618,
            "인천광역시": 1476813,
            "대구광역시": 1198815,
            "대전광역시": 7344412,
            "광주광역시": 7200603}
male = pd.Series(pop_dict)
male

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [22]:
pop_female = {"서울특별시": 4988571,
            "부산광역시": 1735805,
            "인천광역시": 1470404,
            "대구광역시": 1229139,
            "대전광역시": 736599,
            "광주광역시": 734988}
female = pd.Series(pop_dict)
female

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [23]:
korea_df = pd.DataFrame({"인구수":population,
                         "남자인구수":male,
                         "여자인구수":female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,9720846,9720846
부산광역시,3404423,3404423,3404423
인천광역시,2947217,2947217,2947217
대구광역시,2427954,2427954,2427954
대전광역시,1471040,1471040,1471040
광주광역시,1455048,1455048,1455048


In [25]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [26]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [27]:
korea_df["여자인구수"]

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
Name: 여자인구수, dtype: int64

In [28]:
korea_df['서울특별시':'인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,9720846,9720846
부산광역시,3404423,3404423,3404423
인천광역시,2947217,2947217,2947217




---



## 인덱싱(Indexing)

### DataFrame 인덱싱

| 사용 방법 | 설명 |
|-----------|------|
| `df[val]` | 하나의 컬럼 또는 여러 컬럼을 선택 |
| `df.loc[val]` | 레이블값으로 로우의 부분집합 선택 |
| `df.loc[:, val]` | 레이블값으로 컬럼의 부분집합 선택 |
| `df.loc[val1, val2]` | 레이블값으로 로우와 컬럼의 부분집합 선택 |
| `df.iloc[where]` | 정수 색인으로 로우의 부분집합 선택 |
| `df.iloc[:, where]` | 정수 색인으로 컬럼의 부분집합 선택 |
| `df.iloc[where_i, where_j]` | 정수 색인으로 로우와 컬럼의 부분집합 선택 |
| `df.at[label_i, label_j]` | 로우와 컬럼의 레이블로 단일 값 선택 |
| `df.iat[i, j]` | 로우와 컬럼의 정수 색인으로 단일 값 선택 |
| `reindex` | 하나 이상의 축을 새로운 색인으로 재색인 |
| `get_value, set_value` | 로우와 컬럼의 이름으로 값 선택 |

In [29]:
korea_df.남자인구수

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
Name: 남자인구수, dtype: int64

In [30]:
korea_df.여자인구수

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
Name: 여자인구수, dtype: int64

In [33]:
korea_df['남여비율'] = (korea_df['남자인구수'] * 100 / korea_df['여자인구수'])
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,9720846,9720846,100.0
부산광역시,3404423,3404423,3404423,100.0
인천광역시,2947217,2947217,2947217,100.0
대구광역시,2427954,2427954,2427954,100.0
대전광역시,1471040,1471040,1471040,100.0
광주광역시,1455048,1455048,1455048,100.0


In [34]:
korea_df.남여비율

서울특별시    100.0
부산광역시    100.0
인천광역시    100.0
대구광역시    100.0
대전광역시    100.0
광주광역시    100.0
Name: 남여비율, dtype: float64

In [35]:
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남자인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
여자인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남여비율,100.0,100.0,100.0,100.0,100.0,100.0


In [37]:
korea_df.values

array([[9.720846e+06, 9.720846e+06, 9.720846e+06, 1.000000e+02],
       [3.404423e+06, 3.404423e+06, 3.404423e+06, 1.000000e+02],
       [2.947217e+06, 2.947217e+06, 2.947217e+06, 1.000000e+02],
       [2.427954e+06, 2.427954e+06, 2.427954e+06, 1.000000e+02],
       [1.471040e+06, 1.471040e+06, 1.471040e+06, 1.000000e+02],
       [1.455048e+06, 1.455048e+06, 1.455048e+06, 1.000000e+02]])

In [38]:
korea_df.values[0]

array([9.720846e+06, 9.720846e+06, 9.720846e+06, 1.000000e+02])

In [39]:
korea_df.loc[:'인천광역시',:'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,9720846
부산광역시,3404423,3404423
인천광역시,2947217,2947217


In [40]:
korea_df.loc[(korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,9720846,9720846,100.0
부산광역시,3404423,3404423,3404423,100.0
인천광역시,2947217,2947217,2947217,100.0
대구광역시,2427954,2427954,2427954,100.0
대전광역시,1471040,1471040,1471040,100.0
광주광역시,1455048,1455048,1455048,100.0


In [44]:
korea_df.loc[(korea_df.여자인구수 < 2000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
대전광역시,1471040,1471040,1471040,100.0
광주광역시,1455048,1455048,1455048,100.0


In [56]:
korea_df.loc[(korea_df.인구수 > 250000) & (korea_df.남여비율 == 100)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,9720846,9720846,100.0
부산광역시,3404423,3404423,3404423,100.0
인천광역시,2947217,2947217,2947217,100.0
대구광역시,2427954,2427954,2427954,100.0
대전광역시,1471040,1471040,1471040,100.0
광주광역시,1455048,1455048,1455048,100.0


In [48]:
korea_df.iloc[:3,:2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,9720846
부산광역시,3404423,3404423
인천광역시,2947217,2947217


## 데이터 연산

In [53]:
s1 = pd.Series([1,3,5,7,9], index = [0,1,2,3,4])
s2 = pd.Series([2,4,6,8,10],index = [1,2,3,4,5])
print(s1 + s2)

0     NaN
1     5.0
2     9.0
3    13.0
4    17.0
5     NaN
dtype: float64


In [58]:
s1.add(s2, fill_value=0)

0     1.0
1     5.0
2     9.0
3    13.0
4    17.0
5    10.0
dtype: float64

In [59]:
df1 = pd.DataFrame(np.random.randint(0,20,(3,3)),
                  columns = list('ACD'))
df1

Unnamed: 0,A,C,D
0,14,19,11
1,7,3,8
2,9,19,10


In [61]:
df2 = pd.DataFrame(np.random.randint(0,20,(5,5)),
                  columns = list('BAECD'))
df2

Unnamed: 0,B,A,E,C,D
0,7,3,1,3,17
1,3,10,10,17,9
2,13,12,15,9,17
3,4,8,3,3,12
4,11,9,15,16,5


In [62]:
df1 + df2

Unnamed: 0,A,B,C,D,E
0,17.0,,22.0,28.0,
1,17.0,,20.0,17.0,
2,21.0,,28.0,27.0,
3,,,,,
4,,,,,


In [63]:
df1.add(df2, fill_value = 0)

Unnamed: 0,A,B,C,D,E
0,17.0,7.0,22.0,28.0,1.0
1,17.0,3.0,20.0,17.0,10.0
2,21.0,13.0,28.0,27.0,15.0
3,8.0,4.0,3.0,12.0,3.0
4,9.0,11.0,16.0,5.0,15.0


### 연산자 범용 함수

| Python 연산자 | Pandas 메소드             |
|---------------|---------------------------|
| ``+``         | ``add``, ``radd``     |
| ``-``         | ``sub``, ``rsub``, ``subtract`` |
| ``*``         | ``mul``, ``rmul``, ``multiply`` |
| ``/``         | ``truediv``, ``div``, ``rdiv``, ``divide``|
| ``//``        | ``floordiv``, ``rfloordiv`` |
| ``%``         | ``mod``                 |
| ``**``        | ``pow``, ``rpow``      |

#### add()

In [64]:
a = np.random.randint(1,10, size=(3,3))
a

array([[5, 2, 2],
       [1, 5, 3],
       [5, 6, 7]])

In [65]:
a + a[0]

array([[10,  4,  4],
       [ 6,  7,  5],
       [10,  8,  9]])

In [66]:
df = pd.DataFrame(a, columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,5,2,2
1,1,5,3
2,5,6,7


In [67]:
df + df.iloc[0]

Unnamed: 0,A,B,C
0,10,4,4
1,6,7,5
2,10,8,9


In [68]:
df.add(df.iloc[0])

Unnamed: 0,A,B,C
0,10,4,4
1,6,7,5
2,10,8,9


### 정렬(Sort)

In [69]:
s = pd.Series(range(5), index=list('ADBCE'))
s

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [70]:
s.sort_index()

A    0
B    2
C    3
D    1
E    4
dtype: int64

In [71]:
s.sort_values()

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [72]:
df = pd.DataFrame(np.random.randint(0,6,(4,4)),
                 index = [2,4,1,3],
                 columns=list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,2,5,0,1
4,3,4,0,4
1,2,3,2,2
3,4,3,1,2


In [73]:
df.sort_index()

Unnamed: 0,B,D,A,C
1,2,3,2,2
2,2,5,0,1
3,4,3,1,2
4,3,4,0,4


In [74]:
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2,0,2,1,5
4,0,3,4,4
1,2,2,2,3
3,1,4,2,3


In [76]:
df.sort_values(by='A')

Unnamed: 0,B,D,A,C
2,2,5,0,1
4,3,4,0,4
3,4,3,1,2
1,2,3,2,2


In [77]:
df.sort_values(by=['A','C'])

Unnamed: 0,B,D,A,C
2,2,5,0,1
4,3,4,0,4
3,4,3,1,2
1,2,3,2,2


### 순위(Ranking)

* 수 목록 내에서 개별 수의 크기 순위 계산
```
DataFrame.rank(self, 
            axis = 0, # 기본값 0(index)으로, index 축을 기준으로 순위 계산 
    		method = 'average', # 동점을 가진 데이터들의 순위를 정하는 방법
    		numeric_only = None, # True로 설정된 경우 숫자 열만 순위를 부여 
    		na_option = 'keep', # NaN 값 순위를 부여하는 방법
    		ascending = True, # 오름차순 또는 내림차순 정렬
    		pct = False) # 반환 된 순위를 백분위 수 형식으로 표시할지 여부
```

| method | 설명 |
|--------|------|
| `average` | 기본값. 순위에 같은 값을 가지는 항목들의 평균값을 사용 |
| `min` | 같은 값을 가지는 그룹을 낮은 순위로 지정 |
| `max` | 같은 값을 가지는 그룹을 높은 순위로 지정 |
| `first` | 데이터 내의 위치에 따라 순위 지정 |
| `dense` | 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가 |

In [78]:
s = pd.Series([-2,3,7,3,8,9,3,-4,2,6])
s

0   -2
1    3
2    7
3    3
4    8
5    9
6    3
7   -4
8    2
9    6
dtype: int64

In [79]:
s.rank()

0     2.0
1     5.0
2     8.0
3     5.0
4     9.0
5    10.0
6     5.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [81]:
s.rank(method = 'first')

0     2.0
1     4.0
2     8.0
3     5.0
4     9.0
5    10.0
6     6.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [83]:
s.rank(method='max')

0     2.0
1     6.0
2     8.0
3     6.0
4     9.0
5    10.0
6     6.0
7     1.0
8     3.0
9     7.0
dtype: float64

In [84]:
s.rank(method='dense')

0    2.0
1    4.0
2    6.0
3    4.0
4    7.0
5    8.0
6    4.0
7    1.0
8    3.0
9    5.0
dtype: float64

## 데이터 결합

### concat() / append()

In [85]:
s1 = pd.Series(['a','b'], index = [1,2])
s2 = pd.Series(['c','d'], index = [3,4])
pd.concat([s1,s2])

1    a
2    b
3    c
4    d
dtype: object

In [86]:
def create_df(cols, idx):
    data = {c:[str(c.lower())+str(i) for i in idx] for c in cols}
    print(data)
    return pd.DataFrame(data,idx)


In [88]:
df1 = create_df('AB',[1,2])
df1

{'A': ['a1', 'a2'], 'B': ['b1', 'b2']}


Unnamed: 0,A,B
1,a1,b1
2,a2,b2


In [89]:
df2 = create_df('AB',[3,4])
df2

{'A': ['a3', 'a4'], 'B': ['b3', 'b4']}


Unnamed: 0,A,B
3,a3,b3
4,a4,b4


In [90]:
pd.concat([df1,df2])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [95]:
df3 = create_df('AB',[0,1])
df3

{'A': ['a0', 'a1'], 'B': ['b0', 'b1']}


Unnamed: 0,A,B
0,a0,b0
1,a1,b1


In [97]:
df4 = create_df('CD',[0,1])
df4

{'C': ['c0', 'c1'], 'D': ['d0', 'd1']}


Unnamed: 0,C,D
0,c0,d0
1,c1,d1


In [98]:
pd.concat([df3,df4])

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [99]:
pd.concat([df3, df4], axis = 1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [100]:
pd.concat([df1, df3])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
0,a0,b0
1,a1,b1


In [102]:
pd.concat([df1,df3], verify_integrity=True) ### row index의 중복 여부 확인                    중복이 있다

ValueError: Indexes have overlapping values: Int64Index([1], dtype='int64')

In [118]:
pd.concat([df1, df3], ignore_index=True) # 기존의 row index를 무시하고 새로 생성

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,
1,이순신,교육학과,
2,임꺽정,컴퓨터학과,
3,김유신,통계학과,
4,홍길동,경영학과,2012.0
5,이순신,교육학과,2016.0
6,임꺽정,컴퓨터학과,2019.0
7,김유신,통계학과,2020.0


In [119]:
df5 = create_df('ABC',[1,2])
df6 = create_df('BCD',[3,4])

{'A': ['a1', 'a2'], 'B': ['b1', 'b2'], 'C': ['c1', 'c2']}
{'B': ['b3', 'b4'], 'C': ['c3', 'c4'], 'D': ['d3', 'd4']}


In [120]:
pd.concat([df5,df6])

Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


In [121]:
pd.concat([df5,df6], join = 'inner')

Unnamed: 0,B,C
1,b1,c1
2,b2,c2
3,b3,c3
4,b4,c4


### 병합과 조인

In [122]:
df1 = pd.DataFrame({'학생':['홍길동','이순신','임꺽정','김유신'],
                   '학과' : ['경영학과','교육학과','컴퓨터공학과','통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터공학과
3,김유신,통계학과


In [123]:
df2 = pd.DataFrame({'학생':['홍길동','이순신','임꺽정','김유신'],
                   '입학년도' : [2012,2016,2019,2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [124]:
df3 = pd.merge(df1, df2)
df3 

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터공학과,2019
3,김유신,통계학과,2020


In [125]:
df4 = pd.DataFrame({'학과장':['황희','장영실','안창호','정약용'],
                   '학과' : ['경영학과','교육학과','컴퓨터공학과','통계학과']})
df4

Unnamed: 0,학과장,학과
0,황희,경영학과
1,장영실,교육학과
2,안창호,컴퓨터공학과
3,정약용,통계학과


In [111]:
pd.merge(df3,df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이순신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [126]:
df5 = pd.DataFrame({'학과' : ['경영학과','교육학과','교육학과','컴퓨터공학과','컴퓨터공학과','통계학과'],
                   '과목':['경영개론','기초수학','물리학','프로그래밍','운영채제','확률론']})

    
df5

Unnamed: 0,학과,과목
0,경영학과,경영개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터공학과,프로그래밍
4,컴퓨터공학과,운영채제
5,통계학과,확률론


In [127]:
pd.merge(df1,df5)

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영개론
1,이순신,교육학과,기초수학
2,이순신,교육학과,물리학
3,임꺽정,컴퓨터공학과,프로그래밍
4,임꺽정,컴퓨터공학과,운영채제
5,김유신,통계학과,확률론


In [128]:
pd.merge(df1,df2, on='학생')

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터공학과,2019
3,김유신,통계학과,2020


In [129]:
df6 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정','김유신'],
                   '성적' : ['A','A+','B','A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


In [130]:
pd.merge(df1,df6, left_on='학생',right_on='이름')

Unnamed: 0,학생,학과,이름,성적
0,홍길동,경영학과,홍길동,A
1,이순신,교육학과,이순신,A+
2,임꺽정,컴퓨터공학과,임꺽정,B
3,김유신,통계학과,김유신,A+


In [131]:
pd.merge(df1,df6, left_on='학생',right_on='이름').drop('이름', axis=1)

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,이순신,교육학과,A+
2,임꺽정,컴퓨터공학과,B
3,김유신,통계학과,A+


In [132]:
df7 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정'],
                   '주문음식' : ['햄버거','피자','짜장면']})
df7

Unnamed: 0,이름,주문음식
0,홍길동,햄버거
1,이순신,피자
2,임꺽정,짜장면


In [133]:
df8 = pd.DataFrame({'이름':['홍길동','이순신','김유신'],
                   '주문음료' : ['콜라','사이다','커피']})
df8

Unnamed: 0,이름,주문음료
0,홍길동,콜라
1,이순신,사이다
2,김유신,커피


In [134]:
pd.merge(df7,df8)

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [135]:
pd.merge(df7,df8, how = 'inner')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [136]:
pd.merge(df7,df8, how = 'outer')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,
3,김유신,,커피


In [137]:
pd.merge(df7,df8, how = 'left')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,


In [138]:
pd.merge(df7,df8, how = 'right')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,김유신,,커피


In [139]:
df9 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정','김유신'],
                   '순위' : [3,2,4,1]})
df9

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,2
2,임꺽정,4
3,김유신,1


In [140]:
df10 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정','김유신'],
                   '순위' : [4,1,3,2]})
df10

Unnamed: 0,이름,순위
0,홍길동,4
1,이순신,1
2,임꺽정,3
3,김유신,2


In [141]:
pd.merge(df9,df10, on = '이름')

Unnamed: 0,이름,순위_x,순위_y
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


In [142]:
pd.merge(df9,df10, on = '이름', suffixes=['_인기','_성적'])

Unnamed: 0,이름,순위_인기,순위_성적
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)

| 집계                     | 설명                     |
|--------------------------|--------------------------|
| ``count`` | 전체 개수 |
| ``head``, ``tail`` | 앞의 항목 일부 반환, 뒤의 항목 일부 반환 |
| ``describe`` | Series, DataFrame의 각 컬럼에 대한 요약 통계 |
| ``min``, ``max`` | 최소값, 최대값           |
| ``cummin``, ``cummax`` | 누적 최소값, 누적 최대값 |
| ``argmin``, ``argmax`` | 최소값과 최대값의 색인 위치 |
| ``idxmin``, ``idxmax`` | 최소값과 최대값의 색인값 |
| ``mean``, ``median`` | 평균값, 중앙값 |
| ``std``, ``var`` | 표준편차(Standard deviation), 분산(Variance) |
| ``skew`` | 왜도(skewness) 값 계산 |
| ``kurt`` | 첨도(kurtosis) 값 계산 |
| ``mad`` | 절대 평균 편차(Mean Absolute Deviation) |
| ``sum``, ``cumsum`` | 전체 항목 합, 누적합 |
| ``prod``, ``cumprod`` | 전체 항목 곱, 누적곱 |
| ``quantile`` | 0부터 1까지의 분위수 계산 |
| ``diff`` | 1차 산술차 계산 |
| ``pct_change`` | 퍼센트 변화율 계산 |
| ``corr``, ``cov`` | 상관관계, 공분산 계산 |



In [150]:
df = pd.DataFrame([[1,1.2,np.nan],
                  [2.4,5.5,4.2],
                  [np.nan,np.nan,np.nan],
                  [0.44,-3.1,-4.1]],
                  index=[1,2,3,4],
                  columns=['A','B','C'])
df

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2
3,,,
4,0.44,-3.1,-4.1


In [151]:
df.head(2)

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2


In [152]:
df.tail(2)

Unnamed: 0,A,B,C
3,,,
4,0.44,-3.1,-4.1


In [153]:
df.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,2.0
mean,1.28,1.2,0.05
std,1.009554,4.3,5.868986
min,0.44,-3.1,-4.1
25%,0.72,-0.95,-2.025
50%,1.0,1.2,0.05
75%,1.7,3.35,2.125
max,2.4,5.5,4.2


In [154]:
print(df.idxmin())
print(df.idxmax())
print(df.mean())
print(df.std())

A    4
B    4
C    4
dtype: int64
A    2
B    2
C    2
dtype: int64
A    1.28
B    1.20
C    0.05
dtype: float64
A    1.009554
B    4.300000
C    5.868986
dtype: float64


In [155]:
df.corr()

Unnamed: 0,A,B,C
A,1.0,0.970725,1.0
B,0.970725,1.0,1.0
C,1.0,1.0,1.0


In [156]:
df.corrwith(df.B)

A    0.970725
B    1.000000
C    1.000000
dtype: float64

### GroupBy 연산

In [157]:
df = pd.DataFrame({'c1':['a','a','b','b','c','d','b'],
                 'c2':['A','B','B','A','D','C','C'],
                 'c3':[3,2,3,7,8,9,3],
                 'c4':np.random.random(7)})
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,3,0.467801
1,a,B,2,0.796929
2,b,B,3,0.568194
3,b,A,7,0.450556
4,c,D,8,0.989133
5,d,C,9,0.26787
6,b,C,3,0.037096


In [158]:
df.groupby('c1').mean()

Unnamed: 0_level_0,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,0.632365
b,4.333333,0.351949
c,8.0,0.989133
d,9.0,0.26787


In [159]:
df.groupby(['c1','c2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,c3,c4
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,3,0.467801
a,B,2,0.796929
b,A,7,0.450556
b,B,3,0.568194
b,C,3,0.037096
c,D,8,0.989133
d,C,9,0.26787


In [160]:
df.groupby(['c1','c2'])['c4'].mean()

c1  c2
a   A     0.467801
    B     0.796929
b   A     0.450556
    B     0.568194
    C     0.037096
c   D     0.989133
d   C     0.267870
Name: c4, dtype: float64

In [162]:
df.groupby(['c1','c2'])[['c4']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,c4
c1,c2,Unnamed: 2_level_1
a,A,0.467801
a,B,0.796929
b,A,0.450556
b,B,0.568194
b,C,0.037096
c,D,0.989133
d,C,0.26787


In [163]:
df.groupby(['c1','c2'])['c4'].agg(['mean','min','max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,min,max
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,A,0.467801,0.467801,0.467801
a,B,0.796929,0.796929,0.796929
b,A,0.450556,0.450556,0.450556
b,B,0.568194,0.568194,0.568194
b,C,0.037096,0.037096,0.037096
c,D,0.989133,0.989133,0.989133
d,C,0.26787,0.26787,0.26787


## 문자열 연산

#### 문자열 연산자

* 파이썬의 문자열 연산자를 거의 모두 반영

| 함수 | 설명 |
| --- | --- |
| `capitalize()` | 첫 문자를 대문자로하고, 나머지 문자를 소문자로 하는 문자열 반환 |
| `casefold()` | 모든 대소문자 구분을 제거 |
| `count(sub, [, start[, end]])` | [start, end] 범위에서 부분 문자열 sub의 중복되지 않은 수를 반환 |
| `find(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `rfind(sub [, start [, end]])` | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 큰 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 |
| `index(sub [, start [, end]])` | find()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `rindex(sub [, start [, end]])` | rfind()과 유사하지만 부분 문자열 sub가 없으면 ValueError 발생 |
| `isalnum()` | 문자열의 모든 문자가 영숫자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isalpha()` | 문자열의 모든 문자가 영문자로 1개 이상 있으면 True, 아니면 False 반환 |
| `isdecimal()` | 문자열의 모든 문자가 10진수 문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isdigit()` | 문자열의 모든 문자가 숫자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isnumeric()` | 문자열의 모든 문자가 수치형이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isidentifier()` | 문자열이 유효한 식별자인 경우 True 반환 |
| `isspace()` | 문자열 내에 공백 문자가 있고, 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `istitle()` | 문자열이 제목이 있는 문자열에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `islower()` | 문자열의 모든 문자가 소문자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| `isupper()` | 문자열의 문자가 모두 대문자에 문자가 1개 이상 있으면 True, 그렇지 않으면 False |
| `join(iterable)` | iterable에 있는 문자열에 연결된 문자열을 반환 |
| `center(width [, fillchar])` | 길이 너비만큼 중앙정렬된 문자열 반환 |
| `ljust(width [, fillchar])` | 너미만큼의 문자열에서 왼쪽 정렬된 문자열을 반환 |
| `rjust(width [, fillchar])` | 너미만큼의 문자열에서 오른쪽 정렬된 문자열을 반환 |
| `lower()` | 모든 대소문자가 소문자로 변환된 문자열을 반환 |
| `upper()` | 문자열에서 모든 문자를 대문자로 변환한 문자열을 반환 |
| `title()` | 문자열에서 첫 글자만 대문자이고 나머지는 소문자인 문자열 반환 |
| `swapcase()` | 문자열에서 소문자를 대문자로 대문자를 소문자로 변환한 문자열 반환 |
| `strip([chars])` | 문자열 양쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `lstrip([chars])` | 문자열 왼쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `rstrip([chars])` | 문자열 오른쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| `partition(sep)` | 문자열에서 첫번째 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `rpartition(sep)` | 문자열에서 마지막 sep를 기준으로 분할하여 3개의 튜플을 반환 |
| `replace(old, new[,count])` | 문자열의 모든 old를 new로 교체한 문자열을 반환 |
| `split(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `rsplit(sep=None, maxsplit=1)` | sep를 구분자 문자열로 사용하여 문자열의 단어 목록을 반환 |
| `splitlines([keepends])` | 문자열에서 라인 단위로 구분하여 리스트를 반환 |
| `startswith(prefix [, start[, end]])` | [start, end] 범위에서 지정한 prefix로 시작하면 True, 아니면 False 반환 |
| `endswith(suffix [, start[, end]])` | [start, end] 범위에서 지정한 suffix로 끝나면 True, 아니면 False 반환 |
| `zfill(width)` | 너비 만큼의 문자열에서 비어있는 부분에 ‘0’이 채워진 문자열 반환 |

In [3]:
name_list = ['Sun Jo','Steven Jobs', 'Larry Page','Elon Musk', None,
            'Bill Gates', 'MarZuckerberg','Jeff Bezos']
names = pd.Series(name_list)
names

0           Sun Jo
1      Steven Jobs
2       Larry Page
3        Elon Musk
4             None
5       Bill Gates
6    MarZuckerberg
7       Jeff Bezos
dtype: object

In [4]:
names.str.lower()

0           sun jo
1      steven jobs
2       larry page
3        elon musk
4             None
5       bill gates
6    marzuckerberg
7       jeff bezos
dtype: object

In [5]:
names.str.len()

0     6.0
1    11.0
2    10.0
3     9.0
4     NaN
5    10.0
6    13.0
7    10.0
dtype: float64

In [6]:
names.str.split()

0          [Sun, Jo]
1     [Steven, Jobs]
2      [Larry, Page]
3       [Elon, Musk]
4               None
5      [Bill, Gates]
6    [MarZuckerberg]
7      [Jeff, Bezos]
dtype: object

## 데이터 읽기 및 저장

| 함수 | 설명 |
|------|------|
| `read_csv` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: ',') |
| `read_table` | 파일, URL, 객체로부터 구분된 데이터 읽기 (기본 구분자: '\t') |
| `read_fwf` | 고정폭 컬럼 형식에서 데이터 읽기 (구분자 없는 데이터) |
| `read_clipboard` | 클립보드에 있는 데이터 읽기. 웹페이지에 있는 표를 읽어올 때 유용 |
| `read_excel` | 엑셀 파일(xls, xlsx)에서 표 형식 데이터 읽기 |
| `read_hdf` | Pandas에서 저장한 HDFS 파일의 데이터 읽기 |
| `read_html` | HTML 문서 내의 모든 테이블 데이터 읽기 |
| `read_json` | JSON에서 데이터 읽기 |
| `read_msgpack` | 메시지팩 바이너리 포맷으로 인코딩된 pandas 데이터 읽기 |
| `read_pickle` | 파이썬 피클 포맷으로 저장된 객체 읽기 |
| `read_sas` | SAS 시스템의 사용자 정의 저장 포맷 데이터 읽기 |
| `read_sql` | SQL 질의 결과를 DataFrame 형식으로 읽기 |
| `read_stata` | Stata 파일에서 데이터 읽기 |
| `read_feather` | Feather 바이너리 파일 포맷의 데이터 읽기 |

### 텍스트 파일 읽기/쓰기

In [3]:
%%writefile example2.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Writing example2.csv


In [4]:
ls

 E 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: C475-428A

 E:\python 디렉터리

2022-01-11  오후 06:22    <DIR>          .
2022-01-11  오후 06:22    <DIR>          ..
2021-12-11  오후 08:11    <DIR>          .ipynb_checkpoints
2021-11-12  오후 04:06    <DIR>          10주차
2021-09-10  오후 05:26    <DIR>          1주차
2021-10-21  오후 01:50    <DIR>          2주차
2021-10-21  오후 02:04    <DIR>          3주차
2021-10-21  오후 03:26    <DIR>          4주차
2021-10-22  오후 02:04    <DIR>          5주차
2021-10-13  오후 08:30    <DIR>          6주차
2021-11-11  오전 12:29    <DIR>          7주차
2021-11-11  오후 08:30    <DIR>          8주차
2021-12-10  오전 01:41    <DIR>          9주차
2021-11-19  오후 05:26               630 a.csv
2021-11-19  오후 05:22               228 a.npy
2021-11-19  오후 05:24               706 ab.npz
2021-11-25  오전 01:03               343 car.csv
2021-11-12  오후 05:31    <DIR>          chapter 10
2021-11-12  오후 04:06    <DIR>          chapter10
2021-12-13  오전 11:03             5,149 client.ipynb
2022-01-11  오후 06:22                8

In [6]:
pd.read_csv('example2.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [7]:
%%writefile exaple1.csv
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Writing exaple1.csv


In [10]:
pd.read_csv('exaple1.csv', header = None)

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [11]:
pd.read_csv('exaple1.csv', names=['A','B','C','D','E','TEXT'])

Unnamed: 0,A,B,C,D,E,TEXT
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [12]:
pd.read_csv('exaple1.csv', names=['A','B','C','D','E','TEXT'], index_col = 'TEXT')

Unnamed: 0_level_0,A,B,C,D,E
TEXT,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hi,1,2,3,4,5
pandas,6,7,8,9,10
csv,11,12,13,14,15


In [14]:
%%writefile example3.txt
    a     b      c
1   0.1     0.2    0.3
2   0.4     0.5    0.6
3   0.7     0.8    0.9

Writing example3.txt


In [15]:
pd.read_table('example3.txt', sep='\s+')

Unnamed: 0,a,b,c
1,0.1,0.2,0.3
2,0.4,0.5,0.6
3,0.7,0.8,0.9


In [16]:
%%writefile example4.csv
a, b, c, d, e, text
1, 2, NA, 4, 5, hi
6, 7, 8, NULL, 10, pandas
11, NA, 13, 14, 15, csv

Writing example4.csv


In [17]:
pd.read_csv("example4.csv")

Unnamed: 0,a,b,c,d,e,text
0,1,2.0,,4.0,5,hi
1,6,7.0,8.0,,10,pandas
2,11,,13.0,14.0,15,csv


In [19]:
%%writefile example5.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13, 14, 15, csv

Overwriting example5.csv


In [20]:
pd.read_csv('example5.csv', nrows=5)

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv
3,a,b,c,d,e,text
4,1,2,3,4,5,hi


## 데이터 정제

### 누락값

* 존재하지 않는 데이터

#### None: 파이썬 누락 데이터

In [21]:
a = np.array([1, 2, None, 4, 5])
a

array([1, 2, None, 4, 5], dtype=object)

In [22]:
a.sum() #오류 none으로 인한 오류

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

#### NaN: 누락된 수치 데이터

In [23]:
a = np. array([1, 2, np.nan, 4, 5])
print(a)
a.dtype

[ 1.  2. nan  4.  5.]


dtype('float64')

In [24]:
a. sum(), a.min(), a.max()

(nan, nan, nan)

In [25]:
np.nansum(a), np.nanmin(a), np.nanmax(a)

(12.0, 1.0, 5.0)

In [26]:
pd.Series([1, 2, np.nan, 4, None])

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

In [27]:
s = pd.Series(range(5), dtype=int)
s

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [28]:
s[0] = None
s

0    NaN
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

In [29]:
s = pd.Series([True, False, None, np.nan])
s

0     True
1    False
2     None
3      NaN
dtype: object

#### 누락값 처리

| 인자 | 설명 |
|------|------|
| `isnull()` | 누락되거나 NA인 값을 불리언 값으로 반환 | 
| `notnull()` | `issull()`의 반대 | 
| `dropna()` | 누락된 데이터가 있는 축 제외 | 
| `fillna()` | 누락된 값을 대체하거나 `ffill`이나 `bfill`로 보간 메소드 적용 | 

In [7]:
s = pd.Series([1, 2, np.nan, 'String', None])
s

0         1
1         2
2       NaN
3    String
4      None
dtype: object

In [9]:
s.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [10]:
s[s.notnull()]

0         1
1         2
3    String
dtype: object

In [11]:
s.dropna()

0         1
1         2
3    String
dtype: object

In [12]:
s.fillna(0)

0         1
1         2
2         0
3    String
4         0
dtype: object

In [13]:
s.fillna(method='ffill') # fill values forward. 맨 처음 누락값은 채울 수 없음

0         1
1         2
2         2
3    String
4    String
dtype: object

In [14]:
s.fillna(method='bfill') # fill values backward. 맨 마지막 누락값은 채울 수 없음

0         1
1         2
2    String
3    String
4      None
dtype: object

In [16]:
df = pd.DataFrame(np.random.randn(10,3), columns=list('ABC'))
df.iloc[3:5, 0] = np.nan
df.iloc[4:6, 0] = np.nan
df.iloc[5:8, 0] = np.nan
df

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
3,,-0.263667,0.452668
4,,-0.876636,0.403564
5,,1.087182,-0.629206
6,,-1.075564,0.655771
7,,-0.255766,-0.76932
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


In [17]:
df.dropna()

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


In [18]:
df.dropna(axis=0) # axis='rows'

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


In [19]:
df.dropna(axis=1) # axis='columns'

Unnamed: 0,B,C
0,-0.347584,1.753967
1,0.184628,0.447027
2,-1.358401,0.148849
3,-0.263667,0.452668
4,-0.876636,0.403564
5,1.087182,-0.629206
6,-1.075564,0.655771
7,-0.255766,-0.76932
8,-1.384037,0.603937
9,0.707836,-0.616111


In [20]:
df.fillna(method='ffill', axis = 0) # row 방향의 forward

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
3,0.495632,-0.263667,0.452668
4,0.495632,-0.876636,0.403564
5,0.495632,1.087182,-0.629206
6,0.495632,-1.075564,0.655771
7,0.495632,-0.255766,-0.76932
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


In [21]:
df.fillna(method='ffill',axis=1) # column 방향의 forward

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
3,,-0.263667,0.452668
4,,-0.876636,0.403564
5,,1.087182,-0.629206
6,,-1.075564,0.655771
7,,-0.255766,-0.76932
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


In [22]:
df.fillna(method='bfill', axis = 0)

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
3,-0.132441,-0.263667,0.452668
4,-0.132441,-0.876636,0.403564
5,-0.132441,1.087182,-0.629206
6,-0.132441,-1.075564,0.655771
7,-0.132441,-0.255766,-0.76932
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


In [23]:
df.fillna(method='bfill',axis=1)

Unnamed: 0,A,B,C
0,0.780016,-0.347584,1.753967
1,0.380372,0.184628,0.447027
2,0.495632,-1.358401,0.148849
3,-0.263667,-0.263667,0.452668
4,-0.876636,-0.876636,0.403564
5,1.087182,1.087182,-0.629206
6,-1.075564,-1.075564,0.655771
7,-0.255766,-0.255766,-0.76932
8,-0.132441,-1.384037,0.603937
9,0.636176,0.707836,-0.616111


### 중복 제거

In [24]:
df = pd.DataFrame({'c1':['a','b','c'] * 2 + ['b'] + ['c'],
                   'c2':[1, 2, 1, 1, 2, 3, 3, 4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [25]:
df.duplicated()

0    False
1    False
2    False
3     True
4     True
5    False
6    False
7    False
dtype: bool

In [26]:
df.drop_duplicates()

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
5,c,3
6,b,3
7,c,4


## 데이터 재구조화

* stack(), unstack() 함수를 이용해 데이터프레임의 구조 변경
* stack : 위에서 아래로 (행방향)
* unstack : 왼쪽에서 오른쪽으로 (열방향)

In [30]:
sample = pd.DataFrame([['길동', '철수', '영희'],[176,173,160]],
                     index = ['이름','키'],
                     columns = ['홍','김','이'])
sample

Unnamed: 0,홍,김,이
이름,길동,철수,영희
키,176,173,160


In [31]:
sample.stack()

이름  홍     길동
    김     철수
    이     영희
키   홍    176
    김    173
    이    160
dtype: object

In [33]:
sample.stack().reset_index()

Unnamed: 0,level_0,level_1,0
0,이름,홍,길동
1,이름,김,철수
2,이름,이,영희
3,키,홍,176
4,키,김,173
5,키,이,160


In [35]:
#MultiIndex 는 단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체 
col_lv2 = pd.MultiIndex.from_arrays([['주스','주스','빵','빵'],
                                    ['포도주스','사과주스','피자빵','소보루빵']])
index_lv2 = [['길동','길동','철수','철수'],
            ['분석가','사이언티스트','엔지니어','개발자']]
sample_lv2 = pd.DataFrame([[1,2,3,4],
                         [4,3,2,1],
                         [2,4,1,3],
                         [3,1,4,2]],
                         index = index_lv2,
                        columns = col_lv2)
sample_lv2

Unnamed: 0_level_0,Unnamed: 1_level_0,주스,주스,빵,빵
Unnamed: 0_level_1,Unnamed: 1_level_1,포도주스,사과주스,피자빵,소보루빵
길동,분석가,1,2,3,4
길동,사이언티스트,4,3,2,1
철수,엔지니어,2,4,1,3
철수,개발자,3,1,4,2


In [36]:
sample_lv2.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,빵,주스
길동,분석가,사과주스,,2.0
길동,분석가,소보루빵,4.0,
길동,분석가,포도주스,,1.0
길동,분석가,피자빵,3.0,
길동,사이언티스트,사과주스,,3.0
길동,사이언티스트,소보루빵,1.0,
길동,사이언티스트,포도주스,,4.0
길동,사이언티스트,피자빵,2.0,
철수,엔지니어,사과주스,,4.0
철수,엔지니어,소보루빵,3.0,


In [37]:
sample_lv2.stack(level=0)

Unnamed: 0,Unnamed: 1,Unnamed: 2,사과주스,소보루빵,포도주스,피자빵
길동,분석가,빵,,4.0,,3.0
길동,분석가,주스,2.0,,1.0,
길동,사이언티스트,빵,,1.0,,2.0
길동,사이언티스트,주스,3.0,,4.0,
철수,엔지니어,빵,,3.0,,1.0
철수,엔지니어,주스,4.0,,2.0,
철수,개발자,빵,,2.0,,4.0
철수,개발자,주스,1.0,,3.0,


In [38]:
sample_lv2.unstack()

Unnamed: 0_level_0,주스,주스,주스,주스,주스,주스,주스,주스,빵,빵,빵,빵,빵,빵,빵,빵
Unnamed: 0_level_1,포도주스,포도주스,포도주스,포도주스,사과주스,사과주스,사과주스,사과주스,피자빵,피자빵,피자빵,피자빵,소보루빵,소보루빵,소보루빵,소보루빵
Unnamed: 0_level_2,개발자,분석가,사이언티스트,엔지니어,개발자,분석가,사이언티스트,엔지니어,개발자,분석가,사이언티스트,엔지니어,개발자,분석가,사이언티스트,엔지니어
길동,,1.0,4.0,,,2.0,3.0,,,3.0,2.0,,,4.0,1.0,
철수,3.0,,,2.0,1.0,,,4.0,4.0,,,1.0,2.0,,,3.0


## 데이터 조회

* query() 함수를 이용한 조건에 맞는 데이터 조회

In [28]:
data = pd.DataFrame({'age':[10,10,21,22],'weight':[20,30,60,70]})
data

Unnamed: 0,age,weight
0,10,20
1,10,30
2,21,60
3,22,70


In [29]:
data.query('age == 10')

Unnamed: 0,age,weight
0,10,20
1,10,30


In [30]:
data.query('age >= 22')

Unnamed: 0,age,weight
3,22,70


In [31]:
data.query('age in [21,22]')

Unnamed: 0,age,weight
2,21,60
3,22,70


In [33]:
data.query('(age == 10) and (weight >= 30)')

Unnamed: 0,age,weight
1,10,30


## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly