<h1>Pandas</h1>

* data를 2차원으로 제한
* NumPy + Dictionary
* Series: 1차원 자료 구조
* DataFrame: 2차원 자료 구조

<h3> 🔥 NumPy VS Pandas <h3>
 
 * NumPy: 암묵적으로 zero base 순서 인덱스만 지원(0부터 인덱스 시작)
 
\
 * Pandas: index 2가지 지원
    * Label index: 명시적 인덱스
    * Integer index(position index): 암묵적 zero base 순서 index

* Pandas는 다양한 파일 포맷 지원
  * CSV, Excel, SQL Database 등

# import 

In [None]:
import numpy as np
import pandas as pd
pd.__version__

'1.3.5'

# Series, DataFrame

## Series 생성
* pd.Series(data)가 생성자 호출 역할.
* Series는 class로 보면 됨

In [None]:
# label index와 값이 출력됨
# 값이 int이기 때문에 자동으로 dtype:int64
s = pd.Series([10,20,30,40])
s

0    10
1    20
2    30
3    40
dtype: int64

In [None]:
# Integer index 사용
s2 = pd.Series([10,20,30,40], index=['a','b','c','d'], dtype=np.float64, name="my")

s2

a    10.0
b    20.0
c    30.0
d    40.0
Name: my, dtype: float64

## Series의 주요속성

In [None]:
s.shape, s2.shape

((4,), (4,))

In [None]:
s.dtype, s2.dtype

(dtype('int64'), dtype('float64'))

In [None]:
# index는 key 역할
s.index, s2.index

(RangeIndex(start=0, stop=4, step=1),
 Index(['a', 'b', 'c', 'd'], dtype='object'))

In [None]:
# series의 값은 numpy array로 구성됨
s.values, s2.values

(array([10, 20, 30, 40]), array([10., 20., 30., 40.]))

## DataFrame 생성

In [None]:
df = pd.DataFrame([[10,20,30], 
                   [40,50,60]])
df

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60


In [None]:
df2 = pd.DataFrame([[10,20,30],[40,50,60]], index=['a','b'])
df2

Unnamed: 0,0,1,2
a,10,20,30
b,40,50,60


In [None]:
df3 = pd.DataFrame([[10,20,30],
                    [40,50,60]], index=['a','b'],
                                  columns=['A','B','C'])
df3

Unnamed: 0,A,B,C
a,10,20,30
b,40,50,60


In [None]:
df4 = pd.DataFrame({
    'name': ['Kim', 'Lee', 'Park'],
    'age': [27, 24, 31]
})
df4

Unnamed: 0,name,age
0,Kim,27
1,Lee,24
2,Park,31


In [None]:
names = pd.Series(['Kim', 'Lee', 'Park'], index=['a','b','c'])
ages = pd.Series([27,24,31], index=['a','b','c'])

df5 = pd.DataFrame({'name':names, 'age':ages})
df5

Unnamed: 0,name,age
a,Kim,27
b,Lee,24
c,Park,31


## DataFrame의 주요속성

In [None]:
df3.shape

(2, 3)

In [None]:
df3.index

Index(['a', 'b'], dtype='object')

In [None]:
df3.columns

Index(['A', 'B', 'C'], dtype='object')

In [None]:
df3.values

array([[10, 20, 30],
       [40, 50, 60]])

In [None]:
df3.T

Unnamed: 0,a,b
A,10,40
B,20,50
C,30,60


In [None]:
# dtype이 아니라 dtypes 사용해야 함
# 포함된 타입이 하나가 아니기 때문(name, age 등..)
# object는 여러 속성이 모였다는 의미..문자열

df5.dtypes

name    object
age      int64
dtype: object

In [None]:
# Non-Null Count는 정상 데이터의 개수를 알려줌
df5.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 180.0+ bytes


# File I/O

* CSV(Comma Seperated Value) file
  * read_csv(), to_csv()
* MS Excel file
* JSON file
* HDF5(Hierarchical Data Frame, 계층적 데이터 형식)
* etc..

In [None]:
url_tips = 'https://www.dropbox.com/s/6hcpx66uwecoq0c/tips.csv?dl=1'
file_tips = 'tips.csv'
import os
if os.name == 'posix':
  !wget -O $file_tips $url_tips
else:
  !pip install wget
  import wget
  wget.download(url_tips, out=file_tips)

--2022-09-15 00:11:02--  https://www.dropbox.com/s/6hcpx66uwecoq0c/tips.csv?dl=1
Resolving www.dropbox.com (www.dropbox.com)... 162.125.85.18, 2620:100:6017:18::a27d:212
Connecting to www.dropbox.com (www.dropbox.com)|162.125.85.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: /s/dl/6hcpx66uwecoq0c/tips.csv [following]
--2022-09-15 00:11:02--  https://www.dropbox.com/s/dl/6hcpx66uwecoq0c/tips.csv
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://ucb0d6956c4e6b928ec5af276883.dl.dropboxusercontent.com/cd/0/get/Bs-6IrExzINTwCCb4LRlVTYec4kJXakr6jWxdnP-7OEFh1CFS3b-RYuxoxWUKruH6YizllDcLFSVjBMQgLDEgfTjKFc8eL0gMBGua8KqtMV89DyxWYJpqtyOdi3XLxEp8knF9tS1Q0PqpMJV13BzVoqL3I_QJXdxz_J-lTCN8L1iWQ/file?dl=1# [following]
--2022-09-15 00:11:03--  https://ucb0d6956c4e6b928ec5af276883.dl.dropboxusercontent.com/cd/0/get/Bs-6IrExzINTwCCb4LRlVTYec4kJXakr6jWxdnP-7OEFh1CFS3b-RYuxoxWUKruH6YizllDcLFSVjBMQgLDEgfTj

## CSV

In [None]:
!cat tips.csv

"total_bill","tip","sex","smoker","day","time","size"
16.99,1.01,"Female","No","Sun","Dinner",2
10.34,1.66,"Male","No","Sun","Dinner",3
21.01,3.5,"Male","No","Sun","Dinner",3
23.68,3.31,"Male","No","Sun","Dinner",2
24.59,3.61,"Female","No","Sun","Dinner",4
25.29,4.71,"Male","No","Sun","Dinner",4
8.77,2,"Male","No","Sun","Dinner",2
26.88,3.12,"Male","No","Sun","Dinner",4
15.04,1.96,"Male","No","Sun","Dinner",2
14.78,3.23,"Male","No","Sun","Dinner",2
10.27,1.71,"Male","No","Sun","Dinner",2
35.26,5,"Female","No","Sun","Dinner",4
15.42,1.57,"Male","No","Sun","Dinner",2
18.43,3,"Male","No","Sun","Dinner",4
14.83,3.02,"Female","No","Sun","Dinner",2
21.58,3.92,"Male","No","Sun","Dinner",2
10.33,1.67,"Female","No","Sun","Dinner",3
16.29,3.71,"Male","No","Sun","Dinner",3
16.97,3.5,"Female","No","Sun","Dinner",3
20.65,3.35,"Male","No","Sat","Dinner",3
17.92,4.08,"Male","No","Sat","Dinner",2
20.29,2.75,"Female","No","Sat","Dinner",2
15.77,2.23,"Female","No","Sat","Dinner",2
39.42,7.58,"Male","No"

In [None]:
df = pd.read_csv('tips.csv')
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [None]:
# 원본과는 다르게 index=True이면 index가 자동적으로 생김
# 읽을 때 자동으로 생기는건데, 다시 저장할 때 원래 있던 데이터랑 구별 못해서 같이 저장됨
# 이면 읽고 부르고 반복할 때 마다 index 추가됨
# df.to_csv('my.csv')

df.to_csv('my.csv', index=False)

---
---
###09/15

## Excel
* read_excel
* to_excel

In [None]:
df.to_excel('my.xlsx', index=False, sheet_name='abc')

In [None]:
df2 = pd.read_excel('my.xlsx', sheet_name='abc')
df2

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


# 3. 데이터 조회
* Indexer
  * loc, iloc\
    -> 여러 요소 선택 가능(slicing, fancy indexing)\
    -> 기능은 많지만 속도가 느림
  * at, iat\
    -> 단일 요소 선택(indexing만 가능. slicing, fancy indexing 불가)\
    -> 기능은 적지만 속도가 빠름

\
- loc, at은 label index이고 iloc, iat은 position index(integer index)
- arr[0]처럼 직접 접근하지 않고 거쳐서 조회함\
EX) a.loc[ 'a' ], a.iloc[ 0 ] \
.. label index에도 숫자를 쓸 수 있지만, 그게 순서를 의미하진 않음

In [None]:
# list('ABC')랑 ['A','B','C']는 같음
df = pd.DataFrame(np.arange(12).reshape(4,3),
                  columns=list('ABC'), index=list('abcd'))
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


## Series loc, iloc Indexer

### Default index

In [None]:
s = pd.Series([10,20,30,40])
s

0    10
1    20
2    30
3    40
dtype: int64

#### signle indexing

In [None]:
s.iloc[1]

20

In [None]:
s.loc[1]

20

In [None]:
s[1]

20

#### slicing

암묵적 index를 쓸 땐 end 인덱스가 포함 안됨

In [None]:
s.iloc[1:3]

1    20
2    30
dtype: int64

🛑🛑 loc는 end 인덱스도 포함됨.\
일상에서 position(숫자)를 index로 사용하면 마지막을 빼는 경우가 있음(값는 날은 이자 안붙음). 그래서 마지막은 제외함\
label(이름)을 index로 사용하면 마지막을 빼는 경우가 거의 없기 때문에 포함


In [None]:
# end index 포함되는 것 주의
s.loc[1:3]

1    20
2    30
3    40
dtype: int64

In [None]:
# 마지막 포함 여부가 헷갈리기 때문에 명확하게 iloc나 loc를 사용하는 게 바람직하다
s[1:3]

1    20
2    30
dtype: int64

#### bool indexing
- 헷갈리는 게 없기 때문에 loc, iloc, 직접접근 아무거나 사용하면 됨

In [None]:
s.loc[[True, False, True, False]]

0    10
2    30
dtype: int64

In [None]:
s.iloc[[True, False, True, False]]

0    10
2    30
dtype: int64

In [None]:
s[[True, False, True, False]]

0    10
2    30
dtype: int64

#### Fancy Indexing
* 마찬가지로 셋 다 상관 없음

In [None]:
s.loc[[2,3]]

2    30
3    40
dtype: int64

In [None]:
s.iloc[[2,3]]

2    30
3    40
dtype: int64

In [None]:
s[[2,3]]

2    30
3    40
dtype: int64

### 문자 index

In [None]:
s2 = pd.Series([10,20,30,40],
               index=['a', 'b', 'c', 'd'])
s2

a    10
b    20
c    30
d    40
dtype: int64

#### single indexing

In [None]:
# '0'은 없는 index이므로 error
s2.loc[0]

In [None]:
s2.loc['a']

10

In [None]:
# iloc는 순서 의미를 가지는 index를 쓰므로 error
s2.iloc['a']

In [None]:
s2.iloc[0]

10

In [None]:
# 동작은 되지만 나중에 문제가 생김
s2[0]

10

In [None]:
# 동작은 되지만 나중에 문제가 생김
s2['a']

10

#### slicing

In [None]:
# error
s2.loc[1:3]

In [None]:
s2.loc['b':'c']

b    20
c    30
dtype: int64

In [None]:
# error
s2.iloc['b':'c']

In [None]:
s2.iloc[1:3]

b    20
c    30
dtype: int64

In [None]:
# 동작은 되지만 나중에 문제가 생김
s2['b':'c']

b    20
c    30
dtype: int64

In [None]:
# 동작은 되지만 나중에 문제가 생김
s2[1:3]

b    20
c    30
dtype: int64

#### bool indexing

In [None]:
s2.loc[[True, False, True, False]]

a    10
c    30
dtype: int64

In [None]:
s2.iloc[[True, False, True, False]]

#### fancy indexing

In [None]:
s2.loc[['a','c']]

a    10
c    30
dtype: int64

In [None]:
s2.iloc[[0,2]]

a    10
c    30
dtype: int64

In [None]:
s2[['a', 'c']], s2[[0,2]]

(a    10
 c    30
 dtype: int64, a    10
 c    30
 dtype: int64)

### 숫자 index

In [None]:
s3 = pd.Series([10,20,30,40],
               index=[1,2,4,5])
s3

1    10
2    20
4    30
5    40
dtype: int64

#### single indexing

🛑 주의\
같은 index를 참조하는 데 loc와 iloc의 결과가 다름

In [None]:
# index '1'을 찾음
s3.loc[1]

10

In [None]:
# 순서로 인식함
s3.iloc[1]

20

In [None]:
# 이걸 쓰지 말아야 하는 이유. 어떤 결과가 나오는지 헷갈림
s3[1] # loc와 같은 결과..

10

#### slicing

In [None]:
s3.loc[1:3]

1    10
2    20
dtype: int64

In [None]:
s.iloc[1:3]

1    20
2    30
dtype: int64

In [None]:
s3[1:3]

2    20
4    30
dtype: int64

#### bool indexing

#### Fancy indexing

In [None]:
s3.loc[[1, 2, 4]]

1    10
2    20
4    30
dtype: int64

In [None]:
s3.iloc[[1, 2, 3]]

2    20
4    30
5    40
dtype: int64

In [None]:
s3[[1, 2, 4]]

1    10
2    20
4    30
dtype: int64

---

In [None]:
s3.at[1]

10

In [None]:
s3.iat[1]

20

In [None]:
# at은 slicing 사용 불가
s3.at[1:3]

## DataFrame loc, iloc Indexer

### Default index

In [2]:
df = pd.DataFrame(np.arange(12).reshape(4,3))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


#### 행선택
loc, iloc는 행 선택하지만\
직접 indexing은 열 선택함

In [None]:
df.loc[1]

0    3
1    4
2    5
Name: 1, dtype: int64

In [None]:
df.iloc[1]

0    3
1    4
2    5
Name: 1, dtype: int64

🛑 주의
직접 indexing하면 열을 선택함\
--> 사용하면 안됨

In [None]:
df[1]

0     1
1     4
2     7
3    10
Name: 1, dtype: int64

In [None]:
df.loc[1, :]

0    3
1    4
2    5
Name: 1, dtype: int64

In [None]:
df.iloc[1, :]

0    3
1    4
2    5
Name: 1, dtype: int64

#### 열선택

In [None]:
df.loc[:, 1]

0     1
1     4
2     7
3    10
Name: 1, dtype: int64

In [None]:
df.iloc[:, 1]

0     1
1     4
2     7
3    10
Name: 1, dtype: int64

In [None]:
# error
df[:, 1]

#### single indexing

In [None]:
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
df.loc[2, 1]

7

In [None]:
df.iloc[2, 1]

7

#### slicing


In [None]:
# end index 포함
df.loc[1:2]

Unnamed: 0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
# end index 포함 안됨
df.iloc[1:3]

Unnamed: 0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
df.loc[1:2, 1:2]

Unnamed: 0,1,2
1,4,5
2,7,8


In [None]:
df.iloc[1:3, 1:3]

Unnamed: 0,1,2
1,4,5
2,7,8


#### bool indexing

In [None]:
df.loc[[True, False, True, False]]

Unnamed: 0,0,1,2
0,0,1,2
2,6,7,8


In [None]:
df.iloc[[True, False, True, False]]

Unnamed: 0,0,1,2
0,0,1,2
2,6,7,8


In [None]:
df.loc[:, [True, False, True]]

Unnamed: 0,0,2
0,0,2
1,3,5
2,6,8
3,9,11


In [None]:
df.iloc[:, [True, False, True]]

Unnamed: 0,0,2
0,0,2
1,3,5
2,6,8
3,9,11


In [None]:
df.loc[[True, False, True, False]]

Unnamed: 0,0,1,2
0,0,1,2
2,6,7,8


In [None]:
df.iloc[:, [True, False, True]]

Unnamed: 0,0,2
0,0,2
1,3,5
2,6,8
3,9,11


In [None]:
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
df.loc[[True, False, True, False],[True, False, True]]

Unnamed: 0,0,2
0,0,2
2,6,8


#### Fancy Indexing

In [None]:
df.loc[[0,2]]

Unnamed: 0,0,1,2
0,0,1,2
2,6,7,8


In [None]:
df.iloc[[0,2]]

Unnamed: 0,0,1,2
0,0,1,2
2,6,7,8


In [None]:
df.loc[:, [0,2]]

Unnamed: 0,0,2
0,0,2
1,3,5
2,6,8
3,9,11


In [None]:
df.iloc[:, [0,2]]

Unnamed: 0,0,2
0,0,2
1,3,5
2,6,8
3,9,11


In [None]:
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


🛑 Numpy와 Pandas의 결과가 다른 경우

In [None]:
# numpy에서는 (0,1), (2,2)가 선택됨.
# Pandas에서는 0행, 2행과 1열, 2열의 겹치는 부분이 선택됨
df.loc[[0,2], [1,2]]

Unnamed: 0,1,2
0,1,2
2,7,8


In [None]:
# Numpy
# 차원 정보가 유지가 안됨
df.values[[0,2], [1,2]]

array([1, 8])

🛑

In [None]:
# Pandas는 행/열 개념이 깨지면 안되므로 차원 정보 유지됨
df.loc[[0,2,2], [1,2,0]]

Unnamed: 0,1,2,0
0,1,2,0
2,7,8,6
2,7,8,6


In [None]:
# Numpy. 차원 정보 유지 안됨
df.values[[0,2,2], [1,2,0]]

array([1, 8, 6])

#### 혼합 

In [None]:
df.loc[[0,2],[True, False, True]]

Unnamed: 0,0,2
0,0,2
2,6,8


In [None]:
# slicing + fancy indexing
df.loc[1:3, [0,2]]

Unnamed: 0,0,2
1,3,5
2,6,8
3,9,11


### 문자 index

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape(4,3),
                  columns=list('ABC'), index=list('abcd'))
df2

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


#### single indexing

In [None]:
df2.loc['c', 'B']

7

In [None]:
df2.iloc[2, 1]

7

#### slicing, Fancy Indexing

In [None]:
df2.loc['a':'c']

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [None]:
df2.iloc[0:3]

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [None]:
df2.loc[['a','c'],['A','C']]

Unnamed: 0,A,C
a,0,2
c,6,8


In [None]:
df2.iloc[[0,2],[0,2]]

Unnamed: 0,A,C
a,0,2
c,6,8


### indexer 접근 속도 비교
* loc보다 at이 빠름
* loc가 iloc보다, at가 iat보다 빠름\
  --> i는 하나하나 찾아보는 것이기 때문에 느림
* label index를 너무 많이 붙이면 메모리 낭비, index 의미가 없으므로 적당히 사용해야 함(index보단 column에 많이 사용함)

In [None]:
# jupyter notebook magic command : %command
# df2.loc['c', 'C' ]의 실행 시간을 측정
# n(10000)번 실행해서 top r(5)를 봄
%timeit -n 10000 -r 5 df2.loc['c', 'C' ]

9.5 µs ± 919 ns per loop (mean ± std. dev. of 5 runs, 10000 loops each)


In [None]:
%timeit -n 10000 -r 5 df2.at['c', 'C']

4.22 µs ± 219 ns per loop (mean ± std. dev. of 5 runs, 10000 loops each)


In [None]:
%timeit -n 10000 -r 5 df2.iloc[2, 2 ]

30 µs ± 1.28 µs per loop (mean ± std. dev. of 5 runs, 10000 loops each)


In [None]:
%timeit -n 10000 -r 5 df2.iat[2, 2 ]

23.7 µs ± 1.08 µs per loop (mean ± std. dev. of 5 runs, 10000 loops each)


## Series Direct Indexing

### Default index

In [None]:
s = pd.Series([10,20,30,40])
s

0    10
1    20
2    30
3    40
dtype: int64

### 문자 index

In [None]:
s1 = pd.Series([10,20,30,40],
              index=['a', 'b', 'c', 'd'])
s1

a    10
b    20
c    30
d    40
dtype: int64

### 숫자 index

In [None]:
s2 = pd.Series([10,20,30,40],
               index=[1,2,3,4])
s2

1    10
2    20
3    30
4    40
dtype: int64

## DataFrame Direct Indexing

🛑 헷갈리는 부분 많으니까 외우기
* indexing, fancy indexing은 열 단위 선택
* slicing, bool indexing은 행 단위 선택

--> WHY? 왜 일관성이 없을까 ..바로가기 아이콘이라 생각하면 됨\
--> loc, at 등을 적지 않아도 기능 동작할 수 있도록 같은 기능을 부여해 놓은 개념

### Default index

In [4]:
df = pd.DataFrame(np.arange(12).reshape(4,3))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
# 행이 아니라 열이 선택됨.
df[1]

0     1
1     4
2     7
3    10
Name: 1, dtype: int64

In [None]:
# error
df[1,2]

In [None]:
# slicing은 행 선택
df[1:3]

Unnamed: 0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
# bool indexing은 행 단위 선택
df[[True, False, True, False]]

Unnamed: 0,0,1,2
0,0,1,2
2,6,7,8


In [None]:
# fancy indexing은 열 단위 선택
df[[0,2]]

Unnamed: 0,0,2
0,0,2
1,3,5
2,6,8
3,9,11


### 문자 index

In [8]:
df1 = pd.DataFrame(np.arange(12).reshape(4,3),
                   columns=list('ABC'),
                   index=list('abcd'))
df1

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


### single indexing

🛑

In [None]:
# 열을 먼저 선택하고 행을 선택해야 함 .. 권장 X
df1['B']['c']

7

In [None]:
# 권장
df1.loc['c', 'B']

7

In [None]:
df1['a':'c']

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [None]:
df1[[True, False, True, False]]

Unnamed: 0,A,B,C
a,0,1,2
c,6,7,8


In [None]:
df1[['A','C']]

Unnamed: 0,A,C
a,0,2
b,3,5
c,6,8
d,9,11


In [None]:
df1['A']

a    0
b    3
c    6
d    9
Name: A, dtype: int64

In [None]:
# error
df1['a']

In [None]:
# 열 선택할 때 이렇게도 쓸 수 있음 .. 
# 컬럼 이름인지 property인지 구별 안되므로 권장 X
df1.A

a    0
b    3
c    6
d    9
Name: A, dtype: int64

In [None]:
df1.shape

(4, 3)

In [None]:
df1['A'] > 5

a    False
b    False
c     True
d     True
Name: A, dtype: bool

In [None]:
df1[df1['A'] > 5]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11


## 조건 검색
* 조건이 복잡하면 loc, at보다 direct indexing이 효율적임

In [10]:
df = pd.DataFrame({'name': ['Kim', 'Lee', 'Park', 'Choi'],
                   'age': [24, 27, 34, 19],
                   'sex': ['F', 'M', 'F', 'M']})
df

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F
3,Choi,19,M


### 20세 이상 데이터만 검색

In [None]:
df.loc[:, 'age'] 

0    24
1    27
2    34
3    19
Name: age, dtype: int64

In [None]:
df.loc[:, 'age'] >= 20

0     True
1     True
2     True
3    False
Name: age, dtype: bool

In [None]:
df.loc[df.loc[:, 'age'] >= 20, :]

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F


In [None]:
df.loc[ df.loc[:, 'age'] >= 20, 'name' ]

0     Kim
1     Lee
2    Park
Name: name, dtype: object

🌴 direct indexing\
 loc 사용 시 보다 효율적인 경우

In [None]:
# loc 사용 코드보다 효율적
df['age'] >= 20

0     True
1     True
2     True
3    False
Name: age, dtype: bool

In [None]:
df[ df['age'] >= 20 ]

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F


In [None]:
# df[ df['age'] >= 20 ]
df.query('age >= 20')

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F


### 조건 연산
🌴 &, |, ~ 사용\
🛑 주의. and, or, not 아님

In [None]:
df

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F
3,Choi,19,M


In [None]:
df.loc[:, 'age'] >= 20

0     True
1     True
2     True
3    False
Name: age, dtype: bool

In [None]:
df.loc[:, 'sex'] == 'F'

0     True
1    False
2     True
3    False
Name: sex, dtype: bool

In [None]:
(df.loc[:, 'age'] >= 20) & (df.loc[:, 'sex'] == 'F')

0     True
1    False
2     True
3    False
dtype: bool

In [None]:
# error
(df.loc[:, 'age'] >= 20) and (df.loc[:, 'sex'] == 'F')

In [None]:
df.loc[(df.loc[:, 'age'] >= 20) & (df.loc[:, 'sex'] == 'F'), :]

Unnamed: 0,name,age,sex
0,Kim,24,F
2,Park,34,F


In [None]:
# loc 사용 시 보다 효율적
df[(df['age'] >= 20) & (df['sex'] == 'F')]

Unnamed: 0,name,age,sex
0,Kim,24,F
2,Park,34,F


In [None]:
# df[(df['age'] >= 20) & (df['sex'] == 'F')]

# query함수에서는 & 연산이 뒷 순위기 때문에 하나하나 괄호 안해도 됨
df.query('age >= 20 & sex=="F"')

Unnamed: 0,name,age,sex
0,Kim,24,F
2,Park,34,F


### isin()
* 특정 값이 포함되어 있는지 판단

In [None]:
df.isin(['Kim', 'Lee'])

Unnamed: 0,name,age,sex
0,True,False,False
1,True,False,False
2,False,False,False
3,False,False,False


In [None]:
df['name'].isin(['Kim', 'Lee'])

0     True
1     True
2    False
3    False
Name: name, dtype: bool

In [None]:
df[df['name'].isin(['Kim', 'Lee'])]

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M


In [None]:
# isin()과 같은 결과를 or 연산으로도 구현 가능함
# isin() 사용하는 것이 더 깔끔함
df[(df['name'] == 'Kim') | (df['name'] == 'Lee')]

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M


🛑

In [None]:
# isin() 대신 아래와 같이 사용할 수 있음

df.query('name in ["Lee", "Kim"]')

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M


### df.query()
* bool expression
* DataFrame direct indexing 간소화
* &연산 사용할 때 괄호 하나하나 안해도 됨
* 안에 문자열 사용할 때 '', "" 안겹치게 해야 함
* ⭐ 변수 이름 앞에는 '@'를 사용함

In [None]:
age = 27
sex = 'M'
df.query('age == @age & sex == @sex')

Unnamed: 0,name,age,sex
1,Lee,27,M


## head(), tail()
* 상위, 하위 데이터 보기

In [None]:
df = pd.read_csv('tips.csv')

In [None]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [None]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
df.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [None]:
df.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


## 정렬
* sort_index(axis)
* sort_value(by [정렬 대상 컬럼])

🌴 sort_index: index 또는 column 기준 정렬

In [14]:
np.random.seed(0)
df = pd.DataFrame(np.random.random((5,4)),
                  columns=list('BADC'),
                  index=[1,0,2,4,3])
df

Unnamed: 0,B,A,D,C
1,0.548814,0.715189,0.602763,0.544883
0,0.423655,0.645894,0.437587,0.891773
2,0.963663,0.383442,0.791725,0.528895
4,0.568045,0.925597,0.071036,0.087129
3,0.020218,0.83262,0.778157,0.870012


In [None]:
# axis=0이므로 행 기준 정렬. 행 전체가 움직임
df.sort_index()

Unnamed: 0,B,A,D,C
0,0.423655,0.645894,0.437587,0.891773
1,0.548814,0.715189,0.602763,0.544883
2,0.963663,0.383442,0.791725,0.528895
3,0.020218,0.83262,0.778157,0.870012
4,0.568045,0.925597,0.071036,0.087129


In [None]:
df.sort_index(axis=0)

Unnamed: 0,B,A,D,C
0,0.423655,0.645894,0.437587,0.891773
1,0.548814,0.715189,0.602763,0.544883
2,0.963663,0.383442,0.791725,0.528895
3,0.020218,0.83262,0.778157,0.870012
4,0.568045,0.925597,0.071036,0.087129


In [None]:
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
1,0.715189,0.548814,0.544883,0.602763
0,0.645894,0.423655,0.891773,0.437587
2,0.383442,0.963663,0.528895,0.791725
4,0.925597,0.568045,0.087129,0.071036
3,0.83262,0.020218,0.870012,0.778157


In [None]:
df.sort_index(axis=0, ascending=True)

Unnamed: 0,B,A,D,C
0,0.423655,0.645894,0.437587,0.891773
1,0.548814,0.715189,0.602763,0.544883
2,0.963663,0.383442,0.791725,0.528895
3,0.020218,0.83262,0.778157,0.870012
4,0.568045,0.925597,0.071036,0.087129


In [None]:
df.sort_index(axis=0, ascending=False)

Unnamed: 0,B,A,D,C
4,0.568045,0.925597,0.071036,0.087129
3,0.020218,0.83262,0.778157,0.870012
2,0.963663,0.383442,0.791725,0.528895
1,0.548814,0.715189,0.602763,0.544883
0,0.423655,0.645894,0.437587,0.891773


In [None]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
1,0.602763,0.544883,0.548814,0.715189
0,0.437587,0.891773,0.423655,0.645894
2,0.791725,0.528895,0.963663,0.383442
4,0.071036,0.087129,0.568045,0.925597
3,0.778157,0.870012,0.020218,0.83262


🌴 sort_values: 값 기준 정렬

In [None]:
df

Unnamed: 0,B,A,D,C
1,0.548814,0.715189,0.602763,0.544883
0,0.423655,0.645894,0.437587,0.891773
2,0.963663,0.383442,0.791725,0.528895
4,0.568045,0.925597,0.071036,0.087129
3,0.020218,0.83262,0.778157,0.870012


In [None]:
df.sort_values(by='A')

Unnamed: 0,B,A,D,C
2,0.963663,0.383442,0.791725,0.528895
0,0.423655,0.645894,0.437587,0.891773
1,0.548814,0.715189,0.602763,0.544883
3,0.020218,0.83262,0.778157,0.870012
4,0.568045,0.925597,0.071036,0.087129


In [None]:
df.sort_values(by='A', ascending=False)

Unnamed: 0,B,A,D,C
4,0.568045,0.925597,0.071036,0.087129
3,0.020218,0.83262,0.778157,0.870012
1,0.548814,0.715189,0.602763,0.544883
0,0.423655,0.645894,0.437587,0.891773
2,0.963663,0.383442,0.791725,0.528895


In [None]:
df.sort_values(by=['A','B'])

Unnamed: 0,B,A,D,C
2,0.963663,0.383442,0.791725,0.528895
0,0.423655,0.645894,0.437587,0.891773
1,0.548814,0.715189,0.602763,0.544883
3,0.020218,0.83262,0.778157,0.870012
4,0.568045,0.925597,0.071036,0.087129


In [None]:
# A는 내림차순, B는 오름차순으로
df.sort_values(by=['A','B'], ascending=[False, True])

Unnamed: 0,B,A,D,C
4,0.568045,0.925597,0.071036,0.087129
3,0.020218,0.83262,0.778157,0.870012
1,0.548814,0.715189,0.602763,0.544883
0,0.423655,0.645894,0.437587,0.891773
2,0.963663,0.383442,0.791725,0.528895


# 기술 통계
* describe()\
: series나 dataFrame의 각 컬럼에 대한 요약 통계 표출

In [15]:
df = pd.DataFrame(np.arange(12).reshape(4,3), columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
df.describe()

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,4.5,5.5,6.5
std,3.872983,3.872983,3.872983
min,0.0,1.0,2.0
25%,2.25,3.25,4.25
50%,4.5,5.5,6.5
75%,6.75,7.75,8.75
max,9.0,10.0,11.0


🌴 문자열을 가진 경우의 통계
* 문자열은 계산이 안되기 때문에 숫자 데이터(수치 데이터)에 대한 통계가 나옴
* 따로 include 옵션을 줘서 문자열도 통계에 포함시킬 수 있음

In [16]:
df1 = pd.DataFrame({'name': ['Kim', 'Lee', 'Park', 'Choi'],
                   'age': [24, 27, 34, 19],
                   'sex': ['F', 'M', 'F', 'M']})
df1

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F
3,Choi,19,M


In [None]:
df1.describe()

Unnamed: 0,age
count,4.0
mean,26.0
std,6.271629
min,19.0
25%,22.75
50%,25.5
75%,28.75
max,34.0


In [18]:
df1

Unnamed: 0,name,age,sex
0,Kim,24,F
1,Lee,27,M
2,Park,34,F
3,Choi,19,M


⭐

In [20]:
# count, uniques, 최빈값, 최빈값의 빈도
df1.describe(include='object')

Unnamed: 0,name,sex
count,4,4
unique,4,2
top,Kim,F
freq,1,2


🌴 통계 함수 공통 규칙
* Numpy의 통계 함수와 비슷한데, 차이점이 있음(axis, skipna)

\
* DataFrame의 axis는 전체 집계 기능이 없음
* skipna: 집계에 누락 데이터 제외 여부(default는 True)\
  --> NA값은 통계에 포함하지 않음\
  --> False로 둬서 NA를 포함하면, 통계 결과도 NA라고 나옴

In [None]:
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
# Dataframe은 default로 axis=0인 sum이 구해짐
df.sum(), 

(A    18
 B    22
 C    26
 dtype: int64,)

In [None]:
# Numpy의 sum은 전체를 더해서 하나의 값이 나옴
df.values.sum(), df.values.sum(axis=0)

(66, array([18, 22, 26]))

In [None]:
df.mean(), df.values.mean()

(A    4.5
 B    5.5
 C    6.5
 dtype: float64, 5.5)

In [None]:
df.sum().sum()

66

In [None]:
df.sum(axis=1)

0     3
1    12
2    21
3    30
dtype: int64

🌴 skipna

In [None]:
df.loc[0, 'B'] = None # df.loc[0, 'B'] = np.nan
df

Unnamed: 0,A,B,C
0,0,,2
1,3,4.0,5
2,6,7.0,8
3,9,10.0,11


In [None]:
df.sum()
# df.sum(skipna=True)

A    18.0
B    21.0
C    26.0
dtype: float64

In [None]:
df.sum(skipna=False)

A    18.0
B     NaN
C    26.0
dtype: float64

In [None]:
1 + 2 + np.nan

nan

🌴agg 함수(aggregation)
* 여러 지표를 한번에 출력

In [None]:
df.agg(['sum','mean','std'])

Unnamed: 0,A,B,C
sum,18.0,21.0,26.0
mean,4.5,7.0,6.5
std,3.872983,3.0,3.872983


In [None]:
# 최대값과의 차이를 구하는 함수를 만들어서 agg에 사용
def f(v):
  return v.max() -v
  
df.agg([f])

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,f,f,f
0,9,,9
1,6,6.0,6
2,3,3.0,3
3,0,0.0,0


🌴 unique 함수

In [21]:
import seaborn as sns
#tips = pd.read_csv('tips.csv')
tips = sns.load_dataset('tips')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
tips['day'].unique()

['Sun', 'Sat', 'Thur', 'Fri']
Categories (4, object): ['Thur', 'Fri', 'Sat', 'Sun']

In [None]:
tips['time'].unique()

['Dinner', 'Lunch']
Categories (2, object): ['Lunch', 'Dinner']

🌴 고유 값의 빈도

In [None]:
tips['sex'].value_counts()

Male      157
Female     87
Name: sex, dtype: int64

In [None]:
# 비율
tips['sex'].value_counts(normalize = True)

Male      0.643443
Female    0.356557
Name: sex, dtype: float64

In [None]:
# 숫자가 높은 순서대로 나옴
tips['day'].value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

In [None]:
tips['day'].value_counts(sort=True, ascending=True)

Fri     19
Thur    62
Sun     76
Sat     87
Name: day, dtype: int64

In [None]:
# 데이터가 수집된 순서대로 나옴 .. 잘 사용 X
tips['day'].value_counts(sort=False)

Thur    62
Fri     19
Sat     87
Sun     76
Name: day, dtype: int64

# 4. 데이터 추가,수정,삭제

## 행 추가

In [None]:
df = pd.DataFrame([[1, 2],
                   [3, 4]],
                   columns=list('BA'),
                   index=list('ab'))
df

Unnamed: 0,B,A
a,1,2
b,3,4


In [None]:
df.loc['c'] = [5, 6]
df

Unnamed: 0,B,A
a,1,2
b,3,4
c,5,6


In [None]:
df2 = pd.DataFrame([[5, 6],
                    [7, 8]],
                    columns=list('BA'),
                    index=list('ab'))
df2

Unnamed: 0,B,A
a,5,6
b,7,8


In [None]:
df.append(df2)

Unnamed: 0,B,A
a,1,2
b,3,4
c,5,6
a,5,6
b,7,8


🌴 verify_integrity
* True이면 중복 인덱스의 경우 ValueError 발생
* 애초에 error 발생 안되게 하려면 ignore_index 속성을 True로 하면 기존 index 무시하고 0부터 다시 매겨줌

In [None]:
# df.append(df2, verify_integrity=True)
df.append(df2, verify_integrity=True, ignore_index=True)

Unnamed: 0,B,A
0,1,2
1,3,4
2,5,6
3,5,6
4,7,8


## 열 추가

In [None]:
df = pd.DataFrame([[1, 2],
                   [11, 22],
                   [111, 222]],
                   columns=list('AB'),
                   index=list('abc'))
df

Unnamed: 0,A,B
a,1,2
b,11,22
c,111,222


In [None]:
# 'c'라는 column 추가
df['C'] = [3, 33, 333]
df

Unnamed: 0,A,B,C
a,1,2,3
b,11,22,33
c,111,222,333


In [None]:
# 'D'열을 새로 만들고 4로 채움
df['D'] = 4
df

Unnamed: 0,A,B,C,D
a,1,2,3,4
b,11,22,33,4
c,111,222,333,4


In [None]:
# error
# 하나를 넣거나 전체를 넣어야 함
df['E'] = [5, 55]

In [None]:
# 이렇게 기존 컬럼을 활용한 열을 추가하는 경우가 많음
df['E'] = df['A'] + df['B']
df

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,3
b,11,22,33,4,33
c,111,222,333,4,333


In [None]:
# 원래 데이터는 index가 a, b, c인데 b, c, d에 새로운 데이터 넣었을 때
# a는 비게되고 d에 넣은 값은 없어짐

df['F'] = pd.Series([5, 55, 555], index=['b', 'c', 'd'])
df

Unnamed: 0,A,B,C,D,E,F
a,1,2,3,4,3,
b,11,22,33,4,33,5.0
c,111,222,333,4,333,55.0


In [None]:
df = pd.DataFrame([[1, 2],
                   [11, 22],
                   [111, 222]],
                   columns=list('AB'),
                   index=list('abc'))
df

Unnamed: 0,A,B
a,1,2
b,11,22
c,111,222


In [None]:
df.insert(1, 'AA', [1.5, 15, 155])
df

In [None]:
# 이미 있는 컬럼에 추가하면 error
# df.insert(2, 'B', [3, 33, 333])

# allow_dulicates 속성으로 이미 있는 컬럼이라도 추가 되도록
df.insert(2, 'B',[3, 33, 333], allow_duplicates=True)
df

Unnamed: 0,A,B,B.1
a,1,2,3
b,11,22,33
c,111,222,333


## 행/열 삭제
* drop 함수\
🛑 원본은 안바뀜
--> 원본 바꾸고싶으면 (1) 재할당, (2) inplace 속성을 True로 주면 됨

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4,3),
                  columns=list('ABC'),
                  index=list('abcd'))
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
# b행 삭제
# df.drop('b')
df.drop('b', axis=0)

df = df.drop('b', axis=0)
df

Unnamed: 0,A,AA,B
a,1,1.5,2
c,111,155.0,222


In [None]:
# 열 삭제
df.drop('B', axis=1)

# df = df.drop('B', axis=1)
df.drop('B', axis=1, inplace=True)
df

Unnamed: 0,A,AA
a,1,1.5
b,11,15.0
c,111,155.0


## 누락 데이터(결측치)
* Pandas의 통계 함수는 NaN을 배제하고 처리함\
EX) [1, 2, NaN, 3]의 평균은 (1+2+3)/3
* 결측치가 있다면 없애거나 다른 값으로 채우는게 좋음

In [None]:
np.nan

nan

In [None]:
df = pd.DataFrame([[1,2,3],
                   [4, None, None],
                   [None, None, None],
                   [None, 5,6]])
df

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,
2,,,
3,,5.0,6.0


In [None]:
df.iloc[1,1] == np.nan

False

In [None]:
np.nan + 1

nan

🌴 nan을 찾는 방법
* (1) 자신 == 자신의 결과가 False인 것
* (2) isna 함수 사용

\
* df.notna() 사용하면 nan 아닌 것 찾을 수 있음

In [None]:
np.nan == np.nan

False

In [None]:
a = 10
a == a

True

In [None]:
# 자신==자신의 결과가 False이므로 nan임을 알 수 있음
df.iloc[1,1] == df.iloc[1,1]

False

In [None]:
# isna()
df.isna()

Unnamed: 0,0,1,2
0,False,False,False
1,False,True,True
2,True,True,True
3,True,False,False


In [None]:
df.isnull()

Unnamed: 0,0,1,2
0,False,False,False
1,False,True,True
2,True,True,True
3,True,False,False


In [None]:
# nan 개수 확인하는 법
df.isnull().sum()

0    2
1    2
2    2
dtype: int64

🌴 누락데이터가 있는 행/열 삭제
* dropna()
* 누락데이터 자체를 제거할 순 없음
* 값이 포함된 행 또는 열을 한번에 삭제
  * how 속성이 'any': 같은 축에 NaN 값이 하나라도 있으면 삭제(default)
  * how 속성이 'all': 같은 축에 모든 값이 NaN이면 삭제
  * thresh: 정상 값 개수 설정 가능. 정상값 개수가 thresh보다 모자르면 삭제

In [None]:
# 결측치가 있는 행을 삭제
# df.dropna(axis=0)
df.dropna()

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


In [None]:
# 결측치가 있는 열을 삭제
df.dropna(axis=1)

0
1
2
3


In [None]:
df.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,
3,,5.0,6.0


In [None]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
3,,5.0,6.0


🌴 누락된 값 채워넣기(보간)
* fillna()
  * method 속성은 보간 방식을 결정함
    * bfill: 다음 값으로 채우기(backward)__n행을 n+1행으로 채움
    * ffill: 이전 값으로 채우기(forward)__n+1행을 n행으로 채움

* interpolate()
  * 선형 모델을 이용해서(주변값 이용) 값을 채워줌
  * 1 ? 3 4 ? 5 6 7 에서 ?의 값을 예측할 수 있는 것 처럼

In [None]:
df.fillna(value=100)

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,100.0,100.0
2,100.0,100.0,100.0
3,100.0,5.0,6.0


In [None]:
# 컬럼마다 다른 값으로 채우고 싶을 때
df.fillna({0:0, 1:1, 2:2})

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,1.0,2.0
2,0.0,1.0,2.0
3,0.0,5.0,6.0


In [None]:
df.mean()

0    2.5
1    3.5
2    4.5
dtype: float64

In [None]:
# 평균값으로 채우고 싶을 때
# 알아서 컬럼마다 값이 들어감
df.fillna(df.mean())

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,3.5,4.5
2,2.5,3.5,4.5
3,2.5,5.0,6.0


In [None]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,2.0,3.0
2,4.0,2.0,3.0
3,4.0,5.0,6.0


In [None]:
# 다음 값이 NaN이면 NaN 제거 안됨. 
df.fillna(method='bfill')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,,5.0,6.0
3,,5.0,6.0


In [None]:
# 해결
df.fillna(method='bfill').fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,4.0,5.0,6.0
3,4.0,5.0,6.0


In [None]:
df.interpolate(method='linear')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,3.0,4.0
2,4.0,4.0,5.0
3,4.0,5.0,6.0


In [None]:
df = pd.DataFrame([1, None, 3, 4,None, 6, 7],
                  index=[1,5,6,9,10,11,20])
df

Unnamed: 0,0
1,1.0
5,
6,3.0
9,4.0
10,
11,6.0
20,7.0


# 4. 데이터 변환
* 타입 변환
* 단위 변환

## astype()

In [None]:
df = pd.DataFrame({'A':[1,2,3,4],
                   'B': [1.2, 2.3, 3.4, 4.5],
                   'C': ['10', '20', '30', '40'],
                   'D': ['3.14', '4.12', '0.1', '1.23']})
df

Unnamed: 0,A,B,C,D
0,1,1.2,10,3.14
1,2,2.3,20,4.12
2,3,3.4,30,0.1
3,4,4.5,40,1.23


In [None]:
# dataframe 결과만 봤을 땐 숫자인지 문자열인지 구별 안됨
# 항상 dtypes랑 shape 찍어보기
df.dtypes

A      int64
B    float64
C     object
D     object
dtype: object

In [None]:
df.astype('float64').dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [None]:
df.astype(np.float64).dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [None]:
df['C'] = df['C'].astype(np.int32)
df.dtypes

A      int64
B    float64
C      int32
D     object
dtype: object

In [None]:
df.astype({'A':'float64', 'D':'float64'}).dtypes

A    float64
B    float64
C      int32
D    float64
dtype: object

## 문자열

In [None]:
df = pd.DataFrame({'A': ['$1,234', '$2,345', '$123'],
                   'B': ['111-222', '222-333', '333-444'],
                   'C': ['12m', '234g', '1234v']})
df

Unnamed: 0,A,B,C
0,"$1,234",111-222,12m
1,"$2,345",222-333,234g
2,$123,333-444,1234v


In [None]:
# df['A'].sum()
# df['A'].astype('int64')

# int로 바꾸려니 '$', ','가 숫자가 아니라서 error

In [None]:
s = '$1,234'
int(s.replace('$', '').replace(',',''))

1234

In [None]:
# dataframe 모든 행에 어떻게 적용할건지?

# series 하나를 한 문자열인 것 처럼 해줌
df['A'].str.replace('$', '')

  


0    1,234
1    2,345
2      123
Name: A, dtype: object

In [None]:
df['A'].str.replace('$', '').str.replace(',','')

  """Entry point for launching an IPython kernel.


0    1234
1    2345
2     123
Name: A, dtype: object

In [None]:
df['A'].str.replace('$', '').str.replace(',','').astype('int64')

  """Entry point for launching an IPython kernel.


0    1234
1    2345
2     123
Name: A, dtype: int64

'B' 컬럼

In [None]:
'111-222'.split('-')

['111', '222']

In [None]:
df['B'].str.split('-')

0    [111, 222]
1    [222, 333]
2    [333, 444]
Name: B, dtype: object

In [None]:
# 111, 222, 333만 뽑고 싶음
# dataframe이 아니라 각각 list이기 때문에 아래 코드로 안됨
df['B'].str.split('-')[0]

['111', '222']

In [None]:
df['B'].str.split('-').str[0]

0    111
1    222
2    333
Name: B, dtype: object

In [None]:
df['B'].str.split('-').str[1]

0    222
1    333
2    444
Name: B, dtype: object

'C' 컬럼

In [None]:
# 정규 표현식
# regular expression을 뜻하는 'r'을 우선 적음
# ^:시작, [0-9]: 숫자, *: 글자 하나
df['C'].str.extract(r'(^[0-9]*)([a-z])')

Unnamed: 0,0,1
0,12,m
1,234,g
2,1234,v


## to_numeric()
* 문자열을 숫자형으로 바꿔줌
* 🛑 dataframe에 적용하는게 아니라 pandas에 적용함

\

* errors 속성
* downcast 속성

In [None]:
df = pd.DataFrame({'A': ['10', '20', '30', '40'],
                   'B': ['3.14', '4.12', '0.1', '1.23'],
                   'C': ['12', '23', 'four', '55'],
                   'D': ['1,234', '12,345', '234', '21,345']
                  })

In [None]:
# astype을 사용하면 어떤 형식으로 바꿀건지 내가 정해야함
# df['A'].astype('int64')

# to_numeric은 알아서 해줌
pd.to_numeric(df['A'])

0    10
1    20
2    30
3    40
Name: A, dtype: int64

In [None]:
pd.to_numeric(df['B'])

0    3.14
1    4.12
2    0.10
3    1.23
Name: B, dtype: float64

🌴 errors 속성

In [None]:
# 'four' 때문에 error
df['C'].astype('int64')

# 'four' 때문에 error
pd.to_numberic(df['C'])

In [None]:
# errors='coerce' 사용하면 강제로 해석, NaN으로 출력
pd.to_numeric(df['C'], errors='coerce')

0    12.0
1    23.0
2     NaN
3    55.0
Name: C, dtype: float64

In [None]:
# error를 무시함
pd.to_numeric(df['C'], errors='ignore')

0      12
1      23
2    four
3      55
Name: C, dtype: object

🌴 downcast 속성
* 값의 손실이 없는 경우 가장 작은 데이터 타입으로 변환

In [None]:
pd.to_numeric(df['A'], downcast='unsigned')

0    10
1    20
2    30
3    40
Name: A, dtype: uint8

In [None]:
# 보장할 수 있는 범위 내에서만 해줌
# integer로 바꾸면 소수점 사라지기 때문에 알아서 integer로 안바꿈
pd.to_numeric(df['B'], downcast='integer')

0    3.14
1    4.12
2    0.10
3    1.23
Name: B, dtype: float64

## where()
* Numpy의 where은 조건을 만족하는 데이터의 index를 가져왔었음
* Pandas의 where은 조건을 만족하는 데이터를 가져옴

In [None]:
df = pd.DataFrame(np.random.random((5,4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,0.184931,0.147416,0.771757,0.462417
1,0.606507,0.787637,0.785892,0.82872
2,0.326767,0.007585,0.31625,0.804307
3,0.451141,0.065499,0.349055,0.060245
4,0.972579,0.283677,0.976724,0.113578


In [None]:
df.where(df > 0.5)

Unnamed: 0,A,B,C,D
0,,,0.771757,
1,0.606507,0.787637,0.785892,0.82872
2,,,,0.804307
3,,,,
4,0.972579,,0.976724,


In [None]:
# 조건을 만족하지 않는 데이터는 other 속성으로 값을 지정할 수 있음
df.where(df > 0.5, other=0)

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.771757,0.0
1,0.606507,0.787637,0.785892,0.82872
2,0.0,0.0,0.0,0.804307
3,0.0,0.0,0.0,0.0
4,0.972579,0.0,0.976724,0.0


🌴 사용자 정의 함수
* transform
* apply

## transform(), apply()

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4,3), columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
df.transform(lambda v: v+10)

Unnamed: 0,A,B,C
0,10,11,12
1,13,14,15
2,16,17,18
3,19,20,21


In [None]:
# error
# 입출력 개수가 안맞아서 안됨 -> apply 사용해야 함
df.transform(lambda v: v.mean() - 5)

ValueError: ignored

In [None]:
df.transform(lambda v: v.mean() - v)

Unnamed: 0,A,B,C
0,4.5,4.5,4.5
1,1.5,1.5,1.5
2,-1.5,-1.5,-1.5
3,-4.5,-4.5,-4.5


In [None]:
# apply 함수는 입출력의 개수가 달라도 됨
df.apply(lambda v: v.mean() - 5)

A   -0.5
B    0.5
C    1.5
dtype: float64

# 인덱스 관리

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4,3),
                  columns=list('ABC'),
                  index=list('abcd'))
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [None]:
df.index[0], df.columns[2], df.index[1:3]

('a', 'C', Index(['b', 'c'], dtype='object'))

## index name 속성


In [None]:
df.index.name = "row"
df.columns.name = "col"
df

col,A,B,C
row,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


## 인덱스 이름 변경

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4,3),
                  columns=list('ABC'),
                  index=list('abcd'))
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
# 'd'를 'x'로 바꾸고 싶음

# error
# df.index[3] = 'x'

df.index = ['a', 'b', 'c', 'x']
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
x,9,10,11


In [None]:
# 행 index 수정

# 'a'를 'first'로 바꿈
# 원본은 안바뀜

# df.rename({'a':'first'})
df.rename({'a':'first'}, axis=0)

Unnamed: 0,A,B,C
first,0,1,2
b,3,4,5
c,6,7,8
x,9,10,11


In [None]:
# 열 index 수정

df.rename({'A':'AA'}, axis=1)

Unnamed: 0,AA,B,C
a,0,1,2
b,3,4,5
c,6,7,8
x,9,10,11


In [None]:
# 행 index 수정
df.rename(index={'b':'second'})

Unnamed: 0,A,B,C
a,0,1,2
second,3,4,5
c,6,7,8
x,9,10,11


In [None]:
# 열 index 수정
df.rename(columns={'B':'BB'})

Unnamed: 0,A,BB,C
a,0,1,2
b,3,4,5
c,6,7,8
x,9,10,11


## 인덱스 재설정
* 기존 index를 없애고 기존 column을 index로 사용

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4,3),
                  columns=list('ABC'),
                  index=list('abcd'))
df['D'] = [10,20,10,20]
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,10
d,9,10,11,20


In [None]:
# column 'A'가 새로운 index가 됨
df.set_index('A')

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,10
3,4,5,20
6,7,8,10
9,10,11,20


In [None]:
# 인덱스 바꾸기 전에 새로 바꿀 index에 중복값이 있는지 확인해야 함
# is_unique는 함수가 아니라 속성임

df['D'].is_unique

False

In [None]:
df['A'].is_unique

True

## 인덱스 초기화
* reset_index()
* 인덱스를 순번 인덱스로 초기화

In [None]:
# 순번 인덱스가 추가됨
# 기존 index는 일반 column으로 바뀜

df.reset_index()

Unnamed: 0,index,A,B,C,D
0,a,0,1,2,10
1,b,3,4,5,20
2,c,6,7,8,10
3,d,9,10,11,20


In [None]:
# 기존 index를 알아서 지워줌

df.reset_index(drop = True)

Unnamed: 0,A,B,C,D
0,0,1,2,10
1,3,4,5,20
2,6,7,8,10
3,9,10,11,20


## 인덱스 재정렬

In [None]:
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,10
d,9,10,11,20


In [None]:
# 인덱스 순서를 abcd에서 badc로 바꾸고 싶음
df.reindex(labels=['b','a','d','c'], axis=0)

Unnamed: 0,A,B,C,D
b,3,4,5,20
a,0,1,2,10
d,9,10,11,20
c,6,7,8,10


In [None]:
df.reindex(labels=['B','A','D','C'], axis=1)

Unnamed: 0,B,A,D,C
a,1,0,10,2
b,4,3,20,5
c,7,6,10,8
d,10,9,20,11


In [None]:
# axis=1 대신 사용할 수 있는 코드

df.reindex(columns=['B','A','D','C'])

Unnamed: 0,B,A,D,C
a,1,0,10,2
b,4,3,20,5
c,7,6,10,8
d,10,9,20,11


In [None]:
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,10
d,9,10,11,20


In [None]:
# column의 index를 재정렬할 땐 reindex보다 fancy indexing 사용하는게 더 간단함
df[['B','A','D','C']]

Unnamed: 0,B,A
a,1,0
b,4,3
c,7,6
d,10,9


## Multi Index
* 계층적 인덱스
  * 한꺼번에 여러 행/열 선택하기 편함
  * pd.MultiIndex.from_tuples(), pd.MultiIndex.from_product()로 선언 가능
  * get_level_values()

In [None]:
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,10
d,9,10,11,20


In [None]:
df.index = [['a','a','b','b'], [0,1,0,1]]
df

Unnamed: 0,Unnamed: 1,A,B,C,D
a,0,0,1,2,10
a,1,3,4,5,20
b,0,6,7,8,10
b,1,9,10,11,20


In [None]:
# 한번에 여러 행 가져오기 편함
df.loc['a']

Unnamed: 0,A,B,C,D
0,0,1,2,10
1,3,4,5,20


In [None]:
# a의 0행 참조하기
df.loc[('a', 0)]

A     0
B     1
C     2
D    10
Name: (a, 0), dtype: int64

In [None]:
# a행 0행의 B열 참조하기
df.loc[('a', 0), 'B']

1

---
---
<h2>09/16<h2>

# 병합과 집계

## concat

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

In [None]:
df1 

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [None]:
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [None]:
df3 = pd.DataFrame({'E': ['E1', 'E2', 'E3', 'E4'],
                    'F': ['F1', 'F2', 'F3', 'F4']},
                   index=[2,3,4,5])
df3

Unnamed: 0,E,F
2,E1,F1
3,E2,F2
4,E3,F3
5,E4,F4


## Merge

In [None]:
df1 = pd.DataFrame({
    'key' : ['K1', 'K2', 'K3'],
    'l_value' : [1,2,3]
})
df2 = pd.DataFrame({
    'key': ['K0', 'K1', 'K3' ],
    'r_value' :[4,5,6]
})

In [None]:
df1

Unnamed: 0,key,l_value
0,K1,1
1,K2,2
2,K3,3


In [None]:
df2

Unnamed: 0,key,r_value
0,K0,4
1,K1,5
2,K3,6


## Pivot

In [None]:
url_flights = 'https://www.dropbox.com/s/3d09f5fwlze4156/flights.csv?dl=1'
file_flights = 'flights.csv'
import os
if os.name == 'posix:
  !wget -O $file_flights $url_flights
else:
  !pip install wget
  import wget
  wget.download(url_flights, out=file_flights)

In [None]:
#flights = pd.read_csv('flights.csv')
flights = sns.load_dataset()
flights

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121
...,...,...,...
139,1960,Aug,606
140,1960,Sep,508
141,1960,Oct,461
142,1960,Nov,390


## groupby

# 시계열, 범주 데이터


## 날짜 데이터(dtype: datetime64)

In [None]:
s = pd.Series(['20210101', '20210125', '20211115'])
s

0    20210101
1    20210125
2    20211115
dtype: object

## pd.to_datetime()
* format : https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes
* Time/date components : https://pandas.pydata.org/docs/user_guide/timeseries.html#time-date-components
* offset-aliases : https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases
* time zone : https://en.wikipedia.org/wiki/List_of_tz_database_time_zones

In [None]:
df = pd.DataFrame({'year': [2017, 1987, 1945],
                   'month': [3,6,8],
                   'day': [10, 10, 15]})
pd.to_datetime(df)

0   2017-03-10
1   1987-06-10
2   1945-08-15
dtype: datetime64[ns]

In [None]:
df = pd.DataFrame({'date': pd.to_datetime(['2017-03-10', '1987-06-10'])})
df

Unnamed: 0,date
0,2017-03-10
1,1987-06-10


## date_range()

## 날짜 계산 

## 날짜 인덱스

In [None]:
df = pd.DataFrame(np.random.randn(4,3),
                 index=pd.date_range('20210125', periods=4),
                 columns=list('ABC'))
df

Unnamed: 0,A,B,C
2021-01-25,0.803138,1.692356,-0.435747
2021-01-26,-0.517309,1.023791,-0.498187
2021-01-27,0.955013,0.331539,-0.567991
2021-01-28,-0.467417,0.206285,-0.803872


## 범주 데이터 (dtype: category)

In [None]:
s = pd.Series(['a', 'b', 'c', 'a'])
s

0    a
1    b
2    c
3    a
dtype: object

## pd.Categorical()

In [None]:
cat = pd.Categorical(['a', 'b', 'c', 'a'], categories=['a','b','c'])
cat

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

## pd.cut()