# Pandas

In [4]:
import pandas as pd
import numpy as np

## 1. 생성
### 1.1 Series 생성 : pandas.Series(data=None, index=None, dtype=None)

In [5]:
# Series는 1차원이므로 ([  ]) ← 이런 식으로 List 하나만 넣으면 됨
# Series 생성 시 index 매개 변수에 List를 사용하서 이름 지정 가능
# Index 별도 지정 안하면 자동으로 RangeIndex(start=0, stop=개수, step=1)
# 다양한 Type의 data를 섞은 경우, 범위가 더 큰 type으로 저장되거나 str이 포함되면 object type 생성

s = pd.Series([3,-5,7,4], index=[list('abcd')])
s = pd.Series([3,-5,7,4], index=['a','b','c','d'])
display(s)

a    3
b   -5
c    7
d    4
dtype: int64

### 1.2 DataFrame 생성
- pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

In [3]:
# DataFrame은 2차원이므로 ([  ], [  ]) ← 기본적으로 이렇게 List 두개 넣으면 됨
# index, columns를 사용해서 이름 직접 지정 가능

np.random.seed(10)
df = pd.DataFrame(np.random.randint(10,100,16).reshape(4,4), index=list('abcd'),columns = ['x1', 'x2', 'x3', 'y'])
df

Unnamed: 0,x1,x2,x3,y
a,19,25,74,38
b,99,39,18,83
c,10,50,46,26
d,21,64,98,72


In [5]:
# dict를 사용해서 DataFrame 만들기
# dict의 key가 columns의 label로 사용

df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


## 2. Input/Output

### 2.1 CSV 파일

Read: 경로 작성 시 . 하나는 현재 위치를 가리키고, .. 두 개는 상위 폴더를 가리킨다.

Write: DataFrame.to_csv(path_or_buf=None, sep=',' , na_rep='', ncolumns=None, index=True)

In [301]:
df= pd.read_csv('../data/01. CCTV_in_Seoul.csv', sep=',') #읽기, data 구분이 기본적으로 ','이지만 다른 경우 sep 변경

df.to_csv('data_1.csv') #쓰기(Index 포함)
df.to_csv('data_1.csv', index=False) #쓰기(Index 제외)

### 2.2 Excel 파일

Write: DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', columns=None, index=True)

In [None]:
df= pd.read_excel('file.xlsx', sheet_name=None) #읽기(sheet_name이 None 이면 모든 Sheet)

df.to_excel('data_1.xlsx') #쓰기(Index 포함)
df.to_excel('data_1.xlsx', index=False) #쓰기(Index 제외)
df.to_excel('data_1.xlsx', sheet_name='SHEET1') #쓰기(SHEET 이름 지정)

## 3. DataFrame 구조 및 속성

### 3.1 자료 구조 관련 함수 공동 Rule
- Python에서 속성에 관한 것은 괄호 없이 사용

### 3.2 자료 구조 함수
  - df.ndim : 데이터의 차원
  - df.shape : (Row 개수, Col 개수)
  - df.values : DataFrame의 값을 Array 형식으로 반환
  - df.index : DataFrame의 모든 행 이름 반환
  - df.columns : DataFrame의 모든 열 이름 반환
  - df.dtypes : 모든 컬럼에 대한 data type 반환 (dtype은 틀린 문법)

※ 예외적으로 괄호를 사용하는 함수
- len(df) : DataFrame의 열 개수 반환

In [305]:
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [225]:
df.ndim

2

In [224]:
df.shape

(3, 3)

In [226]:
df.values

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]], dtype=int64)

In [227]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [228]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [229]:
df.dtypes

A    int64
B    int64
C    int64
dtype: object

In [230]:
len(df)

3

### 3.3 특정 Row 및 Column에 대한 속성 구하기 ([ ] 위치 유의)
- df[ ].values : 특정 Column(열)에 대한 values를 array 형태로 추출, 주로 1차원인 Series에서 사용
- df.index[  ]: 특정 Index에 대한 이름을 보고 싶으면 [ ] 안에 integer를 넣음
- df.columns[  ]: 특정 Column에 대한 이름을 보고 싶으면 [ ] 안에 integer를 넣음

In [202]:
print(df['A'].values) # 첫번째 Column에 대한 값 출력
print(df.index[1]) # 첫번째 index명 출력
print(df.columns[-1])  # 마지막 column명 출력

[1 2 3]
1
C


## 4. Index/Column 속성 변경

### 4.1 Index/Column명 변경
방법 1) Index, Columns 함수 사용
  - 수정하고자 하는 Index/Column 개수와 대입하는 Data 개수가 동일해야하며 모든 값을 한 번에 변경해야 함
  - 원본 객체를 직접 수정하므로 반환하지 않아도 원본이 변경됨

In [210]:
df2=df.copy()

df2.index = ['a', 'b', 'c']
df2.columns = ['D','E','F']

df2

Unnamed: 0,D,E,F
a,1,4,7
b,2,5,8
c,3,6,9


방법 2) Rename 함수 사용
- 행 인덱스 변경 : DataFrame 객체.rename(index={기존 인덱스:새 인덱스, ...}) - dict 형태
- 열 이름 변경 : DataFrame 객체.rename(columns={기존 이름:새 이름, ...}) - dict 형태
- 단, 원본 객체를 직접 수정하는 것이 아니라 새로운 DataFrame 객체를 반환하는 점 유의
- 원본 객체를 변경하려면 inplace=True 옵션을 사용한다.

In [211]:
#원본 객체 수정 안됨(inplace=False)
df2.rename(columns={'D':'A','E':'B','F':'C'})
display(df2) 

#원본 객체 수정(inplace=True)
df2.rename(columns={'D':'A','E':'B','F':'C'}, inplace=True)
display(df2) 

Unnamed: 0,D,E,F
a,1,4,7
b,2,5,8
c,3,6,9


Unnamed: 0,A,B,C
a,1,4,7
b,2,5,8
c,3,6,9


### 4.2 Index/Column Data Type 변경
방법 1) astype(dtype, copy=True, errors='raise')
- 원본 객체를 직접 수정하는 것이 아니라 새로운 DataFrame 객체를 반환므로 df = df.astype() 형태로 원본 수정
- dtype
  - 전체 Column 변경할 때는 str, 특정 Column만 변경할 때는 dict 형태로 입력
  - 'int' 처럼 ' ' 안에 넣어서 str 형태로 넣는게 정석
  - int 같은 경우 파이썬 내장 함수므로 '' 안에 넣을 필요 없음
  - ' ' 안 쓰고 싶으면 np. 활용(np.int32, np.float64 등)
- errors : 일부 값을 숫자로 변경할 수 없을 때 오류 처리 종류
  - errors = raise(Default) : 숫자로 변환 불가한 값이 발견되면 오류 출력
  - errors = ignore : 숫자로 변환 불가한 값이 발견되면 작업을 무시
  - errors = coerce : 숫자로 변환 불가한 값이 발견되면 NaN 출력
- copy : 복사본 생성 여부
  - copy = True(Default) : 복사본 반환
  - copy = False : Data 수정 시 원본 Data 수정

In [340]:
s1 = pd.Series([1, 2])
s2 = s1.astype('int64', copy=True)
s2[0] = 10 
s1 #s2에서 data 변경을 했으나 s1 data 변경 안됨

0    1
1    2
dtype: int64

In [343]:
s1 = pd.Series([1, 2])
s2 = s1.astype('int64', copy=False)
s2[0] = 10
s1 #s2에서 data 변경을 했으나 s1 data 변경 안됨

0    10
1     2
dtype: int64

In [344]:
df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [350]:
df = df.astype('float')
df = df.astype(np.float64) #위와 같은 것을 출력
df

Unnamed: 0,A,B,C
0,1.0,4.0,7.0
1,2.0,5.0,8.0
2,3.0,6.0,9.0


In [351]:
df = df.astype({'A':'int', 'C':'int'}) #특정 Column만 변경 시 dict 형태로 입력
df.dtypes

A      int32
B    float64
C      int32
dtype: object

방법 2) pd.to_numeric(arg, errors='raise')
- Series 내 Data Type이 숫자가 아닌 유형(str)을 적합한 숫자 유형(int or float으로 변환
  - errors : 일부 값을 숫자로 변경할 수 없을 때 오류 처리 종류
    - errors = 'raise'(Default) : 숫자로 변환 불가한 값이 발견되면 오류 출력
    - errors = 'ignore' : 숫자로 변환 불가한 값이 발견되면 작업을 무시
    - errors = 'coerce' : 숫자로 변환 불가한 값이 발견되면 NaN 출력

In [281]:
# Data에 str이 하나라도 있으면 dtype은 object 형태
s = pd.Series(['1', '2', '4.7', 'pandas', '10'])
s

0         1
1         2
2       4.7
3    pandas
4        10
dtype: object

In [284]:
#pd.to_numeric(s, errors='raise')  #ValueError: Unable to parse string "pandas" at position 3, 몇번째 Index에서 Data Type 변경 불가인지 알려줌
display(pd.to_numeric(s, errors='ignore'))
display(pd.to_numeric(s, errors='coerce'))

0         1
1         2
2       4.7
3    pandas
4        10
dtype: object

0     1.0
1     2.0
2     4.7
3     NaN
4    10.0
dtype: float64

## 5. 데이터 빈도 조회 및 데이터 정렬

### 5.1 데이터 빈도수/정렬 공동 Rule
- axis
  - axis = 0(Default) : Row끼리의 연산을 Column 방향으로 진행
  - axis = 1 : Column끼리 연산을 Row 방향으로 진행
- sort
  - sort = True(Default) : 결과 정렬
  - sort = False : 결과 정렬
- ascending
  - ascending = False(Default) : 내림차순
  - ascending = True : 오름차순
- normalize
  - normalize = False(Default) : 비율로 표현 X
  - normalize = True : 비율로 표현
- dropna
  - dropna = True(Default) : NaN 제외
  - dropna = False : Nan 포함

In [7]:
df3=pd.read_csv('../정리/tips.csv')
df3.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


### 5.2 데이터 빈도수 조회 함수
Series에서 사용하는 함수
- df[ ].uniuqe() : 해당 Column의 Uniuqe 한 값들을 Array 형태로 반환(반드시 Series 형태와 써야하며 괄호 안에 아무 것도 안 들어감)
- df[ ].value_counts(normalize=False, sort=True, ascending=False, dropna=True) : 해당 Column의 Unique한 값들의 개수

Series 형태로 쓰이지 않아도 되는 것
- df.nunique(axis=0, dropna=True) : 각 Column의 Unique 한 값의 개수를 계산

In [236]:
df3['day'].unique() 

array(['Sun', 'Sat', 'Thur', 'Fri'], dtype=object)

In [246]:
df3['day'].value_counts(normalize=True) #백분율 형태로 표현

Sat     0.356557
Sun     0.311475
Thur    0.254098
Fri     0.077869
Name: day, dtype: float64

In [9]:
df3.nunique()[df3.nunique()==2] #이런 식으로 특정 NaN값만 가지는 열 삭제 가능

sex       2
smoker    2
time      2
dtype: int64

### 5.3 데이터 정렬 함수
Series 형태로 쓰이지 않아도 되는 것
- df.sort_index(*, axis=0, ascending=True, inplace=False) : Index 기준으로 값 정렬, value_counts()를 통해 빈도를 구한 뒤 정렬할 때 쓰임
- df.sort_values(by, axis=0, ascending=True, inplace=False) : Values 기준으로 값 정렬, by에서 어떤 컬럼을 기준으로 정렬할지 정의 필요

In [244]:
df3['day'].value_counts().sort_index(ascending=False)  #value_counts() 이후에 주로 쓰임

Thur    62
Sun     76
Sat     87
Fri     19
Name: day, dtype: int64

In [216]:
df3.sort_values(by=['size','tip'], ascending=[True,False]) #먼저 size는 오름차순, 그 다음에 tip에서 내림차순 정렬

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
222,8.58,1.92,Male,Yes,Fri,Lunch,1
82,10.07,1.83,Female,No,Thur,Lunch,1
67,3.07,1.00,Female,Yes,Sat,Dinner,1
111,7.25,1.00,Female,No,Sat,Dinner,1
88,24.71,5.85,Male,No,Thur,Lunch,2
...,...,...,...,...,...,...,...
187,30.46,2.00,Male,Yes,Sun,Dinner,5
141,34.30,6.70,Male,No,Thur,Lunch,6
143,27.05,5.00,Female,No,Thur,Lunch,6
156,48.17,5.00,Male,No,Sun,Dinner,6


## 6. 데이터 값 확인 및 요약

### 6.1 요약 함수 공동 Rule
- DataFrame 속성에 관한 것이 아닌 DataFrame을 요약한 것이므로 괄호 사용

### 6.2 요약 함수
- df.head(n), df.tail(n) : DataFrame의 처음 또는 끝 행 출력(Default: n=5)
- df.info() : DataFrame에 대한 정보 확인(row 개수, column의 type, 메모리 사용량)
- df.count() : 각 Column 별 Data 개수 (NaN 값 제외)
- df.describe() : DataFrame에 대한 통계값 확인 - 숫자형 Column에 대해
- df.describe(include='O') : DataFrame에 대한 통계값 확인 - 범주형 Column에 대해

In [245]:
df3=pd.read_csv('../정리/tips.csv')
df3.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [138]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


In [147]:
print(df3.count()) #전체 Column에 대한 Data 개수
df3['tip'].count() #특정 Column에 대한 Data 개수

total_bill    244
tip           244
sex           244
smoker        244
day           244
time          244
size          244
dtype: int64


244

In [139]:
df3.describe() #숫자형 Column에 대해

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [150]:
df3.describe(include='O') #범주형 Column에 대해

Unnamed: 0,sex,smoker,day,time
count,244,244,244,244
unique,2,2,4,2
top,Male,No,Sat,Dinner
freq,157,151,87,176


### 6.3 결측치 확인 함수

- df.isna(), df.isnull() : DataFrame의 요소가 NaN과 같으면 True, 다르면 False 반환
- df.notna(), df.notnull() : DataFrame의 요소가 NaN과 같지 않으면 True, 같으면 False 반환

In [299]:
np.random.seed(0)
df4 = pd.DataFrame(np.random.randn(5, 5), columns=list('ABCDE'))
df4 = df[df > 0]
df4

Unnamed: 0,A,B,C,D,E
0,1.764052,0.400157,0.978738,2.240893,1.867558
1,,0.950088,,,0.410599
2,0.144044,1.454274,0.761038,0.121675,0.443863
3,0.333674,1.494079,,0.313068,
4,,0.653619,0.864436,,2.269755


In [356]:
display(df4.isna(), df4.notna())

Unnamed: 0,A,B,C,D,E
0,False,False,False,False,False
1,True,False,True,True,False
2,False,False,False,False,False
3,False,False,True,False,True
4,True,False,False,True,False


Unnamed: 0,A,B,C,D,E
0,True,True,True,True,True
1,False,True,False,False,True
2,True,True,True,True,True
3,True,True,False,True,False
4,False,True,True,False,True


In [364]:
# Column 별 결측치 개수
df4.isna().sum(axis=0)

A    2
B    0
C    2
D    2
E    1
dtype: int64

In [365]:
# Row 별 결측치 개수
df4.isna().sum(axis=1)

0    0
1    3
2    0
3    2
4    2
dtype: int64

In [366]:
# 전체 결측치 개수
df4.isna().sum().sum()

7

## 7. Data 통계

### 7.1 통계 함수 공동 Rule
- DataFrame 속성에 관한 것이 아닌 DataFrame을 요약한 것이므로 괄호 사용
- axis
  - axis = 0(Default) : Row끼리의 연산을 Column 방향으로 진행
  - axis = 1 : Column끼리 연산을 Row 방향으로 진행
- skipna
  - skipna = True(Default)  : NaN 값을 제외하고 계산
  - skipna = False : NaN 값이 있으면 NaN값으로 출력
- numeric_only
  - numeric_only = False(Default)  : NaN 값이 있으면 오류 (Pandas v1.5 이전에는 numeric_only=None이 Default)
  - numeric_only = True : float, int, boolean column에 대해서만 계산

### 7.2 통계 함수
- df.sum(axis=0, skipna=True, numeric_only=False, min_count=0, **kwargs)
- df.mean(axis=_NoDefault.no_default, skipna=True, numeric_only=False, **kwargs)
- df.min(), df.max() : 최솟값, 최댓값
- df.median() : Outlier가 존재할 경우, 평균보다 중앙값을 대표값으로 더 선호
- df.mode() : 최빈값
- df.var() : 분산
- df.std() : 표준편차
- df.quantile([0.25, 0.5, 0.75]) : 분위
- df.cumsum() : 누적합
- df.corr()[ ] : Linear Correlation, 특정 Column에 대한 상관관계 산출 시 df.corr()['A'] 형태로 입력

In [162]:
# 문자열 Column은 모든 데이터가 붙어서 출력
display(df3.sum(numeric_only=False))
display(df3.sum(numeric_only=True))

total_bill                                              4827.77
tip                                                      731.58
sex           FemaleMaleMaleMaleFemaleMaleMaleMaleMaleMaleMa...
smoker        NoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNo...
day           SunSunSunSunSunSunSunSunSunSunSunSunSunSunSunS...
time          DinnerDinnerDinnerDinnerDinnerDinnerDinnerDinn...
size                                                        627
dtype: object

total_bill    4827.77
tip            731.58
size           627.00
dtype: float64

In [432]:
print(df3.mean(numeric_only=True), '\n')
print(df3.median(numeric_only=True), '\n')
print(df3.mode(numeric_only=True), '\n')
print(df3.var(numeric_only=True), '\n')
print(df3.std(numeric_only=True), '\n')
print(df3.median(numeric_only=True), '\n')
print(df3.quantile([0.25, 0.5, 0.75],numeric_only=True))

total_bill    19.785943
tip            2.998279
size           2.569672
dtype: float64 

total_bill    17.795
tip            2.900
size           2.000
dtype: float64 

   total_bill  tip  size
0       13.42  2.0     2 

total_bill    79.252939
tip            1.914455
size           0.904591
dtype: float64 

total_bill    8.902412
tip           1.383638
size          0.951100
dtype: float64 

total_bill    17.795
tip            2.900
size           2.000
dtype: float64 

      total_bill     tip  size
0.25     13.3475  2.0000   2.0
0.50     17.7950  2.9000   2.0
0.75     24.1275  3.5625   3.0


In [448]:
df3.corr(numeric_only=True)

Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.675734,0.598315
tip,0.675734,1.0,0.489299
size,0.598315,0.489299,1.0


## 8. Indexing & Slicing

In [14]:
import pandas as pd
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index=['A','B','C'], columns=['X1','X2','X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


### 8.1 Basic Indexing

In [None]:
# Single Element Indexer: Column Label 한 개 사용
A = df['X1']

# Index Array Indexer: 여러 개 Column Label 사용
B=df[['X1','X2']]

# Boolean Array Indexer: 특정 조건을 만족하는 Index(Row)를 뽑을 수 있는 수식 사용
C=df[df['X1']%2==0]

# Slice Indexer: Index Label 사용, stop을 포함
D=df['A':'B']

In [44]:
display(A,B,C,D)

2

Unnamed: 0,X1,X2
A,1,2
B,4,5


Unnamed: 0,X2,X3
A,2,3
C,8,9


Unnamed: 0,X2,X3
A,2,3
B,5,6


### 8.2 Selection By Label

In [69]:
# Single Element Indexer: row_indexer, column_indexer 한개 씩 사용
A = df.loc['A', 'X2']

# Index Array Indexer: row_indexer, column_indexer 여러 개 사용
B = df.loc[['A', 'B'], ['X1', 'X2']]

# Boolean Array Indexer: 특정 조건을 만족하는 Row/Col를 뽑을 수 있는 수식 사용
C = df.loc[df['X2'] % 2 == 0, ['X2', 'X3']]

# Slice Indexer: ':'을 사용하고 []는 사용 안함, stop을 포함
D = df.loc['A':'B', 'X2':'X3']

# Indexing/Slicing 혼합:
E = df.loc['C', : ]

# Boolean/Slicing 혼합:
F = df.loc['B':'C', (df.columns != 'X1') & (df.columns != 'X2')]

In [46]:
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [70]:
display(A,B,C,D,E,F)

2

Unnamed: 0,X1,X2
A,1,2
B,4,5


Unnamed: 0,X2,X3
A,2,3
C,8,9


Unnamed: 0,X2,X3
A,2,3
B,5,6


X1    7
X2    8
X3    9
Name: C, dtype: int64

Unnamed: 0,X3
B,6
C,9


### 8.3 Selection by Integer(Position)

In [73]:
# Single Element Indexer: row_indexer, column_indexer 한개 씩 사용
A = df.iloc[0,1]

# Index Array Indexer: row_indexer, column_indexer 여러 개 사용
B = df.iloc[[0, 1], [0, 1]]

# Boolean Array Indexer: 비추
C = df.iloc[(df['X2'] % 2 == 0).to_numpy(), [1, 2]]

# Slice Indexer: ':'을 사용하고 []는 사용 안함, stop을 미포함
D = df.iloc[2:3, 1:3]

# Indexing/Slicing 혼합:
E = df.iloc[2, : ]

In [68]:
display(A,B,C,D,E,F)

2

Unnamed: 0,X1,X2
A,1,2
B,4,5


Unnamed: 0,X2,X3
A,2,3
C,8,9


Unnamed: 0,X2,X3
C,8,9


X1    7
X2    8
X3    9
Name: C, dtype: int64

Unnamed: 0,X3
B,6
C,9


## 9. DataFrame 조작

### 9.1 특정 조건을 만족하는 Data 변경
- df.apply(function)

In [23]:
df6 = pd.DataFrame(np.arange(1, 10).reshape(3, -1), index=list("ABC"), columns=['X', 'Y', 'Z'])
df6

Unnamed: 0,X,Y,Z
A,1,2,3
B,4,5,6
C,7,8,9


In [24]:
def function(s):
    return s['X'] if s['X'] % 2 == 0 else s['Y']
    
df6['even'] = df6.apply(function, axis=1)
df6

Unnamed: 0,X,Y,Z,even
A,1,2,3,2
B,4,5,6,4
C,7,8,9,8


### 9.2 파생 변수 생성

방법 1) 변수 조합

In [495]:
np.random.seed(1)
df5 = pd.DataFrame(np.random.randint(0,100,size=(5, 5)), columns=list('ABCDE'))
df5

Unnamed: 0,A,B,C,D,E
0,37,12,72,9,75
1,5,79,64,16,1
2,76,71,6,25,50
3,20,18,84,11,28
4,29,14,50,68,87


In [499]:
df5['total'] = (df5['D'] + df5['E']) / 2                   # 1) 변수 조합
df5


Unnamed: 0,A,B,C,D,E,total
0,37,12,72,9,75,42.0
1,5,79,64,16,1,8.5
2,76,71,6,25,50,37.5
3,20,18,84,11,28,19.5
4,29,14,50,68,87,77.5


방법 2) 조건문 활용(np.where())

In [501]:
df5['test'] = np.where(df5['D']>=20, 'pass' , 'fail')

df5['E'] = np.where(df5['D'] >= 30, 'A',
            np.where(df5['D'] >= 25, 'B',
            np.where(df5['D'] >= 20, 'C','D')))
df5

Unnamed: 0,A,B,C,D,E,total,test
0,37,12,72,9,D,42.0,fail
1,5,79,64,16,D,8.5,fail
2,76,71,6,25,B,37.5,pass
3,20,18,84,11,D,19.5,fail
4,29,14,50,68,A,77.5,pass


### 9.3 문자열(str) 값 수정
- str.replace('A','B', regex=False) 
  - Data Type이 str일 경우 특정 단어를 다른 단어로 변경, Series와 사용해야 함
  - 괄호 안에 올 수 있는 것들은 str 외에도 list, tuple 등 여러 종류가 올 수 있음
  - regex(=regular expression): 문자열의 일부 내용만 대상으로 지정 시 사용
    - regex = False(Default) : 값에 특정 단어가 전부 일치해야 변경
    - regex = True : 값에 특정 단어가 일부 일치해도 변경
- str.strip('A') 
  - Data Type이 str일 경우 특정 단어를 제거

In [285]:
df3.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [265]:
# smoker 컬럼 내부에 No→N, Yes→Y로 변경
df3.copy()['smoker'].str.replace('No', 'N').replace('Yes', 'Y')
df3.copy()['smoker'].replace(['No','Yes'],['N','Y']) #List 형태로 넣을 수 있음, 위와 동일 결과 출력

0      N
1      N
2      N
3      N
4      N
      ..
239    N
240    Y
241    Y
242    N
243    N
Name: smoker, Length: 244, dtype: object

In [292]:
# 특정 문자 제거 후 DataType 변경
s=pd.Series(['1','2','3','4','*7'])
display(s)
s.str.strip('*').astype('int')

0     1
1     2
2     3
3     4
4    *7
dtype: object

0    1
1    2
2    3
3    4
4    7
dtype: int32

### 9.4 결측치 제거
dropna(*, axis=0, how='any', thresh=n, subset=None, inplace=False)
- axis
  - axis = 0(Default) : Row 단위 삭제
  - axis = 1 : Column 단위 삭제
- how
  - how = 'any'(Default) : 해당 행/열의 값 중 결측치가 하나라도 존재할 경우 삭제
  - how =  'all': 해당 행/열의 값이 모두 결측치일 경우 삭제
- thresh : NaN가 아닌 값의 개수가 thresh 값 미만이면 해당 행/열 삭제 (Pandas v1.5 이후 how와 같이 사용 불가)
- subset : 특정 Column 기준으로 해당 Column에 결측치 제거 시 특정 Column 설정
  - subset=['A']
- inplace : 원본 객체 수정 여부
  - inplace = False(Default) : 원본 객체 수정 안함
  - inpalce = True : 원본 객체 수정

In [407]:
np.random.seed(0)
df4 = pd.DataFrame(np.random.randn(5, 5), columns=list('ABCDE'))
df4 = df4[df4 > 0]
df4

Unnamed: 0,A,B,C,D,E
0,1.764052,0.400157,0.978738,2.240893,1.867558
1,,0.950088,,,0.410599
2,0.144044,1.454274,0.761038,0.121675,0.443863
3,0.333674,1.494079,,0.313068,
4,,0.653619,0.864436,,2.269755


In [408]:
#axis 별 비교
display(df4.dropna(axis=0, how='any'), df4.dropna(axis=1, how='any'))

Unnamed: 0,A,B,C,D,E
0,1.764052,0.400157,0.978738,2.240893,1.867558
2,0.144044,1.454274,0.761038,0.121675,0.443863


Unnamed: 0,B
0,0.400157
1,0.950088
2,1.454274
3,1.494079
4,0.653619


In [423]:
#결측치가 아닌 개수가 3개 미만인거 삭제
df4.dropna(thresh=3)

Unnamed: 0,A,B,C,D,E
0,1.764052,0.400157,0.978738,2.240893,1.867558
2,0.144044,1.454274,0.761038,0.121675,0.443863
3,0.333674,1.494079,,0.313068,
4,,0.653619,0.864436,,2.269755


In [425]:
# 특정 Column 기준으로 해당 Column에 결측치가 있을 때에만 열에 결측치 제거
df4.dropna(axis=0, subset=['E'])

Unnamed: 0,A,B,C,D,E
0,1.764052,0.400157,0.978738,2.240893,1.867558
1,,0.950088,,,0.410599
2,0.144044,1.454274,0.761038,0.121675,0.443863
4,,0.653619,0.864436,,2.269755


### 9.5 결측치 치환
fillna(value=None, *, method=None, axis=None, inplace=False, limit=None, downcast=None)
- value : 결측치 대신 넣을 값(scalar, dict, Series, DataFrame)
- axis
  - axis = 0(Default) : Row 단위 치환
  - axis = 1 : Column 단위 치환
- method
  - method = None(Deafult)
  - method = 'bfill' : 뒤에 값으로 대체
  - method = 'ffill' : 앞에 값으로 대체
- limit: If method is specified, this is the maximum number of consecutive NaN values to forward/backward fill
  

In [430]:
np.random.seed(0)
df5 = pd.DataFrame(np.random.randn(5, 10), columns=list('ABCDEFGHIJ'))
df5 = df5[df5 > 0]
df5

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
0,1.764052,0.400157,0.978738,2.240893,1.867558,,0.950088,,,0.410599
1,0.144044,1.454274,0.761038,0.121675,0.443863,0.333674,1.494079,,0.313068,
2,,0.653619,0.864436,,2.269755,,0.045759,,1.532779,1.469359
3,0.154947,0.378163,,,,0.156349,1.230291,1.20238,,
4,,,,1.950775,,,,0.77749,,


In [431]:
df5.fillna(axis=1, method='ffill', limit=1)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
0,1.764052,0.400157,0.978738,2.240893,1.867558,1.867558,0.950088,0.950088,,0.410599
1,0.144044,1.454274,0.761038,0.121675,0.443863,0.333674,1.494079,1.494079,0.313068,0.313068
2,,0.653619,0.864436,0.864436,2.269755,2.269755,0.045759,0.045759,1.532779,1.469359
3,0.154947,0.378163,0.378163,,,0.156349,1.230291,1.20238,1.20238,
4,,,,1.950775,1.950775,,,0.77749,0.77749,


### 9.6 특정 행/열 삭제
df.drop(list, axis=0)
- axis
  - axis=0 : 행 삭제
  - axis=1 : 열 삭제

In [8]:
df9 = pd.DataFrame({
    'A': list('AAABBBCCC'),
    'B': [3,1,0,1,7,3,2,1,3],
    'C': [1,2,5,6,2,3,4,1,2]
})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [9]:
# 열 삭제
df9.drop(['A'], axis=1).head(3)
df9.drop(columns=['A']).head(3) #위와 동일

Unnamed: 0,B,C
0,3,1
1,1,2
2,0,5


In [11]:
# 행 삭제
df9.drop([0, 3], axis=0).head(3)
df9.drop(index=[0, 3]).head(3) #위와 동일

Unnamed: 0,A,B,C
1,A,1,2
2,A,0,5
4,B,7,2


### 9.7 범주형 Data를 수치형 Data로 변환
get_dummies(df, prefix=None, prefix_sep='_', columns=None, drop_first=False, dtype=None)
- columns : Column names in the DataFrame to be encoded. If columns is None then all the columns with object, string, or category dtype will be converted.

In [12]:
s = pd.Series(list('abca'))
display(s)
pd.get_dummies(s)

0    a
1    b
2    c
3    a
dtype: object

Unnamed: 0,a,b,c
0,1,0,0
1,0,1,0
2,0,0,1
3,1,0,0


## 10. DataFrame 연결&Grouping&Pivoting

### 10.1 DataFrame 이어 붙이기
pd.concat(objs, axis=0, join='outer', ignore_index=False, sort=False)
- axis
  - axis = 0(Default) : Row 아래에 붙이고 싶을 때 사용(Col 방향)
  - axis = 1 : Column 오른쪽에 붙이고 싶을 때 사용(Index 방향)
- ignore_index
  - ignore_index = False(Default) : Index/Column 유지
  - ignore_index = True : Index/columns를 무시하고 새롭게 처음부터 번호 생성
- join
  - join = 'outer' (Default) : 동일한 이름을 가지는 Column이 없는 경우 합칠 때 NaN 값이 위치
  - join - 'inner' : 동일한 이름을 갖는 Column만 합침

In [2]:
df7 = pd.DataFrame({
    'K':['K0', 'K1', 'K2'],
    'X2':['A', 'B', 'A'],
    'X3':[1, 2, 3] })
df8 = pd.DataFrame({
    'K':['K1', 'K2', 'K3'],
    'X3':[4, 5, 6],
    'X4':['B', 'A', 'B'] })
display(df7, df8)

Unnamed: 0,K,X2,X3
0,K0,A,1
1,K1,B,2
2,K2,A,3


Unnamed: 0,K,X3,X4
0,K1,4,B
1,K2,5,A
2,K3,6,B


In [15]:
pd.merge(df7, df8, on='K', how='inner')

Unnamed: 0,K,X2,X3_x,X3_y,X4
0,K1,B,2,4,B
1,K2,A,3,5,A


In [10]:
pd.concat([df7, df8], axis=0, join='outer')

Unnamed: 0,K,X2,X3,X4
0,K0,A,1,
1,K1,B,2,
2,K2,A,3,
0,K1,,4,B
1,K2,,5,A
2,K3,,6,B


In [11]:
pd.concat([df7, df8], axis=0, join='inner')

Unnamed: 0,K,X3
0,K0,1
1,K1,2
2,K2,3
0,K1,4
1,K2,5
2,K3,6


In [6]:
pd.concat([df7, df8], axis=0, join='outer', ignore_index=True)

Unnamed: 0,K,X2,X3,X4
0,K0,A,1,
1,K1,B,2,
2,K2,A,3,
3,K1,,4,B
4,K2,,5,A
5,K3,,6,B


In [9]:
pd.concat([df7, df8], axis=1, join='outer')

Unnamed: 0,K,X2,X3,K.1,X3.1,X4
0,K0,A,1,K1,4,B
1,K1,B,2,K2,5,A
2,K2,A,3,K3,6,B


### 10.2 공통 행/열(Key)을 기준으로 DataFrame 결합
pd.merge(left df, right df, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False)
- **concat과 다르게 [ ] 안에 DataFrame의 목록을 넣는 것이 아니고 왼쪽, 오른쪽에 DataFrame을 그냥 작성**
  
- axis
  - axis = 0(Default) : Row 아래에 붙이고 싶을 때 사용(Col 방향)
  - axis = 1 : Column 오른쪽에 붙이고 싶을 때 사용(Index 방향)
- how
  - how = 'inner'(Default) : use intersection of keys from both frames
  - how = 'outer' : use union of keys from both frames
  - how = 'left' : use only keys from left frame
  - how = 'right' : use only keys from right frame
  - how = 'cross' : creates the cartesian product from both frames
- on : 합치는 기준이 되는 Column or index
- left_on/right_on
  - left, right 라는 2개의 DataFrame을 on (양쪽이 같은 열 이름일 경우), left_on, right_on (다른 열 이름일 경우)
- left_index/right_index
  - left_index, right_index 는 True를 하면 index 기준으로 병합 하는 것을 의미

In [12]:
display(df7, df8)

Unnamed: 0,K,X2,X3
0,K0,A,1
1,K1,B,2
2,K2,A,3


Unnamed: 0,K,X3,X4
0,K1,4,B
1,K2,5,A
2,K3,6,B


In [17]:
pd.merge(df7, df8, on='K', how='inner')

Unnamed: 0,K,X2,X3_x,X3_y,X4
0,K1,B,2,4,B
1,K2,A,3,5,A


In [19]:
pd.merge(df7, df8, on='K', how='outer')

Unnamed: 0,K,X2,X3_x,X3_y,X4
0,K0,A,1.0,,
1,K1,B,2.0,4.0,B
2,K2,A,3.0,5.0,A
3,K3,,,6.0,B


In [20]:
pd.merge(df7, df8, on='K', how='left')

Unnamed: 0,K,X2,X3_x,X3_y,X4
0,K0,A,1,,
1,K1,B,2,4.0,B
2,K2,A,3,5.0,A


In [21]:
pd.merge(df7, df8, on='K', how='right')

Unnamed: 0,K,X2,X3_x,X3_y,X4
0,K1,B,2.0,4,B
1,K2,A,3.0,5,A
2,K3,,,6,B


### 10.3 Grouping

df.groupby(by='A')[   ].agg()
- 데이터를 그룹 별로 분할(split)하고, 각 그룹 별로 집계 함수 적용(Apply) 후 결과를 하나로 합친(Combine) 결과 반환
- by : 기준이 되는 column이며 'by'를 생략하고 df.groupby('A') 이렇게 작성 가능
- agg([집계함수, ...., 집계함수]) : 여러 개의 집계 함수를 한번에 표현하기(str으로 만들어야 함)
- 특정 Column에 대해서만 집계 함수 적용하고 싶을 때 **df.groupby(by=그룹 기준)[[집계 대상]]** 형태로 작성

In [28]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': list('AAABBBCCC'),
    'B': [3,1,0,1,7,3,2,1,3],
    'C': [1,2,5,6,2,3,4,1,2],
    'D': list('XXYXYXXYX')
})
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


- df.groupby(by='A')[['B','C']] : 특정 Column에 대해서만 함수 결과를 DataFrame 형태로 출력
- df.groupby(by='A')['B'] : 특정 Column에 대해서만 함수 결과를 Series 형태로 출력

In [34]:
df.groupby('A')[['B','C']].mean().reset_index().round(3)

Unnamed: 0,A,B,C
0,A,1.333,2.667
1,B,3.667,3.667
2,C,2.0,2.333


In [31]:
df.groupby(by='A')[['B','C']].agg(['sum', 'mean']) 

Unnamed: 0_level_0,B,B,C,C
Unnamed: 0_level_1,sum,mean,sum,mean
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,4,1.333333,8,2.666667
B,11,3.666667,11,3.666667
C,6,2.0,7,2.333333


- reset_index() : Index를 Column으로 가져오기

In [32]:
df.groupby(by='A')[['B']].sum().reset_index(['A'])

Unnamed: 0,A,B
0,A,4
1,B,11
2,C,6


### 10.4 Pivoting

df.pivot_table(index, columns, values, aggfunc, fill_value)
- 행, 열 방향으로 필드를 재배치해 데이터를 한 눈에 보기 용이함
- 반환값이 항상 DataFrame 형태
- aggfunc
  - aggfunc = 'mean' (Default)
  - sum, min, max 등 여러가지 가능
- fill_value : 누락된 값의 대체값
  - fill_value = None (Default)
  - fill_value = Scalar

In [36]:
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [37]:
df.pivot_table(index='A', columns='D', values=['B', 'C'], aggfunc='sum')

Unnamed: 0_level_0,B,B,C,C
D,X,Y,X,Y
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,4,0,3,5
B,4,7,9,2
C,5,1,6,1


In [41]:
pd.pivot_table(df, values=['B', 'C'], index=['D'],
                    aggfunc={'B': np.mean,
                             'C': [min, max, np.mean]})

Unnamed: 0_level_0,B,C,C,C
Unnamed: 0_level_1,mean,max,mean,min
D,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
X,2.166667,6,3.0,1
Y,2.666667,5,2.666667,1
