# 제2장 데이터 핸들링

## 제1절. 판다스 데이터구조

판다스는 Series와 DataFrame 구조를 지원한다.
-  Series는 1차원 배열구조로 이름과 형식을 가지고 모든 값에 대해 고유한 인덱스를 가진다는 특징이 있다.
- DataFrame은 행, 열로 이루어진 2차원 배열구조이다. 각 행은 인덱스를 가지며, 각 열은 이름과 형식을 가진다.


## 제2절 DataFrame 기본

### DataFrame 선언하기

In [1]:
import numpy as np
import pandas as pd
dataset = np.array([['kor' , 70] , ['math',80]])
df = pd.DataFrame(dataset, columns = ['class','score'])

df

Unnamed: 0,class,score
0,kor,70
1,math,80


### DataFrame 읽고 저장하기

In [2]:
filepath = 'data/cats.csv'

data = pd.read_csv(filepath , na_values= 'NA' , encoding = 'utf8')

1. read_csv() 사용해서 csv 파일을 DataFrame 객체로 읽어 들일 수 있다.
2. csv 파일에서 null값이 빈칸이 아닌 어떠한 string 값으로 저장된 경우 이를 인식하기 위해 na_values 사용. 영어 외의 언어로 작성된 값이 포함된 경우 적절한 형식으로 인코딩 
3. 데이터 프레임을 csv 파일로 저장할때는 DataFrame.to_csv() 함수 사용

In [3]:
# data.to_csv('result.csv', header = True, index = True , encoding= 'utf8')

### DataFrame 출력|

head() , tail()함수로 처음 or 마지막 몇줄 출력할 수 있다.

In [4]:
from sklearn.datasets import load_iris
iris = load_iris()
iris = pd.DataFrame(iris.data, columns=iris.feature_names)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [5]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
iris.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


### DataFrame 요약 통계정보 확인하기

1. 데이터의 내용을 확인했다면 그 다음으로 데이터프레임의 요약,통계정보를 확인. 
- info() 함수를 통해 총 데이터의 건수와 각 컬럼의 데이터 형식과 결측치의 건수 확인
- 수치형 컬럼이 존재하는 경우 describe() 함수를 사용하여 수치형 컬럼들의 n-percentile 분포도와 평균값, 최댓값 등을 확인

In [7]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


- 해석 

150개의 행과 4개의 컬럼을 가지고 있다.

모든 컬럼은 결측값을 가지고 있지 않다. 모든 컬림의 데이터 값은 float64로 실수형 데이터다.

In [8]:
iris.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


iris의 sepal length 컬럼의 범위는 4.3 ~ 7.9이고 petal width 컬럼의 범위는 0.1~2.5로 그 크기가 상당히 차이 난다.

-> 회귀 분석을 수행할 경우 데이터값의 크기가 상대적으로 작은 petal width의 경우 sepal length 등 값의 숫자가 큰 다른 컬럼들에 비해 분석모델에 미치는 영향력이 적을 수 있다.

-> 이는 모델링 전처리 과정에서 변수의 정규화를 수행하는 근거가 될 수 있다.

### DataFrame 인덱스 확인, 추가

1. DataFrame은 index와 columns 속성을 가지고 있으며, 이를 통해 인덱스나 컬럼을 수정하거나 출력 가능하다. 인덱스나 컬럼명을 수정할 경우 list나 numpy.array의 형식을 사용할 수 있고, 기존의 데이터와 길이가 같아야한다.

In [9]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [10]:
list(df.index)

[0, 1]

In [11]:
df.index= ['A','B']
df.index

Index(['A', 'B'], dtype='object')

In [12]:
df

Unnamed: 0,class,score
A,kor,70
B,math,80


2. set_index()를 사용하면 DataFrame 내의 열을 인덱스로 변경할 수 있음. 

In [13]:
#drop : 인덱스로 세팅한 컬럼을 삭제할지를 결정
#append : 기존에 존재하던 인덱스를 삭제할지, 컬럼으로 추가할지 결정
#inplace : 원본 객체 변경할지 결정
df.set_index('class' ,drop = True, append = False , inplace = True)
df

Unnamed: 0_level_0,score
class,Unnamed: 1_level_1
kor,70
math,80


3. reset_index()를 사용하면 인덱스를 0부터 시작하는 정수로 재설정 할 수 있다.

In [14]:
#drop : 기존 인덱스를 DataFrame에서 삭제할지, 컬럼으로 추가할지 결정
#inplace : 원본 객체를 변경할지를 결정
df.reset_index(drop = False, inplace= True) 
df

Unnamed: 0,class,score
0,kor,70
1,math,80


### DataFrame 컬럼명 확인 및 변경

In [15]:
iris.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [16]:
iris.columns = ['sepal length', 'sepal width', 'petal length', 'petal width']
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


- replace()를 사용하여 다음과 같은 방식으로 컬럼명 내의 특정 문자를 다른 문자로 대체 할 수 있다.

In [17]:
iris.columns = iris.columns.str.replace(' ','_')
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


### DataFrame 컬럼의 데이터 타입 확인 및 변경

In [18]:
iris.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
dtype: object

- 분석 목적이나 사용 모델에 따라 데이터 타입을 변경해야 할 때가 있다. 이 경우 astype()을 통해 변경할 수 있다.

In [19]:
iris[['sepal_width','petal_length']] = iris[['sepal_width','petal_length']].astype('int')
iris.head(3)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3,1,0.2
1,4.9,3,1,0.2
2,4.7,3,1,0.2


## 제3절 Row/Column 선택,추가,삭제

### row/column 선택

- row 선택하기

In [20]:
#DataFrame[n:m]

iris[1:4]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
1,4.9,3,1,0.2
2,4.7,3,1,0.2
3,4.6,3,1,0.2


- column 선택하기

In [21]:
# DataFrame['컬럼명'] : 하나의 컬럼을 Series 형식으로 출력
# DataFrame[['컬럼1', '컬럼2']] : 여러 개의 컬럼을 DataFrame 형식으로 출력

iris[['sepal_length', 'sepal_width']].head()



Unnamed: 0,sepal_length,sepal_width
0,5.1,3
1,4.9,3
2,4.7,3
3,4.6,3
4,5.0,3


- row, column 선택하기

iloc 또는 loc 속성을 사용하여 행과 열을 모두 지정할 수 있다.

정수로된 위치 기반 인덱스로 행과 열을 선택하고자 할때 iloc[ ] 사용.

인수를 하나만 설정할 경우 행을 지정하고, 인수를 두 개 설정할 경우 순서대로 행과 열을 지정함

인수는 정수, 리스트, 슬라이싱 , boolean array가 들어갈 수 있다.

In [22]:
# DataFrame.iloc[row, column] 

iris.iloc[[1,3,5] , 2:4]

Unnamed: 0,petal_length,petal_width
1,1,0.2
3,1,0.2
5,1,0.4


레이블(인덱스의 이름 혹은 컬럼명)으로 행과 열을 선택하고자 할때는 loc[ ] 사용.

이때 슬라이싱에서 start:end 사용하면 **end까지 포함한다!!**

In [23]:
iris.loc[[1,2] , 'sepal_length':'petal_length']

Unnamed: 0,sepal_length,sepal_width,petal_length
1,4.9,3,1
2,4.7,3,1


- 선택한 값 변경하기


In [24]:
score = pd.DataFrame({'국어' : [100, 80], 
                      '수학' : [75,90],
                      '영어' : [90,95]} , 
                      index = ['장화', '홍련'])

In [25]:
score.loc['홍련' , '영어'] = 100
score

Unnamed: 0,국어,수학,영어
장화,100,75,90
홍련,80,90,100


In [26]:
score['국어'] = score['국어'] - 5
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100


### row/column 추가

- row 추가

데이터 프레임 한 행을 추가하는것은 append()를 사용. 

In [27]:
new_students = pd.DataFrame({'국어' : [70,85],
                             '수학' : [65, 100],
                             '영어' : [95,65]} ,
                             index = ['콩쥐', '팥쥐'])
new_students

Unnamed: 0,국어,수학,영어
콩쥐,70,65,95
팥쥐,85,100,65


In [28]:
score = score.append(new_students)

AttributeError: 'DataFrame' object has no attribute 'append'

*Python 3.9+ & pandas 1.4 이후부터 append()는 Deprecated (더 이상 권장되지 않음)*

In [29]:
score = pd.concat([score, new_students])
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65


Series 그대로 붙이면 이렇게 나옴

In [30]:
new_students1 = pd.Series({'국어' : 85 ,
                           '수학' : 55,
                           '영어' : 95 },
                            name = '해님')

score1 = pd.concat([score, new_students1.to_frame()])
score1

Unnamed: 0,국어,수학,영어,해님
장화,95.0,75.0,90.0,
홍련,75.0,90.0,100.0,
콩쥐,70.0,65.0,95.0,
팥쥐,85.0,100.0,65.0,
국어,,,,85.0
수학,,,,55.0
영어,,,,95.0


to_frame() 써서 데이터프레임으로 바꾸고 .T로 행렬 바꿔야함

In [31]:
new_students1 = pd.Series({'국어' : 85 ,
                           '수학' : 55,
                           '영어' : 95 },
                            name = '해님')

score = pd.concat([score, new_students1.to_frame().T])
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65
해님,85,55,95


- column 추가

In [32]:
science = [80, 70, 90, 85, 75]
score['과학'] = science
score['학년'] = 1
score

Unnamed: 0,국어,수학,영어,과학,학년
장화,95,75,90,80,1
홍련,75,90,100,70,1
콩쥐,70,65,95,90,1
팥쥐,85,100,65,85,1
해님,85,55,95,75,1


In [33]:
score['과학'] = score['과학'] + 5
score['총점'] = score['국어']+score['수학']+score['영어']+score['과학']
score

Unnamed: 0,국어,수학,영어,과학,학년,총점
장화,95,75,90,85,1,345
홍련,75,90,100,75,1,340
콩쥐,70,65,95,95,1,325
팥쥐,85,100,65,90,1,340
해님,85,55,95,80,1,315


### row/column 삭제

drop()을 사용해서 삭제 가능

In [34]:
#index : 삭제할 행의 인덱스 혹인 인덱스의 리스트를 지정
#columns : 삭제할 컬럼의 이름 혹은 컬럼명의 리스트를 지정
#inplace : False일 경우 작업 수행의 결과를 복사본으로 반환하고, True이면 작업ㅇ르 수행하고 None을 반환

score.drop(index = '장화', inplace = True)
score.drop(columns =['과학', '학년', '총점'] , inplace = True)
score

Unnamed: 0,국어,수학,영어
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65
해님,85,55,95


## 제4절 조건에 맞는 데이터 탐색 및 수정

- 1 임의의 조건 탐색 및 데이터 수정

In [35]:
# DataFrame 생성
students = pd.DataFrame({'이름' : ['장화', '홍련', '콩쥐', '팥쥐', '해님', '달님'],
                         '국어' : [70, 85, None, 100, None, 70],
                         '수학' : [65,100,80,95,None, 70]} )
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,70.0,70.0


In [36]:
students[students['이름'] == '장화']

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0


In [37]:
students[(students['국어'] >= 80) & (students['수학'] >= 80)]

Unnamed: 0,이름,국어,수학
1,홍련,85.0,100.0
3,팥쥐,100.0,95.0


loc[ ] 에도 조건문을 사용하여 데이터를 탐색가능하다.

loc[ ] 는 존재하지 않는 레이블을 지정할 경우 새로운 행/열을 만드는 특징이 있다!!

In [38]:
students.loc[6, '이름':'수학'] = ['별님' , 50, 60]
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,70.0,70.0
6,별님,50.0,60.0


In [39]:
students.loc[(students['국어'] >= 80) & (students['수학'] >= 70) ,'합격'] = 'Pass'
students.loc[students['합격'] != 'Pass', '합격'] = 'Fail'
students

Unnamed: 0,이름,국어,수학,합격
0,장화,70.0,65.0,Fail
1,홍련,85.0,100.0,Pass
2,콩쥐,,80.0,Fail
3,팥쥐,100.0,95.0,Pass
4,해님,,,Fail
5,달님,70.0,70.0,Fail
6,별님,50.0,60.0,Fail


하나의 컬럼에 여러 개의 조건에 따라 다른값을 변경해야 하는 경우 Numpy.select()를 활용할 수 있다

In [40]:
#np.select(조건목록, 선택목록, defalut = 디폴트값)

condition_list = [(students['국어'] >= 90) ,
                  (students['국어'] >= 80) & (students['국어'] < 90) ,
                  (students['국어'] >= 70) & (students['국어'] < 80) ]
choice_list = ['A','B','C']

students['점수'] = np.select(condition_list , choice_list, default='F')
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,70.0,70.0,Fail,C
6,별님,50.0,60.0,Fail,F


2. 결측값 탐색 및 수정

- 결측값 탐색

결측값 탐색 : isna(), isnull()

결측값 아닌 값 탐색 : notna() , notnull()

In [41]:
students.isna().sum()

이름    0
국어    2
수학    1
합격    0
점수    0
dtype: int64

In [42]:
students.isna().sum(1)
# sum(1)은 행의 합계

0    0
1    0
2    1
3    0
4    2
5    0
6    0
dtype: int64

- 결측값 제거 : dropna()

In [43]:
students.dropna() # 결측값이 포함된 모든 행 삭제

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,70.0,70.0,Fail,C
6,별님,50.0,60.0,Fail,F


In [44]:
students.dropna(thresh= 4) # 결측값이 아닌 값이 4개보다 많은 행만 남기기

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
5,달님,70.0,70.0,Fail,C
6,별님,50.0,60.0,Fail,F


- 결측값 대체

In [45]:
# valule : 단일 값 혹은 dict/ Series / DataFrame 형식으로 대체할 값 입력
# method : 'pad', 'fill' 이전값으로 채우고, 'backfill','bfill' 은 다음에 오는 값으로 채움 
# axis : 0 또는 'index' 이면 행방향으로 채우고 1 또는 'columns'이면 열 방향으로 채움
# limit : method 인자를 지정한 경우 limit으로 지정한 개수만큼만 대체할 수 있음.

In [46]:
# DF 만들기
health = pd.DataFrame({'연도' : [2017,2018,2019,2020,2021,2022],
                       '키' : [160, 162, 165, None, None, 166],
                       '몸무게':[53, 52, None, 50, 51, 54],
                       '시력':[1.2, None, 1.2, 1.2, 1.1, 0.8],
                       '병결':[None, None, None, 2, None, 1]})
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,,
2,2019,165.0,,1.2,
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0


In [47]:
health.fillna(0)

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,0.0,0.0
2,2019,165.0,0.0,1.2,0.0
3,2020,0.0,50.0,1.2,2.0
4,2021,0.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [48]:
health.fillna(health.mean())

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,1.5
1,2018,162.0,52.0,1.1,1.5
2,2019,165.0,52.0,1.2,1.5
3,2020,163.25,50.0,1.2,2.0
4,2021,163.25,51.0,1.1,1.5
5,2022,166.0,54.0,0.8,1.0


In [49]:
health['병결'] = health['병결'].fillna(0)
health['몸무게'] = health['몸무게'].fillna(health['몸무게'].mean())
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [50]:
#health.fillna(method= 'pad') -> 곧 사라짐

health.ffill()

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,165.0,50.0,1.2,2.0
4,2021,165.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


3. 중복행 삭제

drop_duplicates() 사용

In [51]:
health['키'].drop_duplicates()


0    160.0
1    162.0
2    165.0
3      NaN
5    166.0
Name: 키, dtype: float64

In [52]:
set(health['키']) #set로도 사용 가능 출력 형식은 tuple 

{160.0, 162.0, 165.0, 166.0, nan, nan}

In [53]:
health[['시력',  '병결']].drop_duplicates()

Unnamed: 0,시력,병결
0,1.2,0.0
1,,0.0
3,1.2,2.0
4,1.1,0.0
5,0.8,1.0


## 제5절 데이터 정렬

index 혹인 특정 컬럼의 값을 기준으로 행을 정렬할 수 있다.

DataFrame.sort_index(axis = 0, ascending = True, inplace = False)
- axis : 0이면 행을 기준으로 , 1이면 컬럼명을 기준으로 정렬
- ascending : True이면 오름차순으로, False이면 내림차순으로 정렬
- inplace : True이면 제자리에서 수행 후 None, False이면 복사본을 만들어 정렬 수행하고 반환

In [54]:
from sklearn.datasets import load_iris
iris = load_iris()
iris = pd.DataFrame(iris.data, columns = iris.feature_names)
iris.sort_index(ascending=False , inplace = True)
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
149,5.9,3.0,5.1,1.8
148,6.2,3.4,5.4,2.3
147,6.5,3.0,5.2,2.0
146,6.3,2.5,5.0,1.9
145,6.7,3.0,5.2,2.3


In [55]:
iris.sort_index(axis = 1 , ascending= True , inplace = True)
iris.head()

Unnamed: 0,petal length (cm),petal width (cm),sepal length (cm),sepal width (cm)
149,5.1,1.8,5.9,3.0
148,5.4,2.3,6.2,3.4
147,5.2,2.0,6.5,3.0
146,5.0,1.9,6.3,2.5
145,5.2,2.3,6.7,3.0


값을 기준으로 정렬을 할 때는 기준 컬럼에 대한 정보가 반드시 있어야함.

DataFrame.sort_values(by, axis = 0, ascending = True, inplace = False)

- by : 정렬 기준으로 사용할 컬럼의 이름 혹은 컬럼명의 리스트

In [56]:
iris.sort_values(['petal length (cm)' , 'sepal length (cm)'])

Unnamed: 0,petal length (cm),petal width (cm),sepal length (cm),sepal width (cm)
22,1.0,0.2,4.6,3.6
13,1.1,0.1,4.3,3.0
35,1.2,0.2,5.0,3.2
14,1.2,0.2,5.8,4.0
42,1.3,0.2,4.4,3.2
...,...,...,...,...
131,6.4,2.0,7.9,3.8
105,6.6,2.1,7.6,3.0
122,6.7,2.0,7.7,2.8
117,6.7,2.2,7.7,3.8


## 제6절 데이터 결합

데이터를 분석하기 위해 두 개 이상의 테이블을 하나의 테이블로 결합해야 하는 경우가 있다. 

### 단순연결

pandas.concat(objs, axis = 0 , ignore_index = False)
- objs : concat을 실행할 객체의 리스트(DataFrame, Series, Panel object)
- axis : 0이면 열 방향으로, 1이면 행 방향으로 합침 

0이면 위 아래 , 1이면 양 옆으로 

- ignore_index : True 이면 기존 index를 무시하고 0부터 시작하는 정수로 재설정

In [57]:
#df 만들기

HR1 = pd.DataFrame({'이름' : ['장화', '홍련'] ,
                    '부서' : ['영업', '회계'],
                    '직급' : ['팀장', '사원']})

HR2 = pd.DataFrame({'이름' : ['콩쥐', '팥쥐'] ,
                    '직급' : ['사원', '팀장'],
                    '부서' : ['영업', '인사']})

HR3 = pd.DataFrame({'이름' : ['콩쥐', '팥쥐'] ,
                    '급여' : [3500, 2800],
                    '부서' : ['영업', '인사']})

In [58]:
pd.concat([HR1, HR2], axis = 0)

Unnamed: 0,이름,부서,직급
0,장화,영업,팀장
1,홍련,회계,사원
0,콩쥐,영업,사원
1,팥쥐,인사,팀장


In [59]:
pd.concat([HR1, HR2], axis = 0, ignore_index= True)

Unnamed: 0,이름,부서,직급
0,장화,영업,팀장
1,홍련,회계,사원
2,콩쥐,영업,사원
3,팥쥐,인사,팀장


결합하는 두 데이터프레임이 다른 컬럼을 가지고 있는 경우에는 각 데이터프레임의 컬럼을 모두 가지고 없는 칸은 np.NaN 으로 채워진 데이터프레임이 출력

In [60]:
pd.concat([HR1, HR3], axis = 0 , ignore_index= True)

Unnamed: 0,이름,부서,직급,급여
0,장화,영업,팀장,
1,홍련,회계,사원,
2,콩쥐,영업,,3500.0
3,팥쥐,인사,,2800.0


행 방향으로 결합하는 때도 마찬가지로 행 인덱스를 기준으로 데이터를 재조립함. 결합하는 데이터들의 행 길이가 다른 경우 모든 값을 출력하고 정보가 없는 칸은 np.NaN으로 채운다.

In [61]:
HR4 = pd.Series({1:2500}, name = '급여')
pd.concat([HR1, HR4], axis=1)

Unnamed: 0,이름,부서,직급,급여
0,장화,영업,팀장,
1,홍련,회계,사원,2500.0


In [62]:
HR5 = pd.DataFrame({'급여' : [4500, 3000, 3500]})
pd.concat([HR1, HR5], axis  = 1)

Unnamed: 0,이름,부서,직급,급여
0,장화,영업,팀장,4500
1,홍련,회계,사원,3000
2,,,,3500


### 조인

```python
DataFrame.join(other, on = None, how = 'left' , lsuffix ='', rsuffix = '', sort = False)
```
- DataFrame : 결합의 기준이 되는 프레임으로 left DataFrame
- other : 결합의 대상이 되는 데이터프레임으로 right DataFrame
- on : key 컬럼의 이름(두 데이터프레임에서 key 컬럼의 이름이 같아야 함)
- how : {'left, 'right', 'outer', 'inner'}, 조인의 수행 방식 선택
- lsuffix/rsuffix : 결합한 데이터 프레임에서 왼쪽/오른쪽 데이터프레임의 컬럼명에 사용할 접미사
- sort : 키값을 기준으로 정렬할지 여부

merge()는 조금 더 다양한 조건을 사용할 수 있음

```python
DataFrame.merge(right, how = 'inner', on = None , left_on = None, right_on = None, left_index = False, right_index = False, sort = False, suffixex = ('_x','_y'))
```
- left_on / right_on : 두 테이블에서 key 칼럼명이 다를 때 'on'을 대신하여 각각 지정
- left_index / right_index : 왼쪽 혹은 오른쪽 데이터프레임의 인덱스를 key로 사용할 경우

In [63]:
product = pd.DataFrame({'상품코드' : ['G1', 'G2', 'G3', 'G4'] ,
                        '상품명' : ['우유', '감자', '빵', '치킨']})

sale = pd.DataFrame({'주문번호' : [1001, 1002, 1002, 1003,1004],
                     '상품코드' : ['G4', 'G3', 'G1', 'G3', 'G5'],
                     '주문수량' : [1,4,2,2,3]})

product , sale

(  상품코드 상품명
 0   G1  우유
 1   G2  감자
 2   G3   빵
 3   G4  치킨,
    주문번호 상품코드  주문수량
 0  1001   G4     1
 1  1002   G3     4
 2  1002   G1     2
 3  1003   G3     2
 4  1004   G5     3)

In [64]:
sale.merge(product, on = '상품코드', how = 'outer' , sort = True)

Unnamed: 0,주문번호,상품코드,주문수량,상품명
0,1002.0,G1,2.0,우유
1,,G2,,감자
2,1002.0,G3,4.0,빵
3,1003.0,G3,2.0,빵
4,1001.0,G4,1.0,치킨
5,1004.0,G5,3.0,


In [65]:
sale.merge(product , left_on = '상품코드', right_on= '상품코드', how = 'left')


Unnamed: 0,주문번호,상품코드,주문수량,상품명
0,1001,G4,1,치킨
1,1002,G3,4,빵
2,1002,G1,2,우유
3,1003,G3,2,빵
4,1004,G5,3,


## 제7절 데이터 요약

### 그룹화와 집계

그룹화는 하나 이상의 데이터를 어떠한 조건에 따라 여러개의 그룹으로 묶는것.

```python
DataFrame.groupby(by = None, axis = 0, level = None, as_index = True, sort = False, dropna = True).FUN()
#FUN()은 집계함수
```

- by : 그룹을 결정할 때 사용
- axis : 행(0)과 열(1) 지정 defalut 0
- level : 축이 계층 구조일 때 특정 수준을 기준으로 그룹화
- as_index : 그룹 레이블이 인덱스로 출력될지의 여부 
- sort : 집계 행으로 정렬할지 여부
- dropna : True 이면 결측값이 행/열과 함께 삭제, False 이면 결측값도 그룹의 키로 처리

> 집계 함수

여러개의 값을 계산하여 하나의 값으로 만드는 함수를 의미, 그룹 내에서 결측치가 아닌 값들을 계산
- count()
- sum()
- min()
- max()
- mean()
- median()
- std()
- var()
- quantile(n)
- first()
- last()
- describe()

In [75]:
IRIS = load_iris()
iris = pd.DataFrame(data = IRIS.data, columns= IRIS.feature_names)
iris['class'] = IRIS.target
iris['class'] = iris['class'].map({0 : 'setosa', 1 : 'versicolor', 2 : 'virginica'})

iris


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [76]:
iris.groupby(by = 'class').mean()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


### 도수분포표

도수분포표란 자료를 몇개의 구간으로 나누고, 나누어진 각 구간에 속한 자료의 개수를 정리한 표.

-> 그래프로 그리면 히스토그램

```python
pd.Series(DataFrame['컬럼명']).value_counts()
```

In [77]:
pd.Series(iris['class']).value_counts()

class
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64

이 방법은 수치형 데이터의 경우 구간으로 나누지 않고 모든 값에 대해 개수를 센다는 한계가 있음. 수치형 데이터를 구간에 따라 나누기 위해서는 구간을 나눈 컬럼을 생성해야한다.

In [78]:
iris['petal width level'] = pd.qcut(iris['petal width (cm)'] , q = 3, labels=['shorts' , 'middle', 'long'])

pd.Series(iris['petal width level']).value_counts().to_frame()

Unnamed: 0_level_0,count
petal width level,Unnamed: 1_level_1
middle,52
shorts,50
long,48


두 개의 기준에 따른 데이터의 분포를 확인 하고자 할때는?

```python
pd.crosstab(index, columns, dropna= True, normalize = False)
```
- index : 열 위치에서 집계될 범주형 변수(컬럼1)
- columns : 행 위치에서 집계될 범주형 변수(컬럼2)
- normalize : 'all' 또는 True를 전달하면 모든 값에 대해 정규화하고, 'index'를 전달하면 각 행에 대해, 'columns'가 전달되면 각 열에 대해 정규화

In [79]:
pd.crosstab(iris['petal width level'], iris['class'] )

class,setosa,versicolor,virginica
petal width level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
shorts,50,0,0
middle,0,48,4
long,0,2,46


## 제8절 데이터 재구조화

### 피벗 테이블

원본 데이터에서 원하는 열만 선택하여 행과 열에 배치해 새로운 형태의 보고서를 만드는 것.

```python
DataFrame.pivot_table(index = None, columns = None, values = None, aggfunc = 'mean')
```

- index : 피벗 테이블에서 인덱스가 될 컬럼의 이름(두 개 이상이면 리스트로 입력)
- columns : 피벗 테이블에서 컬럼으로 분리할 컬럼의 이름(범주형 변수 사용)
- values : 피벗 테이블에서 columns의 값이 될 컬럼의 이름
- aggfunc : 집계함수를 사용할 경우 지정

In [83]:
# df 만들기

score = {'학년' : [1,1,1,1,2,2] ,
         '반' : ['A' , 'A' , 'B' , 'B' , 'C', 'C'],
         '성별' : ['여자', '남자', '여자', '남자', '여자', '남자'],
         '성적' : [76, 88, 85, 72, 68, 70]}

score = pd.DataFrame(score)
score

Unnamed: 0,학년,반,성별,성적
0,1,A,여자,76
1,1,A,남자,88
2,1,B,여자,85
3,1,B,남자,72
4,2,C,여자,68
5,2,C,남자,70


In [84]:
score = score.pivot_table(index = ['학년', '반'] ,
                          columns= '성별',
                          values= '성적')
score

Unnamed: 0_level_0,성별,남자,여자
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,88.0,76.0
1,B,72.0,85.0
2,C,70.0,68.0


### 멜트

멜트는 피벗테이블의 반대
```python
DataFrame.melt(id_vars = None, var_name = None, value_name = None)
```

- id_vars : 피벗 테이블에서 인덱스가 될 컬럼의 이름(variable, value의 내용으로 들어가지 않을 컬럼의 이름 리스트)
- var_name : variable 변수의 이름으로 지정할 문자열(선택)
- value_name : value 변수의 이름으로 지정할 문자열(선택)


In [85]:
score.reset_index().melt(id_vars=['학년', '반'], var_name = '성별' , value_name = '성적')

Unnamed: 0,학년,반,성별,성적
0,1,A,남자,88.0
1,1,B,남자,72.0
2,2,C,남자,70.0
3,1,A,여자,76.0
4,1,B,여자,85.0
5,2,C,여자,68.0


## 제9절 데이터프레임에 함수 적용하기

### 어플라이

In [86]:
import numpy as np
score.apply(np.sqrt, axis = 0)

Unnamed: 0_level_0,성별,남자,여자
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,9.380832,8.717798
1,B,8.485281,9.219544
2,C,8.3666,8.246211


In [87]:
score.apply(np.max, axis = 0)

성별
남자    88.0
여자    85.0
dtype: float64

In [88]:
def plus_five(val) :
    return val + 5
score.apply(plus_five)

Unnamed: 0_level_0,성별,남자,여자
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,93.0,81.0
1,B,77.0,90.0
2,C,75.0,73.0


In [93]:
def class_avg(df):
    return round( (df['남자'] + df['여자']) /2)
score.apply(class_avg, axis = 1)

학년  반
1   A    82
    B    78
2   C    69
dtype: int64

### 맵(Map)

함수를 정의하는 lambda와 함께 사용할 수 있음. 데이터가 시리즈 형식이어야 한다.

In [94]:
score['남자'].map(lambda x : x + 5)

학년  반
1   A    93.0
    B    77.0
2   C    75.0
Name: 남자, dtype: float64

## 제10절 문자열 데이터 변환하기

Pandas의 Series.str()은 시리즈 내의 각 문자열에 쉽게 접근하고 조작하는 방법을 제공. str()은 Series의 속성이므로 사용할 때 컬럼을 선택해야함

In [95]:
# 예시 데이터

landmark = pd.DataFrame(
    {'name' : ['경복궁', '불국사' , '첨성대', '광한루원', '창경궁'],
     'english_name' : ['Gyeongbokgung Palace', 'bulguksa', 'cheoseongdae' 'observatory', 'gwanghanru', 'Changgyeonggung Palace'],
     'location' : ['서울특별시 종로구 사직로 161', '경북 경주시 불국로 385', '경북 경주시 인왕동 839-1', '전북 남원시 요천로 1447', '서울 종로구 창경궁로 185']}
)

In [96]:
landmark['name_upper'] = landmark['english_name'].str.upper()
landmark['name_lower'] = landmark['english_name'].str.lower()

landmark

Unnamed: 0,name,english_name,location,name_upper,name_lower
0,경복궁,Gyeongbokgung Palace,서울특별시 종로구 사직로 161,GYEONGBOKGUNG PALACE,gyeongbokgung palace
1,불국사,bulguksa,경북 경주시 불국로 385,BULGUKSA,bulguksa
2,첨성대,cheoseongdaeobservatory,경북 경주시 인왕동 839-1,CHEOSEONGDAEOBSERVATORY,cheoseongdaeobservatory
3,광한루원,gwanghanru,전북 남원시 요천로 1447,GWANGHANRU,gwanghanru
4,창경궁,Changgyeonggung Palace,서울 종로구 창경궁로 185,CHANGGYEONGGUNG PALACE,changgyeonggung palace


In [97]:
landmark['name_capitalize'] = landmark['english_name'].str.capitalize()
landmark['name_title'] = landmark['english_name'].str.title()

landmark

Unnamed: 0,name,english_name,location,name_upper,name_lower,name_capitalize,name_title
0,경복궁,Gyeongbokgung Palace,서울특별시 종로구 사직로 161,GYEONGBOKGUNG PALACE,gyeongbokgung palace,Gyeongbokgung palace,Gyeongbokgung Palace
1,불국사,bulguksa,경북 경주시 불국로 385,BULGUKSA,bulguksa,Bulguksa,Bulguksa
2,첨성대,cheoseongdaeobservatory,경북 경주시 인왕동 839-1,CHEOSEONGDAEOBSERVATORY,cheoseongdaeobservatory,Cheoseongdaeobservatory,Cheoseongdaeobservatory
3,광한루원,gwanghanru,전북 남원시 요천로 1447,GWANGHANRU,gwanghanru,Gwanghanru,Gwanghanru
4,창경궁,Changgyeonggung Palace,서울 종로구 창경궁로 185,CHANGGYEONGGUNG PALACE,changgyeonggung palace,Changgyeonggung palace,Changgyeonggung Palace


### 문자열 분리

인덱싱을 활용하면 문자열 형식의 컬럼에서 각 행에서 동일한 위치의 문자열만 추출할 수 있다.

In [98]:
landmark['location'].str[3:6]

0    별시 
1    경주시
2    경주시
3    남원시
4    종로구
Name: location, dtype: object

In [99]:
series_split = landmark['location'].str.split()

series_split

0    [서울특별시, 종로구, 사직로, 161]
1       [경북, 경주시, 불국로, 385]
2     [경북, 경주시, 인왕동, 839-1]
3      [전북, 남원시, 요천로, 1447]
4      [서울, 종로구, 창경궁로, 185]
Name: location, dtype: object

In [101]:
print('series_split의 타입 : ', type(series_split))

landmark['location'].str.split().str.get(0)

series_split의 타입 :  <class 'pandas.core.series.Series'>


0    서울특별시
1       경북
2       경북
3       전북
4       서울
Name: location, dtype: object

In [104]:
landmark['location'].str.split(' ', expand = True) # expand : 컬럼으로 저장하는법


Unnamed: 0,0,1,2,3
0,서울특별시,종로구,사직로,161
1,경북,경주시,불국로,385
2,경북,경주시,인왕동,839-1
3,전북,남원시,요천로,1447
4,서울,종로구,창경궁로,185


### 문자열 치환

replace() 메소드를 활용하면 특정 패턴이나 문자 대치 가능

In [105]:
landmark['name_replace'] = landmark['english_name'].str.replace(' ', '_')

landmark['simple'] = landmark['location'].str.replace('서울특별시', '서울').str.replace('경북 경주시', '경주').str.replace('전북 남원시','남원')

landmark[['name_replace','simple']]

Unnamed: 0,name_replace,simple
0,Gyeongbokgung_Palace,서울 종로구 사직로 161
1,bulguksa,경주 불국로 385
2,cheoseongdaeobservatory,경주 인왕동 839-1
3,gwanghanru,남원 요천로 1447
4,Changgyeonggung_Palace,서울 종로구 창경궁로 185


extract() 메소드를 활용하면 정규표현식을 사용 가능.

소괄호로 무조건 묶어 줘야하는듯 하다.


In [107]:
landmark['Detailed address'] = landmark['location'].str.extract('(경주)')

landmark[['location', 'Detailed address']]

Unnamed: 0,location,Detailed address
0,서울특별시 종로구 사직로 161,
1,경북 경주시 불국로 385,경주
2,경북 경주시 인왕동 839-1,경주
3,전북 남원시 요천로 1447,
4,서울 종로구 창경궁로 185,


In [109]:
landmark['Detailed address'] = landmark['location'].str.extract('(\d+-?\d+)') #\d+ 숫자가 1회이상 반복 ; -? -가 0또는 1회 나타나는 부분 ; \d+ 숫자 1회이상 반복

landmark[['location', 'Detailed address']]

  landmark['Detailed address'] = landmark['location'].str.extract('(\d+-?\d+)') #\d+ 숫자가 1회이상 반복 ; -? -가 0또는 1회 나타나는 부분 ; \d+ 숫자 1회이상 반복


Unnamed: 0,location,Detailed address
0,서울특별시 종로구 사직로 161,161
1,경북 경주시 불국로 385,385
2,경북 경주시 인왕동 839-1,839-1
3,전북 남원시 요천로 1447,1447
4,서울 종로구 창경궁로 185,185


### 문자열 포함 여부 검사 

contains() 메소드를 사용하면 특정 문자열이 포함되어 있는지 여부 불리언 값으로 반환

In [110]:
landmark['contains_py'] = landmark['english_name'].str.contains('Palace')

landmark[['english_name', 'contains_py']]

Unnamed: 0,english_name,contains_py
0,Gyeongbokgung Palace,True
1,bulguksa,False
2,cheoseongdaeobservatory,False
3,gwanghanru,False
4,Changgyeonggung Palace,True


### 문자열 시작과 끝 문자 검사

str.startswith()

str.endswith()

In [112]:
landmark['location'].str.startswith('서울')

0     True
1    False
2    False
3    False
4     True
Name: location, dtype: bool

In [115]:
landmark['location'].str.endswith('1')

0     True
1    False
2     True
3    False
4    False
Name: location, dtype: bool

### 문자열 제거

- strip() : 문자열의 시작과 끝에서 지정된 문자(기본값은 공백) 제거
- lstrip() : 문자열의 시작(왼쪽)에서 지정된 문자 제거
- rstrip() : 문자열의 끝(오른쪽)에서 지정된 문자 제거

In [125]:
# 예시 데이터

landmark = pd.DataFrame(
    {'name' : ['경복궁', '불국사' , '첨성대', '광한루원', '창경궁'],
     'english_name' : [' Gyeongbokgung Palace', 'bulguksa', 'cheoseongdae' 'observatory', ' gwanghanru', 'Changgyeonggung Palace'],
     'location' : ['서울특별시 종로구 사직로 161 ', '경북 경주시 불국로 385', '경북 경주시 인왕동 839-1 ', '전북 남원시 요천로 1447', '서울 종로구 창경궁로 185']}
)

In [126]:
# strip() 사용하여 모든 컬럼의 문자열에서 시작과 끝의 공백 제거
landmark['name'] = landmark['name'].str.strip()
landmark['english_name'] = landmark['english_name'].str.strip()
landmark['location'] = landmark['location'].str.strip()
#lstrip, rstrip 예시
landmark['name'] = landmark['name'].str.lstrip(' 경') # 경 으로 시작하는 경우 제거
landmark['english_name'] = landmark['english_name'].str.rstrip('e ') #'e'로 끝나는 경우 제거

landmark


Unnamed: 0,name,english_name,location
0,복궁,Gyeongbokgung Palac,서울특별시 종로구 사직로 161
1,불국사,bulguksa,경북 경주시 불국로 385
2,첨성대,cheoseongdaeobservatory,경북 경주시 인왕동 839-1
3,광한루원,gwanghanru,전북 남원시 요천로 1447
4,창경궁,Changgyeonggung Palac,서울 종로구 창경궁로 185
