# 제2장 데이터 핸들링

## 제1절. 판다스 데이터구조

판다스는 Series와 DataFrame 구조를 지원한다.
-  Series는 1차원 배열구조로 이름과 형식을 가지고 모든 값에 대해 고유한 인덱스를 가진다는 특징이 있다.
- DataFrame은 행, 열로 이루어진 2차원 배열구조이다. 각 행은 인덱스를 가지며, 각 열은 이름과 형식을 가진다.


## 제2절 DataFrame 기본

### DataFrame 선언하기

In [132]:
import numpy as np
import pandas as pd
dataset = np.array([['kor' , 70] , ['math',80]])
df = pd.DataFrame(dataset, columns = ['class','score'])

df

Unnamed: 0,class,score
0,kor,70
1,math,80


### DataFrame 읽고 저장하기

In [133]:
filepath = 'data/cats.csv'

data = pd.read_csv(filepath , na_values= 'NA' , encoding = 'utf8')

1. read_csv() 사용해서 csv 파일을 DataFrame 객체로 읽어 들일 수 있다.
2. csv 파일에서 null값이 빈칸이 아닌 어떠한 string 값으로 저장된 경우 이를 인식하기 위해 na_values 사용. 영어 외의 언어로 작성된 값이 포함된 경우 적절한 형식으로 인코딩 
3. 데이터 프레임을 csv 파일로 저장할때는 DataFrame.to_csv() 함수 사용

In [134]:
# data.to_csv('result.csv', header = True, index = True , encoding= 'utf8')

### DataFrame 출력|

head() , tail()함수로 처음 or 마지막 몇줄 출력할 수 있다.

In [135]:
from sklearn.datasets import load_iris
iris = load_iris()
iris = pd.DataFrame(iris.data, columns=iris.feature_names)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [136]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [137]:
iris.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


### DataFrame 요약 통계정보 확인하기

1. 데이터의 내용을 확인했다면 그 다음으로 데이터프레임의 요약,통계정보를 확인. 
- info() 함수를 통해 총 데이터의 건수와 각 컬럼의 데이터 형식과 결측치의 건수 확인
- 수치형 컬럼이 존재하는 경우 describe() 함수를 사용하여 수치형 컬럼들의 n-percentile 분포도와 평균값, 최댓값 등을 확인

In [138]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


- 해석 

150개의 행과 4개의 컬럼을 가지고 있다.

모든 컬럼은 결측값을 가지고 있지 않다. 모든 컬림의 데이터 값은 float64로 실수형 데이터다.

In [139]:
iris.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


iris의 sepal length 컬럼의 범위는 4.3 ~ 7.9이고 petal width 컬럼의 범위는 0.1~2.5로 그 크기가 상당히 차이 난다.

-> 회귀 분석을 수행할 경우 데이터값의 크기가 상대적으로 작은 petal width의 경우 sepal length 등 값의 숫자가 큰 다른 컬럼들에 비해 분석모델에 미치는 영향력이 적을 수 있다.

-> 이는 모델링 전처리 과정에서 변수의 정규화를 수행하는 근거가 될 수 있다.

### DataFrame 인덱스 확인, 추가

1. DataFrame은 index와 columns 속성을 가지고 있으며, 이를 통해 인덱스나 컬럼을 수정하거나 출력 가능하다. 인덱스나 컬럼명을 수정할 경우 list나 numpy.array의 형식을 사용할 수 있고, 기존의 데이터와 길이가 같아야한다.

In [140]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [141]:
list(df.index)

[0, 1]

In [142]:
df.index= ['A','B']
df.index

Index(['A', 'B'], dtype='object')

In [143]:
df

Unnamed: 0,class,score
A,kor,70
B,math,80


2. set_index()를 사용하면 DataFrame 내의 열을 인덱스로 변경할 수 있음. 

In [144]:
#drop : 인덱스로 세팅한 컬럼을 삭제할지를 결정
#append : 기존에 존재하던 인덱스를 삭제할지, 컬럼으로 추가할지 결정
#inplace : 원본 객체 변경할지 결정
df.set_index('class' ,drop = True, append = False , inplace = True)
df

Unnamed: 0_level_0,score
class,Unnamed: 1_level_1
kor,70
math,80


3. reset_index()를 사용하면 인덱스를 0부터 시작하는 정수로 재설정 할 수 있다.

In [145]:
#drop : 기존 인덱스를 DataFrame에서 삭제할지, 컬럼으로 추가할지 결정
#inplace : 원본 객체를 변경할지를 결정
df.reset_index(drop = False, inplace= True) 
df

Unnamed: 0,class,score
0,kor,70
1,math,80


### DataFrame 컬럼명 확인 및 변경

In [146]:
iris.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [147]:
iris.columns = ['sepal length', 'sepal width', 'petal length', 'petal width']
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


- replace()를 사용하여 다음과 같은 방식으로 컬럼명 내의 특정 문자를 다른 문자로 대체 할 수 있다.

In [148]:
iris.columns = iris.columns.str.replace(' ','_')
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


### DataFrame 컬럼의 데이터 타입 확인 및 변경

In [149]:
iris.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
dtype: object

- 분석 목적이나 사용 모델에 따라 데이터 타입을 변경해야 할 때가 있다. 이 경우 astype()을 통해 변경할 수 있다.

In [150]:
iris[['sepal_width','petal_length']] = iris[['sepal_width','petal_length']].astype('int')
iris.head(3)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3,1,0.2
1,4.9,3,1,0.2
2,4.7,3,1,0.2


## 제3절 Row/Column 선택,추가,삭제

### row/column 선택

- row 선택하기

In [151]:
#DataFrame[n:m]

iris[1:4]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
1,4.9,3,1,0.2
2,4.7,3,1,0.2
3,4.6,3,1,0.2


- column 선택하기

In [152]:
# DataFrame['컬럼명'] : 하나의 컬럼을 Series 형식으로 출력
# DataFrame[['컬럼1', '컬럼2']] : 여러 개의 컬럼을 DataFrame 형식으로 출력

iris[['sepal_length', 'sepal_width']].head()



Unnamed: 0,sepal_length,sepal_width
0,5.1,3
1,4.9,3
2,4.7,3
3,4.6,3
4,5.0,3


- row, column 선택하기

iloc 또는 loc 속성을 사용하여 행과 열을 모두 지정할 수 있다.

정수로된 위치 기반 인덱스로 행과 열을 선택하고자 할때 iloc[ ] 사용.

인수를 하나만 설정할 경우 행을 지정하고, 인수를 두 개 설정할 경우 순서대로 행과 열을 지정함

인수는 정수, 리스트, 슬라이싱 , boolean array가 들어갈 수 있다.

In [153]:
# DataFrame.iloc[row, column] 

iris.iloc[[1,3,5] , 2:4]

Unnamed: 0,petal_length,petal_width
1,1,0.2
3,1,0.2
5,1,0.4


레이블(인덱스의 이름 혹은 컬럼명)으로 행과 열을 선택하고자 할때는 loc[ ] 사용.

이때 슬라이싱에서 start:end 사용하면 **end까지 포함한다!!**

In [154]:
iris.loc[[1,2] , 'sepal_length':'petal_length']

Unnamed: 0,sepal_length,sepal_width,petal_length
1,4.9,3,1
2,4.7,3,1


- 선택한 값 변경하기


In [155]:
score = pd.DataFrame({'국어' : [100, 80], 
                      '수학' : [75,90],
                      '영어' : [90,95]} , 
                      index = ['장화', '홍련'])

In [156]:
score.loc['홍련' , '영어'] = 100
score

Unnamed: 0,국어,수학,영어
장화,100,75,90
홍련,80,90,100


In [157]:
score['국어'] = score['국어'] - 5
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100


### row/column 추가

- row 추가

데이터 프레임 한 행을 추가하는것은 append()를 사용. 

In [158]:
new_students = pd.DataFrame({'국어' : [70,85],
                             '수학' : [65, 100],
                             '영어' : [95,65]} ,
                             index = ['콩쥐', '팥쥐'])
new_students

Unnamed: 0,국어,수학,영어
콩쥐,70,65,95
팥쥐,85,100,65


In [159]:
score = score.append(new_students)

AttributeError: 'DataFrame' object has no attribute 'append'

*Python 3.9+ & pandas 1.4 이후부터 append()는 Deprecated (더 이상 권장되지 않음)*

In [None]:
score = pd.concat([score, new_students])
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65


Series 그대로 붙이면 이렇게 나옴

In [None]:
new_students1 = pd.Series({'국어' : 85 ,
                           '수학' : 55,
                           '영어' : 95 },
                            name = '해님')

score1 = pd.concat([score, new_students1.to_frame()])
score1

Unnamed: 0,국어,수학,영어,해님
장화,95.0,75.0,90.0,
홍련,75.0,90.0,100.0,
콩쥐,70.0,65.0,95.0,
팥쥐,85.0,100.0,65.0,
국어,,,,85.0
수학,,,,55.0
영어,,,,95.0


to_frame() 써서 데이터프레임으로 바꾸고 .T로 행렬 바꿔야함

In [None]:
new_students1 = pd.Series({'국어' : 85 ,
                           '수학' : 55,
                           '영어' : 95 },
                            name = '해님')

score = pd.concat([score, new_students1.to_frame().T])
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65
해님,85,55,95


- column 추가

In [None]:
science = [80, 70, 90, 85, 75]
score['과학'] = science
score['학년'] = 1
score

Unnamed: 0,국어,수학,영어,과학,학년
장화,95,75,90,80,1
홍련,75,90,100,70,1
콩쥐,70,65,95,90,1
팥쥐,85,100,65,85,1
해님,85,55,95,75,1


In [None]:
score['과학'] = score['과학'] + 5
score['총점'] = score['국어']+score['수학']+score['영어']+score['과학']
score

Unnamed: 0,국어,수학,영어,과학,학년,총점
장화,95,75,90,85,1,345
홍련,75,90,100,75,1,340
콩쥐,70,65,95,95,1,325
팥쥐,85,100,65,90,1,340
해님,85,55,95,80,1,315


### row/column 삭제

drop()을 사용해서 삭제 가능

In [None]:
#index : 삭제할 행의 인덱스 혹인 인덱스의 리스트를 지정
#columns : 삭제할 컬럼의 이름 혹은 컬럼명의 리스트를 지정
#inplace : False일 경우 작업 수행의 결과를 복사본으로 반환하고, True이면 작업ㅇ르 수행하고 None을 반환

score.drop(index = '장화', inplace = True)
score.drop(columns =['과학', '학년', '총점'] , inplace = True)
score

Unnamed: 0,국어,수학,영어
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65
해님,85,55,95


## 조건에 맞는 데이터 탐색 및 수정

- 1 임의의 조건 탐색 및 데이터 수정

In [None]:
# DataFrame 생성
students = pd.DataFrame({'이름' : ['장화', '홍련', '콩쥐', '팥쥐', '해님', '달님'],
                         '국어' : [70, 85, None, 100, None, 70],
                         '수학' : [65,100,80,95,None, 70]} )
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,70.0,70.0


In [None]:
students[students['이름'] == '장화']

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0


In [None]:
students[(students['국어'] >= 80) & (students['수학'] >= 80)]

Unnamed: 0,이름,국어,수학
1,홍련,85.0,100.0
3,팥쥐,100.0,95.0


loc[ ] 에도 조건문을 사용하여 데이터를 탐색가능하다.

loc[ ] 는 존재하지 않는 레이블을 지정할 경우 새로운 행/열을 만드는 특징이 있다!!

In [None]:
students.loc[6, '이름':'수학'] = ['별님' , 50, 60]
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,70.0,70.0
6,별님,50.0,60.0


In [None]:
students.loc[(students['국어'] >= 80) & (students['수학'] >= 70) ,'합격'] = 'Pass'
students.loc[students['합격'] != 'Pass', '합격'] = 'Fail'
students

Unnamed: 0,이름,국어,수학,합격
0,장화,70.0,65.0,Fail
1,홍련,85.0,100.0,Pass
2,콩쥐,,80.0,Fail
3,팥쥐,100.0,95.0,Pass
4,해님,,,Fail
5,달님,70.0,70.0,Fail
6,별님,50.0,60.0,Fail


하나의 컬럼에 여러 개의 조건에 따라 다른값을 변경해야 하는 경우 Numpy.select()를 활용할 수 있다

In [None]:
#np.select(조건목록, 선택목록, defalut = 디폴트값)

condition_list = [(students['국어'] >= 90) ,
                  (students['국어'] >= 80) & (students['국어'] < 90) ,
                  (students['국어'] >= 70) & (students['국어'] < 80) ]
choice_list = ['A','B','C']

students['점수'] = np.select(condition_list , choice_list, default='F')
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,70.0,70.0,Fail,C
6,별님,50.0,60.0,Fail,F


2. 결측값 탐색 및 수정

- 결측값 탐색

결측값 탐색 : isna(), isnull()

결측값 아닌 값 탐색 : notna() , notnull()

In [None]:
students.isna().sum()

이름    0
국어    2
수학    1
합격    0
점수    0
dtype: int64

In [None]:
students.isna().sum(1)
# sum(1)은 행의 합계

0    0
1    0
2    1
3    0
4    2
5    0
6    0
dtype: int64

- 결측값 제거 : dropna()

In [160]:
students.dropna() # 결측값이 포함된 모든 행 삭제

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,70.0,70.0,Fail,C
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(thresh= 4) # 결측값이 아닌 값이 4개보다 많은 행만 남기기

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
5,달님,70.0,70.0,Fail,C
6,별님,50.0,60.0,Fail,F


- 결측값 대체

In [163]:
# valule : 단일 값 혹은 dict/ Series / DataFrame 형식으로 대체할 값 입력
# method : 'pad', 'fill' 이전값으로 채우고, 'backfill','bfill' 은 다음에 오는 값으로 채움 
# axis : 0 또는 'index' 이면 행방향으로 채우고 1 또는 'columns'이면 열 방향으로 채움
# limit : method 인자를 지정한 경우 limit으로 지정한 개수만큼만 대체할 수 있음.

In [None]:
# DF 만들기
health = pd.DataFrame({'연도' : [2017,2018,2019,2020,2021,2022],
                       '키' : [160, 162, 165, None, None, 166],
                       '몸무게':[53, 52, None, 50, 51, 54],
                       '시력':[1.2, None, 1.2, 1.2, 1.1, 0.8],
                       '병결':[None, None, None, 2, None, 1]})
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,,
2,2019,165.0,,1.2,
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0


In [165]:
health.fillna(0)

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,0.0,0.0
2,2019,165.0,0.0,1.2,0.0
3,2020,0.0,50.0,1.2,2.0
4,2021,0.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [166]:
health.fillna(health.mean())

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,1.5
1,2018,162.0,52.0,1.1,1.5
2,2019,165.0,52.0,1.2,1.5
3,2020,163.25,50.0,1.2,2.0
4,2021,163.25,51.0,1.1,1.5
5,2022,166.0,54.0,0.8,1.0


In [168]:
health['병결'] = health['병결'].fillna(0)
health['몸무게'] = health['몸무게'].fillna(health['몸무게'].mean())
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
#health.fillna(method= 'pad') -> 곧 사라짐

health.ffill()

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,165.0,50.0,1.2,2.0
4,2021,165.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


3. 중복행 삭제

drop_duplicates() 사용

In [173]:
health['키'].drop_duplicates()


0    160.0
1    162.0
2    165.0
3      NaN
5    166.0
Name: 키, dtype: float64

In [176]:
set(health['키']) #set로도 사용 가능 출력 형식은 tuple 

{160.0, 162.0, 165.0, 166.0, nan, nan}

In [177]:
health[['시력',  '병결']].drop_duplicates()

Unnamed: 0,시력,병결
0,1.2,0.0
1,,0.0
3,1.2,2.0
4,1.1,0.0
5,0.8,1.0
