# Pandas
- Pandas는 NumPy의 고성능 배열 계산 기능과 스프레드시트, SQL과 같은 관계형 데이터베이스의 데이터 조작 기능을 조합한 것. 
- Series : 1차원, list와 dictionary의 장점을 섞어 놓은 듯한 자료구조
- DataFrame : 2차원, 행과 열로 이루어진 2차원 테이블 형태의 자료구조


In [2]:
import pandas as pd

## Series: 1차원 배열 + index
#### index : values를 선택할 때 주소 역할을 하는 배열(값이 모두 달라야 함)
#### values : 데이터 부분에 해당하는 배열

- 생성 방법 1: s = Series(list/array)
- 생성 방법 2: s = Series(dictionary)
- 생성 방법 3: s = Series(list/array, index = list/array)

In [3]:
score = [84, 21, 87, 100, 59, 46]

In [5]:
s = pd.Series(score) #dtype = values의 데이터 타입
s

0     84
1     21
2     87
3    100
4     59
5     46
dtype: int64

In [7]:
%whos

Variable   Type      Data/Info
------------------------------
pd         module    <module 'pandas' from 'C:<...>es\\pandas\\__init__.py'>
s          Series    0     84\n1     21\n2    <...>9\n5     46\ndtype: int64
score      list      n=6


In [9]:
type(s) #Series type

pandas.core.series.Series

### 딕셔너리
- 생성방법 : s = Series(dictionary)
#### index + values 입력
- s = Series(list/array, index = list/array)

In [11]:
dic = {'철수':84, '영이':21, '길동':87, '미영':100, '순이':59, '철이':46 }

In [12]:
s = pd.Series(dic)
s

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int64

In [13]:
names = ['철수', '영이', '길동', '미영', '순이', '철이']

In [15]:
score = [84, 21, 87, 100, 59, 46]
s = pd.Series(score, index = names)
s

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int64

In [18]:
s.index #object type

Index(['철수', '영이', '길동', '미영', '순이', '철이'], dtype='object')

In [19]:
s.values

array([ 84,  21,  87, 100,  59,  46], dtype=int64)

### Series 산술 연산
- NumPy 의 Array간 덧셈: score1 + score2 → 같은 위치의 원소끼리 더함
- Pandas의 Series간 덧셈: s0 + s1 → 순서와 상관없이 같은 index명을 갖는 값끼리 더함

In [20]:
import numpy as np

In [21]:
names1 = np.array(['철수', '영이', '길동', '미영', '순이', '철이'])
score1 = np.array([84, 21, 87, 100, 59, 46])
names2 = np.array(['길동', '철수', '영이', '철이', '순이', '미영'])
score2 = np.array([99, 97, 87, 84, 77, 15])

In [24]:
s1 = pd.Series(score1, index = names1)
s2 = pd.Series(score2, index = names2)

In [26]:
s1

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int32

In [28]:
s2

길동    99
철수    97
영이    87
철이    84
순이    77
미영    15
dtype: int32

In [30]:
s1 + 10 #broadcasting

철수     94
영이     31
길동     97
미영    110
순이     69
철이     56
dtype: int32

In [32]:
s1 + s2 #순서와 상관없이 같은 index끼리 더함

길동    186
미영    115
순이    136
영이    108
철수    181
철이    130
dtype: int32

In [33]:
np.sqrt(s1)

철수     9.165151
영이     4.582576
길동     9.327379
미영    10.000000
순이     7.681146
철이     6.782330
dtype: float64

In [35]:
s2 > np.mean(s2) #평균 이상인 사람들

길동     True
철수     True
영이     True
철이     True
순이     True
미영    False
dtype: bool

In [38]:
#s1 > s2      #index가 다른 경우, 비교 불가

In [None]:
# 활용
dic = {'철수':84, '영이':21, '길동':87, '미영':100, '순이':59, '철이':46 }
names1 = np.array(['철수', '영이', '길동', '미영', '순이', '철이'])
score1 = np.array([84, 21, 87, 100, 59, 46])
names2 = np.array(['길동', '철수', '영이', '철이', '순이', '미영'])
score2 = np.array([99, 97, 87, 84, 77, 15])
score3 = np.array([86, 88, 90, 45, 93, 82])
['cat', 'dog', 'rabbit']
{'cat':'kitten', 'dog':'puppy'}

### Series 부분 정보 선택
- Index번호를 사용한 부분 정보 선택
- Index명을 사용한 부분 정보 선택


In [43]:
#index 번호를 사용한 부분 정보 선택
print(s1[2])
print()
print(s1[2:]) #슬라이싱
print()
print(s1[::2]) #처음부터 끝까지 step=2
print()
print(s1[1::2])

87

길동     87
미영    100
순이     59
철이     46
dtype: int32

철수    84
길동    87
순이    59
dtype: int32

영이     21
미영    100
철이     46
dtype: int32


In [46]:
#index 명을 사용한 부분 정보 선택
print(s1['영이'])
print()
print(s1['영이' : '순이']) #순이까지 포함
print()
print(s1['철이' : '길동' : -1]) #역순

21

영이     21
길동     87
미영    100
순이     59
dtype: int32

철이     46
순이     59
미영    100
길동     87
dtype: int32


### Series 값 추가
- index 명을 사용하여 값 추가

In [47]:
s = s1.copy()
s

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int32

In [48]:
id(s)

1744688663904

In [49]:
id(s1)

1744737668784

In [None]:
s['슬기'] = 90 #슬기 존재 x -> 값 추가
s

### Series 값 수정
- map() 함수를 통한  자료의 변환
-  Series객체.map(arg, na_action=None)

In [50]:
s[2] = 88
s

철수     84
영이     21
길동     88
미영    100
순이     59
철이     46
dtype: int32

In [51]:
s['길동'] = 87 #길동 존재 -> 값 수정
s

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int32

In [53]:
s = pd.Series(['cat', 'dog', 'rabbit'])
s

0       cat
1       dog
2    rabbit
dtype: object

In [57]:
r = s.map({'cat':'kitten', 'dog':'puppy'}) #map 함수 - before:after 순으로 변경
#값이 없을경우 NaN 반환
r

0    kitten
1     puppy
2       NaN
dtype: object

### Series 값 삭제
- index 명을 사용하여 값 삭제

In [58]:
del r[0]
r

1    puppy
2      NaN
dtype: object

### 비교 연산
- index가 같으면 비교 가능

In [59]:
score3 = np.array([86, 88, 90, 45, 93, 82])

In [60]:
s3 = pd.Series(score3, index = names1)
s3

철수    86
영이    88
길동    90
미영    45
순이    93
철이    82
dtype: int32

In [61]:
s1 == s3

철수    False
영이    False
길동    False
미영    False
순이    False
철이    False
dtype: bool

In [63]:
s1 > s3

철수    False
영이    False
길동    False
미영     True
순이    False
철이    False
dtype: bool

### 논리 연산과 filtering

In [75]:
x = s1 > 85
x

철수    False
영이    False
길동     True
미영     True
순이    False
철이    False
dtype: bool

In [76]:
s1[x]

길동     87
미영    100
dtype: int32

In [77]:
s1[s1 > 85].index

Index(['길동', '미영'], dtype='object')

In [78]:
s2[x]

길동    99
미영    15
dtype: int32

# DataFrame: 2차원 배열 / index + columns + values
- 생성 방법 1: Series를 이용하여 생성
- 생성 방법 2: 데이터 직접 넣어 생성

### 1. 빈 dataframe 만들기
- d = pd.DataFrame()

In [83]:
d = pd.DataFrame() #빈 데이터는 _ 로 출력
d

### 2. 열 채우기
- d[column명] = series

In [85]:
d['국어'] = s1
d

Unnamed: 0,국어
철수,84
영이,21
길동,87
미영,100
순이,59
철이,46


In [87]:
d['영어'] = s2
d

Unnamed: 0,국어,영어
철수,84,97
영이,21,87
길동,87,99
미영,100,15
순이,59,77
철이,46,84


In [89]:
d['국어'] #Series type

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
Name: 국어, dtype: int32

In [91]:
d.영어 #d['영어']

철수    97
영이    87
길동    99
미영    15
순이    77
철이    84
Name: 영어, dtype: int32

In [93]:
d['합'] = d.국어 + d.영어 #새로운 열 추가 -> d['column명']
d

Unnamed: 0,국어,영어,합
철수,84,97,181
영이,21,87,108
길동,87,99,186
미영,100,15,115
순이,59,77,136
철이,46,84,130


In [94]:
d.index

Index(['철수', '영이', '길동', '미영', '순이', '철이'], dtype='object')

In [95]:
d.columns

Index(['국어', '영어', '합'], dtype='object')

In [96]:
d.values

array([[ 84,  97, 181],
       [ 21,  87, 108],
       [ 87,  99, 186],
       [100,  15, 115],
       [ 59,  77, 136],
       [ 46,  84, 130]])

In [98]:
d.shape #values의 배열

(6, 3)

In [100]:
d.ndim #numpy - values 차원

2

### 1. index와 columns 지정 X
- index와 columns를 자동으로 0부터 생성

In [101]:
scores = [[84, 87, 78], [21, 15, 84], [87, 84, 76], [100, 87, 99], [59, 99, 59], [46, 77, 56]] #list
#scores는 모든 행의 열의 수가 동일 해야함
d = pd.DataFrame(scores)
d

Unnamed: 0,0,1,2
0,84,87,78
1,21,15,84
2,87,84,76
3,100,87,99
4,59,99,59
5,46,77,56


### 2. index와 columns 지정
- index와 columns를 지정

In [102]:
scores = [[84, 87, 78], [21, 15, 84], [87, 84, 76], [100, 87, 99], [59, 99, 59], [46, 77, 56]]
names = ['철수', '영이', '길동', '미영', '순이', '철이']
lectures =['국어', '영어', '수학']
d = pd.DataFrame(scores, index = names, columns = lectures)
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


In [104]:
#dictionary 사용 시, columns : key값으로 들어감
ScoresWithLectures = { '국어' :[84,21,87,100,59,46], 
                       '영어' :[87,15,84,87,99,77],
                       '수학' :[78,84,76,99,59,56]}
d = pd.DataFrame(ScoresWithLectures, index = names)
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


In [105]:
d1 = d.copy()

## Index, columns, values 접근
- Index: DataFrame객체.index
- Columns: DataFrame객체.columns
- Values: DataFrame객체.values

In [106]:
d.index

Index(['철수', '영이', '길동', '미영', '순이', '철이'], dtype='object')

In [107]:
d.columns

Index(['국어', '영어', '수학'], dtype='object')

In [108]:
d.values

array([[ 84,  87,  78],
       [ 21,  15,  84],
       [ 87,  84,  76],
       [100,  87,  99],
       [ 59,  99,  59],
       [ 46,  77,  56]], dtype=int64)

### index 변경
- DataFrame객체.index = 새로운 index 배열/list
- rename : 일부 index만 변경

In [111]:
d.index = ['학생1','학생2','학생3','학생4', '학생5', '학생6']
d

Unnamed: 0,국어,영어,수학
학생1,84,87,78
학생2,21,15,84
학생3,87,84,76
학생4,100,87,99
학생5,59,99,59
학생6,46,77,56


In [115]:
d.rename(index = {'학생1':'철수', '학생2' : '영이'}, inplace = True) #before : after #inplace : 내부(원본) 변경 여부
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
학생3,87,84,76
학생4,100,87,99
학생5,59,99,59
학생6,46,77,56


In [116]:
d = d1.copy()

### columns 변경
- DataFrame객체.columns = 새로운 columns 배열/list
- rename : 일부 columns만 변경

In [118]:
d.columns = ['과목1', '과목2', '과목3']
d

Unnamed: 0,과목1,과목2,과목3
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


In [119]:
d.rename(columns = {'과목1':'국어', '과목2' : '영어'}, inplace = True)
d

Unnamed: 0,국어,영어,과목3
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


In [120]:
d = d1.copy()

### 행 삭제
- DataFrame객체.drop(index/list/배열, [axis=0], inplace=True)

### 열 삭제
- DataFrame객체.drop(column명/list/배열, axis=1)

In [121]:
d.drop('영이', axis = 0, inplace = True)
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


In [126]:
d = d1.copy() #복원

In [128]:
d.drop('국어', axis = 1) #inplace 사용 X -> d는 보존, 결과만 반환
#여러 열 삭제 : 리스트로 작성
d.drop(['국어', '수학'], axis = 1)

Unnamed: 0,영어
철수,87
영이,15
길동,84
미영,87
순이,99
철이,77


### 행, 열 추가
- d['colums명'] = s1 : 열 추가
- d.loc['index명'] : 행 추가

In [129]:
d.loc['소영'] = [40, 70, 88]
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56
소영,40,70,88


In [131]:
d.loc['합계'] = d.sum(axis = 0) #행(가로) 추가
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56
소영,40,70,88
합계,874,1038,1080


In [132]:
d['합계'] = d.sum(axis = 1) #열(세로) 추가
d

Unnamed: 0,국어,영어,수학,합계
철수,84,87,78,249
영이,21,15,84,120
길동,87,84,76,247
미영,100,87,99,286
순이,59,99,59,217
철이,46,77,56,179
소영,40,70,88,198
합계,874,1038,1080,2992


### 행의 수 
-  len( DataFrame객체) 
### 열의 수 
- len( DataFrame객체.loc[행이름]  )
- len(DataFrame객체.iloc[행번호]  )

In [133]:
d.shape

(8, 4)

In [134]:
len(d) #행의 수

8

In [135]:
len(d.loc['철수']) #열의 수

4

In [136]:
len(d.iloc[0]) #integer loc

4

### 열 indexing: DataFrame객체[column명] 또는 DataFrame객체.column명
### 행 slicing: Series와 동일
- DataFrame객체[행번호 : 행번호] 
- DataFrame객체[index명 : index명] 
### 열과 행 같이 선택
- DataFrame객체[column명][행번호:행번호]
- DataFrame객체[column명][index명: index명] 
- DataFrame객체.column명[행번호:행번호] 
- DataFrame객체.column명[index명 : index명]
### 행 선택
- loc를 이용한 행 선택
- iloc를 이용한 행 선택

In [140]:
d = d1.copy()
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


In [141]:
d[1:3]

Unnamed: 0,국어,영어,수학
영이,21,15,84
길동,87,84,76


In [143]:
d['길동' : '순이']

Unnamed: 0,국어,영어,수학
길동,87,84,76
미영,100,87,99
순이,59,99,59


In [146]:
d['국어'][1:3] #d.국어[1:3] #열, 행 순서

영이    21
길동    87
Name: 국어, dtype: int64

In [147]:
d['수학']['철수' : '길동'] #d.수학['철수' : '길동']

철수    78
영이    84
길동    76
Name: 수학, dtype: int64

In [148]:
d.loc['철수', '국어':'수학'] #numpy와 비슷 #행, 열 순서

국어    84
영어    87
수학    78
Name: 철수, dtype: int64

In [150]:
d.iloc[0]

국어    84
영어    87
수학    78
Name: 철수, dtype: int64

In [152]:
d.iloc[0, 1] #행,열 순서

87

In [154]:
d.iloc[[1,2]] #리스트(1번행, 2번행) #추출하려는 행의 번호

Unnamed: 0,국어,영어,수학
영이,21,15,84
길동,87,84,76


### 산술 연산

In [159]:
d.iloc[0] + d.iloc[1] #결과 : Series type
#철수와 영희의 점수의 합

국어    105
영어    102
수학    162
dtype: int64

In [161]:
d.sum() #열의 합 (축번호 0)

국어    397
영어    449
수학    452
dtype: int64

In [163]:
d.sum(axis = 1)

철수    249
영이    120
길동    247
미영    286
순이    217
철이    179
dtype: int64

In [164]:
d.수학['영이'] = 78 #d['수학']['영이'] = 78  #열 우선
d

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,78
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### 비교/논리 연산
- 비교 연산자: ==, != , >, >=, <, <=
- 논리 연산자 (Numpy와 동일): & (AND), |(OR), ~(NOT) 
- df.any() : df의 요소에 True가 있으면 True 반환
- df.all() : df의 모든 요소가 True 이면 True 반환
### 논리 연산과 filtering
- value_counts(): 유일한 값을 가지는 행의 수를 계산 

In [166]:
d.수학.value_counts() #dtype은 value의 데이터 타입

78    2
76    1
99    1
59    1
56    1
Name: 수학, dtype: int64

In [172]:
#수학 점수가 60점 초과인 학생은?
x = d.수학 > 60
d[x] #d[x].index.value_counts().sum() / len(d[x].index)

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,78
길동,87,84,76
미영,100,87,99


In [176]:
#수학 점수가 60점 이상, 80점 미만인 학생은?
d[(d.수학 >= 60) & (d.수학 < 80)].index #괄호 필수

Index(['철수', '영이', '길동'], dtype='object')

In [178]:
#전 과목에서 70점이상 점수를 받은 학생은?
d[d >= 70].value_counts().sum()

3

### 열 기준 정렬하기
- index 기준: DataFrame객체.sort_index(ascending = True/False)
- 특정 열 기준: DataFrame객체.sort_values(by = 'column명', ascending = True/False)


In [184]:
d.sort_index() #index기준으로 정렬 #가나다순(default 오름차순)

Unnamed: 0,국어,영어,수학
길동,87,84,76
미영,100,87,99
순이,59,99,59
영이,21,15,78
철수,84,87,78
철이,46,77,56


In [185]:
d.sort_values(by = '국어', ascending = False) #국어를 기준으로 내림차순

Unnamed: 0,국어,영어,수학
미영,100,87,99
길동,87,84,76
철수,84,87,78
순이,59,99,59
철이,46,77,56
영이,21,15,78


### 평균값
- 모든 열의 평균값: DataFrame객체.mean()
- 특정 열의 평균값: DataFrame객체['column명'].mean()

In [187]:
d.mean()

국어    66.166667
영어    74.833333
수학    74.333333
dtype: float64

In [188]:
d.국어.mean()

66.16666666666667

### 중간값
- 모든 열의 중간값: DataFrame객체.median()
- 특정 열의 중간값: DataFrame객체['column명']. median()


In [186]:
d.국어.median()

71.5

### 최댓값, 최솟값, 표준편차
- 모든 열의 최대값: DataFrame객체.max()
- 특정 열의 최대값: DataFrame객체['column명']. max()

In [190]:
d.max() #과목 별 최댓값

국어    100
영어     99
수학     99
dtype: int64

In [193]:
d[['국어', '수학']].min()

국어    21
수학    56
dtype: int64

In [195]:
#표준편차
d.std()

국어    29.647372
영어    30.162339
수학    15.552063
dtype: float64

In [196]:
d.국어.std()

29.64737200270315

### 상관계수 : corr()
- 두 변수간의 관계 강도를 나타냄
- 모든 열의 상관계수: DataFrame객체.corr()
- 특정 열의 상관계수 : DataFrame객체[column명 리스트].corr()


In [197]:
d.corr()

Unnamed: 0,국어,영어,수학
국어,1.0,0.739217,0.541629
영어,0.739217,1.0,-0.114975
수학,0.541629,-0.114975,1.0


## 파일 입출력
### 엑셀 파일로 저장하기
- DataFrame객체.to_excel('경로/파일명', encoding = '코딩방식')
- 한글 encoding 방식: encoding = 코딩방식(utf-8이나 euc-kr 사용)
### 엑셀 파일 읽어오기
- DataFrame객체 = pd.read_excel('경로/파일명', sheet_name='시트명', encoding = '코딩방식')
- 시트명을 넣어주지 않으면 1번째 시트에서 읽어 옴
- index열 지정: index_col = 열번호


In [198]:
d1.to_excel("D:/Ai/scores.xlsx", encoding='utf-8') #한글 utf-8

In [5]:
d2 = pd.read_excel("D:/Ai/scores.xlsx")

In [7]:
d2

Unnamed: 0.1,Unnamed: 0,국어,영어,수학
0,철수,84,87,78
1,영이,21,15,84
2,길동,87,84,76
3,미영,100,87,99
4,순이,59,99,59
5,철이,46,77,56


In [12]:
d3 = pd.read_excel("D:/Ai/scores.xlsx", index_col = 0) #0번 column을 index 지정
d3

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### CSV(comma-separated values) 파일로 저장하기
줄바꿈으로 행, comma 등으로 열을 구분하여 데이터를 저장하는 파일 형식
DataFrame객체.to_csv('경로/파일명.csv', encoding = '코딩방식')
한글 encoding 방식은 euc-kr 권장

### CSV 파일 읽어오기
DataFrame객체 = pd.read_csv('경로/파일명', encoding = '코딩방식')
index열 지정: index_col = 열번호
comma(,) 외의 구별 문자 지정: sep = 구별문자(보통 '\t' 탭)




In [1]:
d1.to_csv("D:/Ai/scores.csv") #csv 파일로 저장하기

NameError: name 'd1' is not defined

In [13]:
d1 = d3.copy()

In [14]:
d2 = pd.read_csv("D:/Ai/scores.csv")
d2

Unnamed: 0.1,Unnamed: 0,국어,영어,수학
0,철수,84,87,78
1,영이,21,15,84
2,길동,87,84,76
3,미영,100,87,99
4,순이,59,99,59
5,철이,46,77,56


In [15]:
d3 = pd.read_csv("D:/Ai/scores.csv", index_col = 0)
d3

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### JSON 파일로 저장하기
DataFrame객체.to_json('경로/파일명')

In [202]:
d1.to_json("D:/Ai/scores.json")

### JSON 파일 읽어오기

In [22]:
d2 = pd.read_json("D:/Ai/scores.json") #자동으로 index가짐
d2

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


#### 파일 읽어오기

In [18]:
d = pd.read_csv("D:/Ai/scores_2.csv", index_col = 0)
d

Unnamed: 0,성별,점수
철수,남,90
영이,여,90
길동,남,85
미영,여,99
순이,여,76
철이,남,98


In [20]:
print(d.index)
print(d.columns)
print(d.values)
print(d.shape)

Index(['철수', '영이', '길동', '미영', '순이', '철이'], dtype='object')
Index(['성별', '점수'], dtype='object')
[['남' 90]
 ['여' 90]
 ['남' 85]
 ['여' 99]
 ['여' 76]
 ['남' 98]]
(6, 2)


## 그룹화: 값이 같은 원소들끼리 그룹화
DataFrame객체.groupby(기준이 되는 열의 리스트)


In [21]:
grouped = d.groupby(['성별'])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001891298B250>

In [23]:
for key, group in grouped: #성별을 기준으로 그룹화 되어있음
    print('* key: ', key)
    print('* number: ', len(group))
    print(group)
    print()

* key:  남
* number:  3
   성별  점수
철수  남  90
길동  남  85
철이  남  98

* key:  여
* number:  3
   성별  점수
영이  여  90
미영  여  99
순이  여  76



### 그룹 연산: 데이터 집계
- group객체.함수()  
- (함수: mean(), max(), min(), sum(), count(), std(), 등등)


In [24]:
mean_all = grouped.mean()
mean_all

Unnamed: 0_level_0,점수
성별,Unnamed: 1_level_1
남,91.0
여,88.333333


### 그룹 연산: 데이터 변환
- group객체.transform(매핑 함수)


In [26]:
def diff(x):
    return (x-x.mean())

grouped.transform(diff) #자기 그룹과의 평균과 차이 구하기

Unnamed: 0,점수
철수,-1.0
영이,1.666667
길동,-6.0
미영,10.666667
순이,-12.333333
철이,7.0


### 그룹 연산: 그룹 객체 필터링
- group객체.filter(조건식 함수)


In [28]:
grouped.filter(lambda x : x.점수.mean() > 90) #평균이 90 초과인 그룹

Unnamed: 0,성별,점수
철수,남,90
길동,남,85
철이,남,98


### 전처리 함수

### 누락 데이터 확인
- isnull() : 누락 데이터이면 True를 반환하고, 유효한 데이터가 존재하면 False를 반환
- notnull() : 유효한 데이터가 존재하면 True를 반환하고, 누락 데이터이면 False를 반환


In [29]:
#데이터 프레임 준비
d1 = pd.read_csv("D:/Ai/scores.csv", index_col = 0)
d2 = pd.read_csv("D:/Ai/scores_3.csv", index_col = 0)

In [31]:
d3 = d1 + d2 #자동으로 index찾아서 계산
d3

Unnamed: 0,국어,영어,수학
길동,167.0,174.0,156.0
미영,200.0,177.0,198.0
순이,136.0,194.0,129.0
슬기,,,
영이,71.0,75.0,154.0
철수,164.0,167.0,168.0
철이,,,


In [33]:
d3.isnull() #null값이면 True

Unnamed: 0,국어,영어,수학
길동,False,False,False
미영,False,False,False
순이,False,False,False
슬기,True,True,True
영이,False,False,False
철수,False,False,False
철이,True,True,True


In [34]:
d3.isnull().sum() #열 별로 null값의 개수

국어    2
영어    2
수학    2
dtype: int64

In [35]:
d3.notnull().sum()

국어    5
영어    5
수학    5
dtype: int64

In [36]:
d3.isnull().sum(axis = 1)

길동    0
미영    0
순이    0
슬기    3
영이    0
철수    0
철이    3
dtype: int64

### 누락 데이터 제거
- 행 제거: DataFrame객체.dropna(subset=column명 리스트, how='any'/'all', axis=0, thresh=개수)
- 열 제거: DataFrame객체.dropna(axis=1, thresh=개수)
- tresh : 유효한 값의 개수가 tresh의 값보다 작은 행이나 열을 삭제

In [37]:
#누락데이터가 하나라도 있는 학생
x = d3.isnull().sum(axis = 1) >= 1
x

길동    False
미영    False
순이    False
슬기     True
영이    False
철수    False
철이     True
dtype: bool

In [38]:
d3[x]

Unnamed: 0,국어,영어,수학
슬기,,,
철이,,,


In [39]:
d3[x].index

Index(['슬기', '철이'], dtype='object')

In [None]:
d3.dropna(subset = ['국어']) #열 삭제

### 누락 데이터 치환
- DataFrame객체['column명'].fillna(값) : 새로운 객체 반환
- DataFrame객체['column명'].fillna(값, inplace = True) : 원본 객체 변경

In [40]:
min_kor = d3['국어'].min() #국어 점수의 최솟값
d3['국어'].fillna(min_kor, inplace = True) #빈칸인 경우, 최솟값으로 채우기    #원본 변경
d3

Unnamed: 0,국어,영어,수학
길동,167.0,174.0,156.0
미영,200.0,177.0,198.0
순이,136.0,194.0,129.0
슬기,71.0,,
영이,71.0,75.0,154.0
철수,164.0,167.0,168.0
철이,71.0,,


## 중복 데이터 확인
- 행 중복 확인: DataFrame객체.duplicated()
- 열 중복 확인: DataFrame객체['column명'].duplicated()


In [41]:
d3.duplicated()

길동    False
미영    False
순이    False
슬기    False
영이    False
철수    False
철이     True
dtype: bool

### 중복 데이터 제거
- 중복 행 제거: DataFrame객체.drop_duplicates(subset=column명 리스트)

In [43]:
d3.drop_duplicates() #중복 '철이' 삭제 #원본 그대로 존재

Unnamed: 0,국어,영어,수학
길동,167.0,174.0,156.0
미영,200.0,177.0,198.0
순이,136.0,194.0,129.0
슬기,71.0,,
영이,71.0,75.0,154.0
철수,164.0,167.0,168.0


In [44]:
d3.drop_duplicates(subset = ['영어', '수학'])

Unnamed: 0,국어,영어,수학
길동,167.0,174.0,156.0
미영,200.0,177.0,198.0
순이,136.0,194.0,129.0
슬기,71.0,,
영이,71.0,75.0,154.0
철수,164.0,167.0,168.0


### 자료형 변환
- DataFrame객체['column명'].astype(자료형)

In [45]:
d3['길동':'미영'].astype('int') #slicing: 길동~미영(포함)까지

Unnamed: 0,국어,영어,수학
길동,167,174,156
미영,200,177,198


## 열 순서 변경

In [46]:
#sort_index 실행 시 행(index)순으로 정렬
sc = sorted(d1.columns) #가나다 순으로 정렬
d1[sc] #slicing개념 활용

Unnamed: 0,국어,수학,영어
철수,84,78,87
영이,21,84,15
길동,87,76,84
미영,100,99,87
순이,59,59,99
철이,46,56,77
