# Pandas Handling

In [1]:
# 패키지 불러오기
import pandas as pd # Pandas
import numpy as np # Numpy

## 1. 데이터 정렬 및 순위

### 데이터 정렬

In [2]:
# .sort_values
# 데이터 프레임 생성
obj = {'Name' : ['Olivia', 'Lucas', 'Sophia', 'Zoe', 'Ava', 'Elliot'],
       'Age' : [22, 22, 27, 18, 18, 19],
       'Score' : [100, 95, 60, 77, 83, 84]
       }
df = pd.DataFrame(obj)

# Score 열에 대하여 데이터프레임 오름차순 정렬
df.sort_values('Score')

Unnamed: 0,Name,Age,Score
2,Sophia,27,60
3,Zoe,18,77
4,Ava,18,83
5,Elliot,19,84
1,Lucas,22,95
0,Olivia,22,100


In [3]:
# Age와 Score 열에 대하여 데이터프레임 정렬
# Age에 대해 오름차순으로 정렬되고, 동일한 Age에 대해 Score가 내림차순 정렬됨
df.sort_values('Score', ascending = False)

Unnamed: 0,Name,Age,Score
0,Olivia,22,100
1,Lucas,22,95
5,Elliot,19,84
4,Ava,18,83
3,Zoe,18,77
2,Sophia,27,60


In [4]:
# Age와 Score 열에 대하여 데이터프레임 정렬
# Age에 대해 오름차순으로 정렬되고, 동일한 Age에 대해 Score가 내림차순 정렬됨
df.sort_values(['Age', 'Score'], ascending = [True, False])

Unnamed: 0,Name,Age,Score
4,Ava,18,83
3,Zoe,18,77
5,Elliot,19,84
0,Olivia,22,100
1,Lucas,22,95
2,Sophia,27,60


In [5]:
# .sort_index
# 데이터 프레임 생성
rownm = ['Olivia', 'Lucas', 'Sophia', 'Zoe', 'Ava', 'Elliot']

obj = {'Score' : [100, 95, 60, 77, 83, 84],
       'Age' : [22, 22, 27, 18, 18, 19],
       }
df = pd.DataFrame(obj, index = rownm)

In [6]:
# 행 인덱스에 대해 오름차순으로 정렬됨
df.sort_index()

Unnamed: 0,Score,Age
Ava,83,18
Elliot,84,19
Lucas,95,22
Olivia,100,22
Sophia,60,27
Zoe,77,18


In [7]:
# 열 인덱스에 대해 오름차순으로 정렬됨
df.sort_index(axis = 1)

Unnamed: 0,Age,Score
Olivia,22,100
Lucas,22,95
Sophia,27,60
Zoe,18,77
Ava,18,83
Elliot,19,84


### 데이터 순위

In [8]:
# .rank

# 데이터 프레임 생성
obj = {'Score' : [100, 95, 60, 77, 83, 85, 90, 90, 88, 75, 90, 54, 48, 84, 73],
       'Age' : [22, 22, 27, 18, 18, 19, 24, 26, 30, 27, 25, 21, 20, 17, 20]
       }
df = pd.DataFrame(obj)

In [9]:
# Score에 대해 순위 생성
# 결과 비교가 용이하도록 정렬을 먼저 수행
# inplace = True로 원본 데이터프레임을 바로 변경
df.sort_values('Score', ascending = False, inplace = True)
df.head()

Unnamed: 0,Score,Age
0,100,22
1,95,22
6,90,24
7,90,26
10,90,25


In [10]:
# case1. 동점자 평균 순위
df['rank_avg1'] = df['Score'].rank()

# case2. 동점자 평균 순위(가장 큰 값이 1위)
# Score가 90인 경우가 3개로, 3~5위의 평균인 4위
df['rank_avg2'] = df['Score'].rank(ascending = False)

# case3. 동점자 가장 낮은 순위(가장 큰 값이 1위)
# Score가 90인 경우가 3개로, 3~5위 중 가장 낮은 3위 
df['rank_min'] = df['Score'].rank(method = 'min', ascending = False)

# case4. 동점자 가장 높은 순위(가장 큰 값이 1위)
# Score가 90인 경우가 3개로, 3~5위 중 가장 높은 5위 
df['rank_max'] = df['Score'].rank(method = 'max', ascending = False)
print(df)

    Score  Age  rank_avg1  rank_avg2  rank_min  rank_max
0     100   22       15.0        1.0       1.0       1.0
1      95   22       14.0        2.0       2.0       2.0
6      90   24       12.0        4.0       3.0       5.0
7      90   26       12.0        4.0       3.0       5.0
10     90   25       12.0        4.0       3.0       5.0
8      88   30       10.0        6.0       6.0       6.0
5      85   19        9.0        7.0       7.0       7.0
13     84   17        8.0        8.0       8.0       8.0
4      83   18        7.0        9.0       9.0       9.0
3      77   18        6.0       10.0      10.0      10.0
9      75   27        5.0       11.0      11.0      11.0
14     73   20        4.0       12.0      12.0      12.0
2      60   27        3.0       13.0      13.0      13.0
11     54   21        2.0       14.0      14.0      14.0
12     48   20        1.0       15.0      15.0      15.0


## 2. 데이터 결합

### 데이터 붙이기

In [11]:
import pandas as pd

# 데이터프레임1 생성
obj1 = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'score' : [55, 90, 85, 71, 63, 99]}
df1 = pd.DataFrame(obj1)
print(df1)

# 데이터프레임2 생성
obj2 = {'student_id' : ['t1', 't2', 't3', 't4', 't5', 't6'],
        'score' : [65, 99, 87, 75, 57, 88]}
df2 = pd.DataFrame(obj2)
print(df2)

  student_id  score
0         s1     55
1         s2     90
2         s3     85
3         s4     71
4         s5     63
5         s6     99
  student_id  score
0         t1     65
1         t2     99
2         t3     87
3         t4     75
4         t5     57
5         t6     88


In [12]:
# pandas.concat()
# 두 데이터프레임을 행을 기준으로 붙임
pd.concat([df1, df2])

Unnamed: 0,student_id,score
0,s1,55
1,s2,90
2,s3,85
3,s4,71
4,s5,63
5,s6,99
0,t1,65
1,t2,99
2,t3,87
3,t4,75


In [13]:
# 두 데이터프레임을 열을 기준으로 붙임
pd.concat([df1, df2], axis = 1)

Unnamed: 0,student_id,score,student_id.1,score.1
0,s1,55,t1,65
1,s2,90,t2,99
2,s3,85,t3,87
3,s4,71,t4,75
4,s5,63,t5,57
5,s6,99,t6,88


### 데이터 병합

In [14]:
import pandas as pd

# 데이터프레임1 생성
obj1 = {'student_id' : ['s3', 's4', 's5', 's6'],
        'stat_score' : [85, 71, 63, 99]}
df1 = pd.DataFrame(obj1)
print(df1)

# 데이터프레임2 생성
obj2 = {'student_id' : ['s1', 's2', 's3', 's4'],
        'math_score' : [65, 99, 87, 75]}
df2 = pd.DataFrame(obj2)
print(df2)

  student_id  stat_score
0         s3          85
1         s4          71
2         s5          63
3         s6          99
  student_id  math_score
0         s1          65
1         s2          99
2         s3          87
3         s4          75


In [15]:
# 데이터프레임객체.merge()
# 두 데이터프레임 병합

# Case1. 병합유형(how) : inner(default)
# 두 데이터프레임의 공통 학생들의 점수만이 합쳐짐
df1.merge(df2, on = 'student_id')

Unnamed: 0,student_id,stat_score,math_score
0,s3,85,87
1,s4,71,75


In [16]:
# Case2. 병합유형(how) : outer
# 두 데이터프레임의 모든 학생들의 점수가 합쳐짐
# 점수가 없는 과목은 NaN을 반환
# 학생 순서는 왼쪽 데이터 프레임인(df1)에 있는 student_id 먼저 나옴
df1.merge(df2, how = 'outer', on = 'student_id')

Unnamed: 0,student_id,stat_score,math_score
0,s3,85.0,87.0
1,s4,71.0,75.0
2,s5,63.0,
3,s6,99.0,
4,s1,,65.0
5,s2,,99.0


In [17]:
# Case3. 병합유형(how) : left
# 왼쪽 데이터 프레임(df1)에 있는 학생들의 점수들만 반환
# 점수가 없는 과목은 NaN을 반환
df1.merge(df2, how = 'left', on = 'student_id')

Unnamed: 0,student_id,stat_score,math_score
0,s3,85,87.0
1,s4,71,75.0
2,s5,63,
3,s6,99,


In [18]:
# Case4. 병합유형(how) : right
# 오른쪽 데이터 프레임(df2)에 있는 학생들의 점수들만 반환
# 점수가 없는 과목은 NaN을 반환
df1.merge(df2, how = 'right', on = 'student_id')

Unnamed: 0,student_id,stat_score,math_score
0,s1,,65
1,s2,,99
2,s3,85.0,87
3,s4,71.0,75


## 3. 데이터 요약

### 그룹별 통계 요약

In [19]:
# .groupby()

# 데이터프레임 생성
import pandas as pd
obj = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'stat_score' : [55, 90, 85, 71, 63, 99],
        'math_score' : [65, 99, 87, 75, 57, 88],
        'sex' : ['Female', 'Male', 'Female', 'Female', 'Male', 'Male'],
        'pre_level' : ['B', 'A', 'B', 'B', 'C', 'A']
       }
df = pd.DataFrame(obj)

print(df)

  student_id  stat_score  math_score     sex pre_level
0         s1          55          65  Female         B
1         s2          90          99    Male         A
2         s3          85          87  Female         B
3         s4          71          75  Female         B
4         s5          63          57    Male         C
5         s6          99          88    Male         A


In [20]:
# 그룹화한 후 데이터프레임 메소드 mean()을 통해 그룹화 평균 계산 가능
df.groupby(by=['sex']).mean()

Unnamed: 0_level_0,stat_score,math_score
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,70.333333,75.666667
Male,84.0,81.333333


In [21]:
# 옵션 as_index = False
# 행인덱스로 행위치 인덱스 번호를 사용함
df.groupby(by=['sex'], as_index = False).mean()

Unnamed: 0,sex,stat_score,math_score
0,Female,70.333333,75.666667
1,Male,84.0,81.333333


In [22]:
# 여러 열을 기준으로 그룹화하는 방법은 컬럼명을 담은 리스트를 사용
df.groupby(by=['sex', 'pre_level'], as_index = False).mean()

Unnamed: 0,sex,pre_level,stat_score,math_score
0,Female,B,70.333333,75.666667
1,Male,A,94.5,93.5
2,Male,C,63.0,57.0


In [23]:
# describe() 메소드는 여러 종류의 특정한 통계량들을 제공
df.groupby(by=['sex'], as_index = False).describe()

Unnamed: 0_level_0,stat_score,stat_score,stat_score,stat_score,stat_score,stat_score,stat_score,stat_score,math_score,math_score,math_score,math_score,math_score,math_score,math_score,math_score
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
0,3.0,70.333333,15.011107,55.0,63.0,71.0,78.0,85.0,3.0,75.666667,11.015141,65.0,70.0,75.0,81.0,87.0
1,3.0,84.0,18.734994,63.0,76.5,90.0,94.5,99.0,3.0,81.333333,21.779195,57.0,72.5,88.0,93.5,99.0


In [24]:
# .agg
# 동시에 원하는 여러 통계량
df.groupby(by=['sex']).agg([np.mean, sum])

  df.groupby(by=['sex']).agg([np.mean, sum])


Unnamed: 0_level_0,stat_score,stat_score,math_score,math_score
Unnamed: 0_level_1,mean,sum,mean,sum
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Female,70.333333,211,75.666667,227
Male,84.0,252,81.333333,244


In [25]:
# 컬럼별로 상이한 통계량
df.groupby(by=['sex'], as_index = False).agg({'stat_score' : np.mean,'math_score' : sum})

Unnamed: 0,sex,stat_score,math_score
0,Female,70.333333,227
1,Male,84.0,244


In [26]:
df.groupby(by=['sex'], as_index = False).agg({'stat_score' : [np.mean, np.median],
                                         'math_score' : [sum, max]})

Unnamed: 0_level_0,sex,stat_score,stat_score,math_score,math_score
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,sum,max
0,Female,70.333333,71.0,227,87
1,Male,84.0,90.0,244,99


## 4. 데이터에 함수 적용하기

### 시리즈에 함수 적용하기

In [27]:
import pandas as pd

# 데이터프레임 생성
obj = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'stat_score' : [55, 90, 85, 71, 63, 99],
        'math_score' : [65, 99, 87, 75, 57, 88],
        'sex' : ['Female', 'Male', 'Female', 'Female', 'Male', 'Male'],
        'pre_level' : ['B', 'A', 'B', 'B', 'C', 'A']
       }
df = pd.DataFrame(obj)

print(df)

  student_id  stat_score  math_score     sex pre_level
0         s1          55          65  Female         B
1         s2          90          99    Male         A
2         s3          85          87  Female         B
3         s4          71          75  Female         B
4         s5          63          57    Male         C
5         s6          99          88    Male         A


In [28]:
# pre_level 컬럼 라벨인코딩
df['pre_level'].map({'A' : 0, 'B' : 1, 'C' : 2})

0    1
1    0
2    1
3    1
4    2
5    0
Name: pre_level, dtype: int64

In [29]:
# sex 컬럼의 요소를 한글로 변경
df['sex'].map({'Female' : '여자', 'Male' : '남자'})

0    여자
1    남자
2    여자
3    여자
4    남자
5    남자
Name: sex, dtype: object

In [30]:
# 시리즈에 사용자 정의 함수 적용
def f(x) :
    return x ** 2 + 2*x - 5000  # 각 요소에 적용할 함수

df['stat_score'].map(f)

0   -1865
1    3280
2    2395
3     183
4    -905
5    4999
Name: stat_score, dtype: int64

### 데이터프레임에 함수 적용하기

In [31]:
# .apply
df[['stat_score', 'math_score']].apply(np.sum)

stat_score    463
math_score    471
dtype: int64

In [32]:
df[['stat_score', 'math_score']].apply(np.sum, axis = 1)

0    120
1    189
2    172
3    146
4    120
5    187
dtype: int64

In [33]:
# apply 메소드 없이도 가능
df[['stat_score', 'math_score']].sum()

stat_score    463
math_score    471
dtype: int64

In [34]:
df[['stat_score', 'math_score']].sum(axis = 1)

0    120
1    189
2    172
3    146
4    120
5    187
dtype: int64

## 5. 결측치

### 결측치 탐색

In [35]:
# 결측치가 포함되도록 데이터프레임 생성
obj = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'stat_score' : [None, 90, 85, 71, 63, None],
        'math_score' : [65, None, 87, 75, 57, 88],
        'sex' : ['Female', 'Male', 'Female', None, 'Male', 'Male'],
        'pre_level' : ['B', 'A', 'B', 'B', 'C', None]
       }

df = pd.DataFrame(obj)

df 

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,s1,,65.0,Female,B
1,s2,90.0,,Male,A
2,s3,85.0,87.0,Female,B
3,s4,71.0,75.0,,B
4,s5,63.0,57.0,Male,C
5,s6,,88.0,Male,


In [36]:
# .isnull() : 결측치 여부 확인
df.isnull()

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,False,True,False,False,False
1,False,False,True,False,False
2,False,False,False,False,False
3,False,False,False,True,False
4,False,False,False,False,False
5,False,True,False,False,True


In [37]:
# .isna() : 결측치 여부 확인
df.isna()

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,False,True,False,False,False
1,False,False,True,False,False
2,False,False,False,False,False
3,False,False,False,True,False
4,False,False,False,False,False
5,False,True,False,False,True


In [38]:
# 컬럼별 결측치 개수
df.isnull().sum()

student_id    0
stat_score    2
math_score    1
sex           1
pre_level     1
dtype: int64

In [39]:
# 행별 결측치 개수
df.isnull().sum(axis = 1)

0    1
1    1
2    0
3    1
4    0
5    2
dtype: int64

### 결측치 처리

#### 1) 결측치 제거

In [40]:
# .dropna()
# 결측치가 있는 행을 모두 제거
df.dropna()

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
2,s3,85.0,87.0,Female,B
4,s5,63.0,57.0,Male,C


In [41]:
# 열도 가능
df.dropna(axis = 1)

Unnamed: 0,student_id
0,s1
1,s2
2,s3
3,s4
4,s5
5,s6


In [42]:
# 'stat_score' 컬럼(시리즈)에서 결측인 요소 제거
df['stat_score'].dropna()

1    90.0
2    85.0
3    71.0
4    63.0
Name: stat_score, dtype: float64

In [43]:
# 'stat_score'과 'math_score'컬럼 중
# 결측치가 있는 모든 행을 제거
df[['stat_score', 'math_score']].dropna()

Unnamed: 0,stat_score,math_score
2,85.0,87.0
3,71.0,75.0
4,63.0,57.0


#### 2) 평균 대치법

In [44]:
# 숫자형 컬럼만 추출
df1 = df[['stat_score','math_score']].copy() # copy() 원본 소실 방지
df1

Unnamed: 0,stat_score,math_score
0,,65.0
1,90.0,
2,85.0,87.0
3,71.0,75.0
4,63.0,57.0
5,,88.0


In [45]:
# .fillna
# 결측치를 모두 0으로 대치
df1.fillna(0)

Unnamed: 0,stat_score,math_score
0,0.0,65.0
1,90.0,0.0
2,85.0,87.0
3,71.0,75.0
4,63.0,57.0
5,0.0,88.0


In [46]:
# 평균 대치
# 컬럼별 평균으로 대치
df1.fillna(df1.mean())

Unnamed: 0,stat_score,math_score
0,77.25,65.0
1,90.0,74.4
2,85.0,87.0
3,71.0,75.0
4,63.0,57.0
5,77.25,88.0


## 7. 이상치

### 이상치 제거

In [47]:
# 데이터프레임 생성
obj = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'stat_score' : [55, 90, 85, 10, 88, 99],
        'math_score' : [65, 99, 67, 70, 57, 80],
       }

df = pd.DataFrame(obj)

print(df)

  student_id  stat_score  math_score
0         s1          55          65
1         s2          90          99
2         s3          85          67
3         s4          10          70
4         s5          88          57
5         s6          99          80


In [48]:
# 'stat_score' 컬럼에 대하여 이상치를 판별하고 제거
q1 = df['stat_score'].quantile(0.25) # 제1사분위수
q3 = df['stat_score'].quantile(0.75) # 제3사분위수

iqr = q3 - q1 # IQR

In [49]:
lower = q1 - 1.5 * iqr # lower whisker
upper = q3 + 1.5 * iqr # upper whisker

In [50]:
# 이상치 판별
# upper whisker보다 크거나 lower whisker보다 작은 값들
df[(df['stat_score'] < lower) | (df['stat_score'] > upper)]

Unnamed: 0,student_id,stat_score,math_score
3,s4,10,70


In [51]:
# 이상치 제거
df[(df['stat_score'] > lower) & (df['stat_score'] < upper)]

Unnamed: 0,student_id,stat_score,math_score
0,s1,55,65
1,s2,90,99
2,s3,85,67
4,s5,88,57
5,s6,99,80
