# Pandas

- 행과 열로 이루어진 대용량 데이터를 쉽게 처리하도록 지원하는 파이썬 라이브러리
- Series & Dataframe 객체는 다양한 자료형의 데이터를 담을 수 있으며, 손쉽게 데이터의 결합과 분리가 가능하다.
- 데이터분석에서 변수가 1개일 경우는 시리즈, 변수가 2개 이상일 경우 데이터프레임을 사용한다. 

In [5]:
import pandas as pd

sr1 = pd.Series([10,20,30,40,50,60]) # list를 Series 객체로 생성
print(sr1.values)
print(sr1.index)
print(sr1)

[10 20 30 40 50 60]
RangeIndex(start=0, stop=6, step=1)
0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64


In [12]:
sr1 = pd.Series([10,20,30,40,50,60], index=['a','b','c','d','e','f'])
print(sr1[[1,2]])
print(sr1[['a','c']])
print(sr1['a':'d'])

b    20
c    30
dtype: int64
a    10
c    30
dtype: int64
a    10
b    20
c    30
d    40
dtype: int64


In [25]:
df1 = pd.DataFrame([[10,20,30], [40,50,60]]) # 2차원 리스트로 데이터 프레임 생성
df1
dict1 = {'fruit' : ['apple', 'strawberry', 'peer', 'orange'],
'price' : [100,200,150,50],
'qty' : [10,20,40,50]}
df2 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict1, index = ['a', 'b','c','d']) # 행열 이름 정하기
df2.rename(columns={'fruit': '과일', 'price': '기격', 'qty':'수량'}, inplace= True) # inplace True가 생략되면 새로운 객체를 생성해서 반환
df2.rename(index = {'a':'01', 'b':'02', 'c':'03', 'd': '04'}, inplace=True)
df2


Unnamed: 0,과일,기격,수량
1,apple,100,10
2,strawberry,200,20
3,peer,150,40
4,orange,50,50


In [33]:
df1 = pd.read_csv('data/df_sample.csv')
print(df1.head(5)) # 앞부분 5개
print(df1.shape) #데이터프레임 요약 정보
print(df1.info()) # 데이터프레임에 대한 기본 정보
print(df1.count()) # 열별 데이터 개수

    학번  중간  기말  리포트  퀴즈
0  S01  90  95   20  20
1  S02  82  83   18  18
2  S03  80  78   18  18
3  S04  78  75   10  10
4  S05  93  91   12  12
(10, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   학번      10 non-null     object
 1   중간      10 non-null     int64 
 2   기말      10 non-null     int64 
 3   리포트     10 non-null     int64 
 4   퀴즈      10 non-null     int64 
dtypes: int64(4), object(1)
memory usage: 528.0+ bytes
None
학번     10
중간     10
기말     10
리포트    10
퀴즈     10
dtype: int64


In [43]:
df1.describe(include='all') # 기술통계 정보 한번에 보여주기
print(df1['중간'].mean())
print(df1[['중간', '기말']].mean()) # list 대괄호 2개 주의
print(df1.median()) #중간값 그 외 var, std 등등
print(df1['퀴즈'].value_counts()) # 열에서 고유값 개수 확인
print(df1[['중간', '기말']].corr()) # 상관계수 확인

77.6
중간    77.6
기말    78.5
dtype: float64
중간     79.0
기말     78.0
리포트    15.0
퀴즈     15.0
dtype: float64
18    3
14    2
10    2
12    1
20    1
16    1
Name: 퀴즈, dtype: int64
          중간        기말
중간  1.000000  0.707196
기말  0.707196  1.000000


In [2]:
# 데이터프레임 조작
import pandas as pd
df1 = pd.read_csv('data/df_sample.csv') 
df1.set_index('학번') # 특정 열을 행 인덱스로 설정, 전체 행을 대표하는 열을 인덱스로 지정하려는 경우 
# 주의) 지정한 열은 인덱스 역할을 하기 때문에, 열 이름으로 접근할 수 없음.

Unnamed: 0_level_0,중간,기말,리포트,퀴즈
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S01,90,95,20,20
S02,82,83,18,18
S03,80,78,18,18
S04,78,75,10,10
S05,93,91,12,12
S06,71,75,16,16
S07,60,80,18,18
S08,72,65,14,14
S09,65,65,14,14
S10,85,78,10,10


In [3]:
df1.index = df1['학번']     # '학번' 열의 값을 읽어와서 인덱스로 지정
df1

Unnamed: 0_level_0,학번,중간,기말,리포트,퀴즈
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
S01,S01,90,95,20,20
S02,S02,82,83,18,18
S03,S03,80,78,18,18
S04,S04,78,75,10,10
S05,S05,93,91,12,12
S06,S06,71,75,16,16
S07,S07,60,80,18,18
S08,S08,72,65,14,14
S09,S09,65,65,14,14
S10,S10,85,78,10,10


In [4]:
df1.set_index('학번', inplace = True)     # '학번'열을 행 인덱스로 지정
print(df1.loc['S01','중간'])              # 인덱스명과 열이름을 사용해서 접근
print(df1.loc['S02','기말'])
print(df1.iloc[1,0], df1.iloc[1,1], df1.iloc[1,2])     # 인덱스번호와 열번호를 사용해서 접근

90
83
82 83 18


In [9]:
print(df1.loc['S05']) # 행선택
print(df1.iloc[3]) # 행번호선택
print(df1['중간']) # 열선택 (1개만 선택 시 Series로..)
print(df1[['중간','기말']])

중간     93
기말     91
리포트    12
퀴즈     12
Name: S05, dtype: int64
중간     78
기말     75
리포트    10
퀴즈     10
Name: S04, dtype: int64
학번
S01    90
S02    82
S03    80
S04    78
S05    93
S06    71
S07    60
S08    72
S09    65
S10    85
Name: 중간, dtype: int64
     중간  기말
학번         
S01  90  95
S02  82  83
S03  80  78
S04  78  75
S05  93  91
S06  71  75
S07  60  80
S08  72  65
S09  65  65
S10  85  78


In [11]:
df1 = pd.read_csv('data/df_sample.csv') 
df2 = df1.drop(0)                   # 인덱스 0 행 삭제, 0이 디폴트 옵션
df3 = df2.drop('퀴즈', axis=1)      # '퀴즈'열 삭제
df3

Unnamed: 0,학번,중간,기말,리포트
1,S02,82,83,18
2,S03,80,78,18
3,S04,78,75,10
4,S05,93,91,12
5,S06,71,75,16
6,S07,60,80,18
7,S08,72,65,14
8,S09,65,65,14
9,S10,85,78,10


In [12]:
df1 = pd.read_csv('data/df_sample.csv') 
df1.set_index('학번', inplace=True)       # '학번'열을 행 인덱스로 지정
df2 = df1.sort_index(ascending=False)     # 학번의 내림차순으로 정렬
df2

Unnamed: 0_level_0,중간,기말,리포트,퀴즈
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S10,85,78,10,10
S09,65,65,14,14
S08,72,65,14,14
S07,60,80,18,18
S06,71,75,16,16
S05,93,91,12,12
S04,78,75,10,10
S03,80,78,18,18
S02,82,83,18,18
S01,90,95,20,20


In [13]:
df1 = pd.read_csv('data/df_sample.csv') 
df2 = df1.sort_values(by='기말', ascending=True) # '기말'열의 오름차순으로 정렬
df2

Unnamed: 0,학번,중간,기말,리포트,퀴즈
7,S08,72,65,14,14
8,S09,65,65,14,14
3,S04,78,75,10,10
5,S06,71,75,16,16
2,S03,80,78,18,18
9,S10,85,78,10,10
6,S07,60,80,18,18
1,S02,82,83,18,18
4,S05,93,91,12,12
0,S01,90,95,20,20


In [14]:
df = pd.read_csv('data/df_sample.csv')

df["합계"] = df["중간"] + df["기말"]                                 # 중간과 기말점수를 더해 "합계"열로 생성
x = ["1반","1반","1반","2반","2반","2반","3반","3반","3반","3반"]    # 리스트 x정의
df["cls"] = x        # 리스트 x를 값으로 cls열을 생성

df

Unnamed: 0,학번,중간,기말,리포트,퀴즈,합계,cls
0,S01,90,95,20,20,185,1반
1,S02,82,83,18,18,165,1반
2,S03,80,78,18,18,158,1반
3,S04,78,75,10,10,153,2반
4,S05,93,91,12,12,184,2반
5,S06,71,75,16,16,146,2반
6,S07,60,80,18,18,140,3반
7,S08,72,65,14,14,137,3반
8,S09,65,65,14,14,130,3반
9,S10,85,78,10,10,163,3반


In [15]:
import numpy as np

mid_avg = np.mean(df["중간"])     # 중간시험 점수 평균 77.6
mid_std = np.std(df["중간"])      # 중간시험 점수 표준편차 10.0717426

df["중간_Z점수"] = (df["중간"] - mid_avg) / mid_std     # 중간시험 Z-score 열 생성

df.head()

Unnamed: 0,학번,중간,기말,리포트,퀴즈,합계,cls,중간_Z점수
0,S01,90,95,20,20,185,1반,1.231167
1,S02,82,83,18,18,165,1반,0.436866
2,S03,80,78,18,18,158,1반,0.23829
3,S04,78,75,10,10,153,2반,0.039715
4,S05,93,91,12,12,184,2반,1.52903


In [16]:
fin_min = np.min(df["기말"])      # 기말 점수 최소값 65
fin_max = np.max(df["기말"])      # 기말 점수 최대값 95

df["기말_정규화"] = (df["기말"] - fin_min)/(fin_max - fin_min)    # 기말 점수 정규화

df.head()

Unnamed: 0,학번,중간,기말,리포트,퀴즈,합계,cls,중간_Z점수,기말_정규화
0,S01,90,95,20,20,185,1반,1.231167,1.0
1,S02,82,83,18,18,165,1반,0.436866,0.6
2,S03,80,78,18,18,158,1반,0.23829,0.433333
3,S04,78,75,10,10,153,2반,0.039715,0.333333
4,S05,93,91,12,12,184,2반,1.52903,0.866667


In [17]:
# cls를 기준으로 그룹화 하고 그룹의 중간 시험 점수 평균을 구함
# 그룹별 행의 수 : df_cls_grp.size()
# 그룹별 열의 합계 : df_cls_grp.sum()

df_cls_grp = df.groupby(df['cls'])
df_cls_grp.mean()       # 그룹별 열의 평균

Unnamed: 0_level_0,중간,기말,리포트,퀴즈,합계,중간_Z점수,기말_정규화
cls,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1반,84.0,85.333333,18.666667,18.666667,169.333333,0.635441,0.677778
2반,80.666667,80.333333,12.666667,12.666667,161.0,0.304482,0.511111
3반,70.5,72.0,14.0,14.0,142.5,-0.704943,0.233333


In [18]:
df['중간'].groupby(df['cls']).count()

cls
1반    3
2반    3
3반    4
Name: 중간, dtype: int64

In [19]:
df["퀴즈"].apply(np.sqrt) # 데이터의 행 또는 열 방향으로 주어진 함수를 한 번에 적용 default는 0

0    4.472136
1    4.242641
2    4.242641
3    3.162278
4    3.464102
5    4.000000
6    4.242641
7    3.741657
8    3.741657
9    3.162278
Name: 퀴즈, dtype: float64

In [20]:
x = [14,15,13,14,None,None,19,11,12,18]
df["토론"] = x          # 결측값이 있는 컬럼 "토론" 추가

df.info()               # 데이터프레임 요약정보 출력 : NaN의 개수를 알 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   학번      10 non-null     object 
 1   중간      10 non-null     int64  
 2   기말      10 non-null     int64  
 3   리포트     10 non-null     int64  
 4   퀴즈      10 non-null     int64  
 5   합계      10 non-null     int64  
 6   cls     10 non-null     object 
 7   중간_Z점수  10 non-null     float64
 8   기말_정규화  10 non-null     float64
 9   토론      8 non-null      float64
dtypes: float64(3), int64(5), object(2)
memory usage: 928.0+ bytes


In [24]:
print(df.isnull())
print(df.notnull())

      학번     중간     기말    리포트     퀴즈     합계    cls  중간_Z점수  기말_정규화     토론
0  False  False  False  False  False  False  False   False   False  False
1  False  False  False  False  False  False  False   False   False  False
2  False  False  False  False  False  False  False   False   False  False
3  False  False  False  False  False  False  False   False   False  False
4  False  False  False  False  False  False  False   False   False   True
5  False  False  False  False  False  False  False   False   False   True
6  False  False  False  False  False  False  False   False   False  False
7  False  False  False  False  False  False  False   False   False  False
8  False  False  False  False  False  False  False   False   False  False
9  False  False  False  False  False  False  False   False   False  False
     학번    중간    기말   리포트    퀴즈    합계   cls  중간_Z점수  기말_정규화     토론
0  True  True  True  True  True  True  True    True    True   True
1  True  True  True  True  True  True  True    True 

In [25]:
df_new = df.dropna(axis=0)      # 결측값이 있는 행 전체 제거 (axis=1이면 열을 제거)
df_new = df["토론"].dropna()    # "토론"열에서 결측값을 제거

## 결측값 대치 

1. 완전분석법 : 결측값이 있는 행을 삭제
2. 평균대치법 : 결측값을 평균으로 대치
3. 단순확률 대치법 : 확률분포를 이용한 추정 값으로 대치(Hot-Deck) 또는 주변 값으로 대치

In [28]:
d_mean = df["토론"].mean()
df["토론"].fillna(d_mean, inplace=True)
df

Unnamed: 0,학번,중간,기말,리포트,퀴즈,합계,cls,중간_Z점수,기말_정규화,토론
0,S01,90,95,20,20,185,1반,1.231167,1.0,14.0
1,S02,82,83,18,18,165,1반,0.436866,0.6,15.0
2,S03,80,78,18,18,158,1반,0.23829,0.433333,13.0
3,S04,78,75,10,10,153,2반,0.039715,0.333333,14.0
4,S05,93,91,12,12,184,2반,1.52903,0.866667,14.5
5,S06,71,75,16,16,146,2반,-0.655299,0.333333,14.5
6,S07,60,80,18,18,140,3반,-1.747463,0.5,19.0
7,S08,72,65,14,14,137,3반,-0.556011,0.0,11.0
8,S09,65,65,14,14,130,3반,-1.251025,0.0,12.0
9,S10,85,78,10,10,163,3반,0.734729,0.433333,18.0


## 이상값 처리
- 데이터의 범위에서 크게 벗어난 값.
- 사분위범위, 정규분포를 이용해서 식별하고, 식별된 이상값은 제거 여부를 판단한다.
- 이상치 판별 : (1사분위수 - 1.5 * 사분위 범위) 보다 작거나 (3사분위수 + 1.5 * 사분위 범위) 보다 큰 수

In [29]:
df_1QR = df["기말"].quantile(0.25)  # 1사분위수
df_3QR = df["기말"].quantile(0.75)  # 3사분위수
df_IQR = df_3QR - df_1QR            # 사분위범위
print(df_1QR)
print(df_3QR)
print(df_IQR)

75.0
82.25
7.25
