In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.family']='Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus'] = False

In [2]:
# 사용할 데이터 만들기.
data =  {'eng':[10,30,50,70],
         'kor':[20,40,60,80],
         'math':[90,50,20,70]}
df = pd.DataFrame(data, index = ['a','b','c','d'])
df

Unnamed: 0,eng,kor,math
a,10,20,90
b,30,40,50
c,50,60,20
d,70,80,70


In [3]:
# df.sum(axis=0) : 열별로 계산.
# df.sum(axis=1) : 행별로 계산.
# default 값이 None 즉 0으로 열별로 계산.
# 각 열 또는 행들의 합계.
df.sum(axis=1)

a    120
b    120
c    130
d    220
dtype: int64

In [4]:
# 전체 합
# 열별로 합을 계산 후 그 합들을 다시 합함.
df.sum().sum()

590

In [5]:
# 각 열 또는 행들의 평균.
df.mean(axis=0)
df.mean(axis=1)

a    40.000000
b    40.000000
c    43.333333
d    73.333333
dtype: float64

In [6]:
# 전체 평균.
df.mean().mean()
df.values.mean()

49.166666666666664

In [7]:
# 각 열 또는 행들의 표준편차.
df.std(axis=0)
df.std(axis=1)

a    43.588989
b    10.000000
c    20.816660
d     5.773503
dtype: float64

In [8]:
# 전체 표준편차.
df.mean().std()
df.values.std()

24.650332429581734

In [9]:
# 각 행 또는 열의 중앙값.
df.median(axis=0)
df.median(axis=1)

a    20.0
b    40.0
c    50.0
d    70.0
dtype: float64

In [10]:
# 전체 중앙값.
df.median().median()

50.0

In [11]:
# 최대값.
df.min(axis=0)
df.min(axis=1)

a    10
b    30
c    20
d    70
dtype: int64

In [12]:
# 전체 중의 최대값.
df.max().max()
df.values.max()

90

In [13]:
# 최소값.
df.min(axis=0)
df.min(axis=1)

a    10
b    30
c    20
d    70
dtype: int64

In [14]:
# 전체 중의 최소값.
df.min().min()
df.values.min()

10

In [15]:
# 각 컬럼의 최대값을 갖는 부여된 인덱스를 표시.
df.idxmax(axis=0)

eng     d
kor     d
math    a
dtype: object

In [16]:
# 각 행에서 최대값을 값는 컬럼명을 표시.
df.idxmax(axis=1)

a    math
b    math
c     kor
d     kor
dtype: object

In [17]:
# 각 행 또는 열의 개수를 계산.
df.count(axis=0)
df.count(axis=1)

a    3
b    3
c    3
d    3
dtype: int64

In [18]:
# axis=0, 1에 따라 각 행 또는 열의 4분위수 혹은 백분위수 계산.
df.quantile([0.25, 0.5, 0.75])

Unnamed: 0,eng,kor,math
0.25,25.0,35.0,42.5
0.5,40.0,50.0,60.0
0.75,55.0,65.0,75.0


In [19]:
# 기술 통계량.
df.describe()

Unnamed: 0,eng,kor,math
count,4.0,4.0,4.0
mean,40.0,50.0,57.5
std,25.819889,25.819889,29.860788
min,10.0,20.0,20.0
25%,25.0,35.0,42.5
50%,40.0,50.0,60.0
75%,55.0,65.0,75.0
max,70.0,80.0,90.0


In [20]:
# 특정 컬럼(영어 점수)의 점수가 가장 높은(낮은) 2명(3명)을 표시.
# keep : first, last, all = > Series와 동일.
df.nlargest(2, 'eng')
df.nsmallest(3, 'math')

Unnamed: 0,eng,kor,math
c,50,60,20
b,30,40,50
d,70,80,70


In [21]:
# 데이터 프레임을 시리즈로 변환.
df.unstack() 

eng   a    10
      b    30
      c    50
      d    70
kor   a    20
      b    40
      c    60
      d    80
math  a    90
      b    50
      c    20
      d    70
dtype: int64

In [22]:
# 멀티 인덱스로 출력.
df.unstack().index  

MultiIndex([( 'eng', 'a'),
            ( 'eng', 'b'),
            ( 'eng', 'c'),
            ( 'eng', 'd'),
            ( 'kor', 'a'),
            ( 'kor', 'b'),
            ( 'kor', 'c'),
            ( 'kor', 'd'),
            ('math', 'a'),
            ('math', 'b'),
            ('math', 'c'),
            ('math', 'd')],
           )

In [23]:
# apply 적용을 위한 함수 생성.
def fn(v):
    print('========')
    print('v=>',v)
    print('========')
    return v.sum()

In [24]:
# 열 별 시리즈. 
# axis = 0
df.apply(fn)  

v=> a    10
b    30
c    50
d    70
Name: eng, dtype: int64
v=> a    20
b    40
c    60
d    80
Name: kor, dtype: int64
v=> a    90
b    50
c    20
d    70
Name: math, dtype: int64


eng     160
kor     200
math    230
dtype: int64

In [25]:
# 행 별 시리즈.
# axis = 1
# 함수 대신 lambda식 표현 이용도 가능.
df.apply(lambda v: v.sum(), axis=1)   

a    120
b    120
c    130
d    220
dtype: int64

In [26]:
df['결과'] = df.apply(lambda x : '합격' if x.mean() >= 50 else '불합격', axis=1)
df

Unnamed: 0,eng,kor,math,결과
a,10,20,90,불합격
b,30,40,50,불합격
c,50,60,20,불합격
d,70,80,70,합격
