# pandas

- Python에서 사용하는 데이터를 분석하는 라이브러리
- 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구
- numpy보다 유연하게 수치연산 가능
- numpy는 데이터 누락을 허락하지 않지만, pandas는 데이터 누락을 허락

In [None]:
import pandas as pd
import numpy as np

# 버전 확인 
print(pd.__version__) 
print(np.__version__)

1.3.5
1.21.6


# Series
- 테이블의 열과 같음
- 인덱스와 values로 이루어진 1차원 배열
- 모든 유형의 데이터를 보유할 수 있음
- 인덱스를 지정해 줄 수 있음
- 명시적 인덱스와 암묵적 인덱스를 가짐

In [None]:
# RangeIndex :  인덱스 자동 생성
data = [100, 200, 300, 400, 500]
s = pd.Series(data)
s

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [None]:
print(type(s))
print(s.values) 
print(s.index) 

<class 'pandas.core.series.Series'>
[100 200 300 400 500]
RangeIndex(start=0, stop=5, step=1)


In [None]:
# 인덱스 지정(명시적 인덱스)
d = pd.Series(data, index=['a', 'b', 'c', 'd', 'e']) 
d

a    100
b    200
c    300
d    400
e    500
dtype: int64

In [None]:
print(d.values)
print(d.index)

[100 200 300 400 500]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [None]:
# 딕셔너리 형태도 Series로 만들 수 있음
# 키값은 index가 된다
dic = {
    '2017년':1000000,
    '2018년':2000000,
    '2019년':3000000,
    '2020년':4000000,
    '2021년':11000000,
    '2022년':30000000,
}
pd.Series(dic)

2017년     1000000
2018년     2000000
2019년     3000000
2020년     4000000
2021년    11000000
2022년    30000000
dtype: int64

In [None]:
# 딕셔너리 항목 중 일부만 선택하려면 index를 사용하여 포함할 항목만 지정할 수 있다.
pd.Series(dic, index=['2017년', '2019년', '2020년'])

2017년    1000000
2019년    3000000
2020년    4000000
dtype: int64

## Series 산술 연산 

In [None]:
d

a    100
b    200
c    300
d    400
e    500
dtype: int64

In [None]:
print(d + 100)
print(d * 2)
print(d // 2)
print(d ** 2)

a    200
b    300
c    400
d    500
e    600
dtype: int64
a     200
b     400
c     600
d     800
e    1000
dtype: int64
a     50
b    100
c    150
d    200
e    250
dtype: int64
a     10000
b     40000
c     90000
d    160000
e    250000
dtype: int64


## Series indexing , slicing 

In [None]:
print(d['a'])
print(d[0])
print(d[0:3])
print(d[::-1]) # 역순
print(d[::2]) # 전체에서 두 칸씩 건너 뛰면서 출력
print(d.a)
print(d.b)
print(d.c)

In [None]:
d > 300

In [None]:
d[d>300]

In [None]:
for i in d:
    print(i)

In [None]:
pd.Series(dic)

In [None]:
pd.Series(dic)['2020년':]

In [None]:
pd.Series(dic)[-3:] # 뒤에서 3번째까지 출력

## Series에 key, value, index

- index
    - Series, DataFrame의 레코드를 식별
    - 집합 연산이 가능
- loc :  인덱스를 기반으로 행 데이터를 읽음
- iloc :  행 번호를 기반으로 행 데이터를 읽음
- items() : key와 value를 튜플로 묶어서 리턴
- 팬시 인덱싱 : 스칼라 대신 인덱스 배열을 리턴

In [None]:
s = pd.Series(dic)
print('2015년' in s)
print(1000000 in s)

In [None]:
s.keys()

In [None]:
# Series에서는 values를 허락하지 않음
s.values()

In [None]:
# items를 통해서 values 확인
list(s.items()) 

In [None]:
# 딕셔너리에서는 key, value, item을 다 허락
print(dic.keys())
print(dic.values())
print(dic.items())

In [None]:
s

In [None]:
# 팬시 인덱싱
s[['2017년', '2020년']] 

In [None]:
data = ['a', 'b', 'c', 'd', 'e']
pd.Series(data)[::2]    # 두 칸씩 슬라이싱

In [None]:
pd.Series(data, index=[1, 3, 5, 7, 9])  

In [None]:
pd.Series(data, index=[1, 3, 5, 7, 9])[1:4]  # 묵시적인 인덱스만 따름

In [None]:
pd.Series(data, index=[1, 3, 5, 7, 9]).loc[1:4] # 명시적인 인덱스만 따름

In [None]:
pd.Series(data, index=[1, 3, 5, 7, 9]).iloc[1:4] # 묵시적인 인덱스만 따름 순서

# DataFrame

- 다차원 배열(Series의 특성을 가지고 있는 2차원 배열)
- 가장 기본적인 데이터 구조
- 엑셀 및 스프레드시트

Series-> 열 DataFrame->전체 테이블

In [None]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2017, 2018, 2019, 2020, 2021, 2022],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}
df = pd.DataFrame(rawData)
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2017,1000000,100001,1
1,2,2018,2000000,200001,2
2,3,2019,3000000,300001,4
3,4,2020,4000000,400001,8
4,5,2021,8000000,800001,16
5,6,2022,16000000,1600001,32


In [None]:
# 행 이름 추가
pd.DataFrame(rawData, index = ['2017','2018','2019','2020','2021','2022'])

Unnamed: 0,연차,연도,매출,순익,직원수
2017,1,2017,1000000,100001,1
2018,2,2018,2000000,200001,2
2019,3,2019,3000000,300001,4
2020,4,2020,4000000,400001,8
2021,5,2021,8000000,800001,16
2022,6,2022,16000000,1600001,32


In [None]:
pd.DataFrame(rawData, columns=['연차','매출','순익','직원수'], index=rawData['연도'])

In [None]:
df_renamed = pd.DataFrame(rawData).rename(columns={'연차':'CAREER','연도':'YEAR','매출':'SALES','순익':'NET_PROFIT','직원수':'EMPLOYEES'})
df_renamed

Unnamed: 0,CAREER,YEAR,SALES,NET_PROFIT,EMPLOYEES
0,1,2017,1000000,100001,1
1,2,2018,2000000,200001,2
2,3,2019,3000000,300001,4
3,4,2020,4000000,400001,8
4,5,2021,8000000,800001,16
5,6,2022,16000000,1600001,32


In [None]:
df_rerenamed = df_renamed.rename(columns=str.lower)
df_rerenamed

Unnamed: 0,career,year,sales,net_profit,employees
0,1,2017,1000000,100001,1
1,2,2018,2000000,200001,2
2,3,2019,3000000,300001,4
3,4,2020,4000000,400001,8
4,5,2021,8000000,800001,16
5,6,2022,16000000,1600001,32


In [None]:
pd.DataFrame(rawData)[1]#->Error

In [None]:
# 배열은 [0] dataframe은 [컬럼명]
pd.DataFrame(rawData)['연도']

In [None]:
pd.DataFrame(rawData)

In [None]:
pd.DataFrame(rawData).loc[1] #  Series로 반환

In [None]:
pd.DataFrame(rawData).loc[[1,3]] # DataFrame으로 반환

In [None]:
pd.DataFrame(rawData).iloc[0]

In [None]:
pd.DataFrame(rawData).iloc[[0]]

In [None]:
pd.DataFrame(rawData).iloc[0:3]

In [None]:
pd.DataFrame(rawData).iloc[-3:]

##  데이터 사전 분석
데이터를  받았을 때 기본적으로 하는것

In [None]:
df
#기본적인 정보, 용량이 크면 실습에 애를 먹음, 여기서  정리해줌
df.info()
#데이터프레임의 
df.head() # 상위 5개의 열
df.tail() # 하위 5개의 열
# 데이터 프레임안의 타입들
df.dtypes
# 기초통계량을 볼 수 있음
df.describe()
#결측치 확인->True, False
df.isnull()
# 결측치가 몇개있는지 알 수 있음, nun값도 결측치로 인식
df.isnull().sum()

## DataFrame에 데이터 조작

- np.nan : NaN으로 값을 채움
- drop : 컬럼 삭제
    - inplace = True : drop후 원본에 반영
- pd.to_numeric() : 문자형을 숫자형으로 변환

In [None]:
import pandas as pd

rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2017, 2018, 2019, 2020, 2021, 2022],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)
df

In [None]:
df['매출']
# df.매출

In [None]:
df['매출'][3]

In [None]:
# 컬럼 추가하기
df['순이익율'] = (df['순익'] / df['매출']) * 100
df

In [None]:
df['test'] = 100
df

In [None]:
#결측치 추가
df = df.astype('float64')
df['testTwo'] = np.nan
df

In [None]:
df['testThree'] = None
df

In [None]:
df[['test', 'testTwo', 'testThree']] = 1000
df

In [None]:
#컬럼을 통째로 삭제한다.
del df['test']
df

In [None]:
# 열을 삭제
df.drop(['testTwo'], axis='columns', inplace=True)
df

In [None]:
df.drop(['testThree'], axis='columns', inplace=True)
df

In [None]:
df.drop(df.columns[[0, 2]], axis='columns')

In [None]:
df

In [None]:
#행 추가하기
dfTwo = pd.DataFrame(np.array([[7, 2021, 160000000, 16000001, 60]]),
        columns=['연차','연도','매출','순익','직원수']).append(df, ignore_index=True)
# dfTwo.ndim # 차원
dfTwo

In [None]:
df

In [None]:
df[df.매출 > 5000000]

In [None]:
# df[df.매출 > 5000000, ['순익', '직원수']] Error
df.loc[df.매출 > 5000000, ['순익', '직원수']]

In [None]:
df[df.직원수 > 10]['순익'] - 10000

In [None]:
df['순익'] = df[df.직원수 > 10]['순익'] - 10000
df

In [None]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)

df['순익'] = np.where(df['직원수'] > 10, df['순익'] - 10000, df['순익'])
df

In [None]:
df.loc[6] = df.loc[5] * 2
df

In [None]:
df['순이익율'] = (df['순익'] / df['매출'])*100
df.loc[6] = df.loc[5] * 2
df

In [None]:
df['연도'][6] = 2021
df['연차'][6] = 7
df

In [None]:
df.loc[6,'연도'] = 2022
df

In [None]:
df.dtypes

In [None]:
df['연차'] = df['연차'].astype('int')
df['연도'] = df['연도'].astype('int')
df

In [None]:
pd.Series([1, '2', '3', 'jin', True, 10.1])

In [None]:
# 숫자로 변경할 수 없는 데이터라면 숫자로 변경하지 않고 원본 데이터를 그대로 반환
pd.to_numeric(pd.Series([1, '2', '3', 'jin', True, 10.1]), errors='ignore')

In [None]:
# 숫자로 변경할 수 없는 데이터라면 기존 데이터를 지우고 NaN으로 설정하여 반환
pd.to_numeric(pd.Series([1, '2', '3', 'jin', True, 10.1]), errors='coerce') 

In [None]:
# 숫자로 변경할 수 없는 데이터라면 에러를 일으키며 코드를 중단
pd.to_numeric(pd.Series([1, '2', '3', 'jin', True, 10.1]), errors='raise') 

# 결측값(NaN, None) 처리
위에서 만든 데이터프레임처럼 데이터가 채워져 있는 경우도 있지만,
중간중간 데이터가 비워져 있는 경우가 많습니다.<br>
이 값은 데이터를 분석할 때 잠재적으로 잘못된 결과를 제공할 수 있습니다.
1. NaN
    - 자료형이 Float
    - 배열에서 연산할 경우 오류가 발생하지 않지만  결과값이 NaN이 됨
2. None 
    - 자료형이 None
    - 배열 연산을 할 경우 오류가 발생

3. 처리방법 
- isnull() : 결측값 확인 (결측 이면  True , 결측이 아니면  False )
- notnull() : 결측값 확인 (결측 이면  False , 결측이 아니면  True )
- dropna() : 결측값을 삭제
- fillna(Num) : 결측을 Num 으로 채워 넣음

In [None]:
data = [1, 2, 3, None]

print(np.array(data))  # None - 수치연산 시 error
print(pd.Series(data)) # NaN - 수치연산 처리가 용이

[1 2 3 None]
0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


In [None]:
print(np.array(data)[3] + 100)
print(np.array(data)[3] * 100)
print(np.array(data)[3] * 0)

TypeError: ignored

In [None]:
print(pd.Series(data)[3] + 100)
print(pd.Series(data)[3] * 100)
print(pd.Series(data)[3] * 0)

nan
nan
nan


In [None]:
n = np.array(data)
print(n)
print(n.sum())
print(n.max())
print(n.min())

[1 2 3 None]


TypeError: ignored

In [None]:
s = pd.Series(data)
print(s)
print(s.sum())
print(s.max())
print(s.min())

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64
6.0
3.0
1.0


In [None]:
s.isnull()

0    False
1    False
2    False
3     True
dtype: bool

In [None]:
data = [1, 2, 3, None, None, None, None]

s = pd.Series(data)
print(s.isnull())
print(s.isnull().sum())

0    False
1    False
2    False
3     True
4     True
5     True
6     True
dtype: bool
4


In [None]:
print(s.notnull())
print(s.notnull().sum())

0     True
1     True
2     True
3    False
4    False
5    False
6    False
dtype: bool
3


In [None]:
# 결측값이 있는 column(행) 없애기
s.dropna()
# s.dropna(axis = 0) 
# 원본 수정하고 싶으면 inplace
# s.dropna(axis = 0, inplace = True) 
# s

0    1.0
1    2.0
2    3.0
dtype: float64

In [None]:
# 결측값이 있는 row(열) 없애기
s.dropna(axis = 1)
# s

In [None]:
# 결측값 채우기
# s.fillna('hello')  #  hello 로 채우기
# s.fillna(0) # 0으로 채우기
s.fillna(s.mean()) #평균으로 채우기

In [None]:
s['three'].fillna(0, inplace = True)

# MultiIndex

In [None]:
매출 = {
    '2015년':1000000,
    '2016년':2000000,
    '2017년':3000000,
    '2018년':4000000,
    '2019년':11000000,
    '2020년':30000000,
}

순익 = {
    '2015년':100001,
    '2016년':200001,
    '2017년':300001,
    '2018년':400001,
    '2019년':1100001,
    '2020년':3000001,
}

In [None]:
indexOne = list(zip(['매출' for i in range(len(매출.keys()))], 매출.keys()))
indexTwo = list(zip(['순익' for i in range(len(순익.keys()))], 순익.keys()))
index = indexOne + indexTwo
index

[('매출', '2015년'),
 ('매출', '2016년'),
 ('매출', '2017년'),
 ('매출', '2018년'),
 ('매출', '2019년'),
 ('매출', '2020년'),
 ('순익', '2015년'),
 ('순익', '2016년'),
 ('순익', '2017년'),
 ('순익', '2018년'),
 ('순익', '2019년'),
 ('순익', '2020년')]

In [None]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('매출', '2015년'),
            ('매출', '2016년'),
            ('매출', '2017년'),
            ('매출', '2018년'),
            ('매출', '2019년'),
            ('매출', '2020년'),
            ('순익', '2015년'),
            ('순익', '2016년'),
            ('순익', '2017년'),
            ('순익', '2018년'),
            ('순익', '2019년'),
            ('순익', '2020년')],
           )

In [None]:
값 = list(매출.values()) + list(순익.values()) # 더하기를 하려면 list로 변환해야 한다.

print(매출.values())
print(순익.values())
print(값)

dict_values([1000000, 2000000, 3000000, 4000000, 11000000, 30000000])
dict_values([100001, 200001, 300001, 400001, 1100001, 3000001])
[1000000, 2000000, 3000000, 4000000, 11000000, 30000000, 100001, 200001, 300001, 400001, 1100001, 3000001]


In [None]:
result = pd.Series(값, index=index)
result

매출  2015년     1000000
    2016년     2000000
    2017년     3000000
    2018년     4000000
    2019년    11000000
    2020년    30000000
순익  2015년      100001
    2016년      200001
    2017년      300001
    2018년      400001
    2019년     1100001
    2020년     3000001
dtype: int64

In [None]:
print(result['매출'].sum())
print(result['순익'][-3:].sum())

51000000
4500003


In [None]:
result['순익'][-3:]

2018년     400001
2019년    1100001
2020년    3000001
dtype: int64

In [None]:
df = pd.DataFrame(np.random.randint(50, 100, size=(4, 3)))
df

Unnamed: 0,0,1,2
0,82,99,95
1,88,73,95
2,65,85,78
3,60,57,99


In [None]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
df.index = ['1반', '2반', '1반', '2반']
df

Unnamed: 0,0,1,2
1반,82,99,95
2반,88,73,95
1반,65,85,78
2반,60,57,99


In [None]:
df.columns

RangeIndex(start=0, stop=3, step=1)

In [None]:
df.columns = ['국', '영', '수']
df

Unnamed: 0,국,영,수
1반,82,99,95
2반,88,73,95
1반,65,85,78
2반,60,57,99


In [None]:
df.index = [['1학년', '1학년', '2학년', '2학년'], ['1반', '2반', '1반', '2반']]
df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,82,99,95
1학년,2반,88,73,95
2학년,1반,65,85,78
2학년,2반,60,57,99


In [None]:
df.columns = [['언어', '언어', '수리'],['국', '영', '수']]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,82,99,95
1학년,2반,88,73,95
2학년,1반,65,85,78
2학년,2반,60,57,99


In [None]:
df['언어']

Unnamed: 0,Unnamed: 1,국,영
1학년,1반,82,99
1학년,2반,88,73
2학년,1반,65,85
2학년,2반,60,57


In [None]:
df['수리']

Unnamed: 0,Unnamed: 1,수
1학년,1반,95
1학년,2반,95
2학년,1반,78
2학년,2반,99


In [None]:
df['언어']['국']

1학년  1반    82
     2반    88
2학년  1반    65
     2반    60
Name: 국, dtype: int64

In [None]:
df.iloc[0]

언어  국    82
    영    99
수리  수    95
Name: (1학년, 1반), dtype: int64

In [None]:
df.loc['1학년']

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
1반,82,99,95
2반,88,73,95


In [None]:
df.loc['1학년', '1반']

언어  국    82
    영    99
수리  수    95
Name: (1학년, 1반), dtype: int64

In [None]:
df.loc['1학년'].loc['1반']

언어  국    82
    영    99
수리  수    95
Name: 1반, dtype: int64

In [None]:
df.index = [['오현고', '오현고', '오현고', '오현고'], ['1학년', '1학년', '2학년', '2학년'], ['1반', '2반', '1반', '2반']]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,국,영,수
오현고,1학년,1반,82,99,95
오현고,1학년,2반,88,73,95
오현고,2학년,1반,65,85,78
오현고,2학년,2반,60,57,99


# 연산 함수

- add : 더하기 연산 함수
- sub : 빼기 연산 함수
- mul : 곱하기 연산 함수
- floordiv : 나누었을 때 몫을 구하는 함수
- div : 나누기 연산 함수
- mod : 나머지 구하는 연산 함수
- pow : 거듭제곱 연산 함수

In [None]:
s = pd.Series([100, 200, 300, 400, 500])
s

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [None]:
ss = pd.Series([10, 20, 30, 40, 50])
ss

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [None]:
#각각의 index 값에 10이 더해져서 나옴
s+10
s-10
s*10
s**2
s/5 # 나누었으니 type이 float가 됨
s//5
s%3

0    1
1    2
2    0
3    1
4    2
dtype: int64

In [None]:
s + 100

0    200
1    300
2    400
3    500
4    600
dtype: int64

In [None]:
#각각의 값을 더함
s.add(100)

0    200
1    300
2    400
3    500
4    600
dtype: int64

In [None]:
s + ss

0    110
1    220
2    330
3    440
4    550
dtype: int64

In [None]:
s.add(ss)

0    110
1    220
2    330
3    440
4    550
dtype: int64

In [None]:
s - ss

0     90
1    180
2    270
3    360
4    450
dtype: int64

In [None]:
#각각의 값을 뺌
s.sub(ss)

0     90
1    180
2    270
3    360
4    450
dtype: int64

In [None]:
s * ss

0     1000
1     4000
2     9000
3    16000
4    25000
dtype: int64

In [None]:
#각각의 값을 곱함
s.mul(ss)

0     1000
1     4000
2     9000
3    16000
4    25000
dtype: int64

In [None]:
# 몫
s // ss  # integer형

0    10
1    10
2    10
3    10
4    10
dtype: int64

In [None]:
# 나눗셈
s / ss # float형

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [None]:
# 몫
s.floordiv(ss)

0    10
1    10
2    10
3    10
4    10
dtype: int64

In [None]:
#각각의 값을 나눔
s.div(ss)

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [None]:
# 나머지
s % ss

0    0
1    0
2    0
3    0
4    0
dtype: int64

In [None]:
# 각각의 값을 나누었을 때 나머지
s.mod(ss)

0    0
1    0
2    0
3    0
4    0
dtype: int64

In [None]:
s.mod(3)

0    1
1    2
2    0
3    1
4    2
dtype: int64

In [None]:
s

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [None]:
s ** 3

0      1000000
1      8000000
2     27000000
3     64000000
4    125000000
dtype: int64

In [None]:
# 제곱
s.pow(3)

0      1000000
1      8000000
2     27000000
3     64000000
4    125000000
dtype: int64

# 집계 함수

- count : 데이터 개수 구하는 함수
- min : 최소값 구하는 함수
- max  : 최대값 구하는 함수
- mean : 평균 구하는 함수
- median : 중앙값 구하는 함수
- std : 표준편차 구하는 함수
- var : 분산 구하는 함수
- mad : 절대 표준편차 구하는 함수
- describe : 기초 통계를 한 번에 볼 수 있는 함수

In [None]:
print(s.count())
print(s.min())
print(s.max())
print(s.mean())  
print(s.median())
print(s.mode())
print(s.sum())
print(s.std())   
print(s.var())   
print(s.mad()) 

5
100
500
300.0
300.0
0    100
1    200
2    300
3    400
4    500
dtype: int64
1500
158.11388300841898
25000.0
120.0


In [None]:
s.describe() 

count      5.000000
mean     300.000000
std      158.113883
min      100.000000
25%      200.000000
50%      300.000000
75%      400.000000
max      500.000000
dtype: float64

In [None]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)

In [None]:
df.agg(
    {
        "매출": ["min", "max", "median"],
        "순익": ["min", "max", "median"],
    }
)

Unnamed: 0,매출,순익
min,1000000.0,100001.0
max,16000000.0,1600001.0
median,3500000.0,350001.0


In [None]:
data_set = {
    '성별':['남', '여', '남', '남', '여', '남'],
    '학년':['3학년', '2학년', '3학년', '1학년', '1학년', '2학년'],
    '국':[80, 55, 60, 90, 100, 76],
    '수':[96, 67, 48, 74, 93, 88],
    '영':[100, 82, 74, 68, 86, 79]
}

고등 = pd.DataFrame(data_set)
고등

Unnamed: 0,성별,학년,국,수,영
0,남,3학년,80,96,100
1,여,2학년,55,67,82
2,남,3학년,60,48,74
3,남,1학년,90,74,68
4,여,1학년,100,93,86
5,남,2학년,76,88,79


In [None]:
고등[["성별", "국", "수"]].groupby("성별").mean()

Unnamed: 0_level_0,국,수
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남,76.5,76.5
여,77.5,80.0


In [None]:
고등.groupby("학년").mean()

Unnamed: 0_level_0,국,수,영
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1학년,95.0,83.5,77.0
2학년,65.5,77.5,80.5
3학년,70.0,72.0,87.0


In [None]:
고등.groupby("학년")["국"].mean()

학년
1학년    95.0
2학년    65.5
3학년    70.0
Name: 국, dtype: float64

In [None]:
고등.groupby(["성별", "학년"])["국"].mean()

성별  학년 
남   1학년     90.0
    2학년     76.0
    3학년     70.0
여   1학년    100.0
    2학년     55.0
Name: 국, dtype: float64

In [None]:
고등['학년'].value_counts()

3학년    2
2학년    2
1학년    2
Name: 학년, dtype: int64

In [None]:
고등.groupby("학년")["학년"].count()

학년
1학년    2
2학년    2
3학년    2
Name: 학년, dtype: int64