# Pandas 학습
1. 데이터 분석을 위한 모듈
2. excel과 가장 큰 차이점 = Pandas는 대용량 데이터 처리가 가능하다
3. 데이터 분석 및 데이터 가공에 절대적으로 사용되는 library
4. 주요 학습 내용
    - DataFrame - excel의 다수의 컬럼들을 보유한 table과 동일하다 간주함
    - Series - DataFrame을 구성하는 column 

**참고**
주피터 노트북 익스텐션을 활용하여 생산성 높이기
> !pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

상단의 명령어를 통해 설치하면 왼쪽처럼 목차가 뜬다.<br>
설치 후 table of contents, autopep8를 체크하면 된다.<br>
위에 망치모양이 코드의 형태를 이쁘게 맞춰주는 아이다.<br>
vsc에서 shith alt F와 같은 역할 <br>
- `!`이건 prompt 창에서 다음 명령어를 실행하는 것과 같은 기능을 한다.

## 기초 익히기
- 이미 존재하는 파일의 내용으로 DataFrame 생성하기
> 중복 데이터 제거, 결측시 처리

### DataFrame  & Series 구조 
> https://pandas.pydata.org/docs/getting_started/index.html <br>
    
    
- pandas 설치
> !pip show pandas

In [3]:
# 전처리를 위한 library import
# as 키워드는 library 별칭 부여 : pd 관습적으로 사용
import pandas as pd
import numpy as np

In [47]:
s = pd.Series([1, 2, 3])
print(s)
print('--'*20)
print(type(s))
print('--'*20)
# 보유한 데이터
print(s.values)

0    1
1    2
2    3
dtype: int64
----------------------------------------
<class 'pandas.core.series.Series'>
----------------------------------------
[1 2 3]


In [12]:
# 마지막 index = stop - 1
s.index

RangeIndex(start=0, stop=3, step=1)

**결측치 : 데이터 없음을 의미함**
- NaN(not a number) : js에서 숫자가 아님을 의미하는 표현법
- python에선 결측치를 의미함
- 명시적으로 Series에 결측치 적용
- numpy API에 결측치 표현
- 데이터를 관리하기 위해서 간혹 결측치를 임의로 생성해야 할 경우가 있다.

In [14]:
# 결측치 생성
s = pd.Series([1, np.nan, 3])
print(s)
print('--'*20)

# count : 결측치를 제외한 유효한 데이터의 개수를 counting 한다.
print(s.count())

0    1.0
1    NaN
2    3.0
dtype: float64
----------------------------------------
2


**결측치를 치환하는 명령어 : fillna()**

In [17]:
s = s.fillna(0)
s

0    1.0
1    0.0
2    3.0
dtype: float64

**결측치를 삭제하는 명령어 : dropna()**

In [22]:
# 결측치 삭제 : dropna()
s = pd.Series([1, np.nan, 3, 4, np.nan, 6])
print(s)
print('--' * 20)

s = s.dropna()
print(s)

0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    6.0
dtype: float64
----------------------------------------
0    1.0
2    3.0
3    4.0
5    6.0
dtype: float64


In [19]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


### 날짜와 문자열 데이터 다루기 

- Python의 datetime모듈

>date : 연, 월, 일

>time : 시간, 분, 초, 마이크로초(백만분의 1초)

>datetime : date와 time요소

- Pandas의 Timestamp

>날짜와 시간 모두 포함 : 나노초(10억분의 1초) 단위의 정밀도


- timedelta

>날짜의 덧셈과 뺄셈에 유용



In [23]:
# 6일치의 날짜 데이터 생성
# data_range(시작일, 범위) : 시작일로 부터 해당 범위 날짜까지 자동 생성 
datas = pd.date_range('20210628', periods=6)
datas

DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')

In [24]:
type(datas)

pandas.core.indexes.datetimes.DatetimeIndex

### np.random 난수 생성

In [26]:
np.random.randn(2, 3)

array([[ 0.2258882 , -0.05629748, -0.40272748],
       [-3.5496841 , -0.5298403 , -1.32241566]])

In [41]:
print(np.random.randint(8))
# 범위가 2 ~ 2 이므로 계속 2만 나온다.
print(np.random.randint(2, 3))

6
2


In [44]:
# 6행 4열의 구조로 날짜를 보유한 datas 변수값을 index로 구성하는 DataFrame 객체 
# pandas로 데이터 처리시에는 numpy 모듈을 필수
df = pd.DataFrame(np.random.randn(6, 4), index=datas)
df

Unnamed: 0,0,1,2,3
2021-06-28,0.316507,-0.52741,-0.605017,1.261473
2021-06-29,0.069595,-0.02109,-2.242459,-0.37615
2021-06-30,0.621617,0.20409,0.082174,0.857012
2021-07-01,-0.943596,-1.881376,-0.378098,0.602923
2021-07-02,0.541145,-0.284489,0.832258,0.566265
2021-07-03,1.165258,-0.198895,-0.440869,1.318195


In [45]:
# 컬럼명 가공
df.columns = ['a', 'b', 'c', 'd']   # 또는!
df = pd.DataFrame(np.random.randn(6, 4), index=datas,
                  columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
2021-06-28,1.747444,-0.708034,0.742717,-0.446046
2021-06-29,-1.541808,-0.947643,-0.215323,0.060244
2021-06-30,0.324549,0.275914,-0.322824,-3.017415
2021-07-01,0.054773,-0.391381,0.423115,0.33793
2021-07-02,0.836957,-0.544874,-0.192745,-1.030811
2021-07-03,-0.221231,0.497988,-0.223669,-0.351674


## row, col의 특정 데이터 검색
특정 컬럼들 값만 도출하기

In [49]:
# [] 연산자 활용
print(df['a'])
print('--' * 20)

# dot 연산자 활용
print(df.a)

2021-06-28    1.747444
2021-06-29   -1.541808
2021-06-30    0.324549
2021-07-01    0.054773
2021-07-02    0.836957
2021-07-03   -0.221231
Freq: D, Name: a, dtype: float64
----------------------------------------
2021-06-28    1.747444
2021-06-29   -1.541808
2021-06-30    0.324549
2021-07-01    0.054773
2021-07-02    0.836957
2021-07-03   -0.221231
Freq: D, Name: a, dtype: float64


**특정 row들 도출하기**

In [50]:
# df의 index가 0 ~ 2의 row들 출력
df[0:3]

Unnamed: 0,a,b,c,d
2021-06-28,1.747444,-0.708034,0.742717,-0.446046
2021-06-29,-1.541808,-0.947643,-0.215323,0.060244
2021-06-30,0.324549,0.275914,-0.322824,-3.017415


In [52]:
# df의 index가 0 ~ 2의 row들의 a col의 데이터 출력
df[0:3]['a']

2021-06-28    1.747444
2021-06-29   -1.541808
2021-06-30    0.324549
Freq: D, Name: a, dtype: float64

# file로 부터 데이터 read해서 data 타입 이해하기
- csv 파일의 내용을 read하면서 DataFrame객체로 생성
- DataFrame 객체의 장점은 다양한 함수가 있기 때문에 조작 및 정제 가능
- 가정사항 : csv 파일은 제공 받음, 단 raw는 보존, 정제 및 분석을 위해서는 최적인 상태로 가공 및 문제점 찾기

In [2]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


## asdf

**문자열 타입을 object 타입으로 표현한다.**

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    10 non-null     object
 1   Birth   10 non-null     object
 2   email   10 non-null     object
dtypes: object(3)
memory usage: 368.0+ bytes


**object 즉 문자열 타입을 datetime 타입으로 변환하는 구조**

In [4]:
df['Birth'] = pd.to_datetime(df['Birth'], format='%Y-%m-%d %H:%M:%S')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 09:10:00,happy@gmail.com
1,홍길동,2021-01-08 09:20:00,1004@NAVER.COM
2,유관순,2021-02-01 10:20:00,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40:00,\tlee@gmail.com
4,김구,2021-02-28 15:10:00,kim@daum.net\t
5,윤봉길,2021-04-10 19:20:00,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20:00,kkc@gmail.com
7,신사임당,2021-07-20 23:30:00,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48:00,ygmd@daum.net
9,유재석,2021-09-01 03:12:00,yjs at gmail.com


In [5]:
# Birth의 dtype이 변한 것을 확인 가능
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Name    10 non-null     object        
 1   Birth   10 non-null     datetime64[ns]
 2   email   10 non-null     object        
dtypes: datetime64[ns](1), object(2)
memory usage: 368.0+ bytes


## 인덱서(indexer)## 인덱서(indexer)

### iloc
- 데이터 프레임의 부분집합 선택을 위한 도구
- iloc는 정수로만 선택
- 여러 개의 정수 위치를 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기
- iloc[index] or iloc[index, column]

In [6]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [7]:
df.iloc[1:3, 0]

1    홍길동
2    유관순
Name: Name, dtype: object

In [8]:
df.iloc[4, 2]

'kim@daum.net\t'

### loc 속성

- 데이터들을 slicing 하는 기술
- loc[index, columns]
- loc는 레이블로만 선택
- 여러 개의 레이블을 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기 사용
- 마지막 레이블까지 포함

In [10]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [11]:
df.loc[:,['Name', 'Birth']]

Unnamed: 0,Name,Birth
0,이순신,2021-01-01 9:10
1,홍길동,2021-01-08 9:20
2,유관순,2021-02-01 10:20
3,이이,2021-02-02 11:40
4,김구,2021-02-28 15:10
5,윤봉길,2021-04-10 19:20
6,강감찬,2021-06-30 21:20
7,신사임당,2021-07-20 23:30
8,을지문덕,2021-08-28 11:48
9,유재석,2021-09-01 3:12


**iloc를 통해 데이터 수정이 가능한지 확인**

In [12]:
df.iloc[0,0] = '김순신'
df

Unnamed: 0,Name,Birth,email
0,김순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


# 존재하는 파일의 내용으로 DataFrame 생성
## read_csv에서 구분자 설정
**delimiter='\t' : 구분자를 tab으로 설정**

In [13]:
df = pd.read_csv('dataset/03.friendsTab.txt', delimiter='\t')
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


**header 가 없는 외부 파일 read시에 header 미 적용 설정** <br>
**names 속성을 사용하여 header 설정 가능하다**

In [16]:
df = pd.read_csv('dataset/04.friendsTabNoHead.txt', delimiter='\t', header=None)
df

Unnamed: 0,0,1,2,3
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [18]:
df = pd.read_csv('dataset/04.friendsTabNoHead.txt',
                 delimiter='\t', header=None, names=['이름', '나이', '직업', '취미'])
df

Unnamed: 0,이름,나이,직업,취미
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


**삼항 연산식을 numpy의 where이라는 함수의 parameter로 적용시 syntax**
- np.where(조건식, 조건식이 True일 경우, 조건식이 False일 경우)

In [19]:
df['sal'] = np.where(df['직업'] == '학생', 'yes', 'no')
df

Unnamed: 0,이름,나이,직업,취미,sal
0,신동엽,20,연예인,music,no
1,유재석,41,교수,art,no
2,김새롬,18,학생,study,yes
3,이영자,45,상담사,talk,no
4,강호동,38,연예인,talk,no


## python data로 DataFrame 객체로 변환
- dict의 key를 DataFrame의 Series명으로 자동 변환
- 차후에 데이터 수집 및 관리시에 어떤 구조로 데이터를 수집하고 취합해야 하는지 설계 가능

In [20]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'}]
type(friend_dict_list)

list

In [23]:
df = pd.DataFrame(friend_dict_list)
print(df)
print('--' * 20)

print(type(df))
print('--' * 20)

df

  name  age  job  hobby
0  신동엽   20  연예인  music
1  유재석   41   교수    art
2  김새롬   18   학생  study
3  이영자   45  상담사   talk
4  강호동   38  연예인   talk
----------------------------------------
<class 'pandas.core.frame.DataFrame'>
----------------------------------------


Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


# 전처리?
## 중복 데이터 제거 기술

In [32]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


**중복 데이터 여부 확인 가능한 함수**

In [33]:
# index 5는 중복된 데이터라서 True라고 나온다.
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

**중복된 데이터 삭제하는 함수**
- 컬럼명을 넣는다면 해당 시리즈의 중복 데이터만 찾는다.
- keep='first' : 중복되는 데이터 중 첫번째 데이터를 제외하고 다 제거한다.
- keep='last' : 중복되는 데이터 중 마지막 데이터를 제외하고 다 제거한다.
- inplace=True : 원본에 삭제 변경 사항을 여과없이 적용, 원본 수정


In [30]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [34]:
df.drop_duplicates(keep='last')

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [35]:
df.drop_duplicates(keep='first')

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [37]:
# hobby series에서 중복된 데이터 중 마지막 데이터를 제외하고 다 제거한다.
df.drop_duplicates('hobby', keep='last')

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


## 결측치 처리

In [38]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [40]:
# 결측치의 존재 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   job     6 non-null      object 
 3   hobby   6 non-null      object 
dtypes: float64(1), object(3)
memory usage: 320.0+ bytes


- 사람 데이터에서 나이(age)는 없을 수 없다.
- 결측치 처리 방법
    - 평균값 / 중앙값 / 최빈값/ ..

In [41]:
df['age'] = np.where(df['age'].isna(), df['age'].median(), df['age'])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,38.0,연예인,music


In [42]:
df['age'].fillna(df['age'].mean(), inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,38.0,연예인,music


## 그룹화 하기
**None 값을 0 값으로 치환**

In [43]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df['age'].fillna(0, inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,0.0,연예인,music


In [44]:
df.groupby('job')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002BF963D7550>

1. job 종류 확인 : unique()
2. job 별 개수 확인 :  value_counts()

In [45]:
# df의 데이터의 중복된 개수 확인
df.value_counts()

name  age   job  hobby
이영자   45.0  상담사  talk     1
유재석   41.0  교수   art      1
신동엽   20.0  연예인  music    1
      0.0   연예인  music    1
김새롬   18.0  학생   study    1
강호동   38.0  연예인  talk     1
dtype: int64

In [47]:
# df의 job series에서 중복되는 데이터의 수를 보여준다.
df['job'].value_counts()

연예인    3
학생     1
교수     1
상담사    1
Name: job, dtype: int64

In [48]:
# 취미별 grouping 후에 연산이 가능한 series의 값의 합을 자동 도출
df.groupby('hobby').sum()

Unnamed: 0_level_0,age
hobby,Unnamed: 1_level_1
art,41.0
music,20.0
study,18.0
talk,83.0
