# Chapter 14. Pandas 데이터 분석

In [2]:
import pandas as pd

### Series

In [4]:
# ex 14-1
obj = pd.Series([5, -4, 7, 0, 12])
obj

0     5
1    -4
2     7
3     0
4    12
dtype: int64

In [5]:
# ex 14-2
obj.values

array([ 5, -4,  7,  0, 12], dtype=int64)

In [6]:
obj.index

RangeIndex(start=0, stop=5, step=1)

In [7]:
obj[2]

7

In [8]:
# ex 14-3
obj = pd.Series([10, 20, 30, 40, 50], index = ['a', 'b', 'c', 'd', 'e'])
obj

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [9]:
obj.values

array([10, 20, 30, 40, 50], dtype=int64)

In [10]:
obj.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [11]:
obj['a']

10

In [12]:
obj[1:4]

b    20
c    30
d    40
dtype: int64

In [13]:
obj['a':'b']

a    10
b    20
dtype: int64

In [14]:
# ex 14-4
obj * 10

a    100
b    200
c    300
d    400
e    500
dtype: int64

In [15]:
obj[obj > 25]

c    30
d    40
e    50
dtype: int64

In [17]:
# ex 14-5
pop = pd.Series([9765623, 3441453, 2461769],
                index = ['서울', '부산', '대구'])

In [19]:
for i, v in pop.items():
    print('%s: %d' %(i,v))

서울: 9765623
부산: 3441453
대구: 2461769


In [20]:
for item in pop:
    print(item)

9765623
3441453
2461769


In [21]:
# ex 14-6
pop = pd.Series({'서울': 9765623, '부산':3441453, '대구': 2461769})
pop

서울    9765623
부산    3441453
대구    2461769
dtype: int64

In [22]:
pop = pd.Series({'서울': 9765623, '부산':3441453, '대구': 2461769},
                    index = ['서울', '부산', '대구', '광주', '대전'])
pop

서울    9765623.0
부산    3441453.0
대구    2461769.0
광주          NaN
대전          NaN
dtype: float64

In [26]:
pop.isna()

서울    False
부산    False
대구    False
광주     True
대전     True
dtype: bool

In [27]:
pop.fillna(0)
pop

서울    9765623.0
부산    3441453.0
대구    2461769.0
광주          NaN
대전          NaN
dtype: float64

In [28]:
pop.sum()

15668845.0

In [29]:
pop.mean()

5222948.333333333

## Date Frame

In [30]:
# ex 14-7
data = {'이름': ['홍지수', '안지영', '김성수', '최예린'],
        '아이디': ['jshong', 'jyahn', 'sukim', 'yrchoi'],
        '비밀번호': ['1234', '1234', '1234', '1234']}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,아이디,비밀번호
0,홍지수,jshong,1234
1,안지영,jyahn,1234
2,김성수,sukim,1234
3,최예린,yrchoi,1234


In [31]:
df['이름']

0    홍지수
1    안지영
2    김성수
3    최예린
Name: 이름, dtype: object

In [33]:
df['이름'][0]

'홍지수'

In [34]:
# ex 14-8
member = {'이름': ['김영준', '한지원'],
          '나이': [20, 23],
          '전화번호': ['010-3535-4576', '010-1295-7899']}
member

{'이름': ['김영준', '한지원'],
 '나이': [20, 23],
 '전화번호': ['010-3535-4576', '010-1295-7899']}

In [36]:
df = pd.DataFrame(member, columns = ['이름', '전화번호', '나이', '주소'],
                  index = ['01', '02'])
df

Unnamed: 0,이름,전화번호,나이,주소
1,김영준,010-3535-4576,20,
2,한지원,010-1295-7899,23,


### R: Retrieval

In [37]:
# ex 14-9
data = {'학교명': ['가나고', '다라고', '마바고', '사아고', '자차고'],
        '학급수': [25, 23, 15, 19, 10],
        '학생수': [620, 600, 550, 580, 400],
        '교사수': [80, 95, 70, 90, 65]}
df = pd.DataFrame(data, index = ['01', '02', '03', '04', '05'])
df

Unnamed: 0,학교명,학급수,학생수,교사수
1,가나고,25,620,80
2,다라고,23,600,95
3,마바고,15,550,70
4,사아고,19,580,90
5,자차고,10,400,65


In [38]:
df['학생수'][2]

550

In [39]:
df.loc['02', '학생수']

600

In [40]:
df.loc['04', ['학교명', '학급수', '교사수']]

학교명    사아고
학급수     19
교사수     90
Name: 04, dtype: object

In [55]:
# ex 14-10
data = {'아이디': ['kim', 'song', 'han', 'choi'],
        '구매상품': ['상품A', '상품B', '상품C', '상품D'],
        '가격': [15000, 23000, 33000, 50000],
        '개수': [3, 5, 1, 10],
        '구매일': ['0303', '0810', '0120', '0601']}
df = pd.DataFrame(data)
df

Unnamed: 0,아이디,구매상품,가격,개수,구매일
0,kim,상품A,15000,3,303
1,song,상품B,23000,5,810
2,han,상품C,33000,1,120
3,choi,상품D,50000,10,601


In [56]:
df['개수'][1], df.loc[1, '개수']

(5, 5)

In [57]:
df.iloc[1, 1:]

구매상품      상품B
가격      23000
개수          5
구매일      0810
Name: 1, dtype: object

In [60]:
df.iloc[1:, 0:2]

Unnamed: 0,아이디,구매상품
1,song,상품B
2,han,상품C
3,choi,상품D


### 데이터 조작

In [62]:
# ex 14-11
scores = {'이름': ['김지영', '안지수', '최성수', '황예린', '김소정'],
          '국어': [95, 97, 90, 94, 87],
          '영어': [90, 86, 93, 85, 93],
          '수학': [85, 88, 89, 88, 99]}
df = pd.DataFrame(scores)
df

Unnamed: 0,이름,국어,영어,수학
0,김지영,95,90,85
1,안지수,97,86,88
2,최성수,90,93,89
3,황예린,94,85,88
4,김소정,87,93,99


In [63]:
df2 = df.iloc[:, 1:]
df2

Unnamed: 0,국어,영어,수학
0,95,90,85
1,97,86,88
2,90,93,89
3,94,85,88
4,87,93,99


In [64]:
df2.sum(axis =1)

0    270
1    271
2    272
3    267
4    279
dtype: int64

In [65]:
df['합계'] = df2.sum(axis = 1)
df

Unnamed: 0,이름,국어,영어,수학,합계
0,김지영,95,90,85,270
1,안지수,97,86,88,271
2,최성수,90,93,89,272
3,황예린,94,85,88,267
4,김소정,87,93,99,279


In [66]:
# ex 14-12
df2.mean(axis =1)

0    90.000000
1    90.333333
2    90.666667
3    89.000000
4    93.000000
dtype: float64

In [67]:
df['평균'] = df2.mean(axis = 1)
df

Unnamed: 0,이름,국어,영어,수학,합계,평균
0,김지영,95,90,85,270,90.0
1,안지수,97,86,88,271,90.333333
2,최성수,90,93,89,272,90.666667
3,황예린,94,85,88,267,89.0
4,김소정,87,93,99,279,93.0


In [70]:
df[['이름', '합계', '평균']]

Unnamed: 0,이름,합계,평균
0,김지영,270,90.0
1,안지수,271,90.333333
2,최성수,272,90.666667
3,황예린,267,89.0
4,김소정,279,93.0


In [71]:
df.count()

이름    5
국어    5
영어    5
수학    5
합계    5
평균    5
dtype: int64

In [73]:
len(df)

5

In [75]:
df.shape[0]

5

### - 정렬

In [76]:
df

Unnamed: 0,이름,국어,영어,수학,합계,평균
0,김지영,95,90,85,270,90.0
1,안지수,97,86,88,271,90.333333
2,최성수,90,93,89,272,90.666667
3,황예린,94,85,88,267,89.0
4,김소정,87,93,99,279,93.0


In [83]:
df.sort_values(by = ['합계'])

Unnamed: 0,이름,국어,영어,수학,합계,평균
3,황예린,94,85,88,267,89.0
0,김지영,95,90,85,270,90.0
1,안지수,97,86,88,271,90.333333
2,최성수,90,93,89,272,90.666667
4,김소정,87,93,99,279,93.0


### - apply 변환

In [86]:
df = pd.DataFrame({
     'A': [1, 2, 3, 4, 4],
     'B': [2, 3, 1, 2, 3],
     'C': [1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,2,3,5
2,3,1,2
3,4,2,4
4,4,3,4


In [90]:
# default axis = 0
df.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [91]:
# 행에 대해서 적용
df.apply(lambda x: x.max() - x.min(), axis = 1)

0    1
1    3
2    2
3    2
4    1
dtype: int64

In [92]:
df.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,1.0,2.0,1.0
3,1.0,2.0,
4,2.0,,2.0
5,,,1.0


In [93]:
df.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,1,2,1
3,1,2,0
4,2,0,2
5,0,0,1
