## 4.판다스 데이터 분석

### 학습목표
* 시리즈와 데이터프레임을 만들 수 있다.
* 판다스를 이용하여 csv 파일을 읽고 쓸 수 있다.
* 시리즈와 데이터프레임에서 원하는 데이터를 읽고 갱신하는 방법을 익힌다.
* 시리즈와 데이터프레임의 데이터를 조작하는 법을 공부한다.
* 멀티 인덱스와 이를 다루는 방법을 학습한다.
* 둘 이상의 데이터프레임을 하나로 합치는 법을 익힌다.
* 데이터를 그룹으로 나누어 분석하고 피봇테이블을 만드는 방법을 공부한다.

### 4.1판다스 패키지 소개
* Series클래스와 DataFrame클래스를 제공

### 판다스 패키지 임포트 

In [2]:
import pandas as pd

### 시리즈 클래스 
* 시리즈 = 값(value) + 인덱스(index)

#### 시리즈 생성

In [7]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
             index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [10]:
s.index, s.values

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 array([9904312, 3448737, 2890451, 2466052], dtype=int64))

name속성을 이용하면 시리즈 데이터에 명칭 부여 가능.

In [11]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

만약, 인덱스를 지정하지 않고 시리즈를 만들면

In [12]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

#### 시리즈 연산
* 넘파이 배열처럼 시리즈도 벡터화연산이 가능하며, 연산은 해당 시리즈에대ㅔ 해당한다.

In [13]:
s * 2

도시
서울    19808624
부산     6897474
인천     5780902
대구     4932104
Name: 인구, dtype: int64

#### 시리즈 인덱싱

In [16]:
s[1],s["부산"]

(3448737, 3448737)

In [18]:
s[3], s["대구"]

(2466052, 2466052)

In [20]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [22]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [24]:
s[(250e4 < s) & (s < 500e4)] # 인구가 250만 초과, 500만 미만

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [28]:
s[1:3]  # 0부터 2까지만.

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [29]:
s["부산": "대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [32]:
s0 = pd.Series(range(3), index = ["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [35]:
s0.a, s0.b

(0, 1)

#### 시리즈와 딕셔너리 자료형
시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [40]:
"서울" in s , "대전" in s, type(s)

(True, False, pandas.core.series.Series)

In [42]:
for k, v in s.items():
     print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [45]:
from collections import OrderedDict
s2 = pd.Series(OrderedDict({
    "서울": 9631482, 
    "부산": 3393191, 
    "인천": 2632035, 
    "대전": 1490158
    }),
    index = ["서울", "부산", "인천", "대전"]
)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [47]:
s2.index, s2.values

(Index(['서울', '부산', '인천', '대전'], dtype='object'),
 array([9631482, 3393191, 2632035, 1490158], dtype=int64))

#### 인덱스 기반 연산

In [50]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [52]:
s.values - s2.values

array([272830,  55546, 258416, 975894], dtype=int64)

In [54]:
ds.notna()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [56]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [59]:
rs = (s - s2 ) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

#### 데이터의 갱신, 추가, 삭제

In [65]:
import numpy as np
rs['부산'] = np.round(rs['부산'], decimals = 0)
rs

부산    2.000000
서울    2.832690
인천    9.818107
dtype: float64

In [None]:
del rs['서울']

In [70]:
rs

부산    2.000000
인천    9.818107
dtype: float64

#### 연습문제 4.1.1

1), 2) 임의로 두개의 시리즈 객체를 만들고 사칙연산을 하라.단, 인덱스에는 서로간에 공통적으로 포함되지 않는 라벨이 있어야 함.

In [75]:
s1 = pd.Series(data = np.arange(4), index = ['A', 'B', 'C', 'D'])
s2 = pd.Series(data = np.arange(10,14), index = ['A', 'F', 'D', 'H'])
print(s1)
print("\n")
print(s2)

A    0
B    1
C    2
D    3
dtype: int32


A    10
F    11
D    12
H    13
dtype: int32


In [79]:
s1 + s2, s1 - s2, s1 * s2

(A    10.0
 B     NaN
 C     NaN
 D    15.0
 F     NaN
 H     NaN
 dtype: float64,
 A   -10.0
 B     NaN
 C     NaN
 D    -9.0
 F     NaN
 H     NaN
 dtype: float64,
 A     0.0
 B     NaN
 C     NaN
 D    36.0
 F     NaN
 H     NaN
 dtype: float64)

## 데이터프레임 클래스
* 시리즈가 1차원 벡터 데이터에 행방향 인덱스를 붙힌것이라면 데이터프레임은 2차원 행렬데이터에 인덱스를 붙힌것이라고 보면 된다.
* 2차원이므로, 행인덱스와 열인덱스로 명칭부여 가능하다.

### 데이터프레임 생성

In [105]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
}
cols = ["지역", "2015", "2010", "2005", "2000"]
idx = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data = data, index = idx, columns = cols)
df.head()

Unnamed: 0,지역,2015,2010,2005,2000
서울,수도권,9904312,9631482,9762546,9853972
부산,경상권,3448737,3393191,3512547,3655437
인천,수도권,2890451,2632035,2517680,2466338
대구,경상권,2466052,2431774,2456016,2473990


In [106]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000'], dtype='object')

In [107]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [108]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972],
       ['경상권', 3448737, 3393191, 3512547, 3655437],
       ['수도권', 2890451, 2632035, 2517680, 2466338],
       ['경상권', 2466052, 2431774, 2456016, 2473990]], dtype=object)

In [109]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482,9762546,9853972
부산,경상권,3448737,3393191,3512547,3655437
인천,수도권,2890451,2632035,2517680,2466338
대구,경상권,2466052,2431774,2456016,2473990


In [100]:
prod = {
        '과일명': ['사과', '파인애플', '멜론', '배', '딸기'],
        '수량'   : [10, 12, 10, 5, 15],
        '가격' : [1500, 1450, 2550, 5000, 4500],
        '할인율' : [0.02, 0.5, 0.04, 0.01, 0.1],
        '생산자' : ['화성', '수원', '익산', '전주', '장성']
}
df1 = pd.DataFrame(data = prod)
df1

Unnamed: 0,과일명,수량,가격,할인율,생산자
0,사과,10,1500,0.02,화성
1,파인애플,12,1450,0.5,수원
2,멜론,10,2550,0.04,익산
3,배,5,5000,0.01,전주
4,딸기,15,4500,0.1,장성


In [103]:
df.T

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


## 열 데이터의 갱신, 추가, 삭제

In [115]:
df["2010 - 2015 인구 증감률"] = (df['2015'] - df['2010']) / df['2015'] * 100

In [116]:
df["2005 - 2010 인구 증감률"] = (df['2010'] - df['2005']) / df['2005'] * 100

In [118]:
df

특성,지역,2015,2010,2005,2000,2010 - 2015 인구 증감률,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.754659,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,1.610619,-3.39799
인천,수도권,2890451,2632035,2517680,2466338,8.940335,4.542078
대구,경상권,2466052,2431774,2456016,2473990,1.389995,-0.987046


In [None]:
del df['2010 - 2015 인구 증감률']

In [122]:
df

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,-3.39799
인천,수도권,2890451,2632035,2517680,2466338,4.542078
대구,경상권,2466052,2431774,2456016,2473990,-0.987046


## 열 인덱싱

In [128]:
print(df['지역'])
print("\n")
print(type(df['지역']))

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object


<class 'pandas.core.series.Series'>


In [129]:
df[['2015', '2010']], type(df[['2015', '2010']])

(특성     2015     2010
 도시                  
 서울  9904312  9631482
 부산  3448737  3393191
 인천  2890451  2632035
 대구  2466052  2431774,
 pandas.core.frame.DataFrame)

In [132]:
df, df.index

(특성   지역     2015     2010     2005     2000  2005 - 2010 인구 증감률
 도시                                                             
 서울  수도권  9904312  9631482  9762546  9853972           -1.342519
 부산  경상권  3448737  3393191  3512547  3655437           -3.397990
 인천  수도권  2890451  2632035  2517680  2466338            4.542078
 대구  경상권  2466052  2431774  2456016  2473990           -0.987046,
 Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시'))

위의 경우처럼, 인덱스가 문자열 타입의 인덱스이기때문에...

In [None]:
df[0]  # KeyError: 0 가 난다.

아래의 경우는 인덱스가 정수형 타입이므로 에러가 안난다.

In [138]:
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [140]:
df2.index

RangeIndex(start=0, stop=3, step=1)

In [143]:
df2[0:2], df2[0]

(   0  1  2  3
 0  0  1  2  3
 1  4  5  6  7,
 0    0
 1    4
 2    8
 Name: 0, dtype: int32)

In [147]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


## 행 인덱싱

In [149]:
df

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,-3.39799
인천,수도권,2890451,2632035,2517680,2466338,4.542078
대구,경상권,2466052,2431774,2456016,2473990,-0.987046


In [152]:
df[:1]

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519


In [154]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.39799


In [156]:
df[:2]  # 정수형으로 하는 경우는 마지막 endPoint는 인덱싱범위에는 빠짐.

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,-3.39799


In [158]:
df[1:3]

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.39799
인천,수도권,2890451,2632035,2517680,2466338,4.542078


In [160]:
df[0:3]

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,-3.39799
인천,수도권,2890451,2632035,2517680,2466338,4.542078


In [162]:
df["서울": "인천"]

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,-3.39799
인천,수도권,2890451,2632035,2517680,2466338,4.542078


In [164]:
df["서울": "부산"]

특성,지역,2015,2010,2005,2000,2005 - 2010 인구 증감률
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.342519
부산,경상권,3448737,3393191,3512547,3655437,-3.39799


#### 연습문제 4.1.3

In [243]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
cols = ["국어", "영어", "수학"]
idx = ["춘향", "몽룡", "향단", "방자"]

df = pd.DataFrame(data, index = idx, columns = cols)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


모든 학생의 수학점수를 출력

In [247]:
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

In [232]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

In [248]:
df[['국어', '영어', '수학']].mean()

국어    67.5
영어    65.0
수학    75.0
dtype: float64

In [244]:
df['평균'] = df.mean(axis = 1).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

In [235]:
df[df.index == "방자"]

Unnamed: 0,국어,영어,수학,평균
방자,30,40,70,46.67


In [249]:
df[df.index == "방자"]["영어"]

방자    40
Name: 영어, dtype: int64

In [257]:
df["방자": "방자"]["영어"] = 70
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,70,70,46.67


In [259]:
df['평균'] = df.mean(axis = 1).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,70,70,56.04


5) 춘향의 점수를 데이터프레임으로 나타내라

In [268]:
df[0:1], type(df[0:1])

(    국어  영어  수학     평균
 춘향  80  90  90  86.67,
 pandas.core.frame.DataFrame)

6)향단의 점수를 시리즈로 나타내라

In [279]:
print(df[2:3])
print(type(df[2:3]))
df[2:3]['국어']

    국어  영어  수학    평균
향단  70  60  80  70.0
<class 'pandas.core.frame.DataFrame'>


향단    70
Name: 국어, dtype: int64