## 판다스 데이터 분석
- 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공

In [593]:
import pandas as pd
import numpy as np

### 시리즈(Series)
- 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다

In [594]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"]) #index는 옵션
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [595]:
x = np.array([[9904312, 3448737, 2890451, 2466052]])
x

array([[9904312, 3448737, 2890451, 2466052]])

In [596]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

In [597]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [598]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [599]:
s.name = "인구" #데이터 프레임을 만들면 한열의 제목이 됨
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산

In [600]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱

In [601]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [602]:
s[1], s['부산']

(3448737, 3448737)

In [603]:
s[[0, 3, 1]] # 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [604]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [605]:
# e4 : 0이 4개
s[(250e4 < s) & (s < 500e4)] # 인구가 250만 초과, 500만 미만인 경우

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [606]:
s[1:3]  # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [607]:
s["부산":"대구"]  # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [608]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [609]:
s0.a, s0.b

(0, 1)

### 시리즈와 딕셔너리 자료형

In [610]:
"서울" in s  # 인덱스 라벨 중에 서울이 있는가

True

In [611]:
"대전" in s  # 인덱스 라벨 중에 대전이 있는가

False

In [612]:
for k, v in s.items():
    print(f"{k} = {v}")

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [613]:
#딕셔너리 객체에서 시리즈를 만들 수도 있다. 딕셔너리는 순서보장안됨 / 키 : 값
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [614]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"]) 
               #인덱스를 나열하면 그 순서대로 넣어짐
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [615]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [616]:
#인덱스가 같은 것끼리 빼줌/없는 것들은 계산불가로 nan/타입이 실수(float)로 변경됨
ds = s - s2 
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [617]:
s.values - s2.values #인덱스에 맞춰서 빼줌/ex: 서울-부산

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [618]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

### notnull 
- 값이 있는 것들만 추출하는 메서드
- NaN이 아닌 값을 구하려면 notnull 메서드를 사용

In [619]:
ds[ds.notnull()] #ds에서 인덱싱을 하면 값이 있는 것만 추출

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [620]:
# 인구증가율(%)
rs = (s - s2) / s * 100
rs = rs[rs.notnull()]
rs

부산    1.610619
서울    2.754659
인천    8.940335
dtype: float64

### 데이터의 갱신, 추가, 삭제

In [621]:
rs["부산"] = 1.63 # 값이 변경됨 / 데이터 갱신
rs

부산    1.630000
서울    2.754659
인천    8.940335
dtype: float64

In [622]:
rs["대구"] = 1.41 # 없는 항목 추가/데이터 추가
rs

부산    1.630000
서울    2.754659
인천    8.940335
대구    1.410000
dtype: float64

In [623]:
del rs["서울"] #del: 데이터 삭제
rs

부산    1.630000
인천    8.940335
대구    1.410000
dtype: float64

In [624]:
### 연습 문제 4.1.1
# 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

s1 = pd.Series([7000, 6540, 7894, 2456],
              index=["서울", "부산", "인천", "대구"]) #index는 옵션
s1

서울    7000
부산    6540
인천    7894
대구    2456
dtype: int64

In [625]:
s2 = pd.Series([8000,9000,10000,15000],
                index=["서울","부산","인천","대구"])
s2

서울     8000
부산     9000
인천    10000
대구    15000
dtype: int64

In [626]:
s1.name = "인구" #데이터 프레임을 만들면 한열의 제목이 됨
s1.index.name = "도시"
s1

도시
서울    7000
부산    6540
인천    7894
대구    2456
Name: 인구, dtype: int64

In [627]:
s2.name = "인구" #데이터 프레임을 만들면 한열의 제목이 됨
s2.index.name = "도시"
s2

도시
서울     8000
부산     9000
인천    10000
대구    15000
Name: 인구, dtype: int64

In [628]:
### 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

s3 = s2 - s1
s3

도시
서울     1000
부산     2460
인천     2106
대구    12544
Name: 인구, dtype: int64

In [629]:
s4  = pd.Series([7000, 6540, 7894, 2456],
            index=[["Capital","Capita","Capit","Capi"],
            ["서울","부산","인천","대구"]])
s4

Capital  서울    7000
Capita   부산    6540
Capit    인천    7894
Capi     대구    2456
dtype: int64

### 데이터프레임 클래스

In [630]:
### 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정

In [631]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역","2015","2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [632]:
data = {
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
#columns = ["지역","2015","2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df1 = pd.DataFrame(data, index=index)#, columns=columns)
df1

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [633]:
# values: 데이터만 접근 시 속성을 사용
df.values #문자열, 정수, 실수 / 열단위로 똑같다

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [634]:
# 열방향 인덱스와 행방향 인덱스는 각각 columns, index 속성으로 접근
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [635]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [636]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [637]:
### 연습 문제 4.1.2
### 다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.
###(1) 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.

### (2) 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

In [638]:
data = {

    "도시" : ["서울", "부산", "인천", "대구"],
    "지역" : ["수도권","경상권","수도권", "경상권"],
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482,3393191,2632035,2431774],
    "2005": [9762546,3512547,2517680,2456016],
    "2000": [9853972,3655437,2466338,2473990],
    "2010-2015 증가율": [0.0283,0.0163,0.0982,0.0141]
}
columns = ["지역","2015","2010","2005","2000","2010-2015 증가율"]
index = ["서울","부산","인천","대구"]
df3 = pd.DataFrame(data, index=index, columns=columns)
df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [639]:
df3.columns.name= "특성"
df3.index.name= "도시"
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [640]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열 데이터의 갱신, 추가, 삭제
- 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다

In [641]:
# "2010-2015 증가율"이라는 이름의 열 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100 #칼럼에 *100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [642]:
# "2005-2010 증가율"이라는 이름의 열 추가(df[넣을칼럼명] = 계산식)
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [643]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱

In [644]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
# 출력한 모양으로 나오는 것은 시리즈
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [645]:
type(df["지역"]) # Series

pandas.core.series.Series

In [646]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]] 
# []가 밖에 있는것은 컬럼값을 인덱싱하기 위한것 안에있는 []는 리스트기호
# []가 하나만주면 시리즈 2개면 데이터 프레임

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [647]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
# 리스트로 주면 열하나만 나오는 데이터 프레임
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [648]:
type(df[["2010"]]) #DataFrame

pandas.core.frame.DataFrame

In [649]:
df[0] # 열 인덱스가 문자열일때 순서를 나타내는 정수 인덱싱 추출을 사용불가

KeyError: 0

In [325]:
df['2000']

도시
서울    9853972
부산    3655437
인천    2466338
대구    2473990
Name: 2000, dtype: int64

In [326]:
# 열인덱스가 숫자일 경우는 정수 인덱싱 사용가능
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [327]:
df2[0]

0    0
1    4
2    8
Name: 0, dtype: int32

### 행 인덱싱
- 반드시 슬라이싱을 해야함

In [328]:
df[:1] 

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [329]:
df[:'서울'] 

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [330]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [331]:
df['서울':'부산']

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


### 개별 데이터 인덱싱
- 순서가 시리즈 부터 빼내고 후 행 인덱스를 빼냄
- 열, 행 순서

In [332]:
df['2015']['서울'] 

9904312

In [653]:
### 연습 문제 4.1.3 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [334]:
### (1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [338]:
### (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
df1 = df[['국어','영어']]
df1

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [522]:
###(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = ((df['국어'] + df['영어'] + df['수학']) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [654]:
df['평균'] = df.mean(axis=1).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [655]:
### (4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
del df['평균']
df['영어']['방자'] = 80
df['평균'] = df.mean(axis=1).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [113]:
### (5) 춘향의 점수를 데이터프레임으로 나타낸다.
df[:'춘향']

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667


In [118]:
df[:'춘향'].T

Unnamed: 0,춘향
국어,80.0
영어,90.0
수학,90.0
평균,86.67


In [119]:
### (6) 향단의 점수를 시리즈로 나타낸다
df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64