# 4장 판다스 데이터 분석

In [1]:
import numpy as np
import pandas as pd

## 시리즈(series) 클래스
넘파이는 숫자로만 인덱싱 할 수 있는데  
판다스는 세로(열)로 입력 가능. 순서가 꼭 0.1.2 아니고 first second 입력할 수 있음.

In [3]:
#pd.Series 시리즈__init생성자를 불러서 4개의 데이터값을 넣어준다. 
# 0.1.2.3도 되지만 판다스의 인덱스는 옵션으로 서울부산인천대구 입력해도 됨
s = pd.Series([9904312, 3448737, 2890451, 2466052],  
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [7]:
#위의 내용을 넘파이로 만들어보자
x = np.array([9904312, 3448737, 2890451, 2466052])
x

array([9904312, 3448737, 2890451, 2466052])

In [10]:
pd.Series(range(10,14))  #시리즈 대문자주의
#만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.

0    10
1    11
2    12
3    13
dtype: int64

In [11]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [14]:
s.values  #np.array와 결과값이 비슷( 시리즈의 인덱스속성을 뽑아> 벨류 속성를 하면> 넘파이처럼 쓸 수 있다)

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [15]:
s.name = "인구"         #시리즈 데이터에 이름을 붙임. 나중에 데이터프레임만들때.. 한 열(시리즈)의 제목이 되는것.
s.index.name = "도시" # 시리즈의 인덱스에도 이름을 붙임.
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

## 시리즈연산

In [16]:
#벡터화 연산을 지원. 라벨에 영향을 미치지 않는다.
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

## 시리즈 인덱싱

In [17]:
s[1], s["부산"]  # 동일한 데이터가 나온다. s[1] = s["부산"]

(3448737, 3448737)

In [18]:
#순서를 바꿀 수 있다. # 변수에 인입시키면, 또다른 데이터로 쓸 수 있다.
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [19]:
# 이렇게도 빼낼 수 있다.  (인덱스이름으로 가능) 위에는 번호로 빼낼 수 있따.
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [20]:
# e4란, 0이 4개 붙은것
s[(250e4 < s) & (s < 500e4)]  # 인구가 250만 초과, 500만 미만인 경우

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [21]:
#시리즈도 슬라이싱이 된다
#그런데 데이터프레임에서는 끝이 포함...... (헷갈리니 주의)
s[1:3]  # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함) 숫자로하면

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [22]:
s["부산":"대구"]  # 부산에서 대구까지 (대구도 포함) 이름으로하면 끝을 포함시킴... (헷갈리니주의)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [23]:
s0 = pd.Series(range(3), index=["a", "b", "c"])  #0.1.2에 인덱스를 준것.
s0

a    0
b    1
c    2
dtype: int64

In [24]:
s0.a  #노드 오브젝트 자료 꺼내듯이 이렇게 해도 나옴. 속성인것처럼.쩜 사용

0

## 시리즈와 딕셔너리 자료형
시리즈구성  인덱스와 값  
딕셔너리구성 키와 값  
(~_~) 둘이 비슷해~~~  
딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.


In [25]:
"서울" in s  # 인덱스 라벨 중에 서울이 있는가

True

In [26]:
"대전" in s  # 인덱스 라벨 중에 대전이 있는가

False

In [30]:
#딕셔너리를 포룩 돌릴때... items를 이용해서 키와 밸류를 뽑아냈었다!!
for k, v in s.items():
    print(f"{k} = {v}")

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [31]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2
#딕셔너리의 키값이 시리즈화되었다.
# 순서보장이 안된다ㅠㅠㅠㅠ 그래서 아래의 해결책

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [32]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
s2
#인덱스를 지정해주면 순서대로 들어간다.

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

## 인덱스 기반 연산

In [33]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [35]:
#s와 s2의 차이를 구해보자
#인덱스가 같은 놈끼리 빼준다 (없는인덱스는 NaN)
ds = s - s2
ds
#연산을 했더니 타입이 float로 바뀌었다.


대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [36]:
# 예를들어  이건.... 같은인덱스끼리가 아닌, 엉뚱...
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [37]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [39]:
ds[ds.notnull()]  #되려 낫널을 인덱싱하면 정도가 있는 것만True만 나온다.  오~~~~~~

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [40]:
# 인구증가율(%) 
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

## 데이터의 갱신rs, 추가rs, 삭제del rs

In [41]:
# 갱신rs 있는 부산에 숫자바꿔줌
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [42]:
rs["대구"] = 1.41
rs
# 없던 대구가 추가됨

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [43]:
#서울 지움 del rs
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [45]:
# 연습문제 4.1.1
a = pd.Series([100, 200, 300, 500],  
              index=["서울", "부산", "인천", "대구"])
a

서울    100
부산    200
인천    300
대구    500
dtype: int64

In [46]:
s = pd.Series([50, 50, 50, 50],  
              index=["서울", "부산", "인천", "대구"])
s

서울    50
부산    50
인천    50
대구    50
dtype: int64

In [47]:
ds = a - s
ds

서울     50
부산    150
인천    250
대구    450
dtype: int64

In [48]:
a.values - s.values

array([ 50, 150, 250, 450], dtype=int64)

In [49]:
ds = a + s
ds

서울    150
부산    250
인천    350
대구    550
dtype: int64

## 데이터프레임(DataFrame)

### 데이터프레임 생성
우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.  

이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.  

이 데이터를 DataFrame 클래스 생성자에 넣는다.   
동시에 열방향 인덱스는 columns 인수로,   
행방향 인덱스는 index 인수로 지정한다  

In [54]:
data = {
    "지역": ["수도권","경상권","수도권","경상권"],
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2417680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
# columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df
# columns를지워도 컬럼이 들어갈 수 있따.. 위에처럼 입력
#공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2417680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [55]:
#시리즈와 마찬가지로 벨류스써보자
df.values  # 인덱스를 제외한 데이터만 꺼내올 수 있다.
#문자열, 정수, 실수

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2417680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [56]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [57]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [58]:
#인덱스의 이름, 컬럼스의 이름을 정해줄 수 있다.
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2417680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [69]:
# 연습문제 4.1.2
data = {
    "지역": ["수도권","경상권","수도권","경상권", "충청권"],
    "2020": [9999999, 3555555, 2999999, 2555555, 2555555],
    "2015": [9904312, 3448737, 2890451, 2466052, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774, 2466052],
    "2005": [9762546, 3512547, 2417680, 2456016, 2466052],
    "2000": [9853972, 3655437, 2466338, 2473990, 2466052],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141, 0.0982]
}
columns = ["지역", "2020", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구", "청주"]
aa = pd.DataFrame(data,index=index, columns=columns)
aa

Unnamed: 0,지역,2020,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9999999,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3555555,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2999999,2890451,2632035,2417680,2466338,0.0982
대구,경상권,2555555,2466052,2431774,2456016,2473990,0.0141
청주,충청권,2555555,2466052,2466052,2466052,2466052,0.0982


In [70]:
aa.index.name = "도시"
aa.columns.name = "특성"
aa

특성,지역,2020,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9999999,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3555555,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2999999,2890451,2632035,2417680,2466338,0.0982
대구,경상권,2555555,2466052,2431774,2456016,2473990,0.0141
청주,충청권,2555555,2466052,2466052,2466052,2466052,0.0982


In [71]:
df.T  #전치(transpose)  그냥보여만 줄 뿐.. 저장은 아니다 ~_~

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2417680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [74]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2417680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


## 열 데이터의 갱신, 추가, 삭제
시리즈단위(열단위) 갱신추가삭제는 쉽다쉽다쉽다

In [76]:
# "2010-2015 증가율"이라는 이름의 열 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100 #100을 곱해서 퍼센트가 나오니까
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,283.0
부산,경상권,3448737,3393191,3512547,3655437,163.0
인천,수도권,2890451,2632035,2417680,2466338,982.0
대구,경상권,2466052,2431774,2456016,2473990,141.0


In [78]:
# "2005-2010 증가율"이라는 이름의 열 추가
# 컬럼명입력 = 계산식 
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,28300.0,-1.34
부산,경상권,3448737,3393191,3512547,3655437,16300.0,-3.4
인천,수도권,2890451,2632035,2417680,2466338,98200.0,8.87
대구,경상권,2466052,2431774,2456016,2473990,14100.0,-0.99


In [79]:
# "2010-2015 증가율"이라는 이름의 열 삭제 del
del df["2010-2015 증가율"]
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2417680,2466338,8.87
대구,경상권,2466052,2431774,2456016,2473990,-0.99


## 열 인덱싱

In [80]:
# 하나의 열[]만 인덱싱하면 "시리즈"가 반환된다.
# 하나만 주면 시리즈가 나온다..
df["지역"]

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [83]:
type(df["지역"])

pandas.core.series.Series

In [81]:
# 여러개의 열[[]]을 인덱싱하면 부분적인 "데이터프레임"이 반환된다.
# [[]] 꺽쇠가 두개여야 해요!!!!!!!!!!!주의주의
# 밖은 컬럼인덱싱[]  안은 리스트기호[]
df[["2010", "2015"]]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [82]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
# 열 하나만 갖는 데이터프레임 유지
df[["2010"]]   #숫자인덱싱넣으면 에러남/ 열인덱싱은 열이름을 써줄것

Unnamed: 0,2010
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [84]:
type(df[["2010"]])   
#위에위에 타입은 pandas.core.series.Series시리즈인데 , 여기는 데이터프레임이다

pandas.core.frame.DataFrame

In [85]:
#숫자인덱싱넣으면 에러남/ 열인덱싱은 열이름을 써줄것
df[0]

KeyError: 0

In [90]:
#숫자인덱싱넣으면 에러남/ 열인덱싱은 열이름을 써줄것 '' "" 다 가능
df['지역']

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [91]:
#문자열이 아닌   
#정수형 열 인덱스를 가지는 경우에는 인덱스 값으로 정수를 사용할 수 있다.
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [92]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [93]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


## 행 인덱싱 slicing
문자, 정수 입력가능  
반드시 슬라이싱을 해야한다!!!!!!!!!!!!!!!
(슬라이싱을 안하면 열인줄 알아여....)

In [97]:
df[:1]  #첫번째 행 출력. (숫자는 비포함)(슬라이싱을 안하면 열인줄알고....)

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [99]:
df[:'서울']  # 문자입력도 가능(문자는 포함)

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [101]:
df[:'부산']  #부산까지 포함해서  1.2줄 보고싶다.

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [102]:
df[1:2]   #두번째줄 부산만 보고싶다.

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.4


## 개별 데이터 인덱싱  df\[열]\[행]***********************
한 개 값만 가져옴
넘파이에서는 \[행 열] 이였는데...  
df\[열]\[행]  
df.loc\[행,열]  

In [104]:
df["2015"]["서울"]

9904312

In [120]:
# 연습문제 4.1.3
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [106]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [115]:
# (1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [116]:
type(df["수학"])

pandas.core.series.Series

In [113]:
# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
# 리스트로 주면 된다.
df[["국어", "영어"]] 

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [117]:
type(df[["국어", "영어"]] )

pandas.core.frame.DataFrame

In [124]:
# (3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
# 교수님정답  axis=1 행방향  함수쓴방법
# df['평균'] = df.mean(axis=1).round(2)
# 나는.. 벡터화연산 ㅋ
df["평균점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [126]:
# (4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
# del df['평균']
# df["영어"]["방자"] = 80
# df['평균'] = df.mean(axis=1).round(2)
df["영어"]["방자"] = 80
df

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,46.67


In [127]:
df["평균점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [130]:
# (5) 춘향의 점수를 데이터프레임으로 나타낸다.
# 교수님정답 df[:'춘향'].T
df[:1]

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67


In [131]:
type(df[:1])

pandas.core.frame.DataFrame

In [140]:
# (6) 향단의 점수를 시리즈로 나타낸다.
df[2:3].T

Unnamed: 0,향단
국어,70.0
영어,60.0
수학,80.0
평균점수,70.0


In [142]:
df.T['향단']  #.T 트랜스퍼가 뒤가아니라 앞으로였다!!!!!!!!!!

국어      70.0
영어      60.0
수학      80.0
평균점수    70.0
Name: 향단, dtype: float64

In [143]:
type(df.T['향단'])  # 데이터프레임을 시리즈로 바꾸기

pandas.core.series.Series

df\["수학"] 컬럼명입력 열출력> pandas.core.series.Series  
df\[\["국어", "영어"]] 컬럼명입력 열출력> pandas.core.frame.DataFrame  
df\[:1] 인덱스입력 행출력 > pandas.core.frame.DataFrame  