### Series : 1차원 데이터
- 인덱스 + 값

Series 만들기
- 각 도시들의 인구수를 Series로 만들어보자

In [2]:
import pandas as pd

In [3]:
# Series 만드는 함수

pop=pd.Series([9901232,3441423,2891323,2462123])

pop

0    9901232
1    3441423
2    2891323
3    2462123
dtype: int64

In [4]:
# 인덱스에 이름 부여
pop.index = ['서울','부산','인천','대구']

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [5]:
# 이름을 재설정
# rename

pop.rename({'서울':'써울'})

써울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [6]:
pop # rename은 재할당하지 않으면, 원본에 영향은 없다

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [7]:
#Series의 인덱스 이름을 부여해서 만들기
pop=pd.Series([9901232,3441423,2891323,2462123],
             index=['서울','부산','인천','대구']
             )

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [8]:
# 딕셔너리로 만드는 방법
# key값이 인덱스의 이름
# value값이 값
pp = pd.Series({'k1':1,'k2':2,'k3':3})

pp

k1    1
k2    2
k3    3
dtype: int64

In [9]:
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [10]:
# Series에 이름 부여
pop.name = '인구'

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [11]:
# Series의 index전체의 이름을 부여
pop.index.name = '도시'

pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

### Series의 값들 확인하기 (속성 확인)

In [12]:
# Series의 값들 확인
pop.values

array([9901232, 3441423, 2891323, 2462123], dtype=int64)

In [13]:
type(pop.values) #값이 넘파이 nd배열이라 인덱싱, 슬라이싱, 불리언 인덱싱이 가능하다!

numpy.ndarray

In [14]:
type(pop)

pandas.core.series.Series

In [15]:
# Series의 index 확인
pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')

In [16]:
# Series의 데이터 타입 확인

pop.dtype

dtype('int64')

### 인덱싱

In [17]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [18]:
# 인덱스의 이름으로 인덱싱
pop['부산']

3441423

In [19]:
pop[1]

  pop[1]


3441423

In [20]:
# 여러 도시를 인덱싱

pop[['부산','대구']]

도시
부산    3441423
대구    2462123
Name: 인구, dtype: int64

In [21]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [22]:
# 인덱스 번호로 슬라이싱
# 부산 ~ 인천(1~2번 인덱스 가져옴)
# 끝값은 포함되지 않음!
pop[1:3]

도시
부산    3441423
인천    2891323
Name: 인구, dtype: int64

In [23]:
# 인덱스 이름으로 슬라이싱

pop['부산':'대구']

도시
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

### 불리언 인덱싱
- 특정 조건에 맞는 데이터를 가져온다.
- 인덱스 번호 대신, 조건식을 입력한다.

In [24]:
# Series를 이용해 불리언 값을 가져와보자

# 인구가 300만 이하인가?
pop<=3000000

# 불리언 인덱싱의 재료

도시
서울    False
부산    False
인천     True
대구     True
Name: 인구, dtype: bool

In [25]:
pop[pop<=3000000]

도시
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [26]:
# 불리언 인덱싱
# 인구가 250만 이상이고, 500만 이하인 도시들을 가져와보자
(pop>=2500000) & (pop<=5000000)

도시
서울    False
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [27]:
pop[(pop>=2500000) & (pop<=5000000)]

도시
부산    3441423
인천    2891323
Name: 인구, dtype: int64

### Series 데이터 변경, 추가, 삭제

In [28]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [29]:
# 인덱싱으로 불러와서, 새로운 값을 넣어줌
# 데이터 변경(=update=재할당)
pop['부산']= 3400000

pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [30]:
# 데이터 추가
# 기존에 없는 인덱스 라벨에 데이터를 넣어줌

pop['대전'] = 2400000

# 두번째 실행부턴 이젠 '대전'이 있으므로, '데이터 추가'가 아니라, '데이터 변경'이다

In [31]:
# 데이터를 삭제
del pop['서울']

pop

도시
부산    3400000
인천    2891323
대구    2462123
대전    2400000
Name: 인구, dtype: int64

### DataFrame(2차원 데이터) 만들기

In [32]:
# 딕셔너리를 이용, 데이터 프레임 생성

data = {'서울':[9904312,9631482],
        '부산':[3448737,3393191],
        '인천':[2890451,2632035],
        '대구':[2466052,2431774]
       }

ind = ['2015','2010']

pop =pd.DataFrame(data, index = ind)

pop

# Series : key값이 인덱스 name으로 명명됨
# DataFrame : key값이 컬럼명으로 명명된다.

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [33]:
# 리스트 이용, 데이터 프레임 생성

data= [[9904312,3448737,2890451,2466052],
       [9631482,3393191,2632035,2431774]
      ]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']

# pd.DataFrame(데이터, index = 인덱스 이름, columns = 컬럼이름)
pop = pd.DataFrame(data, index = ind, columns = col)

pop

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [34]:
# 인덱스 이름 변경 (=key값 이름 변경)
# DF명.rename(index={바꾸기전:바꾼 후},columns={바꾸기전:바꾼 후}
pop.rename(index={'2015':'2016','2010':'2011'})

Unnamed: 0,서울,부산,인천,대구
2016,9904312,3448737,2890451,2466052
2011,9631482,3393191,2632035,2431774


In [35]:
pop

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


정리
- DF(=DataFrame)를 생성하는 방법은 2가지
- 딕셔너리 방식은 key값이 컬럼명, value값이 전치돼서 들어감
- 리스트 방식은 보이는 위치 그대로 들어감

In [36]:
# 전치
pop = pop.T

pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
# DF의 컬럼 변경
# 기존 컬럼을 인덱싱해서 새 값 대입
pop['2015']=[990,345,289,247]

pop

Unnamed: 0,2015,2010
서울,990,9631482
부산,345,3393191
인천,289,2632035
대구,247,2431774


### 행(=튜플=인덱스명)은 슬라이싱, 열(=컬럼)은 인덱싱으로만 불러올수있다.

In [38]:
# DF에 새로운 컬럼 추가
pop['2005'] =[1,2,3,4]

pop

Unnamed: 0,2015,2010,2005
서울,990,9631482,1
부산,345,3393191,2
인천,289,2632035,3
대구,247,2431774,4


In [39]:
# DF에 컬럼 삭제
del pop['2005']

pop

Unnamed: 0,2015,2010
서울,990,9631482
부산,345,3393191
인천,289,2632035
대구,247,2431774


행 or 열 삭제(drop)

In [40]:
# DF에 새로운 컬럼 추가
pop['2005'] =[1,2,3,4]

pop

Unnamed: 0,2015,2010,2005
서울,990,9631482,1
부산,345,3393191,2
인천,289,2632035,3
대구,247,2431774,4


In [41]:
# drop: 행 또는 열 삭제
# 행 삭제시에는 인덱스명(서울 부산), 열 삭제시에는 컬럼명(2015 2005)
# 축방향 설정 필요. axis = 0 (행), axis = 1 (열) (축방향 axis 생략할 경우, axis =0 행에 접근한다.)
# inplace = True 원본에 영향을 미침, 생략할 경우 False

# DF명.drop(행 or 열 이름, axis = 0 or 1, inplace = True or False)

pop.drop('2005',axis=1, inplace=False)

Unnamed: 0,2015,2010
서울,990,9631482
부산,345,3393191
인천,289,2632035
대구,247,2431774


In [42]:
pop

Unnamed: 0,2015,2010,2005
서울,990,9631482,1
부산,345,3393191,2
인천,289,2632035,3
대구,247,2431774,4


In [43]:
# inplace - True
pop.drop('2005',axis=1, inplace=True)

In [44]:
pop

Unnamed: 0,2015,2010
서울,990,9631482
부산,345,3393191
인천,289,2632035
대구,247,2431774


In [45]:
pop.drop('서울')
# axis = 0, inplace = False

Unnamed: 0,2015,2010
부산,345,3393191
인천,289,2632035
대구,247,2431774


In [46]:
pop

Unnamed: 0,2015,2010
서울,990,9631482
부산,345,3393191
인천,289,2632035
대구,247,2431774


In [47]:
pop['2015'] = [9904312,3448737,2890451,2466052]

pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


### DataFrame 속성 확인
- 형태, 값, 인덱스, 컬럼명

In [48]:
# 형태

pop.shape
# 4행 2열

(4, 2)

In [49]:
# 값

pop.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [50]:
# 인덱스명
pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [51]:
# 컬럼명
pop.columns

Index(['2015', '2010'], dtype='object')

![image.png](attachment:158e5cb0-bc61-4817-8016-9ed6fbdc9782.png)

In [52]:
# 리스트 이용, 데이터 프레임 생성

data= [[175.3,66.2, 27.0],
       [180.2,78.9,49.0],
       [178.6,55.1,35.0]
      ]
ind = ['홍길동','김사또','임꺽정']
col = ['키','몸무게','나이']

# pd.DataFrame(데이터, index = 인덱스 이름, columns = 컬럼이름)
human = pd.DataFrame(data, index = ind, columns = col)

human

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [53]:
human=human.T

human

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [54]:
# 딕셔너리를 이용하여 생성
data = {'키' : [175.3, 180.2, 178.6],
        '몸무게' : [66.2, 78.9, 55.1],
        '나이' : [27.0, 49.0, 35.0],
       }

ind = ['홍길동', '김사또', '임꺽정']

DF2 = pd.DataFrame(data, index = ind)

DF2

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [55]:
# 리스트를 이용하여 생성
DF1 = pd.DataFrame([[175.3, 66.2, 27.0],
                    [180.2, 78.9, 49.0],
                    [178.6, 55.1, 35.0]],   # 데이터부분
                   index = ['홍길동', '김사또', '임꺽정'],   # 인덱스
                   columns = ['키', '몸무게', '나이']   # 컬럼
                  )

DF1

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


### 연산

In [56]:
pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [57]:
pop+1000000
# 각 값에 모두 계산

Unnamed: 0,2015,2010
서울,10904312,10631482
부산,4448737,4393191
인천,3890451,3632035
대구,3466052,3431774


In [58]:
# 새로운 데이터 pop2 정의
pop2 = pop+1000000
pop2 # pop1과의 차이는 1000000

Unnamed: 0,2015,2010
서울,10904312,10631482
부산,4448737,4393191
인천,3890451,3632035
대구,3466052,3431774


In [59]:
pop2-pop

Unnamed: 0,2015,2010
서울,1000000,1000000
부산,1000000,1000000
인천,1000000,1000000
대구,1000000,1000000


In [60]:
pop-pop

Unnamed: 0,2015,2010
서울,0,0
부산,0,0
인천,0,0
대구,0,0


In [61]:
pop2['2005'] = [1,2,3,4]


pop2

Unnamed: 0,2015,2010,2005
서울,10904312,10631482,1
부산,4448737,4393191,2
인천,3890451,3632035,3
대구,3466052,3431774,4


In [62]:
# pop2 : 2005컬럼 보유
# pop : 2005컬럼 미보유

pop2 - pop

# 인덱스명, 컬럼명 모두 일치한 부분끼리만 연산
# NaN (Not a Number) : 정해지지 않은 값

Unnamed: 0,2005,2010,2015
서울,,1000000,1000000
부산,,1000000,1000000
인천,,1000000,1000000
대구,,1000000,1000000


### DataFrame의 인덱싱, 슬라이싱

In [78]:
# read_csv -> 한글 인코딩.(한글을 0과1로 바꿔주는 것)(주피터 노트북 default는 영어 인코딩이기 때문)
# read_csv('데이터 위치', encoding = '인코딩 방식', index_col= 인덱스로 만들 컬럼)
score_data= pd.read_csv('data/score.csv',encoding ='euc-kr', index_col=0)

# encoding : 컴퓨터가 문자를 인식할 수 있도록 해주는 처리 과정
# euc-kr : 한글 전용 인코딩 방식
# index_col: 데이터에서 인덱스로 만들어줄 컬럼 설정



In [79]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [175]:
# 데이터 정의
data = {
    '1반': [45, 76, 47, 92, 11],
    '2반': [44, 92, 92, 81, 79],
    '3반': [73, 45, 45, 85, 47],
    '4반': [39, 69, 69, 40, 26]
}

# 인덱스 정의
index = ['수학', '영어', '국어', '사회', '과학']

# DataFrame 생성
df = pd.DataFrame(data, index=index)


df.index.name = '과목' # 인덱스 전체의 이름 설정
df.columns.name = '반'

df

반,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [66]:
# 행 추가
df.loc['제2외국어',:] = 51,64,86,21 

In [67]:
df.astype(int)

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26
제2외국어,51,64,86,21


DF 열(컬럼) 인덱싱

In [68]:
score_data['1반']   # 이 경우 1차원 데이터라 '시리즈'로 출력된 것.

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64

In [69]:
score_data[['1반']] # 이 경우 2차원 데이터인척 해서, 'DataFrame'으로 출력된다.  

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


In [70]:
# 여러반 인덱싱
# 1반, 3반
score_data[['1반','3반']]

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


- DF 행 인덱싱
- DF에서 행에 접근하기 위해서는 '슬라이싱'을 사용해야함

In [71]:
# 수학 ~ 국어
score_data['수학':'국어'] #끝값을 포함한다.

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69


In [72]:
score_data['수학':'수학'] # 하나 가져올때도 행은 억지로 슬라이싱 사용해야한다.

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [73]:
# 행 번호로도 가능
score_data[0:1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


#### 정리
- DF의 기본적인 열 접근은 컬럼명(인덱싱)으로!
- 행 접근은 슬라이싱(범위)
- 인덱싱 -> 열
- 슬라이싱 -> 행

### loc, iloc를 활용한 인덱싱, 슬라이싱
- 한번에 행과 열에 모두 접근 가능
- 기본적으로 행에 먼저 접근

In [74]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [75]:
# loc : 이름으로 접근
# DF명.loc[행의범위(명칭),열의 범위(명칭)]

# 각 반의 과학 점수
score_data.loc['과학',:] # 이 경우 1차원 데이터라 '시리즈'로 출력돼서, 세로로 출력된것.

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [76]:
# 4반과 1반의 점수
score_data.loc[:,['4반','1반']]

Unnamed: 0_level_0,4반,1반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,39,45
영어,69,76
국어,69,47
사회,40,92
과학,26,11


In [80]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [83]:
# iloc는 인덱스 번호로 접근
# DF명.iloc[행의범위,열의 범위]

# 각 반의 과학
# score_data.iloc[4,:] # 열의 범위가 전체일 경우 생략 가능하다
score_data.iloc[4]  # 한 행or열을 가져오면, 시리즈 자료형(구조)로 가져온다!

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [84]:
# 3반의 국어, 사회 점수
score_data.iloc[2:4,2]

과목
국어    45
사회    85
Name: 3반, dtype: int64

In [88]:
# 1,2반의 수학,, 사회 점수
score_data.iloc[[0,3],0:2]
score_data.iloc[[0,3],[0,1]] # 넘파이의 nd배열은 리스트 인덱싱이 안된다고 한다. 판다스의 DataFrame은 리스트 인덱싱이 된다!

Unnamed: 0_level_0,1반,2반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,44
사회,92,81


- 2반의 사회점수 데이터 접근 (loc, iloc 두가지 다 해보세요)

In [89]:
score_data.loc['사회','2반']

81

In [90]:
score_data.iloc[-2,1]

81

- 2반, 4반의 국어와 사회점수(loc,iloc 두가지 다 해보세요)

In [92]:
score_data.loc[['국어','사회'],['2반','4반']]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [95]:
score_data.iloc[[2,3],[1,-1]]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [97]:
score = score_data.T

score

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


### 예제
- 영어점수가 75점 이상인, 영어점수들을 가져와보자

In [111]:
eng= score[score.loc[:,'영어']>=75]

eng.loc[:, '영어']

1반    76
2반    92
Name: 영어, dtype: int64

### 불리언 인덱싱!!!

In [110]:
score.loc[:,'영어']>=75

score.loc[score.loc[:,'영어']>=75, '영어']

1반    76
2반    92
Name: 영어, dtype: int64

### 행은 슬라이싱, 열은 인덱싱

In [124]:
score['영어']>=75

score[score['영어']>=75]['영어']

1반    76
2반    92
Name: 영어, dtype: int64

### sum(), mean() 함수

In [125]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [127]:
# 합계를 구해주는 함수
# sum()
# DF.sum(axis = 0 or 1)
# 행방향 합계 : axis = 0 
# 열방향 합계 : axis = 1
# axis는 생략시 0 디폴트
score_data.sum()
# 행방향 합계

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [128]:
score_data.sum(axis=1)
# 열방향 합계

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [135]:
# 각 과목의 총합을 구해서 새로운 열에 넣기
score_data['총합'] = score_data[['1반','2반','3반','4반']].sum(axis=1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [137]:
score_data['총합'] = score_data.loc[:,'1반':'4반'].sum(axis=1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [138]:
score_data['총합'] = score_data.loc[:,:'4반'].sum(axis=1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


value_counts()
- 특정 컬럼에 있는 데이터들의 유니크값(유일한 값)과 그 개수를 출력

In [139]:
df_sleep = pd.DataFrame([['집중', '집중', '집중', '집중'],
                         ['집중', '집중', '졸림', '졸림'],
                         ['집중', '졸림', '숙면', '숙면']],
                        index = ['학생1','학생2', '학생3'],
                        columns = ['5교시', '6교시', '7교시', '8교시'])

df_sleep

Unnamed: 0,5교시,6교시,7교시,8교시
학생1,집중,집중,집중,집중
학생2,집중,집중,졸림,졸림
학생3,집중,졸림,숙면,숙면


In [140]:
# 5교시 학생들 상태
df_sleep['5교시'].value_counts()

5교시
집중    3
Name: count, dtype: int64

In [142]:
# 6교시 학생들 상태
df_sleep['6교시'].value_counts()

6교시
집중    2
졸림    1
Name: count, dtype: int64

In [143]:
df_sleep.loc[:,'6교시'].value_counts()

6교시
집중    2
졸림    1
Name: count, dtype: int64

In [144]:
# 학생별로 상태 확인
df_sleep.loc['학생3',:].value_counts()

학생3
숙면    2
집중    1
졸림    1
Name: count, dtype: int64

In [145]:
df_sleep.loc['학생1':'학생2','6교시'].value_counts()

6교시
집중    2
Name: count, dtype: int64

### 2015~2017년 광주 광역시 범죄현황 데이터를 이용해, 전년 대비 지역별 범죄 증감률 구하기
- 증감률 = (금년 - 작년) / 작년 * 100

#### 1. 데이터 로드
- 인덱스컬럼은 '관서명'
- 인코딩은 'euc-kr'

In [146]:
df2015 = pd.read_csv('data/2015.csv', encoding='euc-kr', index_col='관서명')
df2016 = pd.read_csv('data/2016.csv', encoding='euc-kr', index_col='관서명')
df2017 = pd.read_csv('data/2017.csv', encoding='euc-kr', index_col='관서명')

In [147]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [149]:
df2015.loc['광주동부경찰서']

# 다중인덱스(MultiIndex)

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10
광주동부경찰서,불구속,0,4,63,379,703
광주동부경찰서,기타,1,1,27,55,770


In [152]:
# 데이터의 형태 확인
print(df2015.shape)
print(df2016.shape)
print(df2017.shape) # 6개 더 늘어남

(36, 6)
(36, 6)
(42, 6)


In [153]:
# 2017년도의 index확인
df2017.index

Index(['광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계',
       '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청',
       '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서',
       '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서',
       '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서',
       '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서',
       '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서'],
      dtype='object', name='관서명')

In [154]:
# set: 중복값 제거 후 유니크값(유일한 값)만
set(df2017.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청', '광주지방경찰청계'}

In [155]:
type(set(df2017.index))

set

In [156]:
set(df2015.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [157]:
# 2017년도에만 있는 index 추출
set(df2017.index) -set(df2015.index)

{'광주지방경찰청'}

In [158]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


#### 2.데이터 전처리
- 데이터를 살펴보면 df2017에만 '광주지방경찰청' index가 있고, 데이터도 부실
- 해당 행 삭제

In [159]:
df2017.drop('광주지방경찰청',inplace=True)

In [160]:
df2017.shape

(36, 6)

In [161]:
#총계라는 새로운 컬럼 추가
df2015['총계'] = df2015.loc[:,'살인':'폭력'].sum(axis=1)
df2016['총계'] = df2016.loc[:,'살인':'폭력'].sum(axis=1)
df2017['총계'] = df2017.loc[:,'살인':'폭력'].sum(axis=1)

In [162]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주지방경찰청계,검거건수,18,47,758,5409,8301,14533
광주지방경찰청계,검거인원,17,66,776,3433,11774,16066
광주지방경찰청계,구속,9,33,42,104,58,246
광주지방경찰청계,불구속,1,26,511,2781,5618,8937
광주지방경찰청계,기타,7,7,223,548,6098,6883
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주동부경찰서,검거건수,4,6,86,583,970,1649
광주동부경찰서,검거인원,4,7,98,447,1483,2039
광주동부경찰서,구속,3,2,8,13,10,36


#### 3. 구분 컬럼의 '발생건수'의 '총계' 가져오기

In [164]:
# 구분 == '발생건수'

s15 = df2015.loc[ df2015['구분']=='발생건수', '총계']
# 행의 범위 : 조건식(불리언 인덱싱)
# 열의 범위 : '총계'

s15

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
Name: 총계, dtype: int64

In [165]:
s16 = df2016.loc[ df2016['구분']=='발생건수', '총계']
s17 = df2017.loc[ df2017['구분']=='발생건수', '총계']

In [166]:
s16

관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
Name: 총계, dtype: int64

In [167]:
s17

관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
Name: 총계, dtype: int64

#### 4. 전년대비 범죄 발생 횟수 증감률 계산
- 공식 : (금년 - 작년) / 작년 * 100

In [168]:
# 15년~16년 사이의 범죄 증감률

s1516 = (s16-s15)/s15*100
s1516

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64

In [169]:
# 16년~17년 사이의 범죄 증감률

s1617 = (s17-s16)/s16*100
s1617

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

변수들 정리 (모두 Series 자료형이다)
- s15 : 15년 범죄 발생건수 총계
- s16 : 16년 범죄 발생건수 총계
- s17 : 17년 범죄 발생건수 총계
- s1516 : 15~16 범죄 증감률
- s1617 : 16~17 범죄 증감률

In [171]:
# pd.concat([DF or Series들], axis = 0 or 1) axis 생략시 0 (에이시스) (행방향 = 아래방향으로 쌓겠다.)
# Series나 DF 병합할 때 사용

In [172]:
pd.concat([s15,s16],axis=1) # 열방향 = 오른쪽으로 쌓겠다.

Unnamed: 0_level_0,총계,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1
광주지방경찰청계,18830,15416
광주동부경찰서,2355,2068
광주서부경찰서,4720,3892
광주남부경찰서,2117,1865
광주북부경찰서,5466,4148
광주광산경찰서,4172,3443


In [174]:
total = pd.concat([s15,s1516,s16,s1617,s17],axis=1)
total.columns = ['2015총계','2015-2016증감률','2016총계','2016-2017증감률','2017총계']

total

Unnamed: 0_level_0,2015총계,2015-2016증감률,2016총계,2016-2017증감률,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [177]:
total.style.format('{:.2f}%')

# : (포멧 옵션 시작)
# .2 (소수점 자리수)
# f (부동소수점)
# % (뒤에 %붙이겠단 뜻) 

Unnamed: 0_level_0,2015총계,2015-2016증감률,2016총계,2016-2017증감률,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830.00%,-18.13%,15416.00%,-9.52%,13949.00%
광주동부경찰서,2355.00%,-12.19%,2068.00%,-13.01%,1799.00%
광주서부경찰서,4720.00%,-17.54%,3892.00%,-6.53%,3638.00%
광주남부경찰서,2117.00%,-11.90%,1865.00%,-17.05%,1547.00%
광주북부경찰서,5466.00%,-24.11%,4148.00%,-4.89%,3945.00%
광주광산경찰서,4172.00%,-17.47%,3443.00%,-12.29%,3020.00%


In [178]:
total.style.format({
    '2015-2016증감률':'{:.2f}%',
    '2016-2017증감률':'{:.3f}%'
})  #딕셔너리 형태로 바꿀 수 있다

Unnamed: 0_level_0,2015총계,2015-2016증감률,2016총계,2016-2017증감률,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.13%,15416,-9.516%,13949
광주동부경찰서,2355,-12.19%,2068,-13.008%,1799
광주서부경찰서,4720,-17.54%,3892,-6.526%,3638
광주남부경찰서,2117,-11.90%,1865,-17.051%,1547
광주북부경찰서,5466,-24.11%,4148,-4.894%,3945
광주광산경찰서,4172,-17.47%,3443,-12.286%,3020
