### Series: 1차원 데이터 자료 형식
- 인덱스 + 값으로 구성

In [8]:
import pandas as pd

In [12]:
# Series 만들기
# Pandas의 Series 함수 사용

pop = pd.Series([9901232, 3441423, 2891323, 2462123])
pop

0    9901232
1    3441423
2    2891323
3    2462123
dtype: int64

In [18]:
# 인덱스 각각에 이름을 부여
# Series.index = [값, 값, ...]

pop.index = ['서울', '부산', '인천', '대구']
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [24]:
# 이름을 재설정
# Series.rename({기존값:바꿀값})

pop.rename({'서울':'써울'})


써울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [30]:
# Series의 인덱스 이름을 부여해서 만들기

pop = pd.Series([9901232, 3441423, 2891323, 2462123],
               index = ['서울', '부산', '인천', '대구']
               )

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [34]:
# 딕셔너리로 Series 생성
# 딕셔너리의 키값이 인덱스의 이름으로 들어감
pop = pd.Series({'서울' : 9901232, '부산': 3441423, '인천': 2891323, '대구': 2462123})
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [38]:
# Series에 이름을 부여하기

pop.name = '인구수'
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [40]:
# Series의 인덱스 전체(그룹)에 이름을 부여하기

pop.index.name = '도시'
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

### Series의 데이터 확인 (속성 확인)

In [43]:
# Series의 값들 확인
# Series.values

pop.values

array([9901232, 3441423, 2891323, 2462123])

In [49]:
type(pop.values) # pandas 라이브러리가 numpy를 바탕으로 만들어졌기 때문

numpy.ndarray

In [51]:
# Series의 인덱스 확인하기
# Series.index

pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')

In [53]:
# Series의 데이터 타입 확인하기
# Series.dtype

pop.dtype

dtype('int64')

### 인덱싱

In [56]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [58]:
# 인덱스의 이름으로 인덱싱

pop['서울']

9901232

In [60]:
# 인덱스 번호로 인덱싱
pop[1]

  pop[1]


3441423

In [68]:
# 여러 도시를 인덱싱
# 인덱스를 '리스트'의 형태로 입력

pop[['부산', '대구']]

도시
부산    3441423
대구    2462123
Name: 인구수, dtype: int64

### 슬라이싱

In [71]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [75]:
# 인덱스 번호로 슬라이싱
pop[1 : 3]

도시
부산    3441423
인천    2891323
Name: 인구수, dtype: int64

In [83]:
# 인덱스 이름으로 슬라이싱
# 인덱스 이름으로 슬라이싱 하는 경우에는 끝값 포함
pop['부산':'인천']

도시
부산    3441423
인천    2891323
Name: 인구수, dtype: int64

### 불리언 인덱싱
- 특정 조건에 맞는 데이터를 가져올 때 사용
- 인덱스 번호 대신, 조건식을 입력

In [90]:
# Series에서 불리언 값을 불러와보기
# 인구가 300만 미만인가?

pop[pop < 3000000]

도시
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [96]:
# 인구가 250만 초과이고, 500만 미만인 도시들을 가져오기

pop[(pop < 5000000) & (pop > 2500000)]

도시
부산    3441423
인천    2891323
Name: 인구수, dtype: int64

#### Series 데이터 변경, 추가, 삭제

In [99]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [113]:
# 데이터 변경
# 인덱싱으로 값을 불러와서 새로운 값을 넣어줌

pop['부산'] = 3400000
pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
대전    2400000
Name: 인구수, dtype: int64

In [111]:
# 데이터 추가
# 기존에 입력한 적 없는 인덱스에 데이터를 삽입

pop['대전'] = 2400000
pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
대전    2400000
Name: 인구수, dtype: int64

In [121]:
# 데이터 삭제

del pop['대전']

pop

### DataFrame(2차원 데이터) 만들기

In [134]:
# 딕셔너리를 이용해 데이터 프레임 생성 하기
# 자료
data = {
    '서울': [9904312, 9631482],
    '부산': [3448737, 3393191],
    '인천': [2890451, 2632035],
    '대구': [2466052, 2431774],
}

# 인덱스
ind = ['2015', '2010']

pop = pd.DataFrame(data, ind) # 자료, 인덱스 순으로 넣어주기
pop

# Series: key 값이 인덱스의 이름으로 사용
# DataFrame: key 값이 컬럼명으로 사용

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [138]:
# 리스트를 이용해 데이터 프레임 생성 하기

data = [[9904312,3448737,2890451,2466052],
        [9631482,3393191,2632035,2431774]]

ind = ['2015', '2010']

col = ['서울', '부산', '인천', '대구']

pop = pd.DataFrame(data, index = ind, columns = col) # 자료, 인덱스 이름, 컬럼명 순으로 넣어주기

pop

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [144]:
# 인덱스의 이름 변경
# DF.rename(index = {'바꾸기 전': '바꾼 후'}, colums = {'바꾸기 전': '바꾼 후'})

pop.rename(index = {'2015': '2016', '2010': '2011'}, columns = {'서울': '서울시', '부산': '부산시'})

Unnamed: 0,서울시,부산시,인천,대구
2016,9904312,3448737,2890451,2466052
2011,9631482,3393191,2632035,2431774


### 정리
- DF을 생성하는 방법은 2가지
  - 딕셔너리 방식은 key 값이 컬럼명, value값이 위에서 아래로
  - 리스트 방식은 데이터가 보이는 위치 그대로 들어감

In [151]:
# 전치
# 전치 시키면 딕셔너리와 형태가 같아짐
pop = pop.T
pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [163]:
# DataFrame의 컬럼 변경
# 기존 컬럼을 인덱싱 해서 새로운 값 대입
# 인덱싱은 컬럼에만 접근가능

pop['2015'] = [90000000, 23450000, 2342234, 5029384]
pop

Unnamed: 0,2015,2010
서울,90000000,9631482
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


In [165]:
pop['2015']['서울']

90000000

In [169]:
# DataFrame에 새로운 컬럼 추가
pop['2005'] = [1, 2, 3, 4]

pop

Unnamed: 0,2015,2010,2005
서울,90000000,9631482,1
부산,23450000,3393191,2
인천,2342234,2632035,3
대구,5029384,2431774,4


In [171]:
# DataFrame의 컬럼을 삭제하는 방법
# del 키워드는 컬럼(열)만 삭제 가능
del pop['2005']

pop

Unnamed: 0,2015,2010
서울,90000000,9631482
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


### 행 또는 열 삭제(drop)

In [174]:
pop['2005'] = [1, 2, 3, 4]

pop

Unnamed: 0,2015,2010,2005
서울,90000000,9631482,1
부산,23450000,3393191,2
인천,2342234,2632035,3
대구,5029384,2431774,4


In [176]:
# drop: 행 또는 열 삭제
# DF.drop('행 or 열이름', axis = 0 or 1, inplace = True or False)
# axis = 0은 행, 1은 열
# inplace = True는 원본에 영향 O, False는 원본에 영향 X

pop.drop('2005', axis = 1, inplace = False)

Unnamed: 0,2015,2010
서울,90000000,9631482
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


In [178]:
pop.drop('2005', axis = 1, inplace = True)
pop

Unnamed: 0,2015,2010
서울,90000000,9631482
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


In [182]:
pop.drop('서울')

# aixs = 0, inplace = False 기본값으로 사용할 경우 생략 가능

Unnamed: 0,2015,2010
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


#### 정리
- del는 열(컬럼)만 삭제 가능
- drop은 행, 열 둘 다 삭제 가능(단 axis를 설정해줘야 함)
  - axis와 inplace 옵셥의 기본값은 각각 0, False

### DataFrame 속성 확인하기
- 형태, 값, 인덱스, 컬렴명

In [187]:
pop

Unnamed: 0,2015,2010
서울,90000000,9631482
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


In [195]:
pop = pd.DataFrame(data, index = ind, columns = col)
pop = pop.T
pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [201]:
# DF의 형태 확인
# shape
pop.shape

(4, 2)

In [203]:
# DF의 데이터 값 확인
# values

pop.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]])

In [205]:
# DF의 인덱스 값 확인
# index

pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [207]:
# DF의 컬럼명 확인하기
# columns

pop.columns

Index(['2015', '2010'], dtype='object')

![image.png](attachment:0782c919-ae7a-40df-8506-3feab85f057e.png)

In [224]:
data2 = [[175.3, 66.2, 27.0], 
         [180.2, 78.9, 49.0],
         [178.6, 55.1, 35.0]]

ind2 = ['홍길동', '김사또', '임꺽정']

col2 = ['키', '몸무게', '나이']

pop2 = pd.DataFrame(data2, ind2, col2)
pop2

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [218]:
pop2.T

Unnamed: 0,홍길동,김사또,임꺽적
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [226]:
# 딕셔너리를 이용하여 생성
data = {'키' : [175.3, 180.2, 178.6],
        '몸무게' : [66.2, 78.9, 55.1],
        '나이' : [27.0, 49.0, 35.0],
       }

ind = ['홍길동', '김사또', '임꺽정']

DF2 = pd.DataFrame(data, index = ind)

DF2

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


### DataFrame 연산

In [229]:
pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [233]:
pop + 1000000
# 각 값에 모두 계산

Unnamed: 0,2015,2010
서울,10904312,10631482
부산,4448737,4393191
인천,3890451,3632035
대구,3466052,3431774


In [235]:
pop -1000000

Unnamed: 0,2015,2010
서울,8904312,8631482
부산,2448737,2393191
인천,1890451,1632035
대구,1466052,1431774


In [239]:
# 새로운 pop2
pop2 = pop + 1000000
pop2

Unnamed: 0,2015,2010
서울,10904312,10631482
부산,4448737,4393191
인천,3890451,3632035
대구,3466052,3431774


In [245]:
pop2 - pop
# 각각 일치하는 주소값(행이름, 열이름)끼리 계산

Unnamed: 0,2015,2010
서울,1000000,1000000
부산,1000000,1000000
인천,1000000,1000000
대구,1000000,1000000


In [249]:
pop - pop

Unnamed: 0,2015,2010
서울,0,0
부산,0,0
인천,0,0
대구,0,0


In [253]:
pop2['2005'] = [134141, 133435, 3436356, 2342425]
pop2

Unnamed: 0,2015,2010,2005
서울,10904312,10631482,134141
부산,4448737,4393191,133435
인천,3890451,3632035,3436356
대구,3466052,3431774,2342425


In [257]:
# pop2는 2005라는 컬럼 보유
# pop는 2005라는 컬럼 미보유

pop2 - pop

# 인덱스명, 컬럼명 모두 일치한 부분끼리만 연산
# 미일치한 부분은 NaN(Not a Number)로 표시 -> 정해지지 않은 값

Unnamed: 0,2005,2010,2015
서울,,1000000,1000000
부산,,1000000,1000000
인천,,1000000,1000000
대구,,1000000,1000000


### DataFrame의 인덱싱, 슬라이싱

In [268]:
# 1. 데이터 불러오기
# read_csv
# read_csv('데이터 위치', encoding = '인코딩 방식', index_col = 인덱스로 만들 컬럼)
# encoding : 컴퓨터가 문자를 인식 할 수 있게 해주는 처리 과정
# euc-kr: 한글 전용 인코딩
# index_col: 데이터에서 인덱스로 만들어줄 컬럼 설정(설정안하면 자동으로 0부터 숫자로 설정)

score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = 0)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [266]:
# 데이터 정의
data = {
    '1반': [45, 76, 47, 92, 11],
    '2반': [44, 92, 92, 81, 79],
    '3반': [73, 45, 45, 85, 47],
    '4반': [39, 69, 69, 40, 26]
}

# 인덱스 정의
index = ['수학', '영어', '국어', '사회', '과학']

# DataFrame 생성
df = pd.DataFrame(data, index=index)

# 인덱스 전체이름
df.index.name = '과목'

df

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


#### DF 열(컬럼) 인덱싱: 컬럼명

In [279]:
score_data[['1반']]
# Series 형태로 가져와짐

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


In [277]:
# 여러 반 인덱싱
# 1반과 3반
score_data[['1반', '3반']]
# DataFrame 형태로 가져와짐

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


- DF 행 인덱싱
- DF에서 행 인덱싱을 위해서는 슬라이싱 문법(범위) 사용

In [282]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [284]:
score_data['수학':'국어']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69


In [286]:
# 수학 한 과목만 가져오고 싶은 경우
score_data['수학':'수학']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [288]:
# 행번호로도 가능
score_data[0: 1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


### 정리
- DF의 열(컬럼) 접근은 인덱싱으로
- DF의 행 접근은 슬라이싱으로
- 인덱싱 -> 열
- 슬라이싱 -> 행

### loc, iloc를 활용한 인덱싱, 슬라이싱
- 한번에 행과 열에 모두 접근
- 기본적으로 loc, iloc는 행에 먼저 접근

In [293]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


#### loc

In [302]:
# loc : 이름으로 접근
# DF.loc[행의 범위(명칭), 열의 범위(명칭)]

# 각 반의 과학 점수
score_data.loc['과학'] # 열의 범위가 전체일 경우 생략 가능

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [304]:
# 4반의 과학 점수
score_data.loc['과학', '4반']

26

In [306]:
# 4반의 모든 과목
score_data.loc[:, '4반']

과목
수학    39
영어    69
국어    69
사회    40
과학    26
Name: 4반, dtype: int64

In [308]:
# 4반과 1반의 모든 과목 점수
score_data.loc[:, ['1반', '4반']]

Unnamed: 0_level_0,1반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,39
영어,76,69
국어,47,69
사회,92,40
과학,11,26


In [314]:
# iloc는 인덱스 번호로 접근
# DF.iloc[행의 범위(인덱스 번호), 열의 범위(인덱스 번호)]

# 각 반의 과학 점수 
score_data.iloc[4] # 열의 범위가 전체일 경우 생략 가능
score_data.iloc[4, :]

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [316]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [320]:
# 3반의 국어와 사회 점수
score_data.iloc[2:4, 2]

과목
국어    45
사회    85
Name: 3반, dtype: int64

In [326]:
# 1반과 2반의 수학과 사회 점수
score_data.iloc[[0, 3], 0:2]

Unnamed: 0_level_0,1반,2반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,44
사회,92,81


In [328]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


- 2반의 사회점수 데이터 접근(loc, iloc 둘 다)

In [332]:
score_data.loc['사회', '2반']

81

In [340]:
score_data.iloc[3, 1]

81

- 2반, 4반의 국어, 사회점수 데이터 접근(loc, iloc 둘다)

In [342]:
score_data.loc['국어':'사회', ['2반', '4반']]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [344]:
score_data.iloc[2:4, [1, 3]]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [350]:
# 데이터 전치
score = score_data.T

score

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


#### 실습 예제
- 영어 점수가 75점 이상인 영어 점수들을 구해보자

In [405]:
score.loc[score['영어'] >= 75, '영어']

1반    76
2반    92
Name: 영어, dtype: int64

In [407]:
score[score['영어'] >= 75]['영어']

1반    76
2반    92
Name: 영어, dtype: int64

### sum(), mean() 함수

In [411]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [419]:
# sum: 합계를 구해주는 함수
# DF라는 객체에 종속된 메서드
# DF.sum(axis = 0 or 1)
# 행 방향 합계 : axis = 0 (기본값)
# 열 방향 합계 : axis = 1

score_data.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [421]:
score_data.sum(axis = 1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [449]:
# 각 과목의 총합을 구해서 새로운 열에 넣기
score_data['총합'] = score_data.loc[:, '1반':'4반'].sum(axis = 1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [None]:
# 평균을 구해주는 함수
# DF.mean(axis = 0 or 1)
# 행 방향 평균 : axis = 0 (기본값)
# 열 방향 평균 : axis = 1

In [454]:
# 각 과목의 평균을 구해서 새로운 열에 넣기
score_data['평균'] = score_data.loc[:, '1반':'4반'].mean(axis = 1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


### value_counts()
- 특정 컬럼에 있는 데이터들의 유니크값과 그 개수를 출력

In [457]:
df_sleep = pd.DataFrame([['집중', '집중', '집중', '집중'],
                         ['집중', '집중', '졸림', '졸림'],
                         ['집중', '졸림', '숙면', '숙면']],
                        index = ['학생1','학생2', '학생3'],
                        columns = ['5교시', '6교시', '7교시', '8교시'])

df_sleep

Unnamed: 0,5교시,6교시,7교시,8교시
학생1,집중,집중,집중,집중
학생2,집중,집중,졸림,졸림
학생3,집중,졸림,숙면,숙면


In [461]:
# 5교시 학생들 상태 확인
df_sleep['5교시'].value_counts()

5교시
집중    3
Name: count, dtype: int64

In [465]:
# 6교시 학생들 상태 확인
df_sleep['6교시'].value_counts()

6교시
집중    2
졸림    1
Name: count, dtype: int64

In [467]:
# 7교시 학생들 상태 확인
df_sleep['7교시'].value_counts()

7교시
집중    1
졸림    1
숙면    1
Name: count, dtype: int64

In [469]:
# 8교시 학생들 상태 확인
df_sleep['8교시'].value_counts()

8교시
집중    1
졸림    1
숙면    1
Name: count, dtype: int64

In [471]:
df_sleep[['5교시', '6교시']].value_counts()

5교시  6교시
집중   집중     2
     졸림     1
Name: count, dtype: int64

In [479]:
# 학생별로 상태 확인
df_sleep.loc['학생3'].value_counts()

학생3
숙면    2
집중    1
졸림    1
Name: count, dtype: int64

In [518]:
score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = 0)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [509]:
score_data = score_data.T
score_data

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


In [511]:
score_data['총합'] = score_data.loc[:, '수학':'과학'].sum(axis = 1)
score_data = score_data.T
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26
총합,271,388,295,243


In [553]:
score_data.loc['총합', :] = score_data.loc['수학':'과학', :].sum(axis = 0) 
score_data.astype(int)

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26
총합,271,388,295,243


### 2015 - 2017년 광주광역시 범죄현황 데이터를 이용해 전년대비 지역별 범죄 증감률 구하기
- 증감률 = (금년 - 작년) / 작년 * 100

1. 데이터 로드
   - 인덱스 컬럼 '관서명'
   - 인코딩 'euc-kr'

In [659]:
df2015 = pd.read_csv('data/2015.csv', encoding = 'euc-kr', index_col = '관서명')
df2016 = pd.read_csv('data/2016.csv', encoding = 'euc-kr', index_col = '관서명')
df2017 = pd.read_csv('data/2017.csv', encoding = 'euc-kr', index_col = '관서명')

In [559]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [565]:
df2015.loc['광주지방경찰청계']

# 인덱스 이름이 겹침
# 인덱스 이름으로 조회, 수정, 삭제 한번에 바뀜
# 다중 인덱스(Multi Index)

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098


In [569]:
# 데이터 형태 확인
print(df2015.shape)
print(df2016.shape)
print(df2017.shape)
# 2017년도만 다름

(36, 6)
(36, 6)
(42, 6)


In [571]:
# 2017년도의 index
df2017.index

Index(['광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계',
       '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청',
       '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서',
       '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서',
       '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서',
       '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서',
       '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서'],
      dtype='object', name='관서명')

In [581]:
# set: 중복값 제거 후 유니크 값만 출력해주는 자료형
set(df2017.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청', '광주지방경찰청계'}

In [579]:
type(set(df2017.index))

set

In [583]:
set(df2015.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [585]:
# 2017년도에만 있는 index 추출
set(df2017.index) - set(df2015.index)

{'광주지방경찰청'}

In [587]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


2. 데이터 전처리
   - 데이터를 살펴보면 df2017에만 '광주지방경찰청' index가 있는데, 데이터가 부실함
   - 해당 행들을 삭제

In [681]:
df2017.drop('광주지방경찰청', inplace = True)

In [595]:
df2017.shape

(36, 6)

3. 범죄 증감률을 구하기 위한 총계 추가

In [683]:
df2015['총계'] = df2015.loc[:, '살인':'폭력'].sum(axis = 1)
df2016['총계'] = df2016.loc[:, '살인':'폭력'].sum(axis = 1)
df2017['총계'] = df2017.loc[:, '살인':'폭력'].sum(axis = 1)

In [665]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주지방경찰청계,검거건수,18,47,758,5409,8301,14533
광주지방경찰청계,검거인원,17,66,776,3433,11774,16066
광주지방경찰청계,구속,9,33,42,104,58,246
광주지방경찰청계,불구속,1,26,511,2781,5618,8937
광주지방경찰청계,기타,7,7,223,548,6098,6883
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주동부경찰서,검거건수,4,6,86,583,970,1649
광주동부경찰서,검거인원,4,7,98,447,1483,2039
광주동부경찰서,구속,3,2,8,13,10,36


4. 데이터 자르기: '구분' 컬럼의 '발생건수'의 '총계'만 가져오기

In [685]:
# 각 연도별로 발생건수의 총계 가져오기
# 구분 컬럼 == '발생건수' 라는 조건에서 총계
# 행의 범위: 조건식 (불리언 인덱싱)
# 열의 범위: '총계'
s15 = df2015.loc[df2015['구분'] == '발생건수', '총계']
s16 = df2016.loc[df2016['구분'] == '발생건수', '총계']
s17 = df2017.loc[df2017['구분'] == '발생건수', '총계']

s17

관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
Name: 총계, dtype: int64

5. 전년대비 범죄 발생 횟수 증감율 계산
   - 공식: 금년 - 작년 / 작년 * 100

In [687]:
# 15년 - 15년 사이의 범죄 증감율
s1516 = (s16 - s15) / s15 * 100

# 16년 - 17년 사이의 범죄 증감율
s1617 = (s17 - s16) / s16 * 100


In [689]:
s1516

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64

In [691]:
s1617

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

#### 변수들 정리
- s15: 15년 총계
- s16: 16년 총계
- s17: 17년 총계
- s1516: 15-16 증감율
- s1617: 16-17 증감율

Series들로 하나의 DF 생성

In [695]:
# pd.concat([DF or Series들], axis = 0 or 1)
# Series 나 DF 을 병합할 때 사용

In [699]:
pd.concat([s15, s16], axis = 1)

Unnamed: 0_level_0,총계,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1
광주지방경찰청계,18830,15416
광주동부경찰서,2355,2068
광주서부경찰서,4720,3892
광주남부경찰서,2117,1865
광주북부경찰서,5466,4148
광주광산경찰서,4172,3443


In [703]:
total = pd.concat([s15, s1516, s16, s1617, s17], axis = 1)
total.columns = ['2015 총계', '15-16 증감율', '2016 총계', '16-17 증감율', '2017 총계']
total

Unnamed: 0_level_0,2015 총계,15-16 증감율,2016 총계,16-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [705]:
total.round(2)

Unnamed: 0_level_0,2015 총계,15-16 증감율,2016 총계,16-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.13,15416,-9.52,13949
광주동부경찰서,2355,-12.19,2068,-13.01,1799
광주서부경찰서,4720,-17.54,3892,-6.53,3638
광주남부경찰서,2117,-11.9,1865,-17.05,1547
광주북부경찰서,5466,-24.11,4148,-4.89,3945
광주광산경찰서,4172,-17.47,3443,-12.29,3020


In [711]:
total.style.format('{:.2f}')

Unnamed: 0_level_0,2015 총계,15-16 증감율,2016 총계,16-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830.0,-18.13,15416.0,-9.52,13949.0
광주동부경찰서,2355.0,-12.19,2068.0,-13.01,1799.0
광주서부경찰서,4720.0,-17.54,3892.0,-6.53,3638.0
광주남부경찰서,2117.0,-11.9,1865.0,-17.05,1547.0
광주북부경찰서,5466.0,-24.11,4148.0,-4.89,3945.0
광주광산경찰서,4172.0,-17.47,3443.0,-12.29,3020.0


In [713]:
# % 기호 추가
total.style.format('{:}%')

Unnamed: 0_level_0,2015 총계,15-16 증감율,2016 총계,16-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830%,-18.130642591609135%,15416%,-9.516087182148416%,13949%
광주동부경찰서,2355%,-12.186836518046709%,2068%,-13.007736943907155%,1799%
광주서부경찰서,4720%,-17.542372881355934%,3892%,-6.526207605344296%,3638%
광주남부경찰서,2117%,-11.903637222484647%,1865%,-17.050938337801608%,1547%
광주북부경찰서,5466%,-24.11269667032565%,4148%,-4.893924783027965%,3945%
광주광산경찰서,4172%,-17.473633748801536%,3443%,-12.28579726982283%,3020%


In [715]:
# 소수점 2자리, % 기호
total.style.format('{:.2f}%')

Unnamed: 0_level_0,2015 총계,15-16 증감율,2016 총계,16-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830.00%,-18.13%,15416.00%,-9.52%,13949.00%
광주동부경찰서,2355.00%,-12.19%,2068.00%,-13.01%,1799.00%
광주서부경찰서,4720.00%,-17.54%,3892.00%,-6.53%,3638.00%
광주남부경찰서,2117.00%,-11.90%,1865.00%,-17.05%,1547.00%
광주북부경찰서,5466.00%,-24.11%,4148.00%,-4.89%,3945.00%
광주광산경찰서,4172.00%,-17.47%,3443.00%,-12.29%,3020.00%


In [719]:
# 소수점 2자리, % 기호 딕셔너리 형태로
total.style.format({
    '15-16 증감율': '{:.2f}%',
    '16-17 증감율': '{:.2f}%'
})

Unnamed: 0_level_0,2015 총계,15-16 증감율,2016 총계,16-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.13%,15416,-9.52%,13949
광주동부경찰서,2355,-12.19%,2068,-13.01%,1799
광주서부경찰서,4720,-17.54%,3892,-6.53%,3638
광주남부경찰서,2117,-11.90%,1865,-17.05%,1547
광주북부경찰서,5466,-24.11%,4148,-4.89%,3945
광주광산경찰서,4172,-17.47%,3443,-12.29%,3020
