#### Series : 1차원 데이터
- 인덱스 + 값

Series 만들기
- 각 도시들의 인구수를 Series로 만들어보자

In [1]:
import pandas as pd

In [2]:
# Series 만들기

# pandas의 Series 라는 함수 사용

pop = pd.Series([9901232, 3441423, 2891323, 2462123])

pop

0    9901232
1    3441423
2    2891323
3    2462123
dtype: int64

In [3]:
# 인덱스 각각에 이름을 부여
# Series.index = [값, 값, ...]

pop.index = ['서울','부산','인천','대구']

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [4]:
# 이름을 재설정
# rename

pop.rename({'서울':'써울'})

써울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [5]:
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [6]:
# Series의 인덱스 이름을 부여해서 만들기
pop = pd.Series([9901232, 3441423, 2891323, 2462123],
               index = ['서울','부산','인천','대구']
               )

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [7]:
# 딕셔너리로 Series 생성

pop = pd.Series({'서울':9901232, '부산':3441423, '인천':2891323, '대구':2462123})

pop

# key값이 인덱스의 이름으로 들어간다.

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [8]:
# Series에 이름을 부여
pop.name = '인구'

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [9]:
# Series 의 index 전체(그룹)의 이름 부여

pop.index.name = '도시'

pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

#### Series의 데이터 확인 (속성 확인)

In [10]:
# Series의 값들 확인 : values
# Series.values

pop.values

array([9901232, 3441423, 2891323, 2462123], dtype=int64)

In [11]:
type(pop.values)

numpy.ndarray

In [12]:
# Series의 index 확인하기 : index

pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')

In [13]:
# Series의 데이터 타입 확인하기 : dtype

pop.dtype

dtype('int64')

#### 인덱싱

In [14]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [15]:
# 인덱스의 이름으로 인덱싱
pop['부산']

3441423

In [16]:
# 인덱스 번호로 인덱싱
pop[1]

  pop[1]


3441423

In [18]:
# 여러 도시를 인덱싱
# 인덱스를 '리스트'의 형태로 입력

pop[ ['부산','대구'] ]

도시
부산    3441423
대구    2462123
Name: 인구, dtype: int64

#### 슬라이싱

In [19]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [20]:
# 인덱스 번호로 슬라이싱
# 부산 ~ 인천 슬라이싱(1~2번 인덱스)
# 끝값은 포함되지 않음

pop[1:3]

도시
부산    3441423
인천    2891323
Name: 인구, dtype: int64

In [21]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [23]:
# 인덱스 이름으로 슬라이싱

pop['부산' : '대구']
# 끝값이 포함된다.

도시
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

#### 불리언 인덱싱
- 특정 조건에 맞는 데이터를 가져올때 사용
- 인덱스 번호 대신, 조건식을 입력

In [26]:
# Series에서, 불리언 값을 불러와보자

# 인구가 300만 미만인가?
pop<3000000

# 불리언 인덱싱의 재료

도시
서울    False
부산    False
인천     True
대구     True
Name: 인구, dtype: bool

In [27]:
# 원하는건 조건에 맞는 실제 값

pop[pop<3000000]

도시
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [28]:
# 인구가 250만 초과이고, 500만 미만인 도시들을 가져오기

In [29]:
# 조건식
(pop > 2500000) & (pop < 5000000)

도시
서울    False
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [30]:
pop[(pop > 2500000) & (pop < 5000000)]

도시
부산    3441423
인천    2891323
Name: 인구, dtype: int64

#### Series 데이터 변경, 추가, 삭제

In [31]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [33]:
# 데이터 변경
# 인덱싱으로 값을 불러와서, 새로운 값을 넣어줌

pop['부산'] = 3400000

pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
Name: 인구, dtype: int64

In [38]:
# 데이터 추가
# 기존에 입력한 적 없는 인덱스에 데이터 삽입

pop['대전'] = 2500000

pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
대전    2500000
Name: 인구, dtype: int64

In [40]:
# 데이터 삭제
del pop['서울']

pop

KeyError: '서울'

#### DataFrame(2차원 데이터) 만들기

In [41]:
# 딕셔너리를 이용 데이터 프레임 생성
data = {'서울' : [9904312, 9631482],
        '부산' : [3448737, 3393191],
        '인천' : [2890451, 2632035],
        '대구' : [2466052, 2431774]
    }

ind = ['2015', '2010']

pop = pd.DataFrame(data, index = ind)

pop

# Series : key값이 인덱스의 이름
# DataFrame : key값이 컬럼명

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [42]:
# 리스트를 이용해서 DataFrame 생성

data = [[9904312,3448737,2890451,2466052],
        [9631482,3393191,2632035,2431774]]

ind = ['2015', '2010']
col = ['서울','부산','인천','대구']

pop = pd.DataFrame(data, index = ind, columns = col)
                # (데이터, 인덱스 이름,   컬럼이름)

pop

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [43]:
# 인덱스의 이름 변경
# DF.rename(index={'바꾸기 전':'바꾼 후'}, columns={'바꾸기 전':'바꾼 후'})

pop.rename(index={'2015':'2016', '2010':'2011'}, columns={'서울':'서울시', '부산':'부산시'})

Unnamed: 0,서울시,부산시,인천,대구
2016,9904312,3448737,2890451,2466052
2011,9631482,3393191,2632035,2431774


#### 정리
- DF을 생성하는 방법은 2가지
- 딕셔너리 방식은 key이 컬럼명, value값이 위에서 아래로
- 리스트 방식은 데이터가 보이는 위치 그대로 들어간다

In [48]:
# 전치
pop = pop.T

pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [50]:
# DataFrame의 컬럼 변경
# 기존 컬럼을 인덱싱 새 값 대입
pop['2015'] = [9900000, 3450000, 2890000, 2470000]

pop

Unnamed: 0,2015,2010
서울,9900000,9631482
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


In [53]:
pop.iloc[0,1] = 9600000

pop

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


In [56]:
# DataFrame에 새로운 커럼 추가
pop['2005'] = [1,2,3,4]

pop

Unnamed: 0,2015,2010,2005
서울,9900000,9600000,1
부산,3450000,3393191,2
인천,2890000,2632035,3
대구,2470000,2431774,4


In [57]:
# DataFrame 컬럼 삭제
del pop['2005']

pop

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


#### 행 or 열 삭제(drop)

In [58]:
pop['2005'] = [1,2,3,4]

pop

Unnamed: 0,2015,2010,2005
서울,9900000,9600000,1
부산,3450000,3393191,2
인천,2890000,2632035,3
대구,2470000,2431774,4


In [59]:
# drop : 행 또는 열 삭제
# DF.drop('행 or 열 이름', axis = 0 or 1, inplace = True or False)

pop.drop('2005', axis = 1, inplace = False)

# 축방향 설정 필요. axis = 0 : 행, axis = 1 : 열
# inplace = True : 변수에 바로 변경사항 저장

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


In [60]:
pop

Unnamed: 0,2015,2010,2005
서울,9900000,9600000,1
부산,3450000,3393191,2
인천,2890000,2632035,3
대구,2470000,2431774,4


In [61]:
pop.drop('2005', axis =1, inplace = True)

In [62]:
pop
# inplace 옵션이 True, 원본에 반영

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


In [63]:
pop.drop('서울')
# axis = 0, inplace = False 는 생략이 가능하다

Unnamed: 0,2015,2010
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


In [64]:
pop

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


정리
- del는 열(컬럼)만 삭제
- drop은 행, 열 둘 다 삭제 가능(단, 축방향(axis)를 설정)
  - axis와 inplace 옵션의 기본값 0, False

#### DataFrame 속성 확인하기
- 형태, 값, 인덱스, 컬럼명

In [65]:
pop

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3450000,3393191
인천,2890000,2632035
대구,2470000,2431774


In [69]:
pop['2015'] = [9904312, 3448737, 2890451, 2466052]
pop.iloc[0,1] = 9631482

pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [70]:
# DF의 형태 확인
# shape

pop.shape

(4, 2)

In [71]:
# DF의 데이터 값 확인
# values

pop.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [72]:
# DF의 인덱스 값 확인
# index

pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [73]:
# DF의 컬럼명 확인
# columns

pop.columns

Index(['2015', '2010'], dtype='object')

![image.png](attachment:b40f396a-d9cd-42ff-a09d-d93d4bbe01c7.png)

In [75]:
DF1 = pd.DataFrame([[175.3, 66.2, 27.0],
                    [180.2, 78.9, 49.0],
                    [178.6, 55.1, 35.0]], # 데이터부분
                  index = ['홍길동','김사또','임꺽정'], # 인덱스 이름
                   columns = ['키','몸무게','나이'] # 컬럼 이름
                  )

DF1

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [76]:
DF1.T

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


#### DataFrame 연산

In [77]:
pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [78]:
pop + 1000000
# 각 값에 모두 계산

Unnamed: 0,2015,2010
서울,10904312,10631482
부산,4448737,4393191
인천,3890451,3632035
대구,3466052,3431774


In [79]:
pop - 1000000

Unnamed: 0,2015,2010
서울,8904312,8631482
부산,2448737,2393191
인천,1890451,1632035
대구,1466052,1431774


In [80]:
# 새로운 데이터 pop2
pop2 = pop + 1000000

pop2

Unnamed: 0,2015,2010
서울,10904312,10631482
부산,4448737,4393191
인천,3890451,3632035
대구,3466052,3431774


In [81]:
pop2 - pop
# 각각 일치하는 주소값(행 이름, 열 이름)끼리 계산

Unnamed: 0,2015,2010
서울,1000000,1000000
부산,1000000,1000000
인천,1000000,1000000
대구,1000000,1000000


In [82]:
pop - pop

Unnamed: 0,2015,2010
서울,0,0
부산,0,0
인천,0,0
대구,0,0


In [83]:
pop2['2005'] = [153153,153151,44458,96852]

pop2

Unnamed: 0,2015,2010,2005
서울,10904312,10631482,153153
부산,4448737,4393191,153151
인천,3890451,3632035,44458
대구,3466052,3431774,96852


In [85]:
# pop2 : 2005라는 컬럼 보유
# pop : 2005라는 컬럼 미보유

pop2 - pop

# 인덱스명, 컬럼명 모두 일치한 부분끼리만 연산
# NaN : (Not a Number) 정해지지 않은 값

Unnamed: 0,2005,2010,2015
서울,,1000000,1000000
부산,,1000000,1000000
인천,,1000000,1000000
대구,,1000000,1000000


#### DataFrame의 인덱싱 슬라이싱

In [90]:
# read_csv
# read_csv('데이터 위치', encoding = '인코딩방식', index_col = 인덱스로 만들 컬럼)
score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = 0)

# encoding : 컴퓨터가 문자를 인식 할 수 있게 해주는 처리 과정
# euc-kr : 한글 전용 인코딩 방식
# index_col : 데이터에서 인덱스로 만들어줄 컬럼 설정

score_data


Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [93]:
# 데이터 정의
data = {
    '1반': [45, 76, 47, 92, 11],
    '2반': [44, 92, 92, 81, 79],
    '3반': [73, 45, 45, 85, 47],
    '4반': [39, 69, 69, 40, 26]
}

# 인덱스 정의
index = ['수학', '영어', '국어', '사회', '과학']

# DataFrame 생성
df = pd.DataFrame(data, index=index)


# 인덱스 전체이름
df.index.name = '과목'

df

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


- DF 열(컬럼) 인덱싱 : 컬럼명


In [95]:
score_data['1반']
# Series의 형태

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64

In [97]:
# 여러 반 인덱싱
# 1반과 3반 
score_data[['1반', '3반']]
# DF의 형태

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


In [99]:
score_data[['1반']]

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


- DF 행 인덱싱
- DF에서 행 인덱싱을 위해서는, 슬라이싱 문법(범위) 적용

In [100]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [101]:
# 수학점수~ 국어점수
score_data['수학':'국어']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69


In [102]:
# 수학 한 과목만 가져오고 싶다.
score_data['수학':'수학']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [103]:
# 행 번호로도 가능
score_data[0:1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


#### 정리
- DF의 열(컬럼) 접근은 인덱싱으로!
- DF의 행 접근은 슬라이싱으로!
- 인덱싱 -> 열
- 슬라이싱 -> 행

#### loc, iloc를 활용한 인덱싱, 슬라이싱
- 한번에 행과 열에 모두 접근
- 기본적으로 loc, iloc는 행에 먼저 접근

In [104]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


loc

In [106]:
# loc : 이름으로 접근
# DF.loc[ 행의 범위(명칭) , 열의 범위(명칭) ]

# 각 반의 과학 점수

score_data.loc[ '과학' ]

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [107]:
# 4반의 과학 점수
score_data.loc[ '과학' , '4반' ]

26

In [108]:
# 4반의 모든 과목
score_data.loc[ : , '4반' ]

과목
수학    39
영어    69
국어    69
사회    40
과학    26
Name: 4반, dtype: int64

In [109]:
# 4반과 1반 모든 과목 점수
score_data.loc[ : , ['4반', '1반'] ]

Unnamed: 0_level_0,4반,1반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,39,45
영어,69,76
국어,69,47
사회,40,92
과학,26,11


iloc

In [110]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [112]:
# iloc는 인덱스 번호로 접근
# DF.iloc[ 행의 범위(인덱스 번호) , 열의 범위(인덱스 번호) ]

# 각 반의 과학
score_data.iloc[4]
# score_data.iloc[4, :]

# 열의 범위가 전체일 경우 생략 가능

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [113]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [114]:
# 3반의 국어와 사회 점수
score_data.iloc[ 2:4 , 2 ]

과목
국어    45
사회    85
Name: 3반, dtype: int64

In [115]:
# 1,2 반의 수학과 사회 점수
score_data.iloc[ [0,3] , 0:2 ]

Unnamed: 0_level_0,1반,2반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,44
사회,92,81


In [117]:
score_data.iloc[ [0,3] , [1,0] ]

Unnamed: 0_level_0,2반,1반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,44,45
사회,81,92


In [118]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


- 2반의 사회점수 데이터 접근(loc, iloc 두가지 다)

In [121]:
score_data.loc[ '사회' , '2반' ]

81

In [122]:
score_data.iloc[3,1]

81

- 2반,4반의 국어, 사회점수 데이터 접근(loc, iloc 두가지 다)

In [124]:
score_data.loc[ ['국어','사회'] , ['2반','4반'] ]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [125]:
score_data.iloc[ [2,3] , [1,3] ]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [127]:
score_data.iloc[ 2:4 , [1,3] ]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40


In [128]:
# 데이터 전치
score = score_data.T

score

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


##### 실습 예제
- 영어점수가 75점 이상인 영어점수들을 구해보자

![image.png](attachment:6c899241-2828-4747-a363-d316005fdc47.png)

In [None]:
# 조건, 불리언 인덱싱

# 영어점수가 75점 이상인 데이터셋 -> 영어점수 접근


In [129]:
score


과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


In [131]:
# 영어 점수
# loc 사용
# 조건식
score.loc[:, '영어'] >= 75

1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool

In [133]:
# 조건식
score['영어'] >= 75

1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool

In [134]:
score[score['영어'] >= 75]

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79


In [136]:
# 위의 데이셋에서 영어점수에 접근
score[score['영어'] >= 75].loc[:, '영어']

1반    76
2반    92
Name: 영어, dtype: int64

In [137]:
score[score['영어'] >= 75]['영어']

1반    76
2반    92
Name: 영어, dtype: int64

#### sum(), mean() 함수

In [138]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [140]:
# 합계를 구해주는 함수
# sum(axis = 0 or 1)
# DF.sum()

# 행방향 합계 : axis = 0
# 열방향 합계 : axis = 1
# axis는 생략시, 0

score_data.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [141]:
score_data.sum(axis = 1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [180]:
# 각 과목의 총합을 구해서 새로운 열에 넣기
score_data['총합'] = score_data.loc[ : , '1반':'4반' ].sum(axis = 1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [168]:
score_data.loc[ : , '1반':'4반' ].sum(axis=1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [None]:
# 평균을 구해주는 함수
# mean()
# 사용법은 sum()과 동일

In [190]:
# 각 과목의 평균을 구해서 새로운 열에 넣기
score_data['평균'] = score_data.loc[ : , '1반':'4반' ].mean(axis = 1)

score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


#### value_counts()
- 특정 컬럼에 있는 데이터들의 유니크값과 그 개수를 출력

In [191]:
df_sleep = pd.DataFrame([['집중', '집중', '집중', '집중'],
                         ['집중', '집중', '졸림', '졸림'],
                         ['집중', '졸림', '숙면', '숙면']],
                        index = ['학생1','학생2', '학생3'],
                        columns = ['5교시', '6교시', '7교시', '8교시'])

df_sleep

Unnamed: 0,5교시,6교시,7교시,8교시
학생1,집중,집중,집중,집중
학생2,집중,집중,졸림,졸림
학생3,집중,졸림,숙면,숙면


In [193]:
# 5교시 학생들 상태 확인
df_sleep['5교시'].value_counts()

5교시
집중    3
Name: count, dtype: int64

In [194]:
# 6교시
df_sleep['6교시'].value_counts()

6교시
집중    2
졸림    1
Name: count, dtype: int64

In [195]:
df_sleep['7교시'].value_counts()

7교시
집중    1
졸림    1
숙면    1
Name: count, dtype: int64

In [197]:
df_sleep[['5교시','6교시']].value_counts()

5교시  6교시
집중   집중     2
     졸림     1
Name: count, dtype: int64

In [198]:
# 학생별로 상태 확인
df_sleep['학생3'].value_counts()

KeyError: '학생3'

In [201]:
df_sleep.loc['학생3'].value_counts()

학생3
숙면    2
집중    1
졸림    1
Name: count, dtype: int64

In [202]:
# read_csv
# read_csv('데이터 위치', encoding = '인코딩방식', index_col = 인덱스로 만들 컬럼)
score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = 0)

# encoding : 컴퓨터가 문자를 인식 할 수 있게 해주는 처리 과정
# euc-kr : 한글 전용 인코딩 방식
# index_col : 데이터에서 인덱스로 만들어줄 컬럼 설정

score_data


Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


![image.png](attachment:0708fe32-f2c3-409a-97bf-69b2fc02f76e.png)

In [None]:
score_data['총합'] = score_data.loc[ : , '1반':'4반' ].sum(axis = 1)

score_data

In [209]:
score_data.loc['총합'] = score_data.loc['수학':'과학'].sum()

score_data.astype(int)

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26
총합,271,388,295,243


### 2015 ~ 2017년 광주광역시 범죄현황 데이터를 이용해 전년 대비 지역별 범죄 증감률 구하기
- 증감률 = (금년 - 작년) / 작년 * 100

1. 데이터 로드
- 인덱스컬럼 '관서명'
- 인코딩  'euc-kr'

In [210]:
df2015 = pd.read_csv('data/2015.csv', encoding= 'euc-kr', index_col='관서명')
df2016 = pd.read_csv('data/2016.csv', encoding= 'euc-kr', index_col='관서명')
df2017 = pd.read_csv('data/2017.csv', encoding= 'euc-kr', index_col='관서명')

In [211]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [213]:
df2015.loc['광주지방경찰청계']

# 인덱스 이름이 겹침
# 수정 삭제 한번에 바뀜
# 다중인덱스(MultiIndex)


Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098


In [214]:
# 데이터 형태 확인
print(df2015.shape)
print(df2016.shape)
print(df2017.shape)
# 2017년도만 다름

(36, 6)
(36, 6)
(42, 6)


In [215]:
# 2017년도의 index
df2017.index

Index(['광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계',
       '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청',
       '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서',
       '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서',
       '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서',
       '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서',
       '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서'],
      dtype='object', name='관서명')

In [216]:
# set : 중복값 제거 후 유니크 값만
set(df2017.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청', '광주지방경찰청계'}

In [219]:
type(set(df2017.index))

set

In [220]:
set(df2015.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [222]:
# 2017년도에만 있는 index 추출
set(df2017.index) - set(df2015.index)

{'광주지방경찰청'}

In [223]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


2. 데이터 전처리
- 데이터를 살펴보면 df2017에만 '광주지방경찰청' index가 있는데, 데이터가 부실함
- 해당 행들 삭제

In [224]:
df2017.drop('광주지방경찰청', inplace = True)

In [225]:
df2017.shape

(36, 6)

In [226]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


3. 범죄 증감률을 구하기 위한 '총계' 추가

In [228]:
df2015['총계'] = df2015.loc[ : , '살인':'폭력' ].sum(axis=1)
df2016['총계'] = df2016.loc[ : , '살인':'폭력' ].sum(axis=1)
df2017['총계'] = df2017.loc[ : , '살인':'폭력' ].sum(axis=1)

In [229]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주지방경찰청계,검거건수,18,47,758,5409,8301,14533
광주지방경찰청계,검거인원,17,66,776,3433,11774,16066
광주지방경찰청계,구속,9,33,42,104,58,246
광주지방경찰청계,불구속,1,26,511,2781,5618,8937
광주지방경찰청계,기타,7,7,223,548,6098,6883
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주동부경찰서,검거건수,4,6,86,583,970,1649
광주동부경찰서,검거인원,4,7,98,447,1483,2039
광주동부경찰서,구속,3,2,8,13,10,36


4. 데이터 자르기 : '구분' 컬럼의 '발생건수'의'총계'

In [230]:
# 각 년도별로 발생건수의 총계
# 구분컬럼 == '발생건수' 라는 조건에서 '총계'

s15 = df2015.loc[ df2015['구분']=='발생건수' , '총계' ]
# 행의 범위 : 조건식 (불리언 인덱싱)
# 열의 범위 : '총계'

s15

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
Name: 총계, dtype: int64

In [231]:
s16 = df2016.loc[ df2016['구분']=='발생건수' , '총계' ]
s17 = df2017.loc[ df2017['구분']=='발생건수' , '총계' ]

In [232]:
s16

관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
Name: 총계, dtype: int64

In [233]:
s17

관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
Name: 총계, dtype: int64

5. 전년대비 범죄 발생 횟수 증감율 계산
- 공식 : (금년 - 작년) / 작년 * 100

In [235]:
# 15년 ~ 16년 사이의 범죄 증감율
s1516 = (s16 - s15) / s15 * 100

# 16년 ~ 17년
s1617 = (s17 - s16) / s16 * 100

In [236]:
s1617

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

변수들 정리
- s15 : 15년 총계
- s16 : 16년 총계
- s17 : 17년 총계
- s1516 : 15-16증감율
- s1617 : 16-17증감율 

Series들로 하나의 DF 생성

In [237]:
# pd.concat([DF or Series들], axis = 0 or 1)
# Series나 DF을 병합할 때 사용

In [240]:
pd.concat([s15, s16], axis = 1)

Unnamed: 0_level_0,총계,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1
광주지방경찰청계,18830,15416
광주동부경찰서,2355,2068
광주서부경찰서,4720,3892
광주남부경찰서,2117,1865
광주북부경찰서,5466,4148
광주광산경찰서,4172,3443


In [242]:
total = pd.concat([s15, s1516, s16, s1617, s17], axis=1)
total.columns = ['2015총계','15-16증감율','2016총계','16-17증감율','2017총계']

total

Unnamed: 0_level_0,2015총계,15-16증감율,2016총계,16-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [243]:
total.round(2)

Unnamed: 0_level_0,2015총계,15-16증감율,2016총계,16-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.13,15416,-9.52,13949
광주동부경찰서,2355,-12.19,2068,-13.01,1799
광주서부경찰서,4720,-17.54,3892,-6.53,3638
광주남부경찰서,2117,-11.9,1865,-17.05,1547
광주북부경찰서,5466,-24.11,4148,-4.89,3945
광주광산경찰서,4172,-17.47,3443,-12.29,3020


In [244]:
total.style.format('{:.2f}')

Unnamed: 0_level_0,2015총계,15-16증감율,2016총계,16-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830.0,-18.13,15416.0,-9.52,13949.0
광주동부경찰서,2355.0,-12.19,2068.0,-13.01,1799.0
광주서부경찰서,4720.0,-17.54,3892.0,-6.53,3638.0
광주남부경찰서,2117.0,-11.9,1865.0,-17.05,1547.0
광주북부경찰서,5466.0,-24.11,4148.0,-4.89,3945.0
광주광산경찰서,4172.0,-17.47,3443.0,-12.29,3020.0


In [245]:
# '%' 기호 추가
total.style.format('{:}%')

Unnamed: 0_level_0,2015총계,15-16증감율,2016총계,16-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830%,-18.130642591609135%,15416%,-9.516087182148416%,13949%
광주동부경찰서,2355%,-12.186836518046709%,2068%,-13.007736943907155%,1799%
광주서부경찰서,4720%,-17.542372881355934%,3892%,-6.526207605344296%,3638%
광주남부경찰서,2117%,-11.903637222484647%,1865%,-17.050938337801608%,1547%
광주북부경찰서,5466%,-24.11269667032565%,4148%,-4.893924783027965%,3945%
광주광산경찰서,4172%,-17.473633748801536%,3443%,-12.28579726982283%,3020%


In [246]:
# 소수점 2자리, % 기호
total.style.format('{:.2f}%')

Unnamed: 0_level_0,2015총계,15-16증감율,2016총계,16-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830.00%,-18.13%,15416.00%,-9.52%,13949.00%
광주동부경찰서,2355.00%,-12.19%,2068.00%,-13.01%,1799.00%
광주서부경찰서,4720.00%,-17.54%,3892.00%,-6.53%,3638.00%
광주남부경찰서,2117.00%,-11.90%,1865.00%,-17.05%,1547.00%
광주북부경찰서,5466.00%,-24.11%,4148.00%,-4.89%,3945.00%
광주광산경찰서,4172.00%,-17.47%,3443.00%,-12.29%,3020.00%


In [248]:
total.style.format({
    '15-16증감율':'{:.2f}%',
    '16-17증감율':'{:.2f}%'
})

Unnamed: 0_level_0,2015총계,15-16증감율,2016총계,16-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.13%,15416,-9.52%,13949
광주동부경찰서,2355,-12.19%,2068,-13.01%,1799
광주서부경찰서,4720,-17.54%,3892,-6.53%,3638
광주남부경찰서,2117,-11.90%,1865,-17.05%,1547
광주북부경찰서,5466,-24.11%,4148,-4.89%,3945
광주광산경찰서,4172,-17.47%,3443,-12.29%,3020
