### Pandas
- 행과 열로 이루어진 데이터 처리와 분석에 특화된 라이브러리
- 구조는 Series, Dataframe이 있음.
  - Series: 1차원 데이터 집합(index + value)
  - Dataframe: 2차원 표 형태의 데이터 집합
  - 1차원의 Series가 모여 2차원의 데이터 프레임을 이루게 됨.

In [1]:
import pandas as pd

In [5]:
# Series 생성하기
# 인덱스를 따로 설정하지 않으면 좌측에 자동으로 0번부터 인덱스가 생성됨.

population = pd.Series([9900000, 3400000, 2800000, 2400000])
population

0    9900000
1    3400000
2    2800000
3    2400000
dtype: int64

In [6]:
# 인덱스를 지정해서 Series 생성

population = pd.Series([9900000, 3400000, 2800000, 2400000], index = ['Seoul','Busan','Incheon','Daegu'])
population

Seoul      9900000
Busan      3400000
Incheon    2800000
Daegu      2400000
dtype: int64

In [16]:
# 딕셔너리로 Series 생성

population = pd.Series({'Seoul':9900000, 'Busan':3400000, 'Incheon':2800000, 'Daegu':2400000})
population

Seoul      9900000
Busan      3400000
Incheon    2800000
Daegu      2400000
dtype: int64

### Series 이름, index 이름 지정

In [9]:
# Series 이름 설정

population.name = '인구'
population

Seoul      9900000
Busan      3400000
Incheon    2800000
Daegu      2400000
Name: 인구, dtype: int64

In [10]:
# Series의 index 이름 설정
population.index.name = '도시'
population

도시
Seoul      9900000
Busan      3400000
Incheon    2800000
Daegu      2400000
Name: 인구, dtype: int64

In [11]:
# Series index 변경방법
# 항상 데이터의 개수에 맞춰서 작업을 진행해야함. 인덱스가 4개라면 변경 시에도 4개를 지정

population.index = [0,1,2,3]
population

0    9900000
1    3400000
2    2800000
3    2400000
Name: 인구, dtype: int64

### Series 데이터 변경, 추가, 삭제

In [13]:
# 데이터 변경
population['Busan'] = 3500000
population

0        9900000
1        3400000
2        2800000
3        2400000
Busan    3500000
Name: 인구, dtype: int64

In [14]:
# 데이터 추가도 동일한 방식
population['Daejeon'] = 2400000
population

0          9900000
1          3400000
2          2800000
3          2400000
Busan      3500000
Daejeon    2400000
Name: 인구, dtype: int64

In [18]:
# 데이터 삭제는 del 예약어 사용
del population['Daegu']
population

Seoul      9900000
Busan      3400000
Incheon    2800000
dtype: int64

### DataFrame 생성법 2가지
- dictionary: key값이 컬럼명, value값이 위에서 아래로 들어감.
- list: 데이터가 보이는 위치 그대로 들어가며 인덱스와 컬럼명을 따로 지정

In [21]:
# 딕셔너리를 사용한 Dataframe 생상
# key값이 column 명칭이 됨. Series에서는 key값이 index임.

data = {"Seoul":[9900000,9600000],
        "Busan":[3400000,3300000],
        "Incheon":[2800000,2600000],
        "Daegu":[2400000,2300000],}
ind = ['2015', '2010']

population_df1 = pd.DataFrame(data, index = ind)
population_df1

Unnamed: 0,Seoul,Busan,Incheon,Daegu
2015,9900000,3400000,2800000,2400000
2010,9600000,3300000,2600000,2300000


In [23]:
# 리스트로 Dataframe 생성
data = [[9900000,3400000,2800000,2400000],
         [9600000,3300000,2600000,2300000]]

ind = ['2015','2010']
col = ['Seoul','Busan','Incheon','Daegu']

population_df2 = pd.DataFrame(data, index = ind, columns = col)
population_df2

Unnamed: 0,Seoul,Busan,Incheon,Daegu
2015,9900000,3400000,2800000,2400000
2010,9600000,3300000,2600000,2300000


In [None]:
# column과 row를 전치
population_df2 = population_df2.T
population_df2

# 새로운 column 추가하기
population_df2['2005'] = [9300000,3200000,2500000,2200000]
population_df2['2000'] = [9000000,3000000,2000000,2000000]
population_df2

# column 삭제
del population_df2['2005']
population_df2

In [31]:
# drop: 행과 열을 삭제하는 함수(행 삭제시에는 인덱스명으로, 열 삭제시에는 칼럼명으로 지정)
# drop 함수는 행을 삭제할지 열을 삭제할지를 axis를 지정해줘야함.(디폴트 axis=0은 행을 삭제한다는 뜻)
# 원래 df가 삭제된 걸로 업데이트되지 않음. 변수에 저장해둬야함.
population_df2.drop('2000', axis=1) # axis=1은 열을 삭제

Unnamed: 0,2015,2010
Seoul,9900000,9600000
Busan,3400000,3300000
Incheon,2800000,2600000
Daegu,2400000,2300000


In [33]:
# inplace = True : 변경 사항을 DF에 바로 반영해주는 인자
population_df2.drop('Seoul', inplace=True)
population_df2

Unnamed: 0,2015,2010,2000
Busan,3400000,3300000,3000000
Incheon,2800000,2600000,2000000
Daegu,2400000,2300000,2000000


### 정리
- del은 열만 삭제
- drop은 행, 열 둘다 삭제 가능(axis 설정 필요)
- 변수에 담지 않으면 적용되지 않음. 근데 inplace=True 쓰면 바로 변경사항 적용 가능

### DataFrame 속성 확인

In [37]:
# DF 형태 확인(numpy의 shape와 동일)
population_df2.shape

(3, 3)

In [39]:
# DF의 데이터 값만 확인(2차원 배열로 출력됨.)
population_df2.values

array([[3400000, 3300000, 3000000],
       [2800000, 2600000, 2000000],
       [2400000, 2300000, 2000000]], dtype=int64)

In [41]:
# DF의 index만 확인
population_df2.index

Index(['Busan', 'Incheon', 'Daegu'], dtype='object')

In [43]:
# DF의 column명만 확인
population_df2.columns

Index(['2015', '2010', '2000'], dtype='object')

In [47]:
ex1 =[[175.3,66.2,27.0],
    [180.2,78.9,49.0],
    [178.6,55.1,35.0]]
ex1_index = ['홍길동','김사또','임꺽정']
ex1_columns = ['키','몸무게', '나이']
ex1_df = pd.DataFrame(ex1, index = ex1_index, columns = ex1_columns)
ex1_df

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [49]:
ex1_df.T

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


### Pandas 연산

In [72]:
# Series 연산
pop1 = pd.Series([9900000,3400000,2800000,2400000],
                 index = ['Seoul','Busan','Incheon','Daegu'])
pop2 = pd.Series([9600000,3300000,2600000,2300000],
                 index = ['Seoul','Busan','Incheon','Daejeon'])

In [74]:
pop1/1000000

Seoul      9.9
Busan      3.4
Incheon    2.8
Daegu      2.4
dtype: float64

In [76]:
pop1-pop2
# NaN이 나온 이유는 대구 값에서 대전 값을 빼려고 했기 때문

Busan      100000.0
Daegu           NaN
Daejeon         NaN
Incheon    200000.0
Seoul      300000.0
dtype: float64

### Nan, None: 둘다 비어있는 값
- NaN(Not a Number): 계산할 수 없는 수치 값인 경우
  ex) 0으로 나눈 값이거나, 루트 -1 와 같이 정의할 수 없는 경우도 포함
- None: 비어있는 값으로 값 자체가 원래부터 없는 경우(다른 프로그래밍 언어의 Null과 동일)

In [81]:
# DataFrame 연산
df1 = pd.DataFrame({'2015':[9900000, 3400000, 2800000, 2400000],
                    '2010':[9600000, 3300000, 2600000, 2300000]
                   })
df2 = pd.DataFrame({'2015':[9900000, 3400000, 2800000, 2400000],
                    '2010':[9600000, 3300000, 2600000, 2300000],
                    '2005':[9300000, 3200000, 2500000, 2200000]
                   }, index = ['서울','부산','인천','대구'])

In [85]:
df2-df1 # 인덱스가 달라서 연산 불가

Unnamed: 0,2005,2010,2015
0,,,
1,,,
2,,,
3,,,
대구,,,
부산,,,
서울,,,
인천,,,


In [87]:
df1.index = (['서울','부산','인천','대구'])
df1

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3400000,3300000
인천,2800000,2600000
대구,2400000,2300000


In [89]:
df2 + df1 # 인덱스가 같으면 같은 칼럼명의 데이터들끼리만 연산. 2005 빼고 연산됨.

Unnamed: 0,2005,2010,2015
서울,,19200000,19800000
부산,,6600000,6800000
인천,,5200000,5600000
대구,,4600000,4800000


### Pandas에서 데이터 접근을 위한 인덱싱, 슬라이싱
  1. 인덱스 번호로 접근: 0부터 시작
  2. 인덱스 명으로 접근: 사용자가 지정한 문자
  3. loc, iloc 인덱스로 접근: loc(문자열 입력), iloc(인덱스 번호 입력)
  4. 불리언 인덱싱: True, False 값을 이용하여 True에 해당하는 데이터 출력

In [92]:
# Series 인덱싱
score = pd.Series([70,95,80,82])
score

0    70
1    95
2    80
3    82
dtype: int64

In [94]:
# 1. 인덱스 번호로 접근
score[1]

95

In [96]:
score = pd.Series({'math':70,
                   'english':95,
                   'korean':80,
                   'science':82})
score

math       70
english    95
korean     80
science    82
dtype: int64

In [98]:
# 2. 인덱스 명으로 접근
score['math']

70

In [102]:
# 인덱스명을 인덱스번호로 접근 가능
score.index[1]

'english'

In [104]:
# Series 슬라이싱
# 1. 인덱스번호로 슬라이싱 가능
score[1:]

english    95
korean     80
science    82
dtype: int64

In [106]:
# 인덱스명 슬라이싱 가능
score.index[2:]

Index(['korean', 'science'], dtype='object')

In [108]:
score.values[2:]

array([80, 82], dtype=int64)

In [112]:
# 2. 인덱스명으로 슬라이싱 가능
score['korean':]

korean     80
science    82
dtype: int64

In [114]:
# 인덱스명으로 슬라이싱할 경우 끝 값이 포함됨.
score['korean':'science']

korean     80
science    82
dtype: int64

### 데이터 불러오기

In [3]:
# read_csv: csv 파일 데이터 불러와서 DF로 출력
# encoding: 컴퓨터가 데이터 문자를 코드 내에서 인실할 수 있게 변환하는 과정(디코딩은 코드를 문자로 변환)
# euc-kr: 한글 전용 인코딩 방식
# index_col: DF로 불러올 때 인덱스 컬럼을 지정해서 불러옴.
score_data = pd.read_csv('data/score.csv', encoding='euc-kr', index_col='과목')
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [6]:
# 1반 컬럼에 접근하기
score_data['1반'] # Series 형태로 출력됨.

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64

In [12]:
# 대괄호를 하나 더 씌우면 2차원 데이터 프레임으로 출력됨.
score_data[['1반']]

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


In [14]:
# 두 개 이상의 컬럼을 데이터 프레임으로 가져오려면 무조건 []를 2개 사용해야함.
score_data[['1반', '3반']]

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


In [16]:
# 행 인덱싱을 위해 슬라이싱 문법을 적용해야함.
score_data[0:1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [18]:
# 행 인덱싱은 문자 값으로 해도 됨(끝 문자 포함)
score_data['수학':'영어']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69


In [22]:
score_data['수학':'수학'] # 수학만 출력되게

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [24]:
# 0부터 2까지 2씩 건너뛰어서 출력
score_data[0:3:2]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
국어,47,92,45,69


### 정리
- DF의 기본적인 열 접근은 컬럼명으로, 행 접근은 인덱스를 사용한 슬라이싱 문법으로 접근해야함.

### loc, iloc을 이용한 인덱싱
- 한 번에 행과 열에 모두 접근 가능
- 기본적으로 loc, iloc는 행에 먼저 접근
- DF에 행을 추가하고 싶을 떄는 loc[행 인덱스]=값 으로 추가 가능
- loc은 문자로, iloc은 숫자로 행, 열을 찾아냄. iloc의 i는 int이기 때문에

In [31]:
# 각 반의 과학점수 출력, 행을 출력하는 코드지만, Series 형태로 출력
score_data.loc['과학']

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [35]:
# 4반의 과학점수 출력
score_data.loc['과학','4반'] # [행, 열]

26

In [37]:
# iloc는 숫자로 접근!!!
score_data.iloc[4]

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [39]:
# 4반의 과학 점수
score_data.iloc[4,3] # [행, 열]

26

In [53]:
# 2반 사회점수를 loc와 iloc로 접근해보기
score_data.loc['사회','2반']

81

In [55]:
score_data.iloc[3,1]

81

In [61]:
# 2반, 3반의 국어, 사회 점수에 접근해보기
score_data.iloc[2:4,1:3]

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,45
사회,81,85


In [63]:
score_data.loc['국어':'사회', '2반':'3반']

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,45
사회,81,85


In [75]:
# 2반, 4반의 국어, 사회, 과학 점수에 접근해보기
score_data.loc['국어':'과학', ['2반','4반']]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40
과학,79,26


### Boolean 인덱싱
- numpy에서의 방식과 동일하며 DF에서 특정한 조건에 맞는 데이터만 접근하기 위핸 인덱싱 방법

In [5]:
score_data=score_data.T
score_data

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


In [7]:
# 영어점수가 75점 이상인 점수 데이터 출력
# DF의 영어점수 중 75점 이상인 데이터를 True, False로 출력
score_data['영어'] >= 75

1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool

In [9]:
# score_data['영어'] >= 75 이 조건식을 score_data[]안에 넣으면 됨.
score_data[score_data['영어'] >= 75]

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79


In [15]:
# 영어점수가 75점 이상인 DF 중에서 영어 점수만 출력하기

score_data[score_data['영어'] >= 75]['영어']

1반    76
2반    92
Name: 영어, dtype: int64

In [17]:
# 그 중 2반 점수만 출력
score_data[score_data['영어'] >= 75]['영어']['2반']

92

### Pandas 유용한 함수들
- 정렬: index 및 컬럼명 기준 정렬: sort_index()
- 값(value) 기준 정렬: sort_values()

In [20]:
score_data = score_data.T

In [24]:
# 기본적으로 index 기준 정렬 (가나다 순, abc 순으로)
score_data.sort_index() # 과학...영어 순으로 정렬

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
과학,11,79,47,26
국어,47,92,45,69
사회,92,81,85,40
수학,45,44,73,39
영어,76,92,45,69


In [26]:
# 컬럼명 기준 정럴
# axis=0: 정렬되는 방향이 위에서 아래, 디폴트 값
# axis=1: 정렬되는 방향이 좌에서 우
# ascending=False: 내림차순 정렬
score_data.sort_index(axis=1, ascending=False) # 4,3,2,1반 순으로 정렬

Unnamed: 0_level_0,4반,3반,2반,1반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,39,73,44,45
영어,69,45,92,76
국어,69,45,92,47
사회,40,85,81,92
과학,26,47,79,11


In [28]:
# 데이터 값 기준 정렬
# 값 기준 정렬에서는 기준이 되는 값을 대표하는 index나 컬럼명을 by인자로 설정해줘야함.
# axis=0, 오름차순 정렬(ascending=True)이 디폴트로 들어있다.
score_data.sort_values(by = '3반') # 3반 점수를 기준으로 오름차순으로 정렬

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영어,76,92,45,69
국어,47,92,45,69
과학,11,79,47,26
수학,45,44,73,39
사회,92,81,85,40


In [30]:
score_data.sort_values(by = '3반', ascending=False) # 3반 점수를 기준으로 내림차순으로 정렬

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
사회,92,81,85,40
수학,45,44,73,39
과학,11,79,47,26
영어,76,92,45,69
국어,47,92,45,69


In [32]:
# '사회'행의 값들을 기준으로 내림차순 정렬
# 정렬 방향이 좌에서 우니까 axis=1
score_data.sort_values(by = '사회', axis=1, ascending=False) # 3반 점수를 기준으로 내림차순으로 정렬

Unnamed: 0_level_0,1반,3반,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,73,44,39
영어,76,45,92,69
국어,47,45,92,69
사회,92,85,81,40
과학,11,47,79,26


### axis 정리
- axis=0: 행 방향, 위에서 아래, 기준(by)이 컬럼명
- axis=1: 열 방향, 좌에서 우, 기준(by)이 인덱스

In [35]:
# 3반을 기준으로 오름차순 정렬, 그 상태에서 같은 값은 1반을 기준으로 오름차순 정렬
score_data.sort_values(by = ['3반', '1반'])

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
국어,47,92,45,69
영어,76,92,45,69
과학,11,79,47,26
수학,45,44,73,39
사회,92,81,85,40


### 연산 함수
- sum

In [38]:
score_data.sum() # axis=0이 디폴트임.

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [40]:
score_data.sum(axis=1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [42]:
# 과목별 합계를 구하여 데이터프레임 맨 우측에 '총합' 컬럼을 추가하기

score_data['총합'] = score_data.sum(axis=1)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [64]:
score_data['평균'] = score_data[["1반","2반","3반","4반"]].mean(axis=1)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [68]:
score_data['평균'] = score_data.loc[:,'1반':'4반'].mean(axis=1)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [72]:
score_data['평균'] = score_data['총합']/4
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [74]:
# 최대값
score_data.max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
총합    298.0
평균     74.5
dtype: float64

In [76]:
# 최소값
score_data.min()

1반     11.00
2반     44.00
3반     45.00
4반     26.00
총합    163.00
평균     40.75
dtype: float64

In [78]:
# 1반 컬럼의 최대값
score_data['1반'].max()

92

In [80]:
# 각 행에서의 최대값
score_data.max(axis=1)

과목
수학    201.0
영어    282.0
국어    253.0
사회    298.0
과학    163.0
dtype: float64

In [88]:
# 전체 반에서 가장 높은 수학 점수
score_data.loc['수학','1반':'4반'].max()

73.0

In [92]:
# 전체 반에서 가장 높은 사회 점수
score_data.iloc[3,0:4].max()

92.0

In [96]:
# count: 개수 출력
score_data.count()

1반    5
2반    5
3반    5
4반    5
총합    5
평균    5
dtype: int64

In [98]:
score_data.count(axis=1)

과목
수학    6
영어    6
국어    6
사회    6
과학    6
dtype: int64

### info()
- 데이터 프레임에 대한 전체적인 정보 출력
- 결측치가 있는지 확인

In [101]:
score_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 수학 to 과학
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1반      5 non-null      int64  
 1   2반      5 non-null      int64  
 2   3반      5 non-null      int64  
 3   4반      5 non-null      int64  
 4   총합      5 non-null      int64  
 5   평균      5 non-null      float64
dtypes: float64(1), int64(5)
memory usage: 452.0+ bytes


### value_counts()
- 특정 컬럼의 데이터들의 유니크 값과 그 개수를 출력

In [106]:
df_test = pd.DataFrame([['Chinese','Python','WebProgramming'],
                       ['Python','Chinese','movie'],
                       ['movie', 'WebProgramming']], columns = ['1교시','2교시','3교시'])
df_test

Unnamed: 0,1교시,2교시,3교시
0,Chinese,Python,WebProgramming
1,Python,Chinese,movie
2,movie,WebProgramming,


In [108]:
df_test['1교시'].value_counts()

1교시
Chinese    1
Python     1
movie      1
Name: count, dtype: int64

### 결측치 데이터 관련
- isnull()
- notnull()
- fillna()
- dropna()

In [112]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   1교시     3 non-null      object
 1   2교시     3 non-null      object
 2   3교시     2 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


In [114]:
# 비어있는 값 찾기, 비어있는 값에만 True
df_test.isnull()

Unnamed: 0,1교시,2교시,3교시
0,False,False,False
1,False,False,False
2,False,False,True


In [116]:
# 비어있지 않은 값에 True
df_test.notnull()

Unnamed: 0,1교시,2교시,3교시
0,True,True,True
1,True,True,True
2,True,True,False


In [118]:
# 비어있는 칸에 특정 값 넣기
df_test.fillna('Algorithm')

Unnamed: 0,1교시,2교시,3교시
0,Chinese,Python,WebProgramming
1,Python,Chinese,movie
2,movie,WebProgramming,Algorithm


In [120]:
# 비어있는 데이터가 포함된 행 전체 삭제
df_test.dropna()

Unnamed: 0,1교시,2교시,3교시
0,Chinese,Python,WebProgramming
1,Python,Chinese,movie


In [122]:
# 비어있는 데이터가 포함된 열 전체 삭제
df_test.dropna(axis=1)

Unnamed: 0,1교시,2교시
0,Chinese,Python
1,Python,Chinese
2,movie,WebProgramming


### apply 함수
- 행이나 열 전체에 사용자가 만든 사용자 정의 함수를 한번에 적용시켜줌.
- apply 함수 사용을 위해서는 사전에 사용자 정의 함수가 반드시 선언되어 있어야함.

In [127]:
score_data.drop(['총합','평균'], axis=1, inplace=True)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [129]:
# 사용자정의 함수
def cal(x):
    return x.max()-x.min()

In [131]:
# 과목별로 최대값과 최소값의 차이
score_data.apply(cal, axis=1)

과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64

### concat 함수
- Series, DataFrame을 병합할 때 사용

In [134]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series(['female','female','male','male','female'])
s3 = pd.Series(['P','F','P','P','F'])

In [136]:
# 위쪽으로 순서대로 병합됨. axis=0이라
pd.concat([s1,s2,s3])

0         1
1         2
2         3
3         4
4         5
0    female
1    female
2      male
3      male
4    female
0         P
1         F
2         P
3         P
4         F
dtype: object

In [142]:
exam = pd.concat([s1,s2,s3], axis=1)
exam.columns = ['ID','gender','result']
exam

Unnamed: 0,ID,gender,result
0,1,female,P
1,2,female,F
2,3,male,P
3,4,male,P
4,5,female,F


### groupby 함수
- 그룹별로 묶어 집계값을 출력할 수 있게 하는 함수
- 스프레드시트의 피벗테이블과 기능이 유사

In [147]:
# 'gender','result'값들을 묶어 멀티인덱스로 설정한 후 ID의 개수를 세겠다는 뜻

exam.groupby(['gender','result']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID
gender,result,Unnamed: 2_level_1
female,F,2
female,P,1
male,P,2


### 실습 예제
2015-2017년도 광주광역시 범죄현황 데이터를 이용해 전년 대비 지역별 범죄 증감율을 구해보기
- 증감율: (금년-작년)/작년 * 100

![image_720.png](attachment:bb2a656a-3316-4c93-9e70-391c556afd32.png)

In [3]:
# 1. 데이터로드
# - csv파일 불러오면서 인덱스 컬럼은 '관서명'으로, 인코딩은 'euc-kr'로 설정하기
# - 데이터 하나씩 살펴보면서 파악하기(결과로 나온 행, 열이 무엇인지 비교 파악하기)

df2015 = pd.read_csv('data/2015.csv', encoding='euc-kr', index_col = '관서명')
df2016 = pd.read_csv('data/2016.csv', encoding='euc-kr', index_col = '관서명')
df2017 = pd.read_csv('data/2017.csv', encoding='euc-kr', index_col = '관서명')
df2015.dropna
df2016.dropna
df2017.dropna
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [19]:
df2017.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36 entries, 광주지방경찰청계 to 광주광산경찰서
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   구분       36 non-null     object
 1   살인       36 non-null     int64 
 2   강도       36 non-null     int64 
 3   강간·강제추행  36 non-null     int64 
 4   절도       36 non-null     int64 
 5   폭력       36 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 2.0+ KB


In [None]:
# 2. 2015, 2016, 2017 데이터 중 2017년도에만 존재하는 행을 찾고 삭제(데이터 전처리)

In [7]:
# set(): 유일한 값으로 집합을 만들어주는 함수, 연산 가능
set(df2015.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [9]:
set(df2016.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [11]:
set(df2017.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청', '광주지방경찰청계'}

In [13]:
set(df2017.index)-set(df2015.index)

{'광주지방경찰청'}

In [17]:
df2017.drop('광주지방경찰청',inplace=True)

In [21]:
crime_2015 = df2015[df2015['구분'] == '발생건수']
crime_2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주동부경찰서,발생건수,3,5,92,1100,1155
광주서부경찰서,발생건수,5,10,172,2050,2483
광주남부경찰서,발생건수,1,3,70,962,1081
광주북부경찰서,발생건수,5,14,256,2570,2621
광주광산경찰서,발생건수,4,12,160,1743,2253


In [23]:
# 3. 총계 컬럼을 새롭게 만들어 년도별 범죄들의 발생횟수 합 구하기
crime_2016 = df2016[df2016['구분'] == '발생건수']
crime_2017 = df2017[df2017['구분'] == '발생건수']
del crime_2015['구분']
del crime_2016['구분']
del crime_2017['구분']
# 굳이 이렇게 안 하고
# df2015['총계'] = df.loc[:,'살인':] 이렇게 써도 됨.

In [25]:
crime_2015 = crime_2015.groupby(crime_2015.index).sum()
crime_2016 = crime_2016.groupby(crime_2016.index).sum()
crime_2017 = crime_2017.groupby(crime_2017.index).sum()

In [27]:
crime_2015['총계'] = crime_2015.loc[:,'살인':].sum(axis=1)
crime_2016['총계'] = crime_2016.loc[:,'살인':].sum(axis=1)
crime_2017['총계'] = crime_2017.loc[:,'살인':].sum(axis=1)

In [31]:
crime_2015

Unnamed: 0_level_0,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주광산경찰서,4,12,160,1743,2253,4172
광주남부경찰서,1,3,70,962,1081,2117
광주동부경찰서,3,5,92,1100,1155,2355
광주북부경찰서,5,14,256,2570,2621,5466
광주서부경찰서,5,10,172,2050,2483,4720
광주지방경찰청계,18,44,750,8425,9593,18830


In [43]:
# 5. 구분 컬럼을 활용하여 년도별로 불리언 인덱싱 후 각각의 시리즈를 변수에 저장
# - 변수명 예시 : s15, s16, s17
s15 = crime_2015['총계']
s16 = crime_2016['총계']
s17 = crime_2017['총계']

In [45]:
# 6. 증감율 공식에 따라 증감률 시리즈들을 생성하여 변수에 저장
# - 변수명 예시 : s1516, s1617
# 증감율 구하는 공식 : (금년 – 작년) / 작년 * 100
s1516 = (crime_2016['총계']-crime_2015['총계'])/crime_2015['총계']*100
s1516

관서명
광주광산경찰서    -17.473634
광주남부경찰서    -11.903637
광주동부경찰서    -12.186837
광주북부경찰서    -24.112697
광주서부경찰서    -17.542373
광주지방경찰청계   -18.130643
Name: 총계, dtype: float64

In [47]:
s1617 = (crime_2017['총계']-crime_2016['총계'])/crime_2016['총계']*100
s1617

관서명
광주광산경찰서    -12.285797
광주남부경찰서    -17.050938
광주동부경찰서    -13.007737
광주북부경찰서     -4.893925
광주서부경찰서     -6.526208
광주지방경찰청계    -9.516087
Name: 총계, dtype: float64

In [49]:
answer = pd.concat([s15,s1516,s16,s1617,s17],axis=1)
answer.columns = ['2015총계', '2015-16 증감율','2016총계','2016-17 증감율','2017총계']

In [51]:
# 7. 5,6번 시리즈들 병합하여 결과화면처럼 출력
answer

Unnamed: 0_level_0,2015총계,2015-16 증감율,2016총계,2016-17 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
