### Pandas
- 1차원 배열 형태의 데이터 구조 : Series
- 2차원 배열 형태의 데이터 구조 : DataFrame

- Series : 1차원 -> 인덱스(index) + 값(value)
- DataFrame : 2차원 -> 인덱스(index) + 행과 열을 가지는 표와 같은 형태

### 라이브러리 불러오기

In [1]:
import numpy as np
import pandas as pd

### Series 생성

In [4]:
names = pd.Series(['김철수','홍길동','신짱구','둘리','신짱아','흰둥이','유리'])
names

0    김철수
1    홍길동
2    신짱구
3     둘리
4    신짱아
5    흰둥이
6     유리
dtype: object

### DataFrame 생성

In [5]:
data = {'이름':['김철수','신짱구','흰둥이','유리'],
        '나이':[5,5,1,5]
       }
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이
0,김철수,5
1,신짱구,5
2,흰둥이,1
3,유리,5


### Series 생성

In [6]:
population = pd.Series([99043612,3448737,2890451,2466052])
population

0    99043612
1     3448737
2     2890451
3     2466052
dtype: int64

In [7]:
# 인덱스를 지정해주기
population = pd.Series([99043612,3448737,2890451,2466052],
                      index = ['서울','부산','인천','대구']
                      )
population

서울    99043612
부산     3448737
인천     2890451
대구     2466052
dtype: int64

### Series 데이터 확인

- values : 값 확인
- index : 인덱스 확인
- dtype : 데이터 타입 확인

In [8]:
print(f'Series 값 확인 : {population.values}')
print(f'Series 인덱스 확인 : {population.index}')
print(f'Series 데이터 타입확인 : {population.dtype}')

Series 값 확인 : [99043612  3448737  2890451  2466052]
Series 인덱스 확인 : Index(['서울', '부산', '인천', '대구'], dtype='object')
Series 데이터 타입확인 : int64


### Series에 이름 지정
- name : 시리즈에 이름을 지정
- index.name : 인덱스에 이름 달기

In [9]:
# Series에 이름 지정
population.name = '인구수'
# 인덱스에 이름 지정
population.index.name = '도시'
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2466052
Name: 인구수, dtype: int64

### Series 연산

In [10]:
population-1000000

도시
서울    98043612
부산     2448737
인천     1890451
대구     1466052
Name: 인구수, dtype: int64

### Series 인덱싱, 슬라이싱

- 인덱싱(indexing) : 무언가를 '가리킨다'는 의미
- 슬라이싱(Slicing) : 무언가를 '잘라낸다'는 의미

### Pandas에서 제공하는 인덱서 활용
- loc[]인덱서 : 실제 인덱스명 or 컬럼명을 사용하여 가지고 올 때 사용
- iloc[]인덱서 : 인덱스 번호를 사용하여 가지고 올 때 사용

In [11]:
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2466052
Name: 인구수, dtype: int64

In [12]:
population.loc['서울']

99043612

In [13]:
population.loc['인천']

2890451

In [14]:
population.iloc[1]

3448737

In [15]:
population[1]

  population[1]


3448737

In [16]:
names.iloc[1:6]

1    홍길동
2    신짱구
3     둘리
4    신짱아
5    흰둥이
dtype: object

In [17]:
population.iloc[1:3]

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

In [18]:
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2466052
Name: 인구수, dtype: int64

- loc[]인덱서로 슬라이싱을 할 경우 끝값을 포함한다.
- 그 이유는 사용자가 직관적이고 유용하게 사용하도록 하기 위해서

### Series Boolean 인덱싱

In [19]:
names

0    김철수
1    홍길동
2    신짱구
3     둘리
4    신짱아
5    흰둥이
6     유리
dtype: object

In [20]:
# 홍길동이면 True / 아니면 False 출력
names == '홍길동'

0    False
1     True
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [21]:
# 불리언 인덱싱 -> True값만을 출력
names[names == '홍길동']

1    홍길동
dtype: object

In [22]:
population >= 2500000

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구수, dtype: bool

In [23]:
population[population>=2500000]

도시
서울    99043612
부산     3448737
인천     2890451
Name: 인구수, dtype: int64

### Series 데이터 추가, 변경, 제거

In [24]:
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2466052
Name: 인구수, dtype: int64

In [25]:
# Series 값 추가
# 변수[인덱스] = 값
population['광주'] = 1500000
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2466052
광주     1500000
Name: 인구수, dtype: int64

In [26]:
# Series 값 수정
population['대구'] = 2400000
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2400000
광주     1500000
Name: 인구수, dtype: int64

In [27]:
# 삭제
# del 키워드 사용
del population['광주']
population

도시
서울    99043612
부산     3448737
인천     2890451
대구     2400000
Name: 인구수, dtype: int64

### DataFrame 생성

In [28]:
# 딕셔너리 객체로 DataFrame 생성
data = {"2015":[9904312,3448737,2890451,2466052],
        "2010":[9631482,3393191,2632035,2431774]}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [29]:
# 인덱스 수정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


### DataFrame 값 확인
- values : 값 확인
- index : 인덱스 확인
- columns : 컬럼 확인

In [30]:
# list데이터를 사용해서 DataFrame 생성
data2 = [[9904312,3448737,2890451,2466052], [9631482,3393191,2632035,2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(data2, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [31]:
# 리스트를 통해서 DataFrame 생성하는데 위에 딕셔너리 형태와 똑같이 만들어보기
data3 = [[9904312,9631482],
         [3448737,3393191],
         [2890451,2632035],
         [2466052,2431774]]
ind3 = ['서울','부산','인천','대구']
col3 = ['2015','2010']
df3 = pd.DataFrame(data3, index = ind3, columns = col3)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [32]:
# 행과 열을 바꾸는 기능 (전치)
# 변수.T
df3 = df3.T
df3

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


### DataFrame 컬럼(열)인덱싱

In [33]:
# Series 형태로 반환
df3['서울']

2015    9904312
2010    9631482
Name: 서울, dtype: int64

In [34]:
# 하나의 컬럼을 인덱싱 하더라도 DataFrame형태로 반환하고싶어
# DataFrame반환
df3[['서울']]

Unnamed: 0,서울
2015,9904312
2010,9631482


In [35]:
# 여러개의 열을 이용한 인덱싱도 가능
df3[['서울','부산','대구']]

Unnamed: 0,서울,부산,대구
2015,9904312,3448737,2466052
2010,9631482,3393191,2431774


In [36]:
df3[['서울','부산','서울']]

Unnamed: 0,서울,부산,서울.1
2015,9904312,3448737,9904312
2010,9631482,3393191,9631482


In [37]:
# 열 생성 / 수정
# 변수[컬럼이름] = 값
df3['광주']=[1400000,1500000]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1400000
2010,9631482,3393191,2632035,2431774,1500000


In [38]:
df3['광주']=[1500000,1400000]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000


In [39]:
# 행 생성
# 변수명.loc[] or iloc[] 인덱서 사용
# 변수명.loc[인덱스 이름]=값 (값은 반드시 열의 갯수에 맞춰주기)
df3.loc['2013']=[100,200,300,400,500]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,100,200,300,400,500


In [40]:
df3.loc['2013']=[500,400,300,200,100]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,500,400,300,200,100


In [41]:
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,500,400,300,200,100


### DataFrame 인덱싱, 슬라이싱

In [42]:
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,500,400,300,200,100


In [43]:
df3.loc['2010':'2013','부산':'인천']

Unnamed: 0,부산,인천
2010,3393191,2632035
2013,400,300


In [44]:
# 인덱서
# 행과 열을 한번에 인덱싱 / 슬라이싱 하는 함수
# loc : index의 실제 값을 사용
# iloc : index의 고유 번호를 사용
# 변수.loc[행,열]
# 변수.iloc[행,열]
# 변수.인덱서[행] : 해당하는 행을 출력
# 변수[컬럼명] : 해당하는 열을 출력

In [45]:
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,500,400,300,200,100


In [46]:
df3['대구']>=3400000

2015    False
2010    False
2013    False
Name: 대구, dtype: bool

In [47]:
df3[df3['대구']>=3400000]

Unnamed: 0,서울,부산,인천,대구,광주


In [48]:
df3 = df3.T

In [49]:
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200
광주,1500000,1400000,100


In [50]:
df3['2015']>=2500000

서울     True
부산     True
인천     True
대구    False
광주    False
Name: 2015, dtype: bool

In [51]:
df3[df3['2015']>=2500000]

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300


In [52]:
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200
광주,1500000,1400000,100


In [53]:
df3.sum(axis=1)

서울    19536294
부산     6842328
인천     5522786
대구     4898026
광주     2900100
dtype: int64

### axis
- axis = 1 -> (행방향으로 동작한다.)
- axis = 0 -> (열방향으로 동작한다.)

### DataFrame 요소 삭제 (행과 열)

In [54]:
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200
광주,1500000,1400000,100


In [55]:
# drop키워드 사용
df3 = df3.drop('2013', axis=1)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774
광주,1500000,1400000


In [56]:
# 리스트를 통해서 DataFrame 생성하는데 위에 딕셔너리 형태와 똑같이 만들어보기
data3 = [[9904312,9631482],
         [3448737,3393191],
         [2890451,2632035],
         [2466052,2431774]]
ind3 = ['서울','부산','인천','대구']
col3 = ['2015','2010']
df3 = pd.DataFrame(data3, index = ind3, columns = col3)
df3
df3['2013']=[500,400,300,200]
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200


In [57]:
df3.drop('2013',axis=1, inplace = True)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [58]:
# 열방향 평균구하기
df3.mean(axis=0)

2015    4677388.0
2010    4522120.5
dtype: float64

In [59]:
# 행방향 평균구하기
df3.mean(axis=1)

서울    9767897.0
부산    3420964.0
인천    2761243.0
대구    2448913.0
dtype: float64

### CSV 파일 불러오기

In [60]:
import pandas as pd
import numpy as np

In [61]:
data = pd.read_csv('score.csv',encoding='euc-kr',index_col='과목')
data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [62]:
# axis=0 (열방향으로 합계 구하기)
data.sum(axis=0)

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [63]:
# axis=1 (행방향으로 합계 구하기)
data.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

![image.png](attachment:46c25ebc-7047-415d-854b-40609258b43b.png)

In [64]:
data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [65]:
data['합계']=data.sum(axis=1)
data

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [66]:
data.loc['평균']=data.mean(axis=0)
data

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45.0,44.0,73.0,39.0,201.0
DB,76.0,92.0,45.0,69.0,282.0
자바,47.0,92.0,45.0,69.0,253.0
크롤링,92.0,81.0,85.0,40.0,298.0
Web,11.0,79.0,47.0,26.0,163.0
평균,54.2,77.6,59.0,48.6,239.4


In [67]:
# 합계컬럼 삭제
data.drop('합계', axis=1, inplace=True)
data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45.0,44.0,73.0,39.0
DB,76.0,92.0,45.0,69.0
자바,47.0,92.0,45.0,69.0
크롤링,92.0,81.0,85.0,40.0
Web,11.0,79.0,47.0,26.0
평균,54.2,77.6,59.0,48.6


In [68]:
# 평균 행 삭제
data.drop('평균', axis=0, inplace=True)
data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45.0,44.0,73.0,39.0
DB,76.0,92.0,45.0,69.0
자바,47.0,92.0,45.0,69.0
크롤링,92.0,81.0,85.0,40.0
Web,11.0,79.0,47.0,26.0


In [69]:
# 최대값 : max() # 방향(axis)지정
# 최솟값 : min() # 방향(axis)지정

In [70]:
data.max(axis=1)

과목
파이썬    73.0
DB     92.0
자바     92.0
크롤링    92.0
Web    79.0
dtype: float64

In [71]:
data.min(axis=1)

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
dtype: float64

In [72]:
# 행에 대해서 최대값에서 최솟값을 빼는 함수
def max_min(data):
    return data.max(axis=1)-data.min(axis=1)

In [73]:
# 열방향에 대해서 최댓값에서 최솟값을 빼는 함수
def max_min2(data):
    return data.max(axis=0)- data.min(axis=0)

In [74]:
# 함수 호출
max_min2(data)

1반    81.0
2반    48.0
3반    40.0
4반    43.0
dtype: float64

In [75]:
def max_min3(data):
    return data.max()-data.min()

### apply
- 행이나 열 단위로 더 복잡한 처리를 할 때 사용
- 내가 지정한 함수같이 aixs를 따로 지정하지 않았을 경우 axis에 대해 사용하고 싶을 때 사용

In [76]:
data.apply(max_min3, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [77]:
data_dic = {'A':[1,3,3,4,4],
           'B':[1,2,2,3,3],
           'C':[1,2,4,4,5]}
df1 = pd.DataFrame(data_dic)
df1

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [78]:
# value_counts : 값들의 갯수를 새어주는 함수
df1_value = df1.apply(pd.value_counts, axis=0)

  df1_value = df1.apply(pd.value_counts, axis=0)


In [79]:
df1_value

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


### fillna 함수
- 결측치(NaN)를 원하는 값으로 넣어주는 기능
- 변수명.fillna(value = '원하는 값')

In [80]:
df1_value.fillna(value=0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### DataFrame 병합
- concat : 데이터프레임을 수직 또는 수평으로 결합할 때 사용
    - 데이터 프레임을 단순히 연결하는 작업에 사용
    - 데이터를 결합할 때 구조의 변화없이 단순히 이어붙일 때 유용
- merge : '기준 열'을 통해 데이터프레임을 결합할 때 사용
    - 데이터를 특정 기준으로 결합하는 기능이 필요할 때 사용
    - 두 데이터프레임이 컬럼이나 인덱스를 공유할 때 효과적

In [81]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

### concat 사용
- pd.concat([결합할 데이터프레임], axis(방향))

In [82]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [83]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [84]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [85]:
pd.concat([df2,df1,df3],axis=0)

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [86]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [87]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [88]:
df_concat1 = pd.concat([df1,df4],axis=0)
df_concat1

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [89]:
df_concat1.loc[2]

Unnamed: 0,A,B,C,D,F
2,A2,B2,C2,D2,
2,,B2,,D2,F2


In [90]:
# concat을 사용하면 인덱스가 중복이 되버리기 때문에 내가 고유한 인덱스를 사용할 때 혼란이 온다.
# ignore_index : 기존에 가지고 있던 index를 무시하고 새로운 인덱스 번호를 부여
pd.concat([df1,df4], axis=0, ignore_index=True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [91]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[1, 2, 3, 4])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[2, 3, 4, 5])

In [92]:
df_concat2 = pd.concat([df1,df2,df3],axis=0, ignore_index=True)
df_concat2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [93]:
df_concat4 = pd.concat([df1,df2,df3], axis=1, join='inner')
df_concat4

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
2,A2,B2,C2,D2,A5,B5,C5,D5,A8,B8,C8,D8
3,A3,B3,C3,D3,A6,B6,C6,D6,A9,B9,C9,D9


### inner속성
- outer : df에 있는 모든 값들을 결합 (없는 부분은 결측치(NaN)으로 표시)
- inner : 결합할 df 모두 있는 값들을 결합 (없는 부분은 결합하지 않는다.)

### concat함수의 속성
- 병합할 데이터 : 리스트[]에 담아서 사용
- axis : 열 또는 행방향을 지정
- ignore_index : index속성 여부(기존 인덱스를 무시하고 새로운 인덱스를 부여)
- join : inner(교집합), outer(합집합)

In [94]:
df1 = pd.DataFrame({'Korean':[100,26,94],
      'Math':[66,53,100],
      'English':[80,45,32],
      'Science':[97,100,43]}, index=[0,1,2])
df2 = pd.DataFrame({'Korean':[100,82,20],
      'Math':[94,79,10],
      'English':[21,19,92],
      'Science':[39,87,13]},index=[0,1,2])

In [95]:
df1

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43


In [96]:
df2

Unnamed: 0,Korean,Math,English,Science
0,100,94,21,39
1,82,79,19,87
2,20,10,92,13


### merge사용
- 병합할 데이터 (2개의 DF)
- on : 기준열 지정
- how : 결합 방법(inner, outer 등등)
- suffixes : 동일한 이름을 가진 열들이 충돌하지 않도록 각 열 이름에 접미사를 추가

In [97]:
pd.merge(df1,df2, on=df1.index ,how='outer', suffixes = ('_df1','_df2'))

Unnamed: 0,key_0,Korean_df1,Math_df1,English_df1,Science_df1,Korean_df2,Math_df2,English_df2,Science_df2
0,0,100,66,80,97,100,94,21,39
1,1,26,53,45,100,82,79,19,87
2,2,94,100,32,43,20,10,92,13


In [98]:
pd.merge(df1,df2, on='Korean' ,how='outer', suffixes = ('_df1','_df2'))

Unnamed: 0,Korean,Math_df1,English_df1,Science_df1,Math_df2,English_df2,Science_df2
0,20,,,,10.0,92.0,13.0
1,26,53.0,45.0,100.0,,,
2,82,,,,79.0,19.0,87.0
3,94,100.0,32.0,43.0,,,
4,100,66.0,80.0,97.0,94.0,21.0,39.0


In [99]:
df1

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43


In [100]:
df2

Unnamed: 0,Korean,Math,English,Science
0,100,94,21,39
1,82,79,19,87
2,20,10,92,13


In [101]:
df5 = pd.DataFrame({'key' : ['K0','K2','K3','K4'],
                   'A':['A0','A1','A2','A3'],
                   'B':['B0','B1','B2','B3']})

df6 = pd.DataFrame({'key' : ['K0','K1','K2','K3'],
                   'C':['C0','C1','C2','C3'],
                   'D':['D0','D1','D2','D3']})

In [102]:
df5

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K2,A1,B1
2,K3,A2,B2
3,K4,A3,B3


In [103]:
df6

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [104]:
df_merge1 = pd.merge(df5,df6, on='key', how='outer')

In [105]:
df_merge1

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3
4,K4,A3,B3,,


In [106]:
df_merge1 = df_merge1.fillna(0)
df_merge1

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,0,0,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3
4,K4,A3,B3,0,0


In [107]:
df2015 = pd.read_csv('2015.csv', encoding = 'euc-kr', index_col='관서명')
df2016 = pd.read_csv('2016.csv', encoding = 'euc-kr', index_col='관서명')
df2017 = pd.read_csv('2017.csv', encoding = 'euc-kr', index_col='관서명')

### DF에서 유용한 기능
- head() : 앞에 내가 원하는 만큼만 출력

In [108]:
df2015.head(2)

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301


### DF 정렬
- sort_index()
    - ascending = False : 내림차순으로 정렬
- sort_values(by 내가 원하는 컬럼)
    - ascending = False : 내림차순으로 정렬

In [109]:
df10 = pd.DataFrame({'A':[3,2,1],
             'B':[4,5,6],
             'C':[7,8,9]},index=[1,2,0])
df10

Unnamed: 0,A,B,C
1,3,4,7
2,2,5,8
0,1,6,9


In [110]:
df10.sort_index()

Unnamed: 0,A,B,C
0,1,6,9
1,3,4,7
2,2,5,8


In [111]:
df10.sort_values(by='A', ascending=False)

Unnamed: 0,A,B,C
1,3,4,7
2,2,5,8
0,1,6,9


In [112]:
# 구분컬럼의 값이 발생건수인 데이터만 가져오기
df2015.head(3)
# df2015에서 구분값들을 가져와보기
df2015_crime = df2015[df2015['구분'] == '발생건수']
df2015_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주동부경찰서,발생건수,3,5,92,1100,1155
광주서부경찰서,발생건수,5,10,172,2050,2483
광주남부경찰서,발생건수,1,3,70,962,1081
광주북부경찰서,발생건수,5,14,256,2570,2621
광주광산경찰서,발생건수,4,12,160,1743,2253


In [113]:
# df2015_crime['2015총계'] = df2015_crime.sum(axis=1)
# 1. 그럼 구분컬럼을 뺀 나머지 컬럼을 슬라이싱해보자
df2015_crime.loc[:,'살인':'폭력']
# 2. 슬라이싱한 DF의 합계 구하기
df2015_crime.loc[:,'살인':'폭력'].sum(axis=1)
# 3. 구한 합계를 컬럼을 추가해보자
df2015_crime['2015총계'] = df2015_crime.loc[:,'살인':'폭력'].sum(axis=1)
df2015_crime
# df2015_crime[['살인','강도','강간·강제추행','절도','폭력']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2015_crime['2015총계'] = df2015_crime.loc[:,'살인':'폭력'].sum(axis=1)


Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,2015총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주서부경찰서,발생건수,5,10,172,2050,2483,4720
광주남부경찰서,발생건수,1,3,70,962,1081,2117
광주북부경찰서,발생건수,5,14,256,2570,2621,5466
광주광산경찰서,발생건수,4,12,160,1743,2253,4172


In [114]:
df2016_crime = df2016[df2016['구분'] == '발생건수']
df2016_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599
광주동부경찰서,발생건수,3,8,83,832,1142
광주서부경찰서,발생건수,2,11,174,1417,2288
광주남부경찰서,발생건수,1,4,64,768,1028
광주북부경찰서,발생건수,6,7,205,1788,2142
광주광산경찰서,발생건수,5,17,175,1247,1999


In [115]:
df2017_crime = df2017[df2017['구분'] == '발생건수']
df2017_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청,발생건수,0,0,0,0,0
광주동부경찰서,발생건수,3,5,77,624,1090
광주서부경찰서,발생건수,0,7,196,1142,2293
광주남부경찰서,발생건수,0,4,68,577,898
광주북부경찰서,발생건수,3,5,215,1546,2176
광주광산경찰서,발생건수,3,12,169,927,1909


![image.png](attachment:453d9207-68cd-4c01-add7-22284f99a840.png)

In [116]:
# df2015_crime['2015총계'] = df2015_crime.sum(axis=1)
# 1. 그럼 구분컬럼을 뺀 나머지 컬럼을 슬라이싱해보자
df2016_crime.loc[:,'살인':'폭력']
# 2. 슬라이싱한 DF의 합계 구하기
df2016_crime.loc[:,'살인':'폭력'].sum(axis=1)
# 3. 구한 합계를 컬럼을 추가해보자
df2016_crime['2016총계'] = df2016_crime.loc[:,'살인':'폭력'].sum(axis=1)
df2016_crime
# df2015_crime[['살인','강도','강간·강제추행','절도','폭력']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2016_crime['2016총계'] = df2016_crime.loc[:,'살인':'폭력'].sum(axis=1)


Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,2016총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599,15416
광주동부경찰서,발생건수,3,8,83,832,1142,2068
광주서부경찰서,발생건수,2,11,174,1417,2288,3892
광주남부경찰서,발생건수,1,4,64,768,1028,1865
광주북부경찰서,발생건수,6,7,205,1788,2142,4148
광주광산경찰서,발생건수,5,17,175,1247,1999,3443


In [117]:
# df2015_crime['2015총계'] = df2015_crime.sum(axis=1)
# 1. 그럼 구분컬럼을 뺀 나머지 컬럼을 슬라이싱해보자
df2017_crime.loc[:,'살인':'폭력']
# 2. 슬라이싱한 DF의 합계 구하기
df2017_crime.loc[:,'살인':'폭력'].sum(axis=1)
# 3. 구한 합계를 컬럼을 추가해보자
df2017_crime['2017총계'] = df2017_crime.loc[:,'살인':'폭력'].sum(axis=1)
df2017_crime
# df2015_crime[['살인','강도','강간·강제추행','절도','폭력']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2017_crime['2017총계'] = df2017_crime.loc[:,'살인':'폭력'].sum(axis=1)


Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949
광주지방경찰청,발생건수,0,0,0,0,0,0
광주동부경찰서,발생건수,3,5,77,624,1090,1799
광주서부경찰서,발생건수,0,7,196,1142,2293,3638
광주남부경찰서,발생건수,0,4,68,577,898,1547
광주북부경찰서,발생건수,3,5,215,1546,2176,3945
광주광산경찰서,발생건수,3,12,169,927,1909,3020


In [118]:
df2017_crime.drop('광주지방경찰청', axis=0, inplace=True)
df2017_crime

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2017_crime.drop('광주지방경찰청', axis=0, inplace=True)


Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949
광주동부경찰서,발생건수,3,5,77,624,1090,1799
광주서부경찰서,발생건수,0,7,196,1142,2293,3638
광주남부경찰서,발생건수,0,4,68,577,898,1547
광주북부경찰서,발생건수,3,5,215,1546,2176,3945
광주광산경찰서,발생건수,3,12,169,927,1909,3020


In [119]:
s1=df2015_crime['2015총계']
s3=df2016_crime['2016총계']
s5=df2017_crime['2017총계']

In [120]:
s2 = (s3 - s1) / s1 * 100 
# (2016 총계 - 2015 총계) / 2015 총계 * 100 => 15 ~16 증감률

s4 = (s5 - s3) / s3 * 100

In [123]:
s1

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
Name: 2015총계, dtype: int64

In [124]:
pd.concat([s1, s3, s5], axis=1)
# Series도 concat 사용 가능 -> DF의 결과가 나옴

Unnamed: 0_level_0,2015총계,2016총계,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
광주지방경찰청계,18830,15416,13949
광주동부경찰서,2355,2068,1799
광주서부경찰서,4720,3892,3638
광주남부경찰서,2117,1865,1547
광주북부경찰서,5466,4148,3945
광주광산경찰서,4172,3443,3020


In [125]:
s2.name = '2015-2016 증감률'
s4.name = '2016-2017 증감률'

In [126]:
s2

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 2015-2016 증감률, dtype: float64

In [127]:
s4

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 2016-2017 증감률, dtype: float64

In [128]:
pd.concat([s1, s2, s3, s4, s5], axis=1)

Unnamed: 0_level_0,2015총계,2015-2016 증감률,2016총계,2016-2017 증감률,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
