In [1]:
import pandas as pd

In [2]:
# Pandas 의 Series 생성
# 다로 지정 하지 않으면  인덱스 번호는 0부터 시작
series1 = pd.Series([1,2,3,4,5])
series1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# 인덱스 지정해서 Series 생성
series2 = pd.Series([1,2,3,4,5], index = ['일','이','삼','사','오'])
series2

일    1
이    2
삼    3
사    4
오    5
dtype: int64

In [4]:
population = pd.Series([9904312,3448737,2890451,2466052], index = ['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
# Series 정보 확인
# 값, 인덱스, 타입
# values, index, dtype
population.values #값 확인

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [6]:
population.index # 인덱스 확인

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
population.dtype # 타입 확인

dtype('int64')

In [8]:
# Series의 컬럼 이름 지정
population.name = '인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
# indexd의 이름 지정
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
# 시리즈 연산
# values의 값만 할 수 있다
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [11]:
# 시리즈 인덱싱
population[1] # 인덱스 번호 사용

3448737

In [12]:
population['부산'] # 지정한 인덱스 사용

3448737

In [13]:
# 리스트를 활용한 인덱싱
# 순서 횟수에 상광없음
population[['서울','인천','서울']]

도시
서울    9904312
인천    2890451
서울    9904312
Name: 인구, dtype: int64

In [14]:
population[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
# Boolean 인덱싱
# 인구수가 250만 이상인 도시의 정보 출력
population[population >=2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [16]:
# 인구수가 500만 이하의 도시 정보 출력
population[population <= 5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [17]:
# 인구수가 250만 이상이고 500만 이하인 도시 정보 출력
# Boolean 인덱싱을 한번 사용한 것
population[(population >=2500000) & (population <=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [18]:
# Boolean 인덱싱을 두번 사용한것
population[population<=5000000][population>=2500000]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [19]:
# 슬라이싱
# 인덱스 번호로 슬라이싱[첫 번째 수 : 끝 수 +1]
population[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [20]:
# 지정한 인덱스로 슬라이싱[첫 버째 값 : 끝 나는 값]
population['부산':'대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [21]:
# 딕셔너리 객체로 Series 생성
# 인덱스 부여가 자동으로 완성
# key = 인덱스
# values = 값
data = {'서울' : 9631482,'부산':3393191,'인천':2632035,'대전':1490158}
data

{'서울': 9631482, '부산': 3393191, '인천': 2632035, '대전': 1490158}

In [22]:
population2 = pd.Series(data)
population2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [23]:
# population2 : 2010년 인구
# population : 2015년 인구
# 2015년도와 2010년도의 인구수 증가 계산
ds = population - population2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [24]:
print(population.index)
print(population2.index)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
Index(['서울', '부산', '인천', '대전'], dtype='object')


In [25]:
# notnull(): null이 아니면 True,null이면 False
# isnull( ) : null이 아니면 False, null이면 True

In [26]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [27]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [28]:
# 2015년도와 2010년도의 인구 증가율 계산
# 단, 없는 값은 출력 X
# (2015년 인구 - 2010년 인구) / 2010년 인구 * 100
rs = (ds)/population2*100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [29]:
# Series값 갱신 추가 삭제
# 대구 값 갱신
rs['대구'] = 1.41

In [30]:
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [31]:
# 값 추가
rs['관주'] = 2.08
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
관주    2.080000
dtype: float64

In [32]:
# 값 삭제
del rs['대전']
rs

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
관주    2.080000
dtype: float64

### DataFrame

In [33]:
# 딕셔너리를 통해서 DataFrame 만들기
data = {
    '2015' : [9904312,3448737,2890451,2466052],
    "2010" : [9631482,3393191,2632035,2431774]
}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [34]:
# DataFrame 생성후 index 설정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [35]:
# DataFrame 생성시 index 지정, colum 지정
data = [
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]

ind = ['2015','2010']
col = ['서울','부산','인천','대구']

df2 = pd.DataFrame(data, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [36]:
data = [
    [9904312,9631482],
    [3448737,3393191],
    [2890451,2632035],
    [2466052,2431774]
]

ind = ['서울','부산','인천','대구']
col = ['2015','2010']

df3 = pd.DataFrame(data, index = ind, columns = col)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
# 전치
# 괄호가 없는것은 함수가 아닌것으로 pandas나 numpy에서 지원해주는 것이다
# 그렇기 때문에 T는 pandas에서만 지원가능 할수있다
# T -> DataFrame에서만 사용 가능
# transpose() -> numpy와 pandas에서 사용가능
df2.T
df2 = df2.transpose()
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [38]:
# 데이터 프레임 정보 확인
# 값 확인 : values
# 인덱스 확인 ; index
# 컬럼 확인 : columns

In [39]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [40]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [41]:
df2.columns

Index(['2015', '2010'], dtype='object')

In [42]:
# 데이터 프레임에 값 추가
# 컬럼을 기준으로 값 추가
df2['2005']= [9762546,3512547,2517680,2456016]
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [43]:
# 값 수정
df2['2005']= [9762546,3512547,2517680,2450000]
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [44]:
# 인덱싱 슬라이싱
# 컬럼으로 인덱싱하기
df2['2010'] # 하나의 컬럼 출력시 Series로 출력

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [45]:
# 리스트를 사용한 인덱싱
# 데이터 프레임으로 출력
df2[['2015','2005']]

Unnamed: 0,2015,2005
서울,9904312,9762546
부산,3448737,3512547
인천,2890451,2517680
대구,2466052,2450000


In [46]:
df2[['2010']]

Unnamed: 0,2010
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [47]:
# 인덱스을 기준으로 하는 슬라이싱
df2[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [48]:
df2['서울' : '인천']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [49]:
# 인덱서
# iloc ; 인덱스 번호 사용
# loc ; 지정한 인덱스 사용

In [50]:
# loc[   index, columns   ]
df2.loc['서울':'부산', '2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [51]:
# iloc 인덱서를 사용해서 동일한 결과값 출력
df2.iloc[0:2,0:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [52]:
# 데이터 프레임 불리언 인덱싱
# 2010년 인구가 2500000만 이상인 데이터 출력
bol = df2.loc[:,'2010']>=2500000
bol

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [53]:
df2.loc[bol,'2010']

서울    9631482
부산    3393191
인천    2632035
Name: 2010, dtype: int64

In [54]:
# read_csv(
pn = pd.read_csv('population_number.csv', encoding = 'euc-kr', index_col = '도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [55]:
# 값의 갯수 세기
# value_counts()
pn.loc[:,'지역'].value_counts()

수도권    2
경상권    2
Name: 지역, dtype: int64

In [56]:
# 정렬
# sort_values() : 값을 기준으로  오름차순 정렬
# ascending = True가 기본 값
pn.loc[:,"2010"].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [57]:
# 내림 차순 정렬
pn.loc[:,"2010"].sort_values(ascending = False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [58]:
# 2010년만을 기준으로 정렬이 된다
# by : 기준을 정해서 정렬
pn.sort_values(by = '2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [59]:
# 두개의 기준으로 데이터 살펴보기
# 첫 번째기분으로 정렬 후 첫 번째기준에서 같은기준 끼리만 두 번째가 정렬된다
pn.sort_values(by = ['지역','2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [60]:
# 인덱스 값을 기준으로 정렬
# ascending = True가 기본 값
pn.sort_index()

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [61]:
sc = pd.read_csv('score.csv', encoding = 'euc-kr', index_col = '과목')
sc

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [62]:
import numpy as np

In [63]:
# 학급별 과목 점수 총계
np.sum(sc)

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [64]:
sc.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [65]:
# 순위에 맞게 출력
sc.sum().sort_values(ascending = False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [66]:
# 과목별 점수 총계
sc.T.sum()

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [67]:
sc.sum(axis = 1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [68]:
np.sum(sc,axis = 1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [69]:
sc['합계'] = sc.loc[:,:'4반'].sum(axis = 1)
sc

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [70]:
sc['평균'] = sc.loc[:,:'4반'].mean(axis = 1)
sc

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [71]:
# 인덱스를 추가하는 방법 (반 평균)
sc.loc['반 평균'] = sc.loc[:'과학'].mean()
sc

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반 평균,54.2,77.6,59.0,48.6,239.4,59.85


In [72]:
# 과목별로 가장 큰값과 가장 작은값 차이를 구하자

In [73]:
# 가장 큰값 구하기 
# max()
sc.max(axis = 1)

과목
수학      201.0
영어      282.0
국어      253.0
사회      298.0
과학      163.0
반 평균    239.4
dtype: float64

In [74]:
# 가장 작은 값 구하기
# min()
sc.min(axis = 1)

과목
수학      39.0
영어      45.0
국어      45.0
사회      40.0
과학      11.0
반 평균    48.6
dtype: float64

In [75]:
max_sc = sc.loc[:'과학',:'4반'].max(axis = 1)
max_sc

과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64

In [76]:
min_sc = sc.loc[:'과학',:'4반'].min(axis=1)
min_sc

과목
수학    39.0
영어    45.0
국어    45.0
사회    40.0
과학    11.0
dtype: float64

In [77]:
max_sc - min_sc

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [78]:
# apply()
# 행이나 열 단위로 복잡한 처리를 하고 싶을 때 사용
# 적용시킬 데이터를 행 / 열 단위로 함수를 적용시켜줌

In [79]:
def max_min(x):
    return x.max()-x.min()

In [80]:
sc.loc[:'과학',:'4반'].apply(max_min,axis = 1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [81]:
# 결측지를 채우는 함수
# fillna()

In [82]:
data_dic = {'A' : [1,3,3,4,4,], 'B' : [1,2,2,3,3], 'C' : [1,2,4,4,5]}
df = pd.DataFrame(data_dic)
df

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [83]:
df['A'].value_counts()

3    2
4    2
1    1
Name: A, dtype: int64

In [84]:
df1 = df.apply(pd.value_counts)
df1

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [85]:
df1 = df1.fillna(100) # 값을 출력하고 저장하지 않음
df1

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,100.0,2.0,1.0
3,2.0,2.0,100.0
4,2.0,100.0,2.0
5,100.0,100.0,1.0


In [86]:
# 카테고리 데이터 만들기
# cut(데이터, 기준, 라벨)

In [87]:
ages = [0,2,10,21,23,37,31,61,20,41,32,100]
bins = [0,15,25,35,60,99] # 구분할 기준 0~15, 15~25, 25~35, 35~60, 60~99 5가지 구분(0초과 15이하)
labels = ['미성년자', '청년', '중년', '장년', '노년']

In [88]:
pd.cut(x = ages, bins = bins, labels = labels)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [89]:

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [90]:
# 데이터 프레임 합치기
# concat() -> 기본적으로 열의 방향으로 합쳐준다.
# axis = 0 -> 컬럼을 기준으로 데이터 합치기
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [91]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])

In [92]:
# axis = 1 -> 인덱스를 기준으로 데이터 합치기
# 있는 데이터에는 데이터를 채워주고 없는 데이터는 NAN을 채워 준다
pd.concat([df1,df4],axis = 1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [93]:
pd.concat([df1,df4],axis = 1).loc['2':'3','A':'F']

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [94]:
# 같은 인덱스를 가지고 있는 값만 출력
pd.concat([df1,df4],axis = 1,join = 'inner')

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [95]:
# 인덱스 초기화
pd.concat([df1,df4],ignore_index = True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [96]:
# value를 기준으로 데이터 합치기
df5 = pd.DataFrame({'key': ['K0','K2','K3','K4'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']})


df6 = pd.DataFrame({'key': ['K0','K1','K2','K3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']})

In [97]:
# merge
# 데이터를 기준으로 df 합침
# 한번에 2개만 합칠 수 있다
# on = '공유하고 있는 컬럼' -> 공유하고 있는 컬럼들이 가지고 있는 인덱스 값들을 합침
# 공통되고 있는 컬럼들이 여러개라면 지정이 필수
# 하나라면 안 써도 된다
# 기준이 같은것만 출력 : how = inner
pd.merge(df5,df6, on = 'key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [98]:
# 모든 데이터 출력
pd.merge(df5,df6,how = 'outer')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,
4,K1,,,C1,D1


In [99]:
# how : left, right
# left : df5,df6이면 df5를 기준으로
# right : df5,df6이면 df6을 기준으로
pd.merge(df5,df6,how = 'left')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,


In [102]:
# 2015파일 불러오기
df2015 = pd.read_csv('2015.csv', encoding='euc-kr', index_col='관서명')
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [103]:
# 2016파일 불러오기
df2016 = pd.read_csv('2016.csv', encoding='euc-kr',index_col='관서명')
df2016

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599
광주지방경찰청계,검거건수,18,47,713,4242,7631
광주지방경찰청계,검거인원,21,54,758,3455,10747
광주지방경찰청계,구속,14,25,37,132,57
광주지방경찰청계,불구속,3,25,491,2862,5267
광주지방경찰청계,기타,4,4,230,461,5423
광주동부경찰서,발생건수,3,8,83,832,1142
광주동부경찰서,검거건수,3,7,70,679,1002
광주동부경찰서,검거인원,4,10,71,543,1497
광주동부경찰서,구속,2,2,3,17,7


In [104]:
# 2017파일 불러오기
df2017 = pd.read_csv('2017.csv', encoding='euc-kr', index_col='관서명')
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


In [106]:
# head() 위에서 부터 출력
df2015.head(10)

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [159]:
# 2017년도에만 있는 데이터 삭제
# drop
# 1.변수에 담기
# 2.inpace = True ->삭제 하면서 담아주는 함수
df2017 = df2017.drop('광주지방경찰청')

In [160]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주동부경찰서,발생건수,3,5,77,624,1090
광주동부경찰서,검거건수,3,5,70,470,953
광주동부경찰서,검거인원,4,4,76,483,1538
광주동부경찰서,구속,2,3,2,19,9


In [110]:
# 컬(열)을 삭제 - drop(... , axis = 1)
df2017.drop('구분',axis=1)

Unnamed: 0_level_0,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,9,33,725,4816,8366
광주지방경찰청계,9,32,732,3487,7553
광주지방경찰청계,10,61,824,3046,11018
광주지방경찰청계,8,28,71,115,88
광주지방경찰청계,0,26,523,2493,5235
광주지방경찰청계,2,7,230,438,5695
광주지방경찰청,0,0,0,0,0
광주지방경찰청,0,1,91,0,37
광주지방경찰청,0,1,105,0,149
광주지방경찰청,0,0,17,0,7


In [113]:
# tail()
df2015.tail()

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주광산경찰서,검거건수,4,10,135,996,1922
광주광산경찰서,검거인원,3,8,129,736,2585
광주광산경찰서,구속,0,4,5,12,6
광주광산경찰서,불구속,0,4,81,639,1181
광주광산경찰서,기타,3,0,43,85,1398


In [114]:
# boolean
df2015['구분'] == '발생건수'

관서명
광주지방경찰청계     True
광주지방경찰청계    False
광주지방경찰청계    False
광주지방경찰청계    False
광주지방경찰청계    False
광주지방경찰청계    False
광주동부경찰서      True
광주동부경찰서     False
광주동부경찰서     False
광주동부경찰서     False
광주동부경찰서     False
광주동부경찰서     False
광주서부경찰서      True
광주서부경찰서     False
광주서부경찰서     False
광주서부경찰서     False
광주서부경찰서     False
광주서부경찰서     False
광주남부경찰서      True
광주남부경찰서     False
광주남부경찰서     False
광주남부경찰서     False
광주남부경찰서     False
광주남부경찰서     False
광주북부경찰서      True
광주북부경찰서     False
광주북부경찰서     False
광주북부경찰서     False
광주북부경찰서     False
광주북부경찰서     False
광주광산경찰서      True
광주광산경찰서     False
광주광산경찰서     False
광주광산경찰서     False
광주광산경찰서     False
광주광산경찰서     False
Name: 구분, dtype: bool

In [141]:
# 불리언 인덱싱 (조건 필터링)
# copy()를 쓰는 이유는 주소값을 바꿔서 값만 준다
# 그래서 나중에 copy()를 안쓰고 연산을 하게되면 나중에 값이 꼬일수도 있다
df2015_crime = df2015[df2015['구분'] == '발생건수'].copy()
df2015_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주동부경찰서,발생건수,3,5,92,1100,1155
광주서부경찰서,발생건수,5,10,172,2050,2483
광주남부경찰서,발생건수,1,3,70,962,1081
광주북부경찰서,발생건수,5,14,256,2570,2621
광주광산경찰서,발생건수,4,12,160,1743,2253


In [143]:
df2016_crime = df2016[df2016['구분'] == '발생건수'].copy()

In [161]:
df2017_crime = df2017[df2017['구분'] == '발생건수'].copy()

In [175]:
# 2015총계, 2016총계, 2017총계
df2015_crime['2015총계'] = df2015_crime.loc[:,'살인':'폭력'].sum(axis = 1)
df2015_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계,2015총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830,18830
광주동부경찰서,발생건수,3,5,92,1100,1155,2355,2355
광주서부경찰서,발생건수,5,10,172,2050,2483,4720,4720
광주남부경찰서,발생건수,1,3,70,962,1081,2117,2117
광주북부경찰서,발생건수,5,14,256,2570,2621,5466,5466
광주광산경찰서,발생건수,4,12,160,1743,2253,4172,4172


In [177]:
df2016_crime['2016총계'] = df2016_crime.loc[:,'살인':'폭력'].sum(axis = 1)
df2016_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계,2016총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599,15416,15416
광주동부경찰서,발생건수,3,8,83,832,1142,2068,2068
광주서부경찰서,발생건수,2,11,174,1417,2288,3892,3892
광주남부경찰서,발생건수,1,4,64,768,1028,1865,1865
광주북부경찰서,발생건수,6,7,205,1788,2142,4148,4148
광주광산경찰서,발생건수,5,17,175,1247,1999,3443,3443


In [178]:
df2017_crime['2017총계'] = df2017_crime.loc[:,'살인':'폭력'].sum(axis = 1)
df2017_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949,13949
광주동부경찰서,발생건수,3,5,77,624,1090,1799,1799
광주서부경찰서,발생건수,0,7,196,1142,2293,3638,3638
광주남부경찰서,발생건수,0,4,68,577,898,1547,1547
광주북부경찰서,발생건수,3,5,215,1546,2176,3945,3945
광주광산경찰서,발생건수,3,12,169,927,1909,3020,3020


In [179]:
# t2017, t2016, t2015 변수에 총계컬럼담기
t2015 = df2015_crime['2015총계']
t2015

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
Name: 2015총계, dtype: int64

In [180]:
t2016 = df2016_crime['2016총계']
t2016

관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
Name: 2016총계, dtype: int64

In [181]:
t2017 = df2017_crime['2017총계']
t2017

관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
Name: 2017총계, dtype: int64

In [182]:
# 2015-2016 증감율, 2016-2017 증감율
# p1, p2
p1 = (t2016 - t2015)/t2015 *100
p1

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
dtype: float64

In [183]:
p2 = (t2017 - t2016)/t2016 *100
p2

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
dtype: float64

In [184]:
p1.name = '2015_2016증감율'
p1

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 2015_2016증감율, dtype: float64

In [186]:
p2.name = '2016_2017증감율'
p2

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 2016_2017증감율, dtype: float64

In [187]:
# DataFrame 병합
pd.concat([t2015, p1, t2016, p2, t2017], axis = 1)

Unnamed: 0_level_0,2015총계,2015_2016증감율,2016총계,2016_2017증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
