---
#### pandas를 이용한 cctv 현황 분석 
---


In [1]:
# cctv 현황데이터 읽기
import numpy as np 
import pandas as pd

# 데이터 로딩
CCTV_Seoul = pd.read_csv(
    './data/data/01. CCTV_in_Seoul.csv'
    , encoding='utf-8'
)
CCTV_Seoul.head(3)

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204


In [2]:
# 정렬해서 데이터 확인 : 소게 ASC
CCTV_Seoul.sort_values(
    by= '소계' #컬럼명 
    , ascending=True #default
).head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
9,도봉구,485,238,159,42,386
12,마포구,574,314,118,169,379
17,송파구,618,529,21,68,463
24,중랑구,660,509,121,177,109
23,중구,671,413,190,72,348


In [3]:
# DESC 
CCTV_Seoul.sort_values(
    by='소계'
    , ascending=False
).head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
18,양천구,2034,1843,142,30,467
14,서초구,1930,1406,157,336,398
21,은평구,1873,1138,224,278,468
20,용산구,1624,1368,218,112,398


In [4]:
# 최근 증가울 구하고 컬럼추가 
CCTV_Seoul['최근증가율'] = (CCTV_Seoul['2014년'] \
                          + CCTV_Seoul['2015년'] \
                          + CCTV_Seoul['2016년']) \
                            / CCTV_Seoul['2013년도 이전'] * 100           
CCTV_Seoul.head()
                        

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,2780,1292,430,584,932,150.619195
1,강동구,773,379,99,155,377,166.490765
2,강북구,748,369,120,138,204,125.203252
3,강서구,884,388,258,184,81,134.793814
4,관악구,1496,846,260,390,613,149.29078


In [5]:
# 최근 3년간 많이 증가한 구를 확인 : 정렬
CCTV_Seoul.sort_values(
    by='최근증가율'
    , ascending=False
).head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
22,종로구,1002,464,314,211,630,248.922414
9,도봉구,485,238,159,42,386,246.638655
12,마포구,574,314,118,169,379,212.101911
8,노원구,1265,542,57,451,516,188.929889
1,강동구,773,379,99,155,377,166.490765


In [6]:
# 컬럼명 변경 : 기관명=> 구별 변경
CCTV_Seoul.rename(
    columns={
        CCTV_Seoul.columns[0] : '구별'
    }
    , inplace=True
)
CCTV_Seoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,2780,1292,430,584,932,150.619195
1,강동구,773,379,99,155,377,166.490765
2,강북구,748,369,120,138,204,125.203252
3,강서구,884,388,258,184,81,134.793814
4,관악구,1496,846,260,390,613,149.29078


In [7]:
# 인구현황
POP_Seoul = pd.read_excel(
    './data/data/01. population_in_Seoul.xls'
    , header=2
    , usecols='B,D,G,J,N'
)
POP_Seoul.head()

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


In [8]:
# 컬럼명 변경 : RENAME()
POP_Seoul.rename(
      columns={
        POP_Seoul.columns[0] : '구별'
        , POP_Seoul.columns[1] : '인구수'
        , POP_Seoul.columns[2] : '한국인'
        , POP_Seoul.columns[3] : '외국인'
        , POP_Seoul.columns[4] : '고령자'
    }
    , inplace=True # 원본 반영영
)
POP_Seoul.head()
  

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


In [9]:
# 데이터프레임에서 행, 컬럼삭제 : Drop([정수인덱스], 축 axis=0,1 , inplace)
# axis =0 : 행방향 
# axis =1 : 열방향 
# 합계라는 행 삭제 
POP_Seoul.drop(
    [0] #[0] : 0번행 삭제, 리스트 : 여러개 삭제 가능, 하나로 묶는다
    , axis=0
    # , #inplace=True
).head()
# 숫자도 named 가 된다 

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [10]:
# 데이터프레임에서 행, 컬럼삭제 : Drop([정수인덱스], 축 axis=0,1 , inplace)
# axis =0 : 행방향 
# axis =1 : 열방향 
# 합계라는 행 삭제 
POP_Seoul.drop(
    [0] #[0] : 0번행 삭제, 리스트 : 여러개 삭제 가능, 하나로 묶는다
    , axis=0
    , inplace=True
) # return None -> .head() error
# 숫자도 named 가 된다 

In [11]:
# inplace 사용시 주의
# drop(inplace=False) : 복사된 오브젝트에서 삭제된 데이터 프레임 반환, head()가능
# drop(inplace=True) : 원본에 반영이 된다 , 복사 없다, None 반환 


In [12]:
POP_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [13]:
# 구별 컬럼에 중복값 확인 : 중복값 제거 -> unique()
POP_Seoul['구별'].unique() 


array(['종로구', '중구', '용산구', '성동구', '광진구', '동대문구', '중랑구', '성북구', '강북구',
       '도봉구', '노원구', '은평구', '서대문구', '마포구', '양천구', '강서구', '구로구', '금천구',
       '영등포구', '동작구', '관악구', '서초구', '강남구', '송파구', '강동구', nan],
      dtype=object)

In [14]:
# nan 값이 들어 있는 행 확인 : 블린 인덱싱 사용 
# isnull() => nan 값을 찾아서 boolean 값으로 return : nan true
POP_Seoul['구별'].isnull()

1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26     True
Name: 구별, dtype: bool

In [15]:
# nan값이 들어있는 행 추출출
POP_Seoul[POP_Seoul['구별'].isnull()]

Unnamed: 0,구별,인구수,한국인,외국인,고령자
26,,,,,


In [16]:
# drop 
POP_Seoul.drop(
    [26]
    , axis=0
    , inplace=True
) # return None : 메소드 실행 안된다

POP_Seoul[POP_Seoul['구별'].isnull()]

Unnamed: 0,구별,인구수,한국인,외국인,고령자


In [17]:
# 인구현황 파일 저장 
# TO_CSV : 데이터 프레임을 CSV파일에 저장 
# TO_CSV : 인덱스까지 저장된다 => 읽기를 할때 저장됨 

POP_Seoul.to_csv('./data/data/01 인구현황 nan 삭제까지.csv')
CCTV_Seoul.to_csv('./data/data/01 CCTV 현황 중간 데이터.csv')

In [18]:
#CSV 파일 읽기 
# 1. CCTV  현황
import pandas as pd 
import numpy as np

CCTV_Seoul =  pd.read_csv(
    './data/data/01 CCTV 현황 중간 데이터.csv'
    , encoding='utf-8'
    , index_col=0 #0번 컬럼을 인덱스로 보내라 
)
CCTV_Seoul.head()


Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,2780,1292,430,584,932,150.619195
1,강동구,773,379,99,155,377,166.490765
2,강북구,748,369,120,138,204,125.203252
3,강서구,884,388,258,184,81,134.793814
4,관악구,1496,846,260,390,613,149.29078


In [19]:
# 인구 현환 데이터 읽기 
POP_Seoul = pd.read_csv(
    './data/data/01 인구현황 nan 삭제까지.csv'
    , encoding='utf-8'
    , index_col=0
)
POP_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [20]:
# # 인구현환에서 외국인, 고령자 비율 구하기 (인구수 대비)
# # 새로운 컬럼 생성 대입 
POP_Seoul['외국인비율'] = POP_Seoul['외국인'] / POP_Seoul['인구수'] * 100
POP_Seoul['고령자비율'] = POP_Seoul['고령자'] / POP_Seoul['인구수'] * 100

POP_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451,15.615404
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427
4,성동구,311244.0,303380.0,7864.0,39997.0,2.526635,12.850689
5,광진구,372164.0,357211.0,14953.0,42214.0,4.017852,11.342849


In [21]:
# 인구수 정렬 
# pop_seoul : dataframe object 
POP_Seoul.sort_values(
    by='인구수'
    , ascending=False
).head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
24,송파구,667483.0,660584.0,6899.0,72506.0,1.033584,10.862599
16,강서구,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
23,강남구,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
11,노원구,569384.0,565565.0,3819.0,71941.0,0.670725,12.634883
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [22]:
# 외국인 데이터 확인 
POP_Seoul.sort_values(
    by='외국인'
    ,ascending=False
).head()

POP_Seoul.sort_values(
    by='외국인비율'
    ,ascending=False
).head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
19,영등포구,402985.0,368072.0,34913.0,52413.0,8.663598,13.006191
18,금천구,255082.0,236353.0,18729.0,32970.0,7.342345,12.925255
17,구로구,447874.0,416487.0,31387.0,56833.0,7.007998,12.689506
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427


In [27]:
# cctv, 인구현황 dataframe 병합
# 3개 데이터 프레임 병합 : concat([데이터프레임들], axis=0,1)
result = pd.concat(
    [df1, df2, df3]
    , axis=0 # 아래로 병합, 컬럼명 기준으로 병합 
)
result

NameError: name 'df1' is not defined

In [None]:
result = pd.concat(
    [df1, df2, df3]
    , axis=0
    keys=['1번 점수','2번 점수','3번 점수'] 
)
result

SyntaxError: invalid syntax. Perhaps you forgot a comma? (3728453137.py, line 3)

In [None]:
# 위 결과에서 index 다루기
df1
dfs

In [None]:
result.index.get_level_values(0)

NameError: name 'result' is not defined

In [None]:
# 3개 데이터 프레임 병합 : concat([데이터 프레임들], axis=0, 1)
