# 서울시 CCTV 현황 데이터 분석

## 목표
1. 서울시 구별 CCTV 현황 데이터 확보
2. 인구 현황 데이터 확보
3. CCTV 데이터와 인구 현황 데이터 합치기
4. 데이터 정리, 정렬
5. 그래프 그리기
6. 전체 경향 파악하는 능력
7. 경향에서 벗어난 데이터 강조하는 능력
1~4: python, pandas
5: matplotlib
6: regression using numpy
7: insight, visualization

## 엑셀, 텍스트 파일 읽기
- `data = pd.read_csv("파일주소/파일명.확장자", encoding = 'utf-8')`
	- 인코딩값은 변하기도 함
- `data.head()`
	- 정렬된 값 중 상위 5개를 보는 것
	- ()안에 숫자를 넣으면 그만큼 볼 수 있음
- `data.tail()`
	- 정렬된 값 중 하위 5개를 보는 것
	- ()안에 숫자를 넣으면 그만큼 볼 수 있음
- `data.columns`
	- 컬럼 이름 조회
- `data.rename(columns = {"원래이름" : "바꿀이름" }, inplace = True)`
	- 원래이름 자리에 data.columns\[n\]으로 표시하는 것이 편하기도 하다
	- inplace = True 옵션
		- 원본 데이터를 이번 버전으로 교체하는 여부
		- True / False
- `data = pd.read_excel("파일주소/파일명.확장자")`
	- 엑셀 파일을 여는 함수
- `data = pd.read_excel("파일주소/파일명.확장자", header = n, usecols = "Alphabets")`
	- 헤더에 병합셀이 있을 수 있으므로 헤더를 지정해주는 것이 좋다
	- header 옵션
		- 자료를 읽기 시작할 행
	- usercols 옵션
		- Alphabets는 읽어올 엑셀의 지정 컬럼

## python 모듈 규칙
- `import MODULE`
	- module을 사용하겠다
	- MODULE.function
- `import MODULE as md`
	- module을 사용할 건데 md라고 부르겠다
	- md.function
- `from MODULE import function`
	- module에 포함된 function 함수만 사용하겠다
	- function

## pandas 이용하기

### **Series**
- pandas의 데이터형의 기본 구성
- index, value로 이루어져 있다.
	- DF의 컬럼 한 줄 한 줄은 Series로, 이것들이 모여 DF가 된다.
- 한 가지 데이터 타입만 가질 수 있다.
	- 입력 데이터타입이 단일하지 않을 때 전체를 문자열, 실수형 데이터로 인식하게 됨

### `date_range("시작날짜", periods = n)`
- 시작날짜부터 n일까지의 날짜 목록을 만드는 함수
- 시작날짜 양식은 
	- 예시: 20240429
- 데이터 타입
	- datetime64

### **DataFrame**
- DataFrame 선언 방법
	- `pd.DataFrame(값, index = 값, columns = [값])`
		- index와 columns를 지정해야한다
	- `pd.DataFrame({"Key": ["K0", "K1"], "A": ["A0", "A1"]})`
		- 열 단위로 지정
	- `pd.DataFrame({"Key": "K0", "A": "A0"}, {"Key": "K1", "A": "A1"})`
		- 행 단위로 지정
- 각 값만 보고 싶을 때
	- `df.index`
	- `df.columns`
	- `df.values`
- `df.info()`
	- df 기본 정보 확인
	- 각 컬럼 크기와 데이터 형태 확인하는 용도
- `df.describe()`
	- df의 통계적 기본 정보 확인용
- `df.sort_values(by = "컬럼명", ascending = False)`
	-  by 옵션 
		- 컬럼명 기준으로 정렬
	- ascending 옵션
		- True일 경우 오름차순
- `df["컬럼명"]`
	- 특정 컬럼만 읽기
	- 컬럼명이 문자열인 경우 `df.컬럼명` 으로도 가능하다
- `df[인덱스 범위1:인덱스 범위2]`
	- 인덱스 범위에 있는 데이터 확인
	- 인덱스 범위를 숫자로 지정할 경우 인덱스 범위2에서 1개 뺀 값
	- 인덱스 범위를 이름으로 지정할 경우 끝까지 포함
- `df.loc[행, 열]`
	- `:` 표현
		- 전체 선택
	- `[, ]` 표현
		- 일부 선택
- `df.iloc[행, 열]`
	- 열 생략시 행만 선택
	- `:` 구분자를 이용해 범위를 지정하여 슬라이싱
	- `[]` 을 이용해 띄어서 선택도 가능
- `df[df["A"] > 0]`
	- df의 A컬럼 값 중 0보다 큰 것들만 선택적으로 보여준다
	- 내부는 조건문
	- 이때 전체 df 모양은 살린다
	- 조건에 맞지 않는 부분은 NaN으로 표시된다
		- NaN: Not a Number
- `df["E"] = [값들]`
	- 새로운 컬럼 E를 만들어 값들을 넣어준다.
- `df["E"].isin([값들])`
	- df의 E 컬럼에 값들이 있는가, 그렇다면 True, 아니면 False 반환
	- 조건문이므로 저것을 활용한 df만 편집하여 볼 수 있다
- `del df["컬럼명"]`
	- 특정 컬럼 삭제하기
- `df.drop([입력값], axis = 1)`
	- axis 옵션
		- 0
			- 디폴트값
			- 인덱스를 기준으로 삭제
		- 1
			- 컬럼을 기준으로 삭제
- `df.apply(함수)`
	- 함수를 각 컬럼마다 적용한 결과를 확인할 수 있다
	- 예시) `df.apply(np.cumsum)`
		- 각 컬럼 누적합
- `df.set_index("컬럼명", inplace = True)`
	- index를 재지정하는 함수
	- unique한 데이터를 index로 잡는 것이 좋음
- `df.corr()`
	- 데이터 상관관계 찾는 함수
	- 최소한의 근거가 있어야 해당 데이터를 비교하는 의미가 존재
	- 0.2 이상 데이터 비교하는 것은 의미 있다
	- 상관관계 != 인과관계
- 두 데이터 합치기
	- pandas.merge() 함수를 이용하여 병합
		- `pd.merge(left, right, on = 'key')`
			- key 컬럼을 기준으로 병합
		- `pd.merge(left, right, how = 'left', on = 'key')`
			- left에 key 를 기준으로 right 병합
			- right에 없는 값은 NaN으로 표시된다
			- left key에 없는 값은 없어진다
		- `pd.merge(left, right, how = 'outer', on = 'key')`
			- 둘 다 손상되지 않도록 key 컬럼을 기준으로 병합
			- 각자 없는 값은 NaN으로 표시된다
		- `pd.merge(left, right, how = 'inner', on = 'key')`
			- key 컬럼에서 두 데이터에 공통 분모만 병합
			- 기본 디폴트값
	- pandas.concat() 함수를 이용하여 병합
	- pandas.join() 함수를 이용하여 병합
- `df.to_csv("경로/파일이름.csv", sep = ",", encoding = "utf-8")`
	- DataFrame을 csv로 저장하는 함수\

## matplotlib 기초
- 그래프 결과가 중요할 경우 그래프 그리는 코드를 def()로 작성한다. 별도의 셀에서 그림만 나타낼 수 있기 때문이다
- `import matplotlib as mpl`
	- 자주 사용은 않지만 자주 쓰는 약어 알아두기
- `import matplotlib.pyplot as plt`
	- 2차원 그래프 그리는 모듈
	- matlab에 있는 기능을 담아둔 곳
- `from matplotlib.colors import ListedColormap`
	- 사용자 정의로 color map을 세팅할 수 있는 함수
	- `ListedColormap(리스트값)` 을 이용해 나만의 color map을 생성
- `get_ipython().run_line_magic('matplotlib', 'inline')`
	- 주피터 노트북에서 matplotlib 결과를 문서에 포함시켜서 출력하라
	- `%matplotlib inline` 이라고 작성해도 무방
- `plt.figure(figsize = (n, m))`
	- 가로 n 세로 m 길이의 사이즈의 그래프를 그려라
	- figure 하나에 여러 그래프를 그릴 수 있다
	- nXm 크기의 도화지를 설정한다고 생각하기
- `plt.plot(x 데이터, y 데이터, label = '라벨값', "선스타일옵션")`
	- x 데이터에 대응되는 y 데이터를 라벨값을 라벨로 달아서 그려라
	- 선 스타일 옵션, 문자와 기호로도 표현 가능
		- 문자
			- r
				- 빨간색
			- b
				- 파란색
			- s
				- 네모
			- g
				- 초록색
		- 기호
			- `--`
				- 점선
			- `^`
				- 삼각형
	- color 옵션
		- 선 색
	- linestyle 옵션
		- 선 모양
	- marker
		- 점 모양
	- markerfacecolor
		- 점 색
	- markersize
		- 점 크기
- `plt.scatter(x데이터, y데이터)`
	- 점을 뿌리듯이 그리는 그림. 점만으로 표현
	- c 옵션
		- 색깔을 단계로 지정
- `plt.text(x좌표, y좌표, 표시글자, fontsize = 숫자)`
	- 글자를 찍는 함수
	- 좌표값이 데이터와 동일하면 가리게 되므로 `x좌표값 * 1.02` 혹은 `y좌표값 * 0.98` 등으로 표시한다
- `plt.colorbar()`
	- 각 단계별 색 표현하는 함수
- `plt.xilm([시작, 끝])`
	- x축 범위를 시작과 끝으로 지정 가능
	- x를 y로 바꾸면 y축도 동일하게 적용됨
- `plt.grid()`
	- 그래프 격자 그리는 함수
	- 내부 값 디폴트: True
- `plt.legend()`
	- 라벨 범례 표현하는 함수
	- labels 옵션
		- 범례 종류를 나타내는 옵션
		- plot 내부에 범례를 표시한 경우 생략가능
		- 리스트 값으로 표현 가능
	- loc 옵션
		- 범례 위치
		- best가 디폴트로 총 11가지 존재하며 string 혹은 integer로 표시 가능
- `plt.xlabel("x축이름")`
	- x축 이름 달아줘
	- x를 y로 바꾸면 y축도 동일하게 적용됨
- `plt.title("그래프 이름")`
	- 그래프 이름 달아줘
- `plt.show()`
	- 그래프 보여줘

## matplotlib 기초
- 그래프 결과가 중요할 경우 그래프 그리는 코드를 def()로 작성한다. 별도의 셀에서 그림만 나타낼 수 있기 때문이다
- `import matplotlib as mpl`
	- 자주 사용은 않지만 자주 쓰는 약어 알아두기
- `import matplotlib.pyplot as plt`
	- 2차원 그래프 그리는 모듈
	- matlab에 있는 기능을 담아둔 곳
- `from matplotlib.colors import ListedColormap`
	- 사용자 정의로 color map을 세팅할 수 있는 함수
	- `ListedColormap(리스트값)` 을 이용해 나만의 color map을 생성
- `get_ipython().run_line_magic('matplotlib', 'inline')`
	- 주피터 노트북에서 matplotlib 결과를 문서에 포함시켜서 출력하라
	- `%matplotlib inline` 이라고 작성해도 무방
- `plt.figure(figsize = (n, m))`
	- 가로 n 세로 m 길이의 사이즈의 그래프를 그려라
	- figure 하나에 여러 그래프를 그릴 수 있다
	- nXm 크기의 도화지를 설정한다고 생각하기
- `plt.plot(x 데이터, y 데이터, label = '라벨값', "선스타일옵션")`
	- x 데이터에 대응되는 y 데이터를 라벨값을 라벨로 달아서 그려라
	- 선 스타일 옵션, 문자와 기호로도 표현 가능
		- 문자
			- r
				- 빨간색
			- b
				- 파란색
			- s
				- 네모
			- g
				- 초록색
		- 기호
			- `--`
				- 점선
			- `^`
				- 삼각형
	- color 옵션
		- 선 색
	- linestyle 옵션
		- 선 모양
	- marker
		- 점 모양
	- markerfacecolor
		- 점 색
	- markersize
		- 점 크기
- `plt.scatter(x데이터, y데이터)`
	- 점을 뿌리듯이 그리는 그림. 점만으로 표현
	- c 옵션
		- 색깔을 단계로 지정
- `plt.text(x좌표, y좌표, 표시글자, fontsize = 숫자)`
	- 글자를 찍는 함수
	- 좌표값이 데이터와 동일하면 가리게 되므로 `x좌표값 * 1.02` 혹은 `y좌표값 * 0.98` 등으로 표시한다
- `plt.colorbar()`
	- 각 단계별 색 표현하는 함수
- `plt.xilm([시작, 끝])`
	- x축 범위를 시작과 끝으로 지정 가능
	- x를 y로 바꾸면 y축도 동일하게 적용됨
- `plt.grid()`
	- 그래프 격자 그리는 함수
	- 내부 값 디폴트: True
- `plt.legend()`
	- 라벨 범례 표현하는 함수
	- labels 옵션
		- 범례 종류를 나타내는 옵션
		- plot 내부에 범례를 표시한 경우 생략가능
		- 리스트 값으로 표현 가능
	- loc 옵션
		- 범례 위치
		- best가 디폴트로 총 11가지 존재하며 string 혹은 integer로 표시 가능
- `plt.xlabel("x축이름")`
	- x축 이름 달아줘
	- x를 y로 바꾸면 y축도 동일하게 적용됨
- `plt.title("그래프 이름")`
	- 그래프 이름 달아줘
- `plt.show()`
	- 그래프 보여줘

## numpy 기능
- `numpy.arange(a, b, s)`
	- a부터 b가지의 **s의 간격**
- `numpy.sin(value)`
	- value에 대응하는 sin값을 출력
	- sin자리에 cos를 넣으면 cos값 출력
- **numpy를 이용하여 1차 직선 만들기**
	- `np.polyfit(x데이터, y데이터, 차수)`
		- 직선을 구성하기 위한 계수 계산
		- 차수 옵션은 숫자로 바로 사용 가능
	- `np.poly1d(계수)`
		- polyfit으로 찾은 계수로 python에서 사용할 함수로 만들어 줌
		- 직선을 구성하는 두 개의 계수를 넣음
		- 이 결과값에 (x값)을 넣으면 예측 y값을 출력
	- `np.linsplace(a, b, n)`
		- a부터 b까지 **n개의 등간격** 데이터 생성
		- 경향선을 위한 x데이터 생성
		- 이 값을 np.npoly1d의 결과 1차 함수에 활용

## pandas에서 matplotlib 기능 가져와 사용하기
- `df.plot(kind = '모양', figsize = (n, m), grid = True);`
	- kind 옵션
		- 'bar'
		- 'barh'
		- 'line'
	- figsize 옵션
		- (n, m)
	- grid 옵션
		- True / False
	- 마지막 `;` 표시하면 메모리 번지가 보이지 않음
		- 주피터 노트북은 셀 내부 마지막에 변수가 존재하면, 변수값을 보여줌. plot의 변수값은 메모리 번지인듯. 그것을 보여주지 않으려면 ;을 붙이면 됨 왤까???


## 인구현황 데이터 훑어보기
- 전체 숫자 오름차순, 내림차순 정렬
- 최근 증가율 확인 위해 최근 3년간 그 전 보유한 갯수 대비 많이 설치한 것으로 정리
	- 2016 + 2015 + 2014 / 2013 이전 \*100
- unique() 함수 이용하여 데이터 초반 검증 필요
- 각 요소의 합계도 보아야 하지만, 비율도 보아야 한다
- 특정 컬럼을 골라 sort_values()를 한 결과를 보면 정렬이 되어 데이터를 되어 보기 좋다
- **주피터 노트북 내에 망치 모양 뭐지???**

## CCTV 데이터 경향
- 데이터 경향 그려보기
	- 단순한 소계
	- 중요 지수 대비 비율
		- 선형회귀 활용 -> 간단히 numpy 활용
	- 비율과 데이터, 전체 경향 함께 보기
- 경향에서 벗어난 데이터 강조하기
	- 실제값과 경향과의 차이를 오차 컬럼을 만들어 표현하기
	- 오름차순, 내림차순 둘 다 보여주기
	- 오차 컬럼 내 상위, 하위 5개만 표시하는 등 선택적으로 글씨와 함께 특별한 색을 사용하면 EDA용 시각화자료로 괜찮음