# Seoul_report.csv 읽기
+ 서울시 주민등록인구 (구별) 통계 - [서울열린데이터광장 ](http://data.seoul.go.kr/dataList/datasetView.do?serviceKind=2&infId=419&stcSrl=419&srvType=S) 

## CSV 파일 읽기
- Seoul_report.csv 파일의 내용을 DataFrame으로 읽고 변수에 대입

In [None]:
import pandas as pd

In [None]:
df_raw = pd.read_csv('data/Seoul_report.csv')
df_raw.shape

# 열명 변경
- 읽은 DataFrame에 어떤 컬럼이 있는지 확인하고 열명을 아래와 같이 바꾼다. (이외 열이름은 그대로 유지)    
    - '총합계' : '총인구' 
    - '한국인합계': '한국인'
    - '외국인합계' : '외국인'
    - '65세이상고령자' : '고령자'

In [None]:
# df_raw.columns = [] #전체 컬럼명 변경
# 일부 컬럼명만 변경시 : rename({"기존이름":"새이름", ...}, axis=1)
dic = {
    '총합계' : '총인구',
    '한국인합계': '한국인',
    '외국인합계' : '외국인',
    '65세이상고령자' : '고령자'
}
df_raw.rename(dic, axis=1, inplace=True)

In [None]:
df_raw.head()

# 사용할 열들만 추출
- 자치구, 총인구, 한국인, 외국인, 고령자 열만 가지는 dataframe 생성
    - shape이 (n, 5) 이 되도록

In [None]:
df = df_raw[['자치구', '총인구', '한국인', '외국인', '고령자']]
df.columns

# DataFrame 개괄 정보 조회
1. 몇행/몇열인지 조회
1. 결측치가 있는지 조회
1. DataFrame에 대한 정보(index, columns) 확인
1. 상위 5개 행만 조회
1. 하위 5개 행만 조회
1. 컬럼별 통계량 요약 조회

In [None]:
# 몇행/몇열인지 조회
df.shape

In [None]:
# 결측치가 있는지 조회
df.isna().sum()

In [None]:
# DataFrame에 대한 정보(index, columns) 확인
df.info()

In [None]:
# 상위 5개 행만 조회
# 하위 5개 행만 조회
df.head()

In [None]:
df.tail()

In [None]:
# 컬럼별 통계량 요약 조회
df.describe()

# 열이름으로 조회
1. 총인구 열의 모든 값들을 조회
1. 한국인, 외국인 열의 모든 값들을 조회

In [None]:
# 총인구 열의 모든 값들을 조회
df['총인구']

In [None]:
df.총인구

In [None]:
# 한국인, 외국인 열의 모든 값들을 조회
df[['한국인', '총인구']]

# 행기준 조회
1. 5번째 행의 데이터를 조회.
1. 1, 5, 7, 10 번째 행의 데이터를 조회
1. 15 ~ 20 번째 행의 데이터를 조회
1. 10~15 행에서 자치구, 총인구, 한국인 열의 값을 조회
1. 6, 7, 8 번째 행의 한국인, 외국인 열의 값을 조회

In [None]:
# 5번째 행의 데이터를 조회.
df.iloc[4]

In [None]:
# 1, 5, 7, 10 번째 행의 데이터를 조회
df.iloc[[0, 4, 6, 9]]

In [None]:
# 15 ~ 20 번째 행의 데이터를 조회
df.iloc[14:20]

In [None]:
# 10~15 행에서 자치구, 총인구, 한국인 열의 값을 조회
df.iloc[14:20, [0,1,2]]
df.iloc[14:20, 0:3]

In [None]:
# 6, 7, 8 번째 행의 한국인, 외국인 열의 값을 조회
df.iloc[[5,6,7], [2,3]]

# index 이름 지정
1. '자치구' 열을 index로 설정
1. 데이터 프레임의 index이름 조회
1. 강남구 행 조회
1. 종로구, 성동구, 서대문구 행 조회
1. 노원구 ~ 금천구 조회
1. 종로구의 한국인,외국인 열의 값 조회
1. 도봉구, 노원구, 송파구의 총인구와 고령자 열의 값 조회

In [None]:
# '자치구' 열을 index로 설정
df.set_index('자치구', inplace=True)

In [None]:
df.head()

In [None]:
# 데이터 프레임의 index이름 조회
df.index

In [None]:
# 강남구 행 조회
df.loc['강남구']

In [None]:
# 종로구, 성동구, 서대문구 행 조회
df.loc[['종로구','성동구','서대문구']]

In [None]:
# 노원구 ~ 금천구 조회
df.loc['노원구':'금천구']  #금천구(stop)을 포함

In [None]:
# 종로구의 한국인,외국인 열의 값 조회
df.loc['종로구', ['한국인','외국인']]

In [None]:
# 도봉구, 노원구, 송파구의 총인구와 고령자 열의 값 조회
df.loc[['도봉구','노원구','송파구'], ['총인구','고령자']]

# Boolean 인덱싱 - 조건으로 조회
1. 총인구가 500,000 이상인 행 조회
1. 외국인이 15,000 이상인 행의 한국인, 외국인 열 조회
1. 외국인이 고령자보다 많은 행을 조회 (없으므로 아무 행도 안나오는게 정상임)
1. 고령자수가 60,000 ~ 70,000 인 행 조회
1. 외국인이 15,000 이상이고 고령자가 50,000 이상인 행을 조회

In [None]:
# 총인구가 500,000 이상인 행 조회
df[df['총인구']>=500000]
# df.loc[df['총인구']>=500000]

In [None]:
# 외국인이 15,000 이상인 행의 한국인, 외국인 열 조회
df.loc[df['외국인']>15000, ['한국인', '외국인']]

In [None]:
# 외국인이 고령자보다 많은 행을 조회 (없으므로 아무 행도 안나오는게 정상임)
# df['외국인'] > df['고령자']
df.loc[df['외국인'] > df['고령자']]

In [None]:
# 고령자수가 60,000 ~ 70,000 인 행 조회
df.loc[(df['고령자']>= 60000) & (df['고령자']<=70000)]

In [None]:
# 시리즈.between(a, b)  # between a and b
df.loc[df['고령자'].between(60000, 70000)] #고령자가 60000 ~ 70000 ?

In [None]:
# 외국인이 15,000 이상이고 고령자가 50,000 이상인 행을 조회
df.loc[(df['외국인']>15000) & (df['고령자']>=50000)]

# 정렬
1. 자치구컬럼 기준 오름차순 순으로 정렬
1. 자치구컬럼 기준 내림차순 순으로 정렬
1. 외국인이 많이 있는 순으로 정렬
1. 한국인이 많이 있는 순서로 정렬하고 혹시 같으면 고령자가 적은 순으로 2차 정렬
1. 합계를 지우고 총인구 내림차순으로 정렬

In [None]:
# 자치구컬럼 기준 오름차순 순으로 정렬 - index기준 정렬
df2 = df.sort_index()
df2

In [None]:
# 자치구컬럼 기준 내림차순 순으로 정렬
df.sort_index(ascending=False)

In [None]:
# 외국인이 많이 있는 순으로 정렬
df.sort_values('외국인', ascending=False)

In [None]:
# 한국인이 많이 있는 순서로 정렬하고 혹시 같으면 고령자가 적은 순으로 2차 정렬
df.sort_values(['한국인', '고령자'], ascending=[False, True])

In [None]:
# 합계를 지우고 총인구 내림차순으로 정렬
df.drop(index='합계').sort_values('총인구', ascending=False)

# 열 추가 - 파생변수
1. 총인구 대비 외국인의 비율을 계산한 값을 **외국인비율** 컬럼을 만들어 넣기 (외국인/총인구 * 100)
1. 총인구 대비 고령자의 비율을 계산한 값을 **고령자비율** 컬럼을 만들어 넣기

In [None]:
# 총인구 대비 외국인의 비율을 계산한 값을 외국인비율 컬럼을 만들어 넣기
import numpy as np
df['외국인비율'] = np.round(df['외국인']/df['총인구']*100, 2)

In [None]:
df

In [None]:
# 총인구 대비 고령자의 비율을 계산한 값을 고령자비율 컬럼을 만들어 넣기
df['고령자비율'] = np.round(df['고령자']/df['총인구']*100, 2)

In [None]:
df

# 기술 통계정보
- 아래를 조회하는데 합계 행은 빼고 계산한다.
1. 총인구 컬럼의 평균, 합계, 중위값, 표준편차, 분산, 데이터개수
1. 외국인과 고령자의 평균, 표준편차 조회
1. 외국인이 가장 적은 행을 조회

In [None]:
# 아래를 조회하는데 합계 행은 빼고 계산한다.
df2 = df.drop(index='합계') #df.drop('합계', axis=0)

In [None]:
# 총인구 컬럼의 평균, 합계, 중위값, 표준편차, 분산, 데이터개수
# df['총인구'].describe()
df2['총인구'].agg(['mean','sum', 'median','std', 'var', 'count'])

In [None]:
# 외국인과 고령자의 평균, 표준편차 조회
df2[['외국인','고령자']].agg(['mean', 'std'])

In [None]:
# 외국인이 가장 적은 행을 조회
df2.loc[df2['외국인'].idxmin()]

# DataFrame 병합하기
### Seoul_cctv.csv 파일
- 서울 자치구 연도별 CCTV 데이터 셋 [서울열린데이터광장](http://data.seoul.go.kr/dataList/OA-2734/C/1/datasetView.do)    


1. seoul_cctv.csv 파일을 DataFrame으로 읽기
2. 서울시 자치구별 인구 DataFrame과 서울시 자치구 CCTV 데이터 셋을 **구 이름을 기준으로** 결합하여 하나의 DataFrame으로 만드시오.

In [None]:
# seoul_cctv.csv 파일을 DataFrame으로 읽기
cctv_df = pd.read_csv('data/Seoul_cctv.csv')
cctv_df.shape

In [None]:
# 서울시 자치구별 인구 DataFrame과 서울시 자치구 CCTV 데이터 셋을 구 이름을 기준으로 결합하여 하나의 DataFrame으로 만드시오.

df_cctv_join1 = df.drop(index='합계').join(cctv_df.set_index('기관명'))
df_cctv_join1

In [None]:
df_cctv_join2 = df.drop(index='합계').merge(cctv_df, left_index=True, right_on='기관명').set_index('기관명')
df_cctv_join2

# Groupby와 집계
## forestfire.csv 파일
- 포르투칼 북서부 산림 산불관련 데이터 셋 [UCI Machine learning repository](https://archive.ics.uci.edu/ml/datasets/forest+fires)    


1. forestfire.csv 파일을 DataFrame으로 읽기
1. 어떤 컬럼들이 범주형 컬럼인지 확인.
1. 월(month)과 요일(day) 의 고유한(unique) 값들과 각각의 행수 조회
1. 요일(day) 별 wind의 평균을 조회
1. 요일(day) 별 wind, rain의 평균을 조회
1. 요일(day) 별 wind, rain의 평균과 합계과 개수 조회
1. 요일(day) 별로 wind는 평균을 rain은 합계와 최대값을 조회
1. 월(month) 그리고 요일별(day) temp의 최대값과 최소값을 조회
1. X좌표(X), Y좌표(Y)별 temp의 평균울 pivot table로 조회


In [None]:
# forestfire.csv 파일을 DataFrame으로 읽기
fire_df = pd.read_csv('forestfire.csv')
fire_df.shape

In [None]:
fire_df.info()

In [None]:
fire_df.head()

In [None]:
# 어떤 컬럼들이 범주형 컬럼인지 확인.
fire_df['X'].unique()

In [None]:
fire_df['Y'].unique()

In [None]:
fire_df['month'].unique()

In [None]:
fire_df['DMC'].unique()

In [None]:
# 월(month)과 요일(day) 의 고유한(unique) 값들과 각각의 행수 조회 
fire_df['month'].value_counts()

In [None]:
fire_df['day'].value_counts()

In [None]:
# 요일(day) 별 wind의 평균을 조회
# fire_df['wind'].mean()
fire_df.groupby('day')['wind'].mean()

In [None]:
# 요일(day) 별 wind, rain의 평균을 조회
fire_df.groupby('day')[['wind', 'rain']].mean()

In [None]:
# 요일(day) 별 wind, rain의 평균과 합계과 개수 조회
fire_df.groupby('day')[['wind','rain']].agg(['mean','sum','count'])

In [None]:
# 요일(day) 별로 wind는 평균을 rain은 합계와 최대값을 조회
fire_df.groupby('day').agg({'wind':'mean', 'rain':['sum','max']})

In [None]:
# 월(month) 그리고 요일별(day) temp의 최대값과 최소값을 조회
s_df = fire_df.groupby(['month','day'])['temp'].agg(['max','min'])
s_df

In [None]:
# X좌표(X), Y좌표(Y)별 temp의 평균을 pivot table로 조회

In [None]:
fire_df.pivot_table(values='temp', index='Y', columns='X', aggfunc='mean')