In [None]:
import pandas as pd

In [None]:
# 데이터 로드
# CSV (Comma Seperated Values, ,(쉼표)로 구문된 데이터)
# encoding : 컴퓨터가 글자를 인식할 수 있게 해주는 과정
# 'euc-kr' : 한글 전용 인코딩 방식
# index_col : 속성값에 해당하는 칼럼을 인덱스로 설정
score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = '과목')
print(score_data)

## 5. Pandas 유용한 함수들

### 정렬
- index 및 칼럼명 기준 정렬 : sort_index()
- 값 기준 정렬 : sort_values()

In [None]:
score_data = score_data.T
print(score_data)

- index 및 칼럼명 기준 정렬

In [None]:
# index 기준 정렬
# 한글일 경우 가나다 순
# 디폴트 값은 오름차순
print(score_data.sort_index())

In [None]:
# ascending : 오르다
# ascending = False : 내림차순 정렬
print(score_data.sort_index(ascending = False))

In [None]:
# 컬럼명 기준 정렬
# axis = 0 : 행 기준 / axis = 1 : 열 기준
# drop() : axis = 0 행 drop/ axis = 1 : 열 drop
# sort_index() : axis = 0 칼럼(세로 데이터 묶음) 정렬 / axis = 1 = 행(가로 데이터 묶음) 정렬
print(score_data.sort_index(axis = 1))
print(score_data.sort_index(axis = 1, ascending = False))

- value 기준 정렬

In [None]:
# DataFrame 컬럼이나 index가 여러개일 경우 그 기준을 설정해 주어야 함
print(score_data.sort_values(by = '3반')) # 3반 값들이 오름차순으로 정렬
# asceding = False : 내림차순 정렬
print(score_data.sort_values(by = '3반', ascending = False))

In [None]:
# axis = 1 : 행 방향(가로) 기준 정렬
print(score_data.sort_values('사회', axis = 1, ascending = False))

### 정리
- axis = 0(행 방향)일 경우는 기준을 컬럼명으로 잡음
- axis = 1(열 방향)일 경우는 기준을 인덱스로 잡음

In [None]:
# 3반 기준으로 정렬
print(score_data.sort_values(by = '3반'))

In [None]:
# 디폴트 값으로 오름차순
# 3반 기준으로 정렬 후, 그 중 같은 값들은 1반 기준으로 한번 더 정렬
print(score_data.sort_values(by = ['3반', '1반']))

### sum()
- axis 속성으로 행 총합, 또는 열 총합을 구할 수 있음
- .sum(axis = 0) 하나하나의 칼럼에 대해 각 행의 값 총합
- .sum(axis = 1) 하나하나의 열에 대해 각 열의 값 총합

In [None]:
print(score_data.sum()) # 기본적으로 axis = 0 이 기본값으로 주어져 있음

In [None]:
print(score_data.sum(axis = 1))

- 과목별 합계를 구하여 DataFrame의 맨 우측에 '총합' 컬럼을 추가해보세요~!

In [None]:
score_data['총합'] = score_data.sum(axis = 1)
print(score_data)

### .mean()
- 각 과목들의 평균을 구하고 DataFrame 우측에 '평균' 컬럼을 생성해보세요~!

In [None]:
score_data['평균'] = score_data.loc[:,'1반':'4반'].values.mean(axis = 1)
print(score_data)

In [None]:
score_data['평균'] = score_data.iloc[:,:4].values.mean(axis = 1)
print(score_data)

In [None]:
score_data['평균'] = score_data['총합'] / 4
print(score_data)

## min(), max()

In [None]:
# 1반에서 가장 높은 점수
print(score_data['1반'].max())

In [None]:
# axis = 0 : 각 칼럼(반별)의 최대값
print(score_data[:].max())  # 기본(default)값 : axis = 0

In [None]:
# 각 행(과목)의 최대값(총합, 평균 포함X)
print(score_data.iloc[:, :4].max(axis = 1))

In [None]:
# 전체 반 중에서 가장 높은 수학 점수를 구해보세요~!
print(score_data.iloc[:1,:4].max(axis = 1))
print(score_data.loc[:'수학',:'4반'].max(axis = 1))

- 전체 과목 점수 중에서 과목별로 가장 큰 값과 작은 값의 차이를 구해보세요~!

In [None]:
sub_best = score_data.iloc[:,:4].max(axis = 1)
sub_worst = score_data.iloc[:,:4].min(axis = 1)
print(sub_best - sub_worst)

In [None]:
sub_best = score_data.loc[:,:'4반'].max(axis = 1)
sub_worst = score_data.loc[:,:'4반'].min(axis = 1)
print(sub_best - sub_worst)

### count()

In [None]:
print(score_data)

In [None]:
print(score_data.count())

In [None]:
print(score_data.count(axis = 1))

### info()
- DataFrame에 대한 전체적인 정보를 출력

In [None]:
score_data.info()

### value_counts()
- 특정 칼럼에 있는 데이터들의 유니크 값과 그 개수를 출력
    - 1차원 배열에 대해서만 함수 사용하는 것을 추천(내 개인적 생각)

In [None]:
df_test = pd.DataFrame([['집중','집중','집중','집중'],
                        ['집중','집중','집중','졸림'],
                        ['집중','집중','졸림','자냐?']
                       ],
                      columns = ['1교시', '2교시', '3교시', '4교시']
                      )
print(df_test)

In [None]:
print(df_test['3교시'].value_counts())

In [None]:
print(df_test['4교시'].value_counts())

### apply()
- 사용자 정의 함수를 이용하여 행 또는 열에 복잡한 처리를 한 번에 해주는 함수

#### 데이터프레임.apply(사용자정의함수, axis = 0 또는 1)

In [None]:
score_data.drop(['총합','평균'], axis = 1, inplace = True)
print(score_data)

In [None]:
# 최대값, 최소값의 차이를 계산해주는 사용자 정의 함수
def calculate(x) :
    return x.max() - x.min()

In [None]:
# DataFrame 내 전체 데이터에서 각 과목의 최대점수와 최소점수의 차이를 구하는 로직을 만들어 보자!
score_data.apply(calculate, axis = 1)

- apply 함수에는 반드시 사용자 정의 함수가 포함되어야 함!

### concat()
- Series나 DataFrame을 병합할 때 사용

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series(['female', 'female', 'male', 'male', 'female'])
s3 = pd.Series([1, 0, 1, 0, 1])

In [None]:
print(s2)

In [None]:
print(pd.concat([s1, s2, s3]))  # axis = 0 이 디폴트 값 (위에서 아래쪽으로 합쳐짐)

In [None]:
titanic = pd.concat([s1, s2, s3], axis = 1)
titanic.columns = ['Passenger ID', 'Sex', 'Survived']
print(titanic)

### groupby()
- 데이터를 그룹별로 묶어서 집계를 낼 수 있게 해주는 함수
- 엑셀의 피벗테이블 기능과 같음

In [None]:
# Sex 값에 따른 Survived 값의 합계 구하기 == 성별에 따른 생존자 수 확인하기
# 뒤쪽에 붙여주는 함수로 .sum() 또는 count()도 가능
titanic[['Sex', 'Survived']].groupby('Sex').sum()

In [None]:
# Sex, Survived 값 기준으로 Passenger ID의 개수 세기
# == 성별을 기준으로 생존자 수와 사망자 수를 카운트
titanic.groupby(['Sex', 'Survived']).count()

## 6. Pandas 실습 예제!!!
- 2015~2017년 광주광역시 범죄현장 데이터를 이용해 전년 대비 지역별 범죄 증감율을 구해보자!
- (증감률 공식 = (금년 - 작년) / 작년 * 100)


#### 6.1 데이터 로드
- 인덱스 컬럼은 '관서명'으로 설정할 것
- 인코딩은 'euc-kr'로 설정할 것

In [17]:
import pandas as pd

In [18]:
crime_2015 = pd.read_csv('data/2015.csv', encoding = 'euc-kr', index_col = '관서명')
crime_2016 = pd.read_csv('data/2016.csv', encoding = 'euc-kr', index_col = '관서명')
crime_2017 = pd.read_csv('data/2017.csv', encoding = 'euc-kr', index_col = '관서명')

In [19]:
raised_crime_2015 = crime_2015[crime_2015['구분'] == '발생건수']
raised_crime_2016 = crime_2016[crime_2016['구분'] == '발생건수']
raised_crime_2017 = crime_2017[crime_2017['구분'] == '발생건수']
raised_crime_2017.drop('광주지방경찰청', axis = 0, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  raised_crime_2017.drop('광주지방경찰청', axis = 0, inplace = True)


In [22]:
sum_2015 = pd.Series(raised_crime_2015.loc[:,'살인':'폭력'].sum(axis = 1))
sum_2016 = pd.Series(raised_crime_2016.loc[:,'살인':'폭력'].sum(axis = 1))
sum_2017 = pd.Series(raised_crime_2017.loc[:,'살인':'폭력'].sum(axis = 1))

In [21]:
raised_rate_2016 = (sum_2016- sum_2015) / sum_2015 * 100
raised_rate_2017 = (sum_2017- sum_2016) / sum_2016 * 100

crime_data = pd.DataFrame({
    '2015총계' : sum_2015,
    '2015-16증감율' : raised_rate_2016,
    '2016총계' : sum_2016,
    '2016-17증감율' : raised_rate_2017,
    '2017총계' : sum_2017
})
crime_data

Unnamed: 0_level_0,2015총계,2015-16증감율,2016총계,2016-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [None]:
#######################3

In [9]:
c5 = crime_2015[crime_2015['구분'] == '발생건수']
c6 = crime_2016[crime_2016['구분'] == '발생건수']
c7 = crime_2017[crime_2017['구분'] == '발생건수']
c7.drop('광주지방경찰청', axis = 0, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  c7.drop('광주지방경찰청', axis = 0, inplace = True)


In [15]:
c5['2015총계'] = c5.loc[:,'살인':'폭력'].sum(axis = 1)
c6['2016총계'] = c6.loc[:,'살인':'폭력'].sum(axis = 1)
c7['2017총계'] = c7.loc[:,'살인':'폭력'].sum(axis = 1)
c5['2015-16증감율'] = (c6['2016총계'] - c5['2015총계']) / c5['2015총계'] * 100
c6['2016-17증감율'] = (c7['2017총계'] - c6['2016총계']) / c6['2016총계'] * 100

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  c5['2015총계'] = c5.loc[:,'살인':'폭력'].sum(axis = 1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  c6['2016총계'] = c6.loc[:,'살인':'폭력'].sum(axis = 1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  c7['2017총계'] = c7.loc[:,'살인':'폭력'].sum(axis = 1)
A value is trying to be set on a copy of a slice from a Da

In [16]:
crime_data = pd.concat([c5.iloc[:,-2:], c6.iloc[:,-2:], c7.iloc[:,-1:]], axis = 1)
crime_data

Unnamed: 0_level_0,2015총계,2015-16증감율,2016총계,2016-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [23]:
def get_rate(df) : 
    return (df[1] - df[0]) / df[0] * 100

In [None]:
crime_data = pd.DataFrame({
    '2015총계':
})