In [9]:
import pandas as pd

In [10]:
# 데이터 로드
# CSV (Comma Seperated Values, ,(쉼표)로 구문된 데이터)
# encoding : 컴퓨터가 글자를 인식할 수 있게 해주는 과정
# 'euc-kr' : 한글 전용 인코딩 방식
# index_col : 속성값에 해당하는 칼럼을 인덱스로 설정
score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = '과목')
print(score_data)

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69
국어  47  92  45  69
사회  92  81  85  40
과학  11  79  47  26


## 5. Pandas 유용한 함수들

### 정렬
- index 및 칼럼명 기준 정렬 : sort_index()
- 값 기준 정렬 : sort_values()

In [26]:
score_data = score_data.T
print(score_data)

     1반   2반   3반   4반
과목                    
수학   45   44   73   39
영어   76   92   45   69
국어   47   92   45   69
사회   92   81   85   40
과학   11   79   47   26
총합  271  388  295  243


- index 및 칼럼명 기준 정렬

In [27]:
# index 기준 정렬
# 한글일 경우 가나다 순
# 디폴트 값은 오름차순
print(score_data.sort_index())

     1반   2반   3반   4반
과목                    
과학   11   79   47   26
국어   47   92   45   69
사회   92   81   85   40
수학   45   44   73   39
영어   76   92   45   69
총합  271  388  295  243


In [28]:
# ascending : 오르다
# ascending = False : 내림차순 정렬
print(score_data.sort_index(ascending = False))

     1반   2반   3반   4반
과목                    
총합  271  388  295  243
영어   76   92   45   69
수학   45   44   73   39
사회   92   81   85   40
국어   47   92   45   69
과학   11   79   47   26


In [29]:
# 컬럼명 기준 정렬
# axis = 0 : 행 기준 / axis = 1 : 열 기준
# drop() : axis = 0 행 drop/ axis = 1 : 열 drop
# sort_index() : axis = 0 칼럼(세로 데이터 묶음) 정렬 / axis = 1 = 행(가로 데이터 묶음) 정렬
print(score_data.sort_index(axis = 1))
print(score_data.sort_index(axis = 1, ascending = False))

     1반   2반   3반   4반
과목                    
수학   45   44   73   39
영어   76   92   45   69
국어   47   92   45   69
사회   92   81   85   40
과학   11   79   47   26
총합  271  388  295  243
     4반   3반   2반   1반
과목                    
수학   39   73   44   45
영어   69   45   92   76
국어   69   45   92   47
사회   40   85   81   92
과학   26   47   79   11
총합  243  295  388  271


- value 기준 정렬

In [30]:
# DataFrame 컬럼이나 index가 여러개일 경우 그 기준을 설정해 주어야 함
print(score_data.sort_values(by = '3반')) # 3반 값들이 오름차순으로 정렬
# asceding = False : 내림차순 정렬
print(score_data.sort_values(by = '3반', ascending = False))

     1반   2반   3반   4반
과목                    
영어   76   92   45   69
국어   47   92   45   69
과학   11   79   47   26
수학   45   44   73   39
사회   92   81   85   40
총합  271  388  295  243
     1반   2반   3반   4반
과목                    
총합  271  388  295  243
사회   92   81   85   40
수학   45   44   73   39
과학   11   79   47   26
영어   76   92   45   69
국어   47   92   45   69


In [31]:
# axis = 1 : 행 방향(가로) 기준 정렬
print(score_data.sort_values('사회', axis = 1, ascending = False))

     1반   3반   2반   4반
과목                    
수학   45   73   44   39
영어   76   45   92   69
국어   47   45   92   69
사회   92   85   81   40
과학   11   47   79   26
총합  271  295  388  243


### 정리
- axis = 0(행 방향)일 경우는 기준을 컬럼명으로 잡음
- axis = 1(열 방향)일 경우는 기준을 인덱스로 잡음

In [32]:
# 3반 기준으로 정렬
print(score_data.sort_values(by = '3반'))

     1반   2반   3반   4반
과목                    
영어   76   92   45   69
국어   47   92   45   69
과학   11   79   47   26
수학   45   44   73   39
사회   92   81   85   40
총합  271  388  295  243


In [33]:
# 디폴트 값으로 오름차순
# 3반 기준으로 정렬 후, 그 중 같은 값들은 1반 기준으로 한번 더 정렬
print(score_data.sort_values(by = ['3반', '1반']))

     1반   2반   3반   4반
과목                    
국어   47   92   45   69
영어   76   92   45   69
과학   11   79   47   26
수학   45   44   73   39
사회   92   81   85   40
총합  271  388  295  243


### sum()
- axis 속성으로 행 총합, 또는 열 총합을 구할 수 있음
- .sum(axis = 0) 하나하나의 칼럼에 대해 각 행의 값 총합
- .sum(axis = 1) 하나하나의 열에 대해 각 열의 값 총합

In [34]:
print(score_data.sum()) # 기본적으로 axis = 0 이 기본값으로 주어져 있음

1반    542
2반    776
3반    590
4반    486
dtype: int64


In [35]:
print(score_data.sum(axis = 1))

과목
수학     201
영어     282
국어     253
사회     298
과학     163
총합    1197
dtype: int64


- 과목별 합계를 구하여 DataFrame의 맨 우측에 '총합' 컬럼을 추가해보세요~!

In [36]:
score_data['총합'] = score_data.sum(axis = 1)
print(score_data)

     1반   2반   3반   4반    총합
과목                          
수학   45   44   73   39   201
영어   76   92   45   69   282
국어   47   92   45   69   253
사회   92   81   85   40   298
과학   11   79   47   26   163
총합  271  388  295  243  1197


### .mean()
- 각 과목들의 평균을 구하고 DataFrame 우측에 '평균' 컬럼을 생성해보세요~!

In [37]:
score_data['평균'] = score_data.loc[:,'1반':'4반'].values.mean(axis = 1)
print(score_data)

     1반   2반   3반   4반    총합      평균
과목                                  
수학   45   44   73   39   201   50.25
영어   76   92   45   69   282   70.50
국어   47   92   45   69   253   63.25
사회   92   81   85   40   298   74.50
과학   11   79   47   26   163   40.75
총합  271  388  295  243  1197  299.25


In [38]:
score_data['평균'] = score_data.iloc[:,:4].values.mean(axis = 1)
print(score_data)

     1반   2반   3반   4반    총합      평균
과목                                  
수학   45   44   73   39   201   50.25
영어   76   92   45   69   282   70.50
국어   47   92   45   69   253   63.25
사회   92   81   85   40   298   74.50
과학   11   79   47   26   163   40.75
총합  271  388  295  243  1197  299.25


In [39]:
score_data['평균'] = score_data['총합'] / 4
print(score_data)

     1반   2반   3반   4반    총합      평균
과목                                  
수학   45   44   73   39   201   50.25
영어   76   92   45   69   282   70.50
국어   47   92   45   69   253   63.25
사회   92   81   85   40   298   74.50
과학   11   79   47   26   163   40.75
총합  271  388  295  243  1197  299.25


## min(), max()

In [40]:
# 1반에서 가장 높은 점수
print(score_data['1반'].max())

271


In [41]:
# axis = 0 : 각 칼럼(반별)의 최대값
print(score_data[:].max())  # 기본(default)값 : axis = 0

1반     271.00
2반     388.00
3반     295.00
4반     243.00
총합    1197.00
평균     299.25
dtype: float64


In [42]:
# 각 행(과목)의 최대값(총합, 평균 포함X)
print(score_data.iloc[:, :4].max(axis = 1))

과목
수학     73
영어     92
국어     92
사회     92
과학     79
총합    388
dtype: int64


In [43]:
# 전체 반 중에서 가장 높은 수학 점수를 구해보세요~!
print(score_data.iloc[:1,:4].max(axis = 1))
print(score_data.loc[:'수학',:'4반'].max(axis = 1))

과목
수학    73
dtype: int64
과목
수학    73
dtype: int64


- 전체 과목 점수 중에서 과목별로 가장 큰 값과 작은 값의 차이를 구해보세요~!

In [44]:
sub_best = score_data.iloc[:,:4].max(axis = 1)
sub_worst = score_data.iloc[:,:4].min(axis = 1)
print(sub_best - sub_worst)

과목
수학     34
영어     47
국어     47
사회     52
과학     68
총합    145
dtype: int64


In [45]:
sub_best = score_data.loc[:,:'4반'].max(axis = 1)
sub_worst = score_data.loc[:,:'4반'].min(axis = 1)
print(sub_best - sub_worst)

과목
수학     34
영어     47
국어     47
사회     52
과학     68
총합    145
dtype: int64


### count()

In [46]:
print(score_data)

     1반   2반   3반   4반    총합      평균
과목                                  
수학   45   44   73   39   201   50.25
영어   76   92   45   69   282   70.50
국어   47   92   45   69   253   63.25
사회   92   81   85   40   298   74.50
과학   11   79   47   26   163   40.75
총합  271  388  295  243  1197  299.25


In [47]:
print(score_data.count())

1반    6
2반    6
3반    6
4반    6
총합    6
평균    6
dtype: int64


In [48]:
print(score_data.count(axis = 1))

과목
수학    6
영어    6
국어    6
사회    6
과학    6
총합    6
dtype: int64


### info()
- DataFrame에 대한 전체적인 정보를 출력

In [49]:
score_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 수학 to 총합
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1반      6 non-null      int64  
 1   2반      6 non-null      int64  
 2   3반      6 non-null      int64  
 3   4반      6 non-null      int64  
 4   총합      6 non-null      int64  
 5   평균      6 non-null      float64
dtypes: float64(1), int64(5)
memory usage: 508.0+ bytes


### value_counts()
- 특정 칼럼에 있는 데이터들의 유니크 값과 그 개수를 출력
    - 1차원 배열에 대해서만 함수 사용하는 것을 추천(내 개인적 생각)

In [50]:
df_test = pd.DataFrame([['집중','집중','집중','집중'],
                        ['집중','집중','집중','졸림'],
                        ['집중','집중','졸림','자냐?']
                       ],
                      columns = ['1교시', '2교시', '3교시', '4교시']
                      )
print(df_test)

  1교시 2교시 3교시  4교시
0  집중  집중  집중   집중
1  집중  집중  집중   졸림
2  집중  집중  졸림  자냐?


In [51]:
print(df_test['3교시'].value_counts())

집중    2
졸림    1
Name: 3교시, dtype: int64


In [52]:
print(df_test['4교시'].value_counts())

집중     1
졸림     1
자냐?    1
Name: 4교시, dtype: int64


### apply()
- 사용자 정의 함수를 이용하여 행 또는 열에 복잡한 처리를 한 번에 해주는 함수

#### 데이터프레임.apply(사용자정의함수, axis = 0 또는 1)

In [53]:
score_data.drop(['총합','평균'], axis = 1, inplace = True)
print(score_data)

     1반   2반   3반   4반
과목                    
수학   45   44   73   39
영어   76   92   45   69
국어   47   92   45   69
사회   92   81   85   40
과학   11   79   47   26
총합  271  388  295  243


In [54]:
# 최대값, 최소값의 차이를 계산해주는 사용자 정의 함수
def calculate(x) :
    return x.max() - x.min()

In [55]:
# DataFrame 내 전체 데이터에서 각 과목의 최대점수와 최소점수의 차이를 구하는 로직을 만들어 보자!
score_data.apply(calculate, axis = 1)

과목
수학     34
영어     47
국어     47
사회     52
과학     68
총합    145
dtype: int64

- apply 함수에는 반드시 사용자 정의 함수가 포함되어야 함!

### concat()
- Series나 DataFrame을 병합할 때 사용

In [56]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series(['female', 'female', 'male', 'male', 'female'])
s3 = pd.Series([1, 0, 1, 0, 1])

In [57]:
print(s2)

0    female
1    female
2      male
3      male
4    female
dtype: object


In [58]:
print(pd.concat([s1, s2, s3]))  # axis = 0 이 디폴트 값 (위에서 아래쪽으로 합쳐짐)

0         1
1         2
2         3
3         4
4         5
0    female
1    female
2      male
3      male
4    female
0         1
1         0
2         1
3         0
4         1
dtype: object


In [59]:
titanic = pd.concat([s1, s2, s3], axis = 1)
titanic.columns = ['Passenger ID', 'Sex', 'Survived']
print(titanic)

   Passenger ID     Sex  Survived
0             1  female         1
1             2  female         0
2             3    male         1
3             4    male         0
4             5  female         1


### groupby()
- 데이터를 그룹별로 묶어서 집계를 낼 수 있게 해주는 함수
- 엑셀의 피벗테이블 기능과 같음

In [60]:
# Sex 값에 따른 Survived 값의 합계 구하기 == 성별에 따른 생존자 수 확인하기
# 뒤쪽에 붙여주는 함수로 .sum() 또는 count()도 가능
titanic[['Sex', 'Survived']].groupby('Sex').sum()

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,2
male,1


In [61]:
# Sex, Survived 값 기준으로 Passenger ID의 개수 세기
# == 성별을 기준으로 생존자 수와 사망자 수를 카운트
titanic.groupby(['Sex', 'Survived']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Passenger ID
Sex,Survived,Unnamed: 2_level_1
female,0,1
female,1,2
male,0,1
male,1,1


## 6. Pandas 실습 예제!!!
- 2015~2017년 광주광역시 범죄현장 데이터를 이용해 전년 대비 지역별 범죄 증감율을 구해보자!
- (증감률 공식 = (금년 - 작년) / 작년 * 100)


#### 6.1 데이터 로드
- 인덱스 컬럼은 '관서명'으로 설정할 것
- 인코딩은 'euc-kr'로 설정할 것

In [62]:
import pandas as pd

In [63]:
crime_2015 = pd.read_csv('data/2015.csv', encoding = 'euc-kr', index_col = '관서명')
crime_2016 = pd.read_csv('data/2016.csv', encoding = 'euc-kr', index_col = '관서명')
crime_2017 = pd.read_csv('data/2017.csv', encoding = 'euc-kr', index_col = '관서명')

In [64]:
raised_crime_2015 = crime_2015[crime_2015['구분'] == '발생건수']
raised_crime_2016 = crime_2016[crime_2016['구분'] == '발생건수']
raised_crime_2017 = crime_2017[crime_2017['구분'] == '발생건수']
raised_crime_2017.drop('광주지방경찰청', axis = 0, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  raised_crime_2017.drop('광주지방경찰청', axis = 0, inplace = True)


In [65]:
raised_crime_2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주동부경찰서,발생건수,3,5,92,1100,1155
광주서부경찰서,발생건수,5,10,172,2050,2483
광주남부경찰서,발생건수,1,3,70,962,1081
광주북부경찰서,발생건수,5,14,256,2570,2621
광주광산경찰서,발생건수,4,12,160,1743,2253


In [66]:
raised_crime_2016

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599
광주동부경찰서,발생건수,3,8,83,832,1142
광주서부경찰서,발생건수,2,11,174,1417,2288
광주남부경찰서,발생건수,1,4,64,768,1028
광주북부경찰서,발생건수,6,7,205,1788,2142
광주광산경찰서,발생건수,5,17,175,1247,1999


In [67]:
raised_crime_2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주동부경찰서,발생건수,3,5,77,624,1090
광주서부경찰서,발생건수,0,7,196,1142,2293
광주남부경찰서,발생건수,0,4,68,577,898
광주북부경찰서,발생건수,3,5,215,1546,2176
광주광산경찰서,발생건수,3,12,169,927,1909


In [68]:
sum_2015 = pd.Series(raised_crime_2015.loc[:,'살인':'폭력'].sum(axis = 1))
sum_2016 = pd.Series(raised_crime_2016.loc[:,'살인':'폭력'].sum(axis = 1))
sum_2017 = pd.Series(raised_crime_2017.loc[:,'살인':'폭력'].sum(axis = 1))
print(sum_2015)
print(sum_2016)
print(sum_2017)

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
dtype: int64
관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
dtype: int64
관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
dtype: int64


In [71]:
raised_rate_2016 = (sum_2016- sum_2015) / sum_2015 * 100
raised_rate_2017 = (sum_2017- sum_2016) / sum_2016 * 100

crime_data = pd.DataFrame({
    '2015총계' : sum_2015,
    '2015-16증감율' : raised_rate_2016,
    '2016총계' : sum_2016,
    '2016-17증감율' : raised_rate_2017,
    '2017총계' : sum_2017
})
crime_data

Unnamed: 0_level_0,2015총계,2015-16증감율,2016총계,2016-17증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [73]:
sum_2015 = pd.Series(raised_crime_2015.loc[:,'살인':'폭력'].sum(axis = 1))
sum_2016 = pd.Series(raised_crime_2016.loc[:,'살인':'폭력'].sum(axis = 1))
sum_2017 = pd.Series(raised_crime_2017.loc[:,'살인':'폭력'].sum(axis = 1))
crime_data = pd.DataFrame({
    '2015총계' : sum_2015,
    '2016총계' : sum_2016,
    '2017총계' : sum_2017
})
crime_data

Unnamed: 0_level_0,2015총계,2016총계,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
광주지방경찰청계,18830,15416,13949
광주동부경찰서,2355,2068,1799
광주서부경찰서,4720,3892,3638
광주남부경찰서,2117,1865,1547
광주북부경찰서,5466,4148,3945
광주광산경찰서,4172,3443,3020


In [None]:
def get_raised_rate(df) :
    for i in range(1, len(df.columns)) :
        last_col = df.columns[i - 1] 
        this_col = df.columns[i]
        
        col = last_col[:-2] + '-' + this_col[2:4] + '증감율'
        
        raised_rate =  (df[this_col] - df[last_col]) / df[last_col] * 100
        df.insert(i, col, raised_rate)
        

In [75]:
crime_data.apply(get_raised_rate,axis = 1)


len(crime_data.colums)

3