### Pandas
- 행과 열을 가지는 표와같은 형태의 데이터를 다루는 라이브러리
    - 데이터프레임(DataFrame) : 2차원 배열 형태의 데이터 구조
    - 시리즈(Series) : 1차원 배열 형태의 데이터 구조 

In [1]:
import pandas as pd

In [2]:
pd.Series([9668465,3391946,2942828,1450062])

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [5]:
# Series 생성시 데이터만 넣으면 인덱스 자동 배정
# 인덱스명 지정도 가능
population = pd.Series([9668465,3391946,2942828,1450062], 
                       index = ['서울','부산','인천','광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Series 데이터 확인

In [6]:
# Series의 값만 확인
population.values
# 넘파이 배열 형태로 출력 -> 요소별 연산 가능

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [7]:
# 인덱스만 확인
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [8]:
# 데이터 타입 확인
population.dtype
# index는 데이터가 아님! -> 실제 value 의 타입만 출력

dtype('int64')

In [11]:
# Series 데이터 이름 지정
# 값에 이름달기
population.name = '인구'
# 인덱스에 이름달기
population.index.name = '도시'
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

### 인덱싱 슬라이싱

In [12]:
# 부산의 인구수 추출
population['부산']

3391946

In [14]:
# 부산~광주
population[1:]

도시
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [15]:
# 부산,서울,광주 -> 인덱싱
# 인덱싱 -> 여러개의 인덱스 번호를 리스트로 묶어서 출력
population[['부산','서울','광주']]

도시
부산    3391946
서울    9668465
광주    1450062
Name: 인구, dtype: int64

In [16]:
# 불리언 인덱싱
# 인구가 300만 이상인 도시를 출력
population[population >= 3000000]

도시
서울    9668465
부산    3391946
Name: 인구, dtype: int64

### 딕셔너리를 사용하여 Series 생성하기

In [17]:
data = {'서울': 9668465, '부산': 3391946, '인천': 2942828, '광주': 1450062}
pd.Series(data)

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

In [18]:
# Series에서 비어있지 않은 값들만 확인
population.notnull()

도시
서울    True
부산    True
인천    True
광주    True
Name: 인구, dtype: bool

In [19]:
# Series에서 비어있는 값들만 확인
population.isnull()

도시
서울    False
부산    False
인천    False
광주    False
Name: 인구, dtype: bool

In [20]:
# 값이 비어있을 때 특정 값으로 채워주는 함수
# fillna(값)

### DataFrame
- 행과 열로 구성되어있는 2차원의 자료구조!

In [30]:
# DataFrame 생성
data = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636]
        }
df = pd.DataFrame(data, index = ['서울','부산','인천','광주'])
# key -> column
# value -> row
# 인덱스 자동배정!
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [33]:
# 리스트로 생성
data2 = [[9668465,3391946,2942828,1450062],
         [10312545,3567910,2758296,1454636]]
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3
0,9668465,3391946,2942828,1450062
1,10312545,3567910,2758296,1454636


In [35]:
data2 = [[9668465,3391946,2942828,1450062],
         [10312545,3567910,2758296,1454636]]
index = ['2020','2010']
col = ['서울','부산','인천','광주']
df2 = pd.DataFrame(data2, index = index, columns = col)
df2

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [37]:
# 행과 열을 바꿔주는 기능
df2.T

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [39]:
# 데이터 구조 파악
# values -> 데이터만 출력
print(df2.values)
# index -> 행 이름 출력
print(df2.index)
# columns -> 열 이름 출력
print(df2.columns)

[[ 9668465  3391946  2942828  1450062]
 [10312545  3567910  2758296  1454636]]
Index(['2020', '2010'], dtype='object')
Index(['서울', '부산', '인천', '광주'], dtype='object')


### DataFrame 인덱싱, 슬라이싱


In [44]:
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [45]:
# 열 인덱싱
# 2020년도 출력
df['2020']

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [46]:
# DataFrame 형태로 출력하기
df[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


In [47]:
# DataFrame 추가
df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [50]:
# DataFrame 수정
# 2005년도 데이터 수정
df['2005'] = [0,0,0,0]
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


#### DataFrame 삭제
- drop()

In [56]:
# inplace : 삭제는 신중해야 하는 작업이기때문에 저장하겠다는 의
df.drop('2005', axis = 1, inplace = True)
# drop이라는 기능은 기본 축설정이 axis = 0

KeyError: "['2005'] not found in axis"

In [57]:
# 행삭제
df.drop('서울', inplace=True)

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [58]:
data3 = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636],
         '2005':[9762546,3512547,2517680,1456016]
        }
df3 = pd.DataFrame(data3,index = ['서울','부산','인천','광주'])
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [64]:
df3.loc['부산':'인천','2010':'2005']

Unnamed: 0,2005,2010
부산,3512547,3567910
인천,2517680,2758296


### 인덱서
- loc : 이름 기반의 2차원 인덱싱
- iloc : 인덱스 기반 인덱싱
### 활용방법
- df.loc[행,열]
- df.iloc[행,열]

In [69]:
df3.loc['부산':'인천','2010':]
# df3.iloc[1:3,1:]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [71]:
# 행 인덱싱
# 인덱서를 쓰고 하나의 값만 적으면 행우선 인덱싱    
df3.iloc[0]
# 인덱서를 쓰지 않으면 열인덱싱 -> 반드시 컬럼명으로 작성
# df3['2005']

2020     9668465
2010    10312545
2005     9762546
Name: 서울, dtype: int64

### 인덱싱, 슬라이싱 규칙
- df['컬럼명'] -> 기본 인덱싱은 열인덱싱
- 슬라이싱 -> 반드시 인덱서 사용(loc,iloc)
    - df.loc['행','열'] -> 실제 인덱스명, 컬럼명
    - df.iloc['행','열'] -> 인덱스 번호
- 행인덱싱 -> df.loc['행'] or df.iloc['행'] -> 인덱서를 사용했을 때 하나만 써주면 행에 대한 정보

In [80]:
# DataFrame의 형태로 데이터 불러오기
df = pd.read_csv('data/population_number.csv', encoding = 'utf-8', index_col='도시')
df.head()

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,경기권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [81]:
# 정렬(인덱스) - 오름차순
df.sort_index()

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,경기권,2942828,2925815.0,,2600495


In [82]:
# 내림차순
df.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,경기권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [84]:
# 데이터를 기준으로 정렬
df.sort_values(by='2010')

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,경기권,2942828,2925815.0,,2600495


In [86]:
# 데이터의 개수를 세어주는 함수
# 결측치의 유무 판단
df.count()

지역      4
2020    4
2015    3
2010    2
2005    4
dtype: int64

In [91]:
# 결측치를 특정값으로 채워줌
df.fillna(0, inplace=True)
df

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,0.0,0.0,3628293
인천,경기권,2942828,2925815.0,0.0,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [98]:
score = pd.read_csv('data/score.csv', encoding = 'euc-kr',index_col='과목')
score.head()

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [99]:
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [113]:
# 1~4반 평균을 구해서 '평균'이라는 컬럼으로 추가
# 과목만 잘라와서 평균(합계안더함)
score['평균'] = score.iloc[:,0:4].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [118]:
# 반별 평균을 구하여 행추가 ('반평균')
score.loc['반평균'] = score.loc[:,'1반':'4반'].mean(axis=0)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,,


In [120]:
score.loc['반평균','합계':'평균'] = '-'


  score.loc['반평균','합계':'평균'] = "-"
  score.loc['반평균','합계':'평균'] = "-"


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,-,-


In [122]:
# 과목별 가장 높은 점수와 낮은 점수의 차이를 구하여 '차이'라는 컬럼으로 추가
max_score = score.loc[:'Web',:'4반'].max(axis=1)
min_score = score.loc[:'Web',:'4반'].min(axis=1)
score['차이'] = max_score - min_score
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균,차이
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25,34.0
DB,76.0,92.0,45.0,69.0,282.0,70.5,47.0
자바,47.0,92.0,45.0,69.0,253.0,63.25,47.0
크롤링,92.0,81.0,85.0,40.0,298.0,74.5,52.0
Web,11.0,79.0,47.0,26.0,163.0,40.75,68.0
반평균,54.2,77.6,59.0,48.6,-,-,


In [124]:
score.loc['반평균','차이'] = '-'
score

  score.loc['반평균','차이'] = '-'


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균,차이
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25,34.0
DB,76.0,92.0,45.0,69.0,282.0,70.5,47.0
자바,47.0,92.0,45.0,69.0,253.0,63.25,47.0
크롤링,92.0,81.0,85.0,40.0,298.0,74.5,52.0
Web,11.0,79.0,47.0,26.0,163.0,40.75,68.0
반평균,54.2,77.6,59.0,48.6,-,-,-


In [125]:
# 최대값에서 최소값을 빼주는 함수 생성
def max_min(x):
    return x.max() - x.min()

### apply() 함수
- DataFrame에 또다른 함수를 적용할 때 사용
- 적용할df.apply(적용할함수, axis= 0 or 1)

In [127]:
score.loc[:'Web',:'4반'].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

### 데이터 프레임 병합하기
- pd.concat([df1,df2,df3]) 


In [128]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']
                   }, index = [0,1,2,3])

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7']},
                  index = [0,1,2,3])

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11']},
                  index = [0,1,2,3])

In [130]:
concat_df = pd.concat([df1,df2,df3], axis=1)
concat_df

Unnamed: 0,A,B,C,A.1,B.1,C.1,A.2,B.2,C.2
0,A0,B0,C0,A4,B4,C4,A8,B8,C8
1,A1,B1,C1,A5,B5,C5,A9,B9,C9
2,A2,B2,C2,A6,B6,C6,A10,B10,C10
3,A3,B3,C3,A7,B7,C7,A11,B11,C11


### 최종실습
- 범죄데이터를 활용하여 각 연도별 범죄 증감율 구하기
- 범죄 증감율 = (금년-작년)/작년 *100 

In [198]:
data2019 = pd.read_csv('data/2019.csv', encoding = 'euc-kr', index_col='관서명')
data2020 = pd.read_csv('data/2020.csv', encoding = 'euc-kr', index_col='관서명')
data2021 = pd.read_csv('data/2021.csv', encoding = 'euc-kr', index_col='관서명')
# 컬럼중 '관서명' -> 인덱스 설정
# 인코딩 euc-kr
# 21년 '광주지방경찰정' drop

In [199]:
data2021.drop('광주지방경찰청', inplace=True)

In [200]:
# 19년, 20년, 21년 데이터 확인
data2019

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [201]:
# 각 연도별로 발생건수의 합계를 구하여 '총합' 컬럼추가
data2019['총합']=data2019[data2019['구분'] == '발생건수'].loc[:,'살인':].sum(axis=1)
data2020['총합']=data2020[data2020['구분'] == '발생건수'].loc[:,'살인':].sum(axis=1)
data2021['총합']=data2021[data2021['구분'] == '발생건수'].loc[:,'살인':].sum(axis=1)

In [202]:
# 각 연도별로 '구분' 컬럼의 값이 '발생건수'인 데이터만 추출하여 변수에 담기
data2019 = data2019[data2019['구분'] == '발생건수']
data2020= data2020[data2020['구분'] == '발생건수']
data2021 = data2021[data2021['구분'] == '발생건수']

In [203]:
# 각 연도별로 총합 데이터만 추출
data2019 = data2019.loc[:,'총합']
data2020 = data2020.loc[:,'총합']
data2021 = data2021.loc[:,'총합']

In [204]:
# 총합데이터 이름 변경해주기(2019총계,2020총계,2021총계)
data2019.name = '2019총계'
data2020.name = '2020총계'
data2021.name = '2021총계'

In [None]:
# 증감율 계산
data['2019-2020 증감율'] = (data['2020총계']-data['2019총계'])/data['2019총계']*100
data['2020-2021 증감율'] = (data['2021총계']-data['2020총계'])/data['2020총계']*100

In [206]:
# 병합하여 DataFrame 생성
data = pd.concat([data2019,data['2019-2020 증감율'],data2020,data['2020-2021 증감율'],data2021], axis=1)
data

Unnamed: 0_level_0,2019총계,2019-2020 증감율,2020총계,2020-2021 증감율,2021총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [None]:
# '2019-2020 증감율' 컬럼이름을 '2019-2020 증감율(%)'로 변경
data.rename(columns = {'2019-2020 증감율':'2019-2020 증감율(%)'}, inplace=True)