In [1]:
import pandas as pd

# Series

In [2]:
population = pd.Series([9904312,3448737,2890451,2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [3]:
population = pd.Series([9904312,3448737,2890451,2466052], index=['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series 값 확인

In [4]:
population.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

### Series 인덱스 확인

In [5]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

### Series 타입 확인

In [6]:
population.dtype

dtype('int64')

### Series에 (대해) 이름 지정

In [7]:
population.name = "인구"
population.index.name = "도시"
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series 연산

In [8]:
population/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱

In [9]:
population[1], population["부산"]      #처음 숫자값으로도, 나중의 문자값으로도 인덱싱 가능.

(3448737, 3448737)

In [10]:
population[3], population["대구"]

(2466052, 2466052)

In [11]:
population[[0,3,1]]
population[["서울","대구","부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

### Series Boolean 인덱싱

In [12]:
population >=2500000

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [13]:
population[population>=2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [14]:
#인구수가 250만 이상의 도시
population[population>=2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [15]:
#인구수가 500만 이하의 도시
population[population<=5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [16]:
#인구수가 250만 이상 500만 이하의 도시
population[(population>=2500000) & (population<=5000000)]           # or값 인출하려면 |
#population[population>=2500000][population<=5000000]

#dataFrame에서 컬럼들에 여러가지 조건들이 있을때 and 사용가능. Series에서는 사용 불가능.

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
#(population>=2500000) & (population<=5000000)         boolean값 반환

### Series 슬라이싱

In [18]:
population[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [19]:
population["부산":"대구"]        # ★문자열에서 indexing 했을때는 "대구"값 까지 <포함하여> 인덱싱 된다★

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [20]:
#population 인덱스 2번째부터 4번째까지 인덱싱하시오
population[2:4]
# = population["인천":"대구"]

도시
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [21]:
#서울에서부터 인천까지 슬라이싱 하시오
population["서울":"인천"]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

### 딕셔너리 객체로 Series 생성(2010년 인구수)

In [22]:
data = {"서울":9631482, "부산": 3393191, "인천":2632035, "대전":1490158}

In [23]:
population2 = pd.Series(data)
population2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [24]:
ds = population-population2        # 키 값이 없기에 NotANumber 반환
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [25]:
ds.notnull()         # True: null이 아닌, 값이 잘 들어가 있는 곳 
                     # False: null인 곳

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [26]:
ds[ds.notnull()]                                         #ds.notnull() 중에 True(널아닌 값)만 찾아내라 <boolean>

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [27]:
ds.isnull()        #null값이냐고 물어봤으니 True: null인 값
                                          # False: null 아닌 곳

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [28]:
ds[ds.isnull()]                                         #ds.isnull() 중에 True(널인 값)만 찾아내라 <boolean>

대구   NaN
대전   NaN
dtype: float64

#### 2015년도와 2010년도의 인구 증가율(%)를 계산

In [29]:
rs = (population-population2)/population2*100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [30]:
#rs

### Series 데이터 갱신, 추가, 삭제

In [31]:
rs["부산"] = 1.6        #갱신

In [32]:
rs["대구"] = 1.41       #추가

In [33]:
del rs["서울"]          #삭제

In [34]:
rs[rs.notnull()]

대구    1.410000
부산    1.600000
인천    9.818107
dtype: float64

# DataFrame

In [35]:
data = {"2015":[9904312,3448737,2890451,2466052], "2010":[9631482,3393191,2632035,2431774]}

In [36]:
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


### DataFrame 인덱스 수정

In [37]:
df.index = ["서울","부산","인천","대구"]      #index붙이는 이유: data가 어떤것을 나타내는 지 보여주기 위함.
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [38]:
data = [[9904312,3448737,2890451,2466052],[9631482,3393191,2632035,2431774]]

In [39]:
ind = ["2015", "2010"]

In [40]:
col = ["서울", "부산", "인천", "대구"]

In [41]:
df2 = pd.DataFrame(data, index=ind,columns=col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [42]:
df2.T                #행&열이 변환되어 나옴

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


#### 연습문제1)

In [43]:
#딕셔너리로 만들기                               열을 기준으로 지정
dic = {"홍길동":[175.3, 66.2, 27.0], 
       "김사또":[180.2,78.9,49.0],
       "임꺽정":[178.6,55.1,35.0]}
df1 = pd.DataFrame(dic)  #dic뒤에 >>> ,index = ["키","몸무게","나이"] 붙여도 됐음
df1.index = ["키","몸무게","나이"]
df1

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [44]:
#리스트로 만들기                               행을 기준으로 지정
l1 = [[175.3, 180.2, 178.6],
         [66.2, 78.9, 55.1],
         [27.0, 49.0, 35.0]]
inx = ["키", "몸무게", "나이"]
col = ["홍길동", "김사또", "임꺽정"]
df2 = pd.DataFrame(l1, index = inx, columns = col)              #index=inx와 columns=col 사이에 data=li 적어도 됨.
df2

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


#### DataFrame 값 확인

In [45]:
df.values                                    # numpy 배열 형태로 반환해주고 있음.

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

#### DataFrame 인덱스 확인

In [46]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

#### DataFrame 컬럼 확인

In [47]:
df.columns

Index(['2015', '2010'], dtype='object')

<hr>

# 07.01

### DataFrame <<<열>>> 인덱스

In [48]:
df["2015"]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [49]:
df[["2015"]]        #2차원형태. 즉 DataFrame형태로 반환됨.

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [50]:
df[["2010", "2015"]]        #2010 2015 위치 바꿔서 출력하면, 열의 순서도 바뀜.

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


### "2005"라는 <<<컬럼명>>>으로 2005년 인구수 대입

In [51]:
df["2005"] = [9762546,3512547,2517680,2456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


### DataFrame <<<행>>> 인덱싱

In [52]:
df[0:1]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546


In [53]:
df["서울":"인천"]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


## .loc[] .iloc[] 인덱서
   #### df[0]처럼은 인덱싱 안되니 쓰는 두 인덱서

 ### .loc[] 실제 인덱스를 사용하여 행/열을 가지고 올때 사용 df.loc[행, 열]  
 -- 지정해준 (Label을) 인덱스명,컬럼명으로 인덱싱하는 기법

In [54]:
df.loc["서울"]          #하나의 값 가져오면 Series형태로 값을 반환해옴.

2015    9904312
2010    9631482
2005    9762546
Name: 서울, dtype: int64

In [55]:
df.loc["서울":"부산", "2015":"2010"]         #하나의값이 아닌 여러 값을 넣어 가져옴

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [56]:
#df.loc["서울", ["2015":"2010"]]        오류

### .iloc[] numpy의 array인덱싱 방식으로 행을 가지고 올 때 사용 
 --실제 존재하는 (위치값=) 숫자(인덱스,컬럼값)으로 인덱싱하는 기법

In [57]:
#df

In [58]:
df.iloc[3]           # =3번째 행의 3번째 인덱스값

2015    2466052
2010    2431774
2005    2456016
Name: 대구, dtype: int64

In [59]:
df.iloc[3, 1]      #'3번째 행에 있는 1번째 열의 값을 가져와라'

2431774

##### 연습

In [60]:
dic = {"홍길동":[175.3, 66.2, 27.0], 
       "김사또":[180.2,78.9,49.0],
       "임꺽정":[178.6,55.1,35.0]}
df1 = pd.DataFrame(dic)  #dic뒤에 >>> ,index = ["키","몸무게","나이"] 붙여도 됐음
df1.index = ["키","몸무게","나이"]
df1

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [61]:
# loc 인덱서를 이용해서 행은 키부터 몸무게, 열은 김사또부터 임꺽정까지 인덱싱
df1.loc["키":"몸무게", "김사또":"임꺽정"]

Unnamed: 0,김사또,임꺽정
키,180.2,178.6
몸무게,78.9,55.1


In [62]:
# iloc 인덱서를 이용하여 행은 키, 열은 김사또, 임꺽정을 인덱싱
df1.iloc[0, 1:]
# df1.iloc[0,[1,2]] 로 써도 됨. (열값을 또다른 []안에 하나하나 지정해줘도 됨.)

김사또    180.2
임꺽정    178.6
Name: 키, dtype: float64

### Pandas Boolean 인덱싱

In [63]:
df["2010"]>=2500000

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [64]:
df[df["2010"]>=2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [65]:
# df[df[["2010","2015"]]>=2500000]

In [66]:
population_number = pd.read_csv("population_number.csv",encoding="euc-kr")

In [67]:
population_number

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [68]:
population_number = pd.read_csv("population_number.csv",index_col = '도시', encoding="euc-kr")        #index 지정하기
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


### value_count 함수
 : 값이 숫자, 문자열, 카테고리 값인 경우에 각각의 값이 나온 횟수를 셀 수 있다.

In [69]:
import numpy as np

In [70]:
s2 = pd.Series(np.random.randint(6, size=100))
s2

0     2
1     1
2     0
3     0
4     4
     ..
95    0
96    5
97    0
98    1
99    4
Length: 100, dtype: int32

In [71]:
s2.tail()         # 'Series 맨 끝 5개의 값만 보여줘'

95    0
96    5
97    0
98    1
99    4
dtype: int32

In [72]:
s2.value_counts()          #데이터의 값의 횟수를 세는 함수

1    29
0    20
4    17
3    14
5    12
2     8
dtype: int64

In [73]:
#population_number.value_counts()         # ~~number뒤에 지정해줘야함. 그렇지않으면 이와같이 오류

In [74]:
#2015년도 컬럼 값만 횟수 세기
population_number["2015"].value_counts()       #cf.현재 데이터값들이 중복값이 없기에 1로 나오는것

2466052    1
2890451    1
3448737    1
9904312    1
Name: 2015, dtype: int64

In [75]:
population_number['2010'].value_counts()

9631482.0    1
2431774.0    1
2632035.0    1
Name: 2010, dtype: int64

In [76]:
population_number['2000'].value_counts()

2473990    1
3655437    1
9853972    1
2466338    1
Name: 2000, dtype: int64

### 정렬

#### sort_index 함수 : 인덱스 값을 기준으로 정렬한다.
#### sort_values 함수 : 데이터 값을 기준으로 정렬한다.

In [77]:
population_number["2010"].sort_values(ascending = False)          #Series에 적용시, defaulf: ASC (=false로 바꾸면 desc로 정렬됨.)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [78]:
#2010년의 인구수를 기준으로 정렬
population_number.sort_values(by = '2010')        #'2010을 기준으로 정렬해줘 (default:asc)'

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [79]:
population_number.sort_values(by = ['지역','2010'])      # 여러 기준은 []안에.    #지역먼저 썼으니 지역 가나다순 asc

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [80]:
# 지역,2000의 인구수를 기준으로 정렬, 내림차순으로 정렬
population_number.sort_values(by = ['지역','2000'], ascending = False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


<hr>

In [81]:
score =  pd.read_csv("score.csv",index_col = '과목', encoding="euc-kr")
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


##### 학급별 총계

In [82]:
score.sum()                  #  sum : 총합을 구하는 함수

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [83]:
score['총합'] = score.sum(axis = 1)          #axis: "축" 방향 설정하는 keyword설정. 0 행 방향, 1 열 방향 
                                    #설정 안하면, default=0 (='행 기준으로 더해짐')
score

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [84]:
# score['총합']/4

##### 학급별 순위

In [85]:
score.sum().sort_values(ascending = False)

총합    1197
2반     388
3반     295
1반     271
4반     243
dtype: int64

##### 과목별 평균을 계산해서 column 추가하기

In [86]:
score.loc[:, '1반':'4반'].mean(axis=1)          # 구한 평균값을 Series로 출력하고 있음.

과목
수학    50.25
영어    70.50
국어    63.25
사회    74.50
과학    40.75
dtype: float64

In [87]:
score['평균'] = score.loc[:, '1반':'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [88]:
score['평균'] = score.iloc[:, :4].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


#### 연습문제 3)

In [89]:
score.loc['반평균'] = score.loc[:,:'4반'].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,,


In [90]:
score.loc['반평균'] = score.mean()          #.loc[]에 값 하나만 적으면 행의 값을 의미. 두개적으면 [행,열]
score

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


### max() 함수

In [91]:
score.max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
총합    298.0
평균     74.5
dtype: float64

In [92]:
score.max(axis = 1)

과목
수학     201.0
영어     282.0
국어     253.0
사회     298.0
과학     163.0
반평균    239.4
dtype: float64

#### 전과목, 1반부터 4반 인덱싱하여 최댓값 구하시오.

In [93]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [94]:
max_arr = score.loc[:"과학",:"4반"].max(axis = 1)
max_arr

과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64

### min() 함수

In [95]:
score.min()

1반     11.00
2반     44.00
3반     45.00
4반     26.00
총합    163.00
평균     40.75
dtype: float64

In [96]:
score.min(axis = 1)

과목
수학     39.0
영어     45.0
국어     45.0
사회     40.0
과학     11.0
반평균    48.6
dtype: float64

In [97]:
min_arr = score.loc[:"과학",:"4반"].min(axis = 1)
min_arr

과목
수학    39.0
영어    45.0
국어    45.0
사회    40.0
과학    11.0
dtype: float64

In [98]:
max_arr - min_arr

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

# 07.02

In [99]:
def max_min(x):
    return x.max()-x.min()

In [100]:
score.loc[:"과학",:"4반"].apply(max_min, axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [101]:
data_dic = {"A":[1,3,3,4,4], "B":[1,2,2,3,3,], "C":[1,2,4,4,5]}

In [102]:
df3=pd.DataFrame(data_dic)
df3

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [103]:
df4 = df3.apply(pd.value_counts)    #값의 횟수를 세어주는 value_counts
df4
#1~5의 값이므로 자동으로1~5라는 행인덱스?가 생성되고, A에 1몇개인지 2?...5는? 해서 횟수 세어줌

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


### fillna 함수

In [104]:
df4 = df3.apply(pd.value_counts)
df4.fillna(method ="ffill")

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,1.0,2.0,1.0
3,2.0,2.0,1.0
4,2.0,2.0,2.0
5,2.0,2.0,1.0


In [105]:
df4.fillna(value=0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### 카테고리

In [106]:
ages = [0,2,10,21,23,37,31,61,20,41,32,100]
bins = [0,15,25,35,60,99]
labels = ["미성년자","청년","장년","중년","노년"]
cats = pd.cut(ages,bins,labels=labels)

In [107]:
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 중년, 장년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 장년 < 중년 < 노년]

In [108]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [109]:
cats.categories

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

#### 데이터프레임으로 만들기

In [110]:
ageArr = pd.DataFrame(ages, columns=["ages"])
ageArr

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


#### 카테고리 추가하기

In [111]:
ageArr["age_cat"]=pd.cut(ages, bins, labels=labels)
ageArr

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,장년
7,61,노년
8,20,청년
9,41,중년


#### age_cat별 나이 개수 확인하기

In [112]:
ageArr["age_cat"].value_counts()

청년      3
중년      2
장년      2
미성년자    2
노년      1
Name: age_cat, dtype: int64

### concat, merge 함수

In [113]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [114]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [115]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [116]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [117]:
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


#### concat 함수 keys 속성 사용

In [118]:
#concat: 데이터프레임을 병합하는 함수. axis = 0
result = pd.concat([df1,df2,df3], keys=['x','y','z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


### 다중 index 확인

In [119]:
result.index 

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [120]:
#get_level_values(): 다중 인덱스일때 하나의 인덱스만 보기위해 설정
result.index.get_level_values(0)   #index 중에서도 조금 더 큰 category의 index 반환

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

In [121]:
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

#### df4 생성 후 행방향으로 병합

In [122]:
df4 = pd.DataFrame({'B' : ['B2', 'B3', 'B6', 'B7'],
                   'D' : ['D2', 'D3', 'D6', 'D7'],
                    'F' : ['F2', 'F3', 'F6', 'F7']},  index=[2,3,6,7])

result = pd.concat([df1, df4], axis=1)    #열을 기준으로 값이 추가됨
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


#### concat함수의 ignore_index 속성 사용

In [123]:
result = pd.concat([df1, df4], ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


### 데이터 로드

In [145]:
df2015 = pd.read_csv("2015.csv",encoding="euc-kr", index_col = "관서명")
df2016 = pd.read_csv("2016.csv",encoding="euc-kr", index_col = "관서명")
df2017 = pd.read_csv("2017.csv",encoding="euc-kr", index_col = "관서명")

In [139]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [140]:
df2016

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599
광주지방경찰청계,검거건수,18,47,713,4242,7631
광주지방경찰청계,검거인원,21,54,758,3455,10747
광주지방경찰청계,구속,14,25,37,132,57
광주지방경찰청계,불구속,3,25,491,2862,5267
광주지방경찰청계,기타,4,4,230,461,5423
광주동부경찰서,발생건수,3,8,83,832,1142
광주동부경찰서,검거건수,3,7,70,679,1002
광주동부경찰서,검거인원,4,10,71,543,1497
광주동부경찰서,구속,2,2,3,17,7


In [141]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


In [146]:
#df2017 데이터에서 잘못된 데이터 삭제(하는 작업)
df2017 = df2017.drop("광주지방경찰청")

In [143]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주동부경찰서,발생건수,3,5,77,624,1090
광주동부경찰서,검거건수,3,5,70,470,953
광주동부경찰서,검거인원,4,4,76,483,1538
광주동부경찰서,구속,2,3,2,19,9


#### 데이터의 총합 구하기

In [130]:
#df2015["총계"]=df2015.sum(axis=1)       문자+숫자 << 에러
#df2016["총계"]=df2016.sum(axis=1)                            .loc[:, "총계"]
#df2017["총계"]=df2017.sum(axis=1)    해당 열 존재하면 수정, 없으면 추가해줌

In [131]:
#df2015.iloc[:,1:]

In [147]:
df2015["총계"]=df2015.iloc[:,1:].sum(axis=1)
df2016["총계"]=df2016.iloc[:,1:].sum(axis=1)
df2017["총계"]=df2017.iloc[:,1:].sum(axis=1)

In [133]:
df2016

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599,15416
광주지방경찰청계,검거건수,18,47,713,4242,7631,12651
광주지방경찰청계,검거인원,21,54,758,3455,10747,15035
광주지방경찰청계,구속,14,25,37,132,57,265
광주지방경찰청계,불구속,3,25,491,2862,5267,8648
광주지방경찰청계,기타,4,4,230,461,5423,6122
광주동부경찰서,발생건수,3,8,83,832,1142,2068
광주동부경찰서,검거건수,3,7,70,679,1002,1761
광주동부경찰서,검거인원,4,10,71,543,1497,2125
광주동부경찰서,구속,2,2,3,17,7,31


#### 데이터 자르기 (인덱싱) (발생건수, 총계)

In [148]:
s1 = df2015[df2015["구분"]=="발생건수"].loc[:,"총계"]
s1.name = "2015총계"
s2 = df2016[df2016["구분"]=="발생건수"].loc[:,"총계"]
s2.name = "2016총계"
s3 = df2017[df2017["구분"]=="발생건수"].loc[:,"총계"]
s3.name = "2017총계"

### 전년대비 증감율 계산

In [149]:
s4 = (s2-s1)/s1 * 100
s4.name = "2015-2016 증감율"
s5 = (s3-s2)/s2 * 100
s5.name = "2015-2016 증감율"

In [136]:
#s4

In [150]:
total = pd.concat([s1,s4,s2,s5,s3],axis=1)
total

Unnamed: 0_level_0,2015총계,2015-2016 증감율,2016총계,2015-2016 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


# 07.03

In [151]:
pd.concat([s1,s4,s2,s5,s3], axis = 1)

Unnamed: 0_level_0,2015총계,2015-2016 증감율,2016총계,2015-2016 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
