### Pandas 란?
데이터 처리와 분석에 최적화된 라이브러리
- 행과 열(테이블 형태)로 이루어진 데이터 객체르 만들어 다룰 수 있
- 빅데이터를 처리하고 분석하는데 편리한 함수들을 제공


### Pandas 구조
- Series :1차원 데이터들의 집함(index+value)
- DataFrame : 2차언 행과 열로 이루어진 표 형태의 데이터 집합(1차원의 Series가 모여서 DF를 이룸)

![image.png](attachment:image.png)

### Pandas 라이브러리 불러오기


In [1]:
import pandas as pd

#### Series 생성
- 각 도시들의 인구수를 Series로 만들어보자!

In [2]:
# 인덱스를 따로 설정하지 않으면 좌측에 자동으로 인덱스 번호가 0번부터 생성됨
population = pd.Series([9904312, 3448737, 2890451, 2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

#### 인덱스를 지정하여 Series 생성
    

In [3]:
population  = pd.Series([9904312, 3448737, 2890451, 2466052],
                       index=['서울','부산','인천','대구'])

population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
# 딕셔너리 형태로 Series 생성
population  = pd.Series({"서울":9904312,"부산": 3448737, "인천":2890451,"대구": 2466052})
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

#### Series 이름, 인덱스 지정

In [5]:
# Series 이름 설정
population.name="인구"
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [6]:
# 인덱스 이름 설정
population.index.name="도시"
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [7]:
#index 변경하기
population.index=["동두천","의정부","연천","포천"]
population

동두천    9904312
의정부    3448737
연천     2890451
포천     2466052
Name: 인구, dtype: int64

#### 데이터 갱신하기

In [8]:
#데이터 갱신
population['동두천']=3500000
population

동두천    3500000
의정부    3448737
연천     2890451
포천     2466052
Name: 인구, dtype: int64

In [9]:
#데이터 추가
population['대전']=24000000
population

동두천     3500000
의정부     3448737
연천      2890451
포천      2466052
대전     24000000
Name: 인구, dtype: int64

In [10]:
#데이터 삭제
del population['포천']
population

동두천     3500000
의정부     3448737
연천      2890451
대전     24000000
Name: 인구, dtype: int64

### DataFrame 생성

In [11]:
#딕셔너리를 이용해서 생성하기

data={'2015':[9904312, 3448737, 2890451, 2466052],
      '2010':[9631482, 3393191, 2632035, 2431774]}



In [12]:
population_df=pd.DataFrame(data)
population_df
#키값이  컬럼명으로 들어감 (Series에서는 키값이 인덱스)

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [13]:
# 리스트를 이용하여 생성하기

data=[[9904312, 3448737, 2890451, 2466052],
      [9631482, 3393191, 2632035, 2431774]]

ind=["2015","2010"]
col=['서울','부산','인천','대구']

In [14]:
population_df2=pd.DataFrame(data, index=ind, columns=col)
population_df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


#### 정리

- DF를 생성하는 방법은 2가지 (딕셔너리 방식, 리스트 방식)
- 딕셔너리 방식은 값이 위에서 아래로 들어가고, 리스트 방식은 보이는 위치에 그대로 들어감

In [15]:
# .T : 데이터 프레임의 행과 열을 반대로 출력(역행렬, 전치)
population_df2=population_df2.T

In [16]:
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


#### df에 새로운 컬럼 추가하기


In [17]:
# 기존 df에 없는 컬렴명을 대괄호 안에 넣어주고 값들을 대입해줌
population_df2['2005']=[9762546, 3512547, 2517680, 2456016]

In [18]:
population_df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


#### 컬럼 삭제

In [19]:
del population_df2['2005']
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [20]:
population_df2['2005']=[9762546, 3512547, 2517680, 2456016]
population_df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [21]:
#axis의 기본값은 0이며 행을 삭제함
#axis=1은 열을 삭제
#inplace=True: 변경된 사항을 변수에 바로 적용시키는 명령


population_df2.drop('2005', axis=1, inplace=True)

population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


#### 정리
- del은 컬럼(열)삭제
- drop은 행, 열 방향 삭제(방향설정 필요, axis=0, axis=1 :열)

#### df 속성확인
- 형태 값 인덱스 컬럼명확인

In [22]:
#df형태 확인하기
#numpy의 배열과 같음
population_df2.shape

(4, 2)

In [23]:
#df내의 데이터 값만 추출하기
population_df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [24]:
#df의 인덱스 확인
population_df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

#### 예제

다음 사진을 보고 데이터 프레임을 이용하여 같은 결과를 구성하시오


![%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-07-05%20155331.png](attachment:%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-07-05%20155331.png)

In [25]:
data=[[173.3,66.2,27.0],[180.2,78.9,49.0],[178.6,55.1,35.0]]
ind=['홍길동','김사또','임꺽정']
col=['키','몸무게','나이']

my_df=pd.DataFrame(data, index=ind, columns=col)
my_df

Unnamed: 0,키,몸무게,나이
홍길동,173.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [26]:
my_df2=my_df.T
my_df2

Unnamed: 0,홍길동,김사또,임꺽정
키,173.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [27]:
# 선생님 방법
# 딕셔너리로 데이터 프레임 만들어보자

data={"키":[175.3,180.2,178.6],
     "몸무게":[66.2,78.9,55.1],
     "나이":[27.0,49.0,39.0]}


In [28]:
result=pd.DataFrame(data, index=["홍길동","김사또","임꺽정"])
result

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,39.0


In [29]:
result2=result.T
result2

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,39.0


### pandas의 연산
- Series 연산

In [30]:
population = pd.Series([9904312, 3448737, 2890451, 2466052],
                       index=['서울', '부산', '인천', '대전']
                      )
population

서울    9904312
부산    3448737
인천    2890451
대전    2466052
dtype: int64

In [31]:
population2 = pd.Series([9631482, 3393191, 2632035, 2431774],
                        index=['서울', '부산', '인천', '대구']
                       )
population2

서울    9631482
부산    3393191
인천    2632035
대구    2431774
dtype: int64

In [32]:
population/1000000

서울    9.904312
부산    3.448737
인천    2.890451
대전    2.466052
dtype: float64

In [33]:
population-population2

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

#### 정리
- 인덱스가 다른 df끼리는 값이 생성되지 않음
- nan(not a number)정해지지 않고 비어있는값

### pandas에서 데이터 접근을 위한 인덱싱, 슬라이싱
- 인덱스 번호로 접근: 0부터 시작
- 인덱스 명으로 접근
- loc,iloc 인덱서 접근:loc(인덱스문자), iloc(인덱스 번호)
- 불리언 인덱싱: True, False 값을 활용하여 조건에 맞는 데이터만 출력


- Series 인덱싱

In [34]:
score= pd.Series({'java':70,'python':95,'html/css':80,'ml':82})
score

java        70
python      95
html/css    80
ml          82
dtype: int64

In [35]:
#인덱스 번호로 접근
score[0]

70

In [36]:
#인덱스 명으로 접근
score['python']

95

In [37]:
#인덱스 명칭 자체에 접근하고 싶을때
score.index[1]

'python'

#### Series 슬라이싱

In [38]:
# python부터 ml까지 인덱스 번호로 접근
score[1:]
#범위를 지정해주면 Series 전체에 접근하기 때문에 인덱스 명까지 같이 출력됨

python      95
html/css    80
ml          82
dtype: int64

In [39]:
#데이터 값에만 접근
score.values[1:]

array([95, 80, 82], dtype=int64)

In [40]:
#인덱스 에만 접근
score.index[1:]

Index(['python', 'html/css', 'ml'], dtype='object')

In [41]:
#인덱스 명으로 접근
score['python':'ml']

python      95
html/css    80
ml          82
dtype: int64

#### df 인덱싱, 슬라이싱

In [42]:
# 데이터 로드
#encoding: 컴퓨터가 글자를 인식할 수 있게 해주는 과정
#'euc=kr':한글 전용 인코딩 방식
score_data= pd.read_csv('data/score.csv',encoding='euc-kr', index_col='과목')
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


- DataFrame 열(컬럼) 인덱싱

In [43]:
#1반 컬럼에 접근
score_data['1반']

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64

In [44]:
#[]대괄호를 하나 더씌우면 2차원(데이터 프레임으로 출력)
score_data[['1반']]

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


In [45]:
#두개 이상의 컬럼 인덱싱(반드시 []를 두개 써줘야함)
score_data[['1반','3반']]

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


##### df 행 인덱싱
- 슬라이싱을 사용해야 한다. 

In [46]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [47]:
score_data[:1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [48]:
score_data[:2]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69


In [49]:
score_data[:3:2]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
국어,47,92,45,69


##### 정리
- df의 기본적인 열 접근은 대괄호와 컬럼명, 행 접근은 슬라이싱


#### loc, iloc 인덱서를 활용한 접근법
- 행과 열에 모두 접근 가능
- 기본적으로 loc, iloc 모두 행에 먼저 접근 
- loc는 문자로 접근, iloc는 숫자로 접근

In [50]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [51]:
#각 반의 과학점수에 접근
score_data.loc['과학']

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [52]:
#4반의 과학 점수 출려
score_data.loc['과학','4반']

26

In [53]:
#iloc를 활용하여 각반의 과학 점수 출력
score_data.iloc[4]


1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [54]:
# iloc를 활용하여 4반에 과학 점수를 출력

score_data.iloc[4,3]

26

In [55]:
# 2반에 사회 점수에 loc, iloc를 활용하여 각각 접근해보세요!
score_data


Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [56]:
#2반 loc
score_data.loc['사회','2반']

81

In [57]:
#2반 iloc
score_data.iloc[3,1]

81

##### 2반, 3반의 국어 , 사회 점수에 접근해 보세요~!


In [58]:
score_data.loc['국어':'사회','2반':'3반']

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,45
사회,81,85


##### 불리언 인덱싱

- df에서 특정한 조건에 맞는 데이터에만 접근하기 위한 인덱싱 방법


In [59]:
score_data=score_data.T
score_data

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


In [60]:
#영어가 75점 이상인 데이터 값 추출


In [61]:
# step1. 
#score_data의 영어 점수 중에서 75점 이상이 데이터를 True로 출력

score_data['영어']>=75

1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool

In [62]:
#step2
#True에 해당하는 값의 행 전체 데이터를 반환
score_data[score_data['영어']>=75] #DF명 [조건식]

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79


In [63]:
score_data[score_data['영어']>=75]['영어'][1]

92

### 판다스의 유용한 함수들

#### 정렬함수
- index 및 컬럼명 기준 정렬 sort_index()
- 값기준 정렬: sort_values()

In [68]:
score_data=score_data.T
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [66]:
# index 기준 정렬 
#한글일 경우 가나다 순
# 디폴트 값은 오름
score_data.sort_index()

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
과학,11,79,47,26
국어,47,92,45,69
사회,92,81,85,40
수학,45,44,73,39
영어,76,92,45,69


In [69]:
# 디폴트 값은 오름차순 
#ascending=False는 내림차순
score_data.sort_index(ascending=False)

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영어,76,92,45,69
수학,45,44,73,39
사회,92,81,85,40
국어,47,92,45,69
과학,11,79,47,26


In [70]:
# 컬럼명 기준 내림차순 정렬
#drop과 axis가 반대
#axis=0 행방향
#axis=1 열방향
score_data.sort_index(axis=1, ascending=False)

Unnamed: 0_level_0,4반,3반,2반,1반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,39,73,44,45
영어,69,45,92,76
국어,69,45,92,47
사회,40,85,81,92
과학,26,47,79,11


- value 기준 정렬

In [71]:
# df의 컬럼이나 인덱스가 여러개일 경우 기준을 설정해 주어야 한다. 
# 3반의 점수를 기준으로 행방향 (세로)오름차순 정렬 
score_data.sort_values(by='3반')

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영어,76,92,45,69
국어,47,92,45,69
과학,11,79,47,26
수학,45,44,73,39
사회,92,81,85,40


In [73]:
#내림차순(ascending=False)
score_data.sort_values(by='3반', ascending=False)

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
사회,92,81,85,40
수학,45,44,73,39
과학,11,79,47,26
영어,76,92,45,69
국어,47,92,45,69


In [74]:
#axis=1 열방향 (가로)로 정렬
score_data.sort_values(by='사회',axis=1, ascending=False)

Unnamed: 0_level_0,1반,3반,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,73,44,39
영어,76,45,92,69
국어,47,45,92,69
사회,92,85,81,40
과학,11,47,79,26


#### 정리
- axis=0( 행방향)일 경우는 기준을 컬럼명으로 잡고
- axis=1(열방향)일 경우는 기준을 인덱스로 잡음

In [75]:
# 디폴트 값으로 오름차순
#3반 기준으로 정렬후 그중 같은 값들은 1반 기준으로 한번 더 정렬
score_data.sort_values(by=['3반','1반'])

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
국어,47,92,45,69
영어,76,92,45,69
과학,11,79,47,26
수학,45,44,73,39
사회,92,81,85,40


#### sum()

In [79]:
score_data.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [78]:
score_data.sum(axis=1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

###### 예제 과목별 합계를 구하여 df 맨 우측에 총합 컬럼을 추가해 보세요

In [80]:
score_data.sum(axis=1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [89]:
score_data['총합']=score_data.sum(axis=1)

In [90]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [87]:
del score_data['총합']

In [91]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


#### 평균 mean()

In [111]:
score_data['평균']=score_data.loc[:,'1반':'4반'].mean(axis=1)

In [112]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [113]:
score_data['평균']=score_data['총합']/4
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


#### min(), max()

In [114]:
#1반에서 가장 높은 점수
score_data['1반'].max()

92

In [115]:
#행방향 최댓값
score_data[:].max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
총합    298.0
평균     74.5
dtype: float64

In [116]:
#열방향 최댓값
score_data[:].max(axis=1)

과목
수학    201.0
영어    282.0
국어    253.0
사회    298.0
과학    163.0
dtype: float64

In [117]:
# 전체 반중에서 가장 높은 수학 점수를 구해보세요
score_data.loc['수학','1반':'4반'].max()

73.0

In [119]:
score_data.iloc[0,:4].max()

73.0

전체 과목 점수 중에서 과목별로 가장 큰 값과 작은 값의 차이를 구해 보세요


In [120]:
score_data.iloc[:,:4].max(axis=1)-score_data.iloc[:,:4].min(axis=1)

과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64

In [121]:
max_score=score_data.iloc[:,:4].max(axis=1)
min_score=score_data.iloc[:,:4].min(axis=1)
max_score-min_score

과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64

#### count

In [123]:
score_data.count()

1반    5
2반    5
3반    5
4반    5
총합    5
평균    5
dtype: int64

In [124]:
score_data.count(axis=1)

과목
수학    6
영어    6
국어    6
사회    6
과학    6
dtype: int64

#### .info()
- df에 대한 전체적인 정보를 출력

In [125]:
score_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 수학 to 과학
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1반      5 non-null      int64  
 1   2반      5 non-null      int64  
 2   3반      5 non-null      int64  
 3   4반      5 non-null      int64  
 4   총합      5 non-null      int64  
 5   평균      5 non-null      float64
dtypes: float64(1), int64(5)
memory usage: 452.0+ bytes


#### value_counts()
- 특정 컬럼에 있는 데이터들의 유니크 값과 그 개수를 출력

In [127]:
df_test=pd.DataFrame([['집중','집중','집중','집중'],
                    ['집중','집중','집중','졸림'],
                    ['집중','집중','졸림','자냐?'],],
                    columns=['1교시','2교시','3교시','4교시'])
df_test

Unnamed: 0,1교시,2교시,3교시,4교시
0,집중,집중,집중,집중
1,집중,집중,집중,졸림
2,집중,집중,졸림,자냐?


In [129]:
df_test['3교시'].value_counts()

집중    2
졸림    1
Name: 3교시, dtype: int64

In [130]:
df_test['4교시'].value_counts()

집중     1
졸림     1
자냐?    1
Name: 4교시, dtype: int64

#### apply()

- 사용자 정의 함수를 이용하여 행 또는 열에 복잡한 처리를 한번에 해주는 함수

In [132]:
score_data.drop(['총합','평균'], axis=1, inplace=True)

In [133]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [134]:
# 최대값 최소값의 차이를 계산해 주는 사용자 정의 함수 만들기
def calculate(x):
    return x.max()-x.min()

In [135]:
# df 내 전체 데이터에서 각 과목의 최대 점수와 최소 점수의 차이를 구하는 로직을 만들어 보자

score_data.apply(calculate, axis=1)


과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64

##### 정리
- apply 함수에는 반드시 사용자 정의 함수가 포함되어야함!

#### concat()

- Series나 df를 병합할때 사용

In [145]:
s1=pd.Series([1,2,3,4,5])
s2=pd.Series(['female','female','male','male','female'])
s3=pd.Series([1,0,1,0,1])


In [146]:
pd.concat([s1,s2,s3])#axis=0이 디폴트 값(위에서 아래로 합쳐짐)

0         1
1         2
2         3
3         4
4         5
0    female
1    female
2      male
3      male
4    female
0         1
1         0
2         1
3         0
4         1
dtype: object

In [147]:
pd.concat([s1,s2,s3], axis=1)

Unnamed: 0,0,1,2
0,1,female,1
1,2,female,0
2,3,male,1
3,4,male,0
4,5,female,1


In [148]:
ti=pd.concat([s1,s2,s3], axis=1)

In [149]:
ti.columns=['passengerid','sex','survived']
ti

Unnamed: 0,passengerid,sex,survived
0,1,female,1
1,2,female,0
2,3,male,1
3,4,male,0
4,5,female,1


#### groupby()
- 데이터를 그룹별로 묶어서 집계를 낼 수 있게 해주는 함수
- 액셀의 피벗테이블 기능과 같음

In [150]:
#sex값에 따른 survived 값의 합계 구하기==성별에 따른 생존자 숳 확인 하기 
ti[['sex','survived']].groupby('sex').sum()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,2
male,1


In [151]:
#sex, survived값 기준으로 passengerid의 개수 세기
#성별을 기준으로 생존자수와 사망자수를 카운트 하는 것과 같다
ti.groupby(['sex','survived']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,passengerid
sex,survived,Unnamed: 2_level_1
female,0,1
female,1,2
male,0,1
male,1,1


#### pandas 실습 예제
- 2015~2017년 광주 광역시 범죄현황 데이터를 이용해 전년대비 지역별 범죄 증감률을 구해보자!
- (증감률 공식= (금년-작년)/작년*100)

##### 데이터 로드
- 인덱스 컬럼은 관서명으로 설정할 것
- 인코딩은 'euc-kr'로 설정할 것

![image.png](attachment:image.png)

![image.png](attachment:image.png)

##### 데이터 로드하기

In [321]:
#데이터를 로드하자 

df_2015=pd.read_csv('data/2015.csv', encoding='euc-kr',index_col='관서명')
df_2016=pd.read_csv('data/2016.csv', encoding='euc-kr',index_col='관서명')
df_2017=pd.read_csv('data/2017.csv', encoding='euc-kr',index_col='관서명')

##### 데이터 가공하기

In [307]:
print(df_2015.shape)
print(df_2016.shape)
print(df_2017.shape)

(36, 6)
(36, 6)
(42, 6)


In [308]:
#광주 지방 경찰청 행을 제거!
df_2017.drop('광주지방경찰청',axis=0, inplace=True)


In [309]:
df_2015['총합']=df_2015.sum(axis=1)
df_2016['총합']=df_2016.sum(axis=1)
df_2017['총합']=df_2017.sum(axis=1)

  df_2015['총합']=df_2015.sum(axis=1)
  df_2016['총합']=df_2016.sum(axis=1)
  df_2017['총합']=df_2017.sum(axis=1)


In [313]:
#불리언 인덱싱을 활용하여 '구분' 컬럼의 '발생건수'의 '총합'에 접근하자 
s15=df_2015.loc[df_2015['구분']=='발생건수','총합']
s16=df_2016.loc[df_2016['구분']=='발생건수','총합']
s17=df_2017.loc[df_2017['구분']=='발생건수','총합']

In [317]:
s16

관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
Name: 총합, dtype: int64

In [None]:
#증감율 구하기
#증감율 공식: (금년-작년)/작년*100

In [318]:
s1516=(s16-s15)/s15*100
s1617=(s17-s16)/s16*100

In [320]:
total=pd.concat([s15,s1516,s16,s1617,s17],axis=1)
total.columns=['2015총계','2015~2016증감률','2016총계','2016~2017증감률','2017총계']
total

Unnamed: 0_level_0,2015총계,2015~2016증감률,2016총계,2016~2017증감률,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


##### 정리 및 중요!
- 데이터를 분석하기 전에는 데이터에 대한 내용을 파악하는 것이 중요하다. 각 데이터별로 양식이 맞는지 확인하자
- 데이터를 가공하는 것이 중요하다. 슬라이싱, 인덱싱을 비롯한 문법을 잘 알아두자
- 데이터를 가공할 경우 groupby, concat등의 함수와 연산을 잘 알아야한다.
- 반드시 인덱스의 길이가 맞는 지 확인하여야 한다. 
- 불리언인덱싱을 공부하여 두자