### Pandas
- 행과 열(표 형식)로 이루어진 데이터 처리와 분석에 특화된 라이브러리

#### Pandas 구조
- Series : 1차원 데이터 집합(index + value)
- DataFrame : 2차원 표 형태의 데이터 집합
- 1차원의 Series가 모여 2차원의 데이터 프레임을 이루게 됨

In [1]:
import pandas as pd

#### Series 생성하기

In [2]:
# 인덱스를 따로 설정하지 않으면 좌측에 자동으로 0번부터 인덱스가 생성됨.
population = pd.Series([9900000, 3400000, 2800000, 2400000])
population

0    9900000
1    3400000
2    2800000
3    2400000
dtype: int64

#### 인덱스를 저장하여 Series 생성

In [3]:
population = pd.Series([9900000, 3400000, 2800000, 2400000],
                      index = ['서울', '부산', '인천', '대구']   #문자로 인덱스 설정
                      )
population

서울    9900000
부산    3400000
인천    2800000
대구    2400000
dtype: int64

In [4]:
# 딕셔너리를 활용하여 Series 생성 (key 값은 인덱스로, value 값은 데이터로 들어감)
population = pd.Series({'서울' : 9900000, '부산' : 3400000, '인천' : 2800000, '대구' : 2400000})
population

서울    9900000
부산    3400000
인천    2800000
대구    2400000
dtype: int64

#### Series 이름, 인덱스 이름 지정

In [5]:
# Series 이름 설정
population.name = '인구'
population

서울    9900000
부산    3400000
인천    2800000
대구    2400000
Name: 인구, dtype: int64

In [6]:
# Series의 index 이름 설정
population.index.name = '도시'
population

도시
서울    9900000
부산    3400000
인천    2800000
대구    2400000
Name: 인구, dtype: int64

In [7]:
# Series의 isdex 변경
 # Series 및 DataFrame에서는 항상 데이터의 개수에 맞춰서 작업을 진행해줘야 함(기존 인덱스가 4개라면 변경시에도 4개를 지정!)

population.index = [0,1,2,3]
population

0    9900000
1    3400000
2    2800000
3    2400000
Name: 인구, dtype: int64

In [8]:
population.index = ['서울' , '부산', '인천', '대구']
population

서울    9900000
부산    3400000
인천    2800000
대구    2400000
Name: 인구, dtype: int64

#### Series 데이터 변경, 추가, 삭제

In [9]:
# 데이터 변경
population['부산'] = 3500000
population

서울    9900000
부산    3500000
인천    2800000
대구    2400000
Name: 인구, dtype: int64

In [10]:
#데이터 추가
population['대전'] = 2400000
population

서울    9900000
부산    3500000
인천    2800000
대구    2400000
대전    2400000
Name: 인구, dtype: int64

In [11]:
#데이터 삭제
del population['서울']
population

부산    3500000
인천    2800000
대구    2400000
대전    2400000
Name: 인구, dtype: int64

#### DataFrame 생성

In [12]:
# 딕셔너리를 활용한 생성
data = {'서울' : [9900000, 9600000],
        '부산' : [3400000, 3300000],
        '인천' : [2800000, 2600000],
        '대구' : [2400000, 2300000]
       }
ind = ['2015', '2010']

population_df1 = pd.DataFrame(data, index=ind)
population_df1

# Series와는 달리 key값이 칼럼명으로 들어감(Series에서는 key값이 index로!)

Unnamed: 0,서울,부산,인천,대구
2015,9900000,3400000,2800000,2400000
2010,9600000,3300000,2600000,2300000


In [13]:
data = [[9900000, 3400000, 2800000, 2400000],
        [9600000, 3300000, 2600000, 2300000]
       ]
ind = ['2015', '2010']
col = ['서울', '부산', '인천', '대구']               #칼럼의 명칭을 넣으면 쭉 들어감.

population_df2 = pd.DataFrame(data, index=ind, columns=col)
population_df2

Unnamed: 0,서울,부산,인천,대구
2015,9900000,3400000,2800000,2400000
2010,9600000,3300000,2600000,2300000


#### 정리
- DF를 생성하는 방법은 2가지(딕셔너리, 리스트 활용)
- 딕셔너리 방식은 key값이 컬럼명, value값이 위에서 아래로 들어가고
- 리스트 방식은 데이터가 보이는 위치 그대로 들어가며 인덱스와 컬럼명을 따로 설정

In [14]:
# DF 전치
population_df2 = population_df2.T
population_df2

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3400000,3300000
인천,2800000,2600000
대구,2400000,2300000


#### DataFrame에 새로운 컬럼 추가하기

In [15]:
population_df2['2005'] = [9300000, 3200000, 2500000, 2200000]
#새로운 컬럼을 추가하기 위해서는 기존에 없는 컬럼명을 대괄호 내에 넣고, 대입연산자로 value값을 넣어줌

In [16]:
population_df2

Unnamed: 0,2015,2010,2005
서울,9900000,9600000,9300000
부산,3400000,3300000,3200000
인천,2800000,2600000,2500000
대구,2400000,2300000,2200000


#### 컬럼(열) 삭제

In [17]:
del population_df2['2005']

In [18]:
population_df2

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3400000,3300000
인천,2800000,2600000
대구,2400000,2300000


In [19]:
population_df2['2005'] = [9300000, 3200000, 2500000, 2200000]
population_df2

Unnamed: 0,2015,2010,2005
서울,9900000,9600000,9300000
부산,3400000,3300000,3200000
인천,2800000,2600000,2500000
대구,2400000,2300000,2200000


#### 행 or 열 삭제

In [20]:
# drop : 행 또는 열을 삭제하는 함수(행 삭제시에는 인덱스명으로, 열 삭제시에는 컬럼명으로 지정.)
 # drop함수는 행을 삭제할지 열을 삭제할지에 대한 "축 방향(axis)"을 지정해줘야함.(디폴트는 axis = 0 이며 행을 삭제한다는 뜻.)
population_df2.drop('2005', axis=1)     # axis=1 은 열(컬럼)을 삭제

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3400000,3300000
인천,2800000,2600000
대구,2400000,2300000


In [21]:
population_df2

# drop도 한 번 사용한다고 해서 원래 값이 업데이트 되지 않음.

Unnamed: 0,2015,2010,2005
서울,9900000,9600000,9300000
부산,3400000,3300000,3200000
인천,2800000,2600000,2500000
대구,2400000,2300000,2200000


In [22]:
population_df2.drop('서울') 

#axis기본값이 행이므로 없어도 삭제됨.

Unnamed: 0,2015,2010,2005
부산,3400000,3300000,3200000
인천,2800000,2600000,2500000
대구,2400000,2300000,2200000


In [23]:
# inplace = True : 변경 사항을 DF에 바로 반영해주는 인자
population_df2.drop('서울', inplace=True) 
population_df2

Unnamed: 0,2015,2010,2005
부산,3400000,3300000,3200000
인천,2800000,2600000,2500000
대구,2400000,2300000,2200000


#### 정리
- del은 열만 삭제
- drop은 행, 열 둘 다 삭제 (축 방향 (axis)설정 필요)
- 변수에 담지 않으면 적용되지 않음(inplce=True로 DF에 바로 변경사항 저장 가능)

## DataFrame 속성 확인

In [24]:
# DF 형태 확인(numpy 배열 shape와 같음)     - 3행 3열
population_df2.shape

(3, 3)

In [25]:
# DP의 데이터 값만 확인(2차원 배열로 출력됨.)
population_df2.values

array([[3400000, 3300000, 3200000],
       [2800000, 2600000, 2500000],
       [2400000, 2300000, 2200000]])

In [26]:
# DF의 인덱스만 확인
population_df2.index

Index(['부산', '인천', '대구'], dtype='object')

In [27]:
# DF의 컬럼명만 확인
population_df2.columns

Index(['2015', '2010', '2005'], dtype='object')

In [28]:
data = {'키' : [175.3, 180.2, 178.6],
        '몸무게' : [66.2, 78.9, 55.1],
        '나이' : [27.0, 49.0, 35.0],
       }
ind = ['홍길동', '김사또', '임꺽정']

result = pd.DataFrame(data, index= ind)
result

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [29]:
result.T

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


### Pandas 연산
- Series 연산

In [30]:
pop1 = pd.Series([9900000, 3400000, 2800000, 2400000],
                index = ['서울','부산','인천', '대구']
                )
pop2 = pd.Series({'서울' : 9600000, '부산' : 3300000, '인천': 2600000, '대전' : 2300000})

In [31]:
pop1 / 1000000

서울    9.9
부산    3.4
인천    2.8
대구    2.4
dtype: float64

In [32]:
pop1 - pop2             #연산할 수 없는 값은 None으로 뜬다.

대구         NaN
대전         NaN
부산    100000.0
서울    300000.0
인천    200000.0
dtype: float64

#### NaN, None 둘다 비어있는 값
- NoN(Not a Number) : 계산할 수 없는 수치 값인 경우
 - ex) 0으로 나눈 값이거나, 루트 -1 과 같이 정의할 수 없는 경우도 포함.
- None : 비어있는 값으로 값 자체가 원래부터 없는 경우.(다른 프로그래밍 언어의 Null과 같음)

- ###  DataFrame 연산

In [33]:
df1 = pd.DataFrame({'2015':[9900000, 3400000, 2800000, 2400000],
                    '2010':[9600000, 3300000, 2600000, 2300000]
                   })
df2 = pd.DataFrame({'2015':[9900000, 3400000, 2800000, 2400000],
                    '2010':[9600000, 3300000, 2600000, 2300000],
                    '2005':[9300000, 3200000, 2500000, 2200000]
                   }, index = ['서울','부산','인천','대구'])

In [34]:
df1

Unnamed: 0,2015,2010
0,9900000,9600000
1,3400000,3300000
2,2800000,2600000
3,2400000,2300000


In [35]:
df2 - df1
#인덱스가 다르면 연산이 불가

Unnamed: 0,2005,2010,2015
0,,,
1,,,
2,,,
3,,,
대구,,,
부산,,,
서울,,,
인천,,,


In [36]:
df1.index = ['서울', '부산', '인천', '대구']
df1

Unnamed: 0,2015,2010
서울,9900000,9600000
부산,3400000,3300000
인천,2800000,2600000
대구,2400000,2300000


In [37]:
df2 + df1
# 인덱스가 같으면 같은 컬럼명의 데이터들 끼리만 연산

Unnamed: 0,2005,2010,2015
서울,,19200000,19800000
부산,,6600000,6800000
인천,,5200000,5600000
대구,,4600000,4800000


### Pandas에서 데이터 접근을 위한 인덱싱 & 슬라이싱
 1. 인덱스 번호로 접근 : 0번부터 시작
 2. 인덱스 명으로 접근 : 사용자가 지정한 문자
 3.  loc, iloc 인덱서로 접근 : loc(문자열 입력), iloc(인덱스 번호 입력)
 4.   불리언 인덱싱 : True, False 값을 이용하여 True에 해당하는 데이터 출력

#### Series 인덱싱

In [38]:
score = pd.Series([70,95,80,82])
score

0    70
1    95
2    80
3    82
dtype: int64

In [39]:
score[1]           #위에 해당되는 데이터값이 출력된다.

np.int64(95)

In [40]:
score[3]

np.int64(82)

In [41]:
score = pd.Series({'java': 70, 'python':95, 'html/css':80, 'ml':82})
score

java        70
python      95
html/css    80
ml          82
dtype: int64

In [42]:
score['python']

np.int64(95)

In [43]:
# 인덱스 명 자체에 접근
score.index[1]

'python'

- Series 슬라이싱

In [44]:
score[1:]

python      95
html/css    80
ml          82
dtype: int64

In [45]:
score.index[1:]

Index(['python', 'html/css', 'ml'], dtype='object')

In [46]:
score.values[1:]

array([95, 80, 82])

In [47]:
score['python':'ml']
# 슬라이싱은 인덱스 번호나 인덱스 문자로도 가능(단, 인덱스 (문자)명으로 진행할 경우 끝값이 포함됨!)

python      95
html/css    80
ml          82
dtype: int64

### DataFrame 인덱싱, 슬라이싱

In [48]:
# read_csv : csv 파일 데이터 불러와서 DF로 출력
 # encording(인코딩) : 컴퓨터가 데이터 문자를 코드 내에서 인식할 수 있게 변환하는 과정(디코딩은 코드를 문자로 변환)
 # euc-kr : 한글 전용 인코딩 방식
 # index_cord : DF로 불러올 때 인덱스 컬럼을 지정해서 불러옴
import pandas as pd

score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = '과목')
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [49]:
# 1발 컬럼에 접근하기
score_data['1반']
# Series 형태로 출력됨

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64

In [50]:
# []를 하나 더 씌우면 2차원 데이터 프레임으로 출력됨
score_data[['1반']]

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


In [51]:
# 두 개 이상의 컬럼을 데이터 프레임으로 가져오려면 []를 두개 사용해야 함.
score_data[['1반', '3반']]

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


In [52]:
# DF에서는 행 인덱싱을 위해 슬라이싱 문법을 적용해야함.
score_data[0:1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [53]:
# 인덱스 문자 값으로도 접근 가능(문자는 끝 값이 포함됨.)    _ 행 인덱싱을 위해.
score_data['수학' : '영어']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69


In [54]:
score_data['수학' : '수학']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [55]:
score_data[0:3:2]         # 0번 인덱스 행에서 2번 인덱스 행 까지 2칸씩 건너뛰어 인덱싱 *****

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
국어,47,92,45,69


#### 정리
- DF의 기본적인 열 접근은 컬럼명으로, 행 접근은 인덱스를 사용한 슬라이싱 문법으로 접근해야 함.

#### loc, iloc를 활용한 인덱싱, 슬라이싱
- 한 번에 행과 열에 모두 접근 가능
- 기본적으로 loc, iloc는 행에 먼저 접근
- DF에 행을 추가하고 싶을 때는 " loc[행인덱스] = 값 " 으로 추가 가능
- loc는 문자로, iloc는 숫자로 행, 열을 찾아냄
   - loc = location의 약자임.

In [56]:
# 각 반의 과학 점수 출력
score_data.loc['과학']             #항상 행이 먼저 그다음에 열.

# 한 줄의 행이 Series 형태로 출력됨

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [57]:
# 4반의 과학 점수 출력
score_data.loc['과학', '4반']      # [행, 열]

np.int64(26)

In [58]:
# 각 반의 과학 점수 출력
score_data.iloc[4]

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [59]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [60]:
# 4반의 과학 점수 출력
score_data.iloc[4, 3]

np.int64(26)

In [61]:
# 2반의 사회 점수에 loc와 iloc를 사용하여 접근해 보세요~!!

score_data.iloc[3, 1]

np.int64(81)

In [62]:
score_data.loc['사회', '2반']

np.int64(81)

In [63]:
# 2반, 3반의 국어, 사회 점수에 접근해보세요~! (예제)

score_data.loc['국어':'사회', '2반':'3반']   # [행의 범위, 열의 범위]

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,45
사회,81,85


In [64]:
score_data.iloc[2:4, 1:3]

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,45
사회,81,85


In [65]:
# 2반, 4반의 국어, 사회, 과학 점수에 접근해보세요~! (예제)
score_data.iloc[2:, 1:4:2]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40
과학,79,26


In [66]:
score_data.loc['국어':'과학', ['2반','4반']]

Unnamed: 0_level_0,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,69
사회,81,40
과학,79,26


#### 불리언 인덱싱
- numpy에서의 방식과 동일하며 DF에서 특정한 조건에 맞는 데이터에만 접근하기 위한 인덱싱 방법

In [67]:
score_data = score_data.T
score_data

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


- 영어 점수가 75점 이상인 점수 데이터를 출력해보자!

In [68]:
# Step.1
 # DF의 영어 점수 중 75점 이상인 데이터를 True, False 로 출력
score_data['영어'] >= 75

1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool

In [69]:
# Step.2
 # True 에 해당하는 값의 데이터에 접근
score_data[score_data['영어'] >= 75]

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79


In [70]:
# Step.3
 # 영어 점수가 75점 이상인 DF 중에서 영어 점수만 출력하기

score_data[score_data['영어'] >= 75]['영어']

1반    76
2반    92
Name: 영어, dtype: int64

In [71]:
score_data[score_data['영어'] >= 75]['영어']['2반']

np.int64(92)

#### Pandas 유용한 함수들

정렬
- index 및 컬럼명 기준 정렬 : sort_index()
- 값(value) 기준 정렬 : sort_values()

In [72]:
score_data = score_data.T
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [73]:
score_data.sort_index()


# 기본적으로 sort_index 함수를 쓰면 index 기준 정렬
 # 한글의 경우 가나다 순서 **

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
과학,11,79,47,26
국어,47,92,45,69
사회,92,81,85,40
수학,45,44,73,39
영어,76,92,45,69


In [74]:
#***
# 컬럼명 기준 정렬
 # axis=0 : 행이 추가되는 방향 (위에서 아래)
 # axis=1 : 열이 추가되는 방향 (좌에서 우)
  # ascending = False : 내림차순 정랼 (디폴트는 True로 오름차순_ 기본적으로 아무것도 안쓰면 오름차순.)

score_data.sort_index(axis=1, ascending=False)

# ------------------>>>

Unnamed: 0_level_0,4반,3반,2반,1반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,39,73,44,45
영어,69,45,92,76
국어,69,45,92,47
사회,40,85,81,92
과학,26,47,79,11


In [75]:
# 데이터 값 기준 정렬
 # 값 기준 정렬에서는 기준이 되는 값을 대표하는 index나 컬럼명을 by 인자로 설정해줘야 함.
score_data.sort_values( by= '3반')

# axis=0(행 방향) 이 디폴트로 들어가 있으며, 오름차순 정렬이 디폴트로 들어가 있는 상태

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영어,76,92,45,69
국어,47,92,45,69
과학,11,79,47,26
수학,45,44,73,39
사회,92,81,85,40


In [76]:
# 3반 기준 내림차순 정렬
score_data.sort_values( by= '3반', ascending=False)

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
사회,92,81,85,40
수학,45,44,73,39
과학,11,79,47,26
국어,47,92,45,69
영어,76,92,45,69


In [77]:
# '사회' 행의 값들을 기준으로 내림차순 정렬            - 헷갈려~~~~~~~!!! ?????????
score_data.sort_values( by= '사회', axis=1, ascending=False)

Unnamed: 0_level_0,1반,3반,2반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,73,44,39
영어,76,45,92,69
국어,47,45,92,69
사회,92,85,81,40
과학,11,47,79,26


#### 정리
- axis = 0 (행 방향 = 위에서 아래) 일 경우는 기준 (by)을 컬럼명으로 잡고
- axis = 1 (열 방향 = 좌에서 우) 일 경우는 기준(by)을 인덱스로 잡음.

In [78]:
# 3 반 기준으로 정렬하고, 그 중에서 같은 값들은 1반 기준으로 한번 더 정렬.
score_data.sort_values(by=['3반','1반'])


# 3반 기준으로 먼저 오름차순 하고 동일한 값에 대해서는 1반 기준으로 한 번 더 정렬됨.

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
국어,47,92,45,69
영어,76,92,45,69
과학,11,79,47,26
수학,45,44,73,39
사회,92,81,85,40


In [79]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


#### sum 함수
- 합계

In [80]:
score_data.sum()             #axis = 0 이 디폴트 값

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [81]:
score_data.sum(axis=1)  

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

- 과목별 합계를 구하여 데이터프레임 맨 우측에 '총합' 컬럼을 추가해보세요~! (예제) ***

In [82]:
score_data['총합'] = score_data.sum(axis=1)
score_data

# 과목별 합계를 위해 axis를 1로 설정하고, 총합 컬럼을 만들면서 합계 Series 를 넣어준 것.

Unnamed: 0_level_0,1반,2반,3반,4반,총합
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


#### mean 함수
- 평균

In [83]:
# 과목들의 평균을 구하여 데이터프레임 우측에 '평균' 컬럼을 추가해보세요.     ***

In [84]:
score_data['평균'] = score_data.loc[:, '1반': '4반'].mean(axis=1)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [85]:
score_data['평균'] = score_data['총합'] / 4
score_data

Unnamed: 0_level_0,1반,2반,3반,4반,총합,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


#### max(), min()

In [86]:
# 1반 컬럼에서 가장 높은 점수
 # 현재는 1반 이라는 컬럼(Series)이기 때문에 axis 설정이 필요가 없음

score_data['1반'].max()

92

In [87]:
# 각 컬럼(행 방향 = 위에서 아래)에서의 최대 값
score_data.max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
총합    298.0
평균     74.5
dtype: float64

In [88]:
# 각 행(열 방향 = 좌에서 우)에서의 최대 값
score_data.max(axis=1)

과목
수학    201.0
영어    282.0
국어    253.0
사회    298.0
과학    163.0
dtype: float64

In [89]:
# 전체 반에서 가장 높은 수학 점수
score_data.loc["수학","1반":"4반"].max()

73.0

In [90]:
# 전체 반에서 가장 높은 사회 점수
score_data.iloc[3, 0:4].max()

92.0

#### count 함수
- 개수 출력

In [91]:
score_data.count()

1반    5
2반    5
3반    5
4반    5
총합    5
평균    5
dtype: int64

In [92]:
score_data.count(axis=1)

과목
수학    6
영어    6
국어    6
사회    6
과학    6
dtype: int64

In [93]:
score_data.count(axis=0)

1반    5
2반    5
3반    5
4반    5
총합    5
평균    5
dtype: int64

#### info()
- 데이터 프레임에 대한 전체적인 정보 출력

In [94]:
score_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 수학 to 과학
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1반      5 non-null      int64  
 1   2반      5 non-null      int64  
 2   3반      5 non-null      int64  
 3   4반      5 non-null      int64  
 4   총합      5 non-null      int64  
 5   평균      5 non-null      float64
dtypes: float64(1), int64(5)
memory usage: 452.0+ bytes


#### value_counts()
- 특정 컬럼의 데이터들의 유니크 값과 그 개수를 출력
  - 세부사항을 알고싶을 때 사용하면 좋다.

In [95]:
df_test = pd.DataFrame([['집중','집중','졸림'],
                       ['집중','집중','조는중'],
                       ['집중','졸림']],
                      columns=['1교시', '2교시', '3교시']
                      )
df_test

Unnamed: 0,1교시,2교시,3교시
0,집중,집중,졸림
1,집중,집중,조는중
2,집중,졸림,


In [96]:
df_test['1교시'].value_counts()

1교시
집중    3
Name: count, dtype: int64

In [97]:
df_test['2교시'].value_counts()

2교시
집중    2
졸림    1
Name: count, dtype: int64

In [98]:
df_test['3교시'].value_counts()

3교시
졸림     1
조는중    1
Name: count, dtype: int64

#### 결측치(비어있는 값) 데이터 관련
- isnull()
- notnull()
- fillna()
- dropna()

In [99]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   1교시     3 non-null      object
 1   2교시     3 non-null      object
 2   3교시     2 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


In [100]:
# 비어있는 값 찾기 (비어있는 값에만 True)
df_test.isnull()

Unnamed: 0,1교시,2교시,3교시
0,False,False,False
1,False,False,False
2,False,False,True


In [101]:
# 비어있지 않은 값들에 True
df_test.notnull()

Unnamed: 0,1교시,2교시,3교시
0,True,True,True
1,True,True,True
2,True,True,False


In [102]:
# 비어있는 칸에 특정 값 넣기
df_test.fillna("열심히 할게요!!")

Unnamed: 0,1교시,2교시,3교시
0,집중,집중,졸림
1,집중,집중,조는중
2,집중,졸림,열심히 할게요!!


In [103]:
df_test

Unnamed: 0,1교시,2교시,3교시
0,집중,집중,졸림
1,집중,집중,조는중
2,집중,졸림,


In [104]:
# 비어있는 데이터가 포함된 행 삭제
df_test.dropna()

Unnamed: 0,1교시,2교시,3교시
0,집중,집중,졸림
1,집중,집중,조는중


In [105]:
# 비어있는 데이터가 포함된 열 삭제
df_test.dropna(axis=1)

Unnamed: 0,1교시,2교시
0,집중,집중
1,집중,집중
2,집중,졸림


#### apply 함수
- 행 또는 열 전체에 사용자가 만든 사용자 정의 함수를 한 번에 적용시켜주는 함수
- apply 함수 사용을 위해서는 사전에 **사용자 정의 함수가 반드시 선언되어 있어야 함

In [106]:
score_data.drop(['총합','평균'], axis=1, inplace= True)
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [107]:
# 입력 값에 대한 최대값과 최소값의 차이를 계산하는 사용자 정의 함수
def cal(x) :
    return x.max() - x.min()

In [108]:
# 데이터 프레임에서 각 과목별 최대점수와 최소점수의 차이를 계산하겠다는 뜻
# cal 함수의 매개변수에 들어가는 값은 apply함수 앞에 있는 데이터프레임이 됨.         - cal(x) = cal(score_data)
  # apply 앞에 있는 함수가 cal(x)함수에 들어가는 것임.
score_data.apply(cal, axis=1)

과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64

#### concat 함수
- Series나 DataFrame을 병합할 때 사용

In [109]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series(['female','female','male','male','female'])
s3 = pd.Series(['합','불','합','불','합'])

In [110]:
pd.concat([s1,s2,s3])

0         1
1         2
2         3
3         4
4         5
0    female
1    female
2      male
3      male
4    female
0         합
1         불
2         합
3         불
4         합
dtype: object

In [111]:
pd.concat([s1,s2,s3], axis=1)               #좌에서 우측 방향으로

Unnamed: 0,0,1,2
0,1,female,합
1,2,female,불
2,3,male,합
3,4,male,불
4,5,female,합


In [112]:
exam = pd.concat([s1,s2,s3], axis=1)
exam.columns = ['ID','Gender','Result']
exam

Unnamed: 0,ID,Gender,Result
0,1,female,합
1,2,female,불
2,3,male,합
3,4,male,불
4,5,female,합


##### groupby 함수
- 그룹별로 묶어 집계값을 출력할 수 있게 하는 함수
- 스프레드시트의 피벗 테이블과 기능이 유사

In [113]:
exam.groupby(['Gender', 'Result']).count()

# 'Gender', 'Result'의 값들을 묶어 멀티인덱스로 설정한 후 남아 있는 값인 ID의 개수를 세겠다는 뜻.

Unnamed: 0_level_0,Unnamed: 1_level_0,ID
Gender,Result,Unnamed: 2_level_1
female,불,1
female,합,2
male,불,1
male,합,1


## Pandas 실습 예제
2015 - 2017 년도 광주광역시 범죄현황 데이터를 이용해 전년 대비 지역별 범죄 증감율을 구해보시오.

- 증감율 = (금년-작년) / 작년 * 100
  - ex) 2015-2016증감율 = (15416-18830) / 18830 * 100
- 아래 화면과 동일한 결과를 출력하시오.

<판다스 범죄현황 데이터 실습 가이드>
1. 데이터로드
 - csv파일 불러오면서 인덱스 컬럼은 '관서명'으로, 인코딩은 'euc-kr'로 설정하기
 - 데이터 하나씩 살펴보면서 파악하기(결과로 나온 행, 열이 무엇인지 비교 파악하기)
2. 2015, 2016, 2017 데이터 중 2017년도에만 존재하는 행을 찾고 삭제
3. 총계 컬럼을 새롭게 만들어 년도별 범죄들의 발생횟수 합 구하기
4. 구한 총계(15,16,17년도)에서 정답 사진과 같은 값 확인
5. 구분 컬럼을 활용하여 년도별로 불리언 인덱싱 후 각각의 시리즈를 변수에 저장
 - 변수명 예시 : s15, s16, s17
6. 증감율 공식에 따라 증감률 시리즈들을 생성하여 변수에 저장
 - 변수명 예시 : s1516, s1617
 ※ 증감율 구하는 공식 : (금년 – 작년) / 작년 * 100
7. 5,6번 시리즈들 병합하여 결과화면처럼 출력
할 수 있다 화이팅~~★

![image.png](attachment:8f395825-37a9-41dc-bdfa-205665d04d5e.png)![image.png](attachment:68bef2d4-93a4-4b49-8779-b6848e74d466.png)

#### 1. 데이터 로드
- 인덱스 컬럼은 '관서명'으로 설정
- 인코딩은 'euc-kr'로 설정

In [117]:
df2015 = pd.read_csv('data/2015.csv', encoding='euc-kr', index_col='관서명')
df2016 = pd.read_csv('data/2016.csv', encoding='euc-kr', index_col='관서명')
df2017 = pd.read_csv('data/2017.csv', encoding='euc-kr', index_col='관서명')

In [118]:
print(df2015.shape)
print(df2016.shape)
print(df2017.shape)

(36, 6)
(36, 6)
(42, 6)


In [119]:
df2015.index

Index(['광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계',
       '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서',
       '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서',
       '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서',
       '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서',
       '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서'],
      dtype='object', name='관서명')

In [121]:
df2016.index

Index(['광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계',
       '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서',
       '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서',
       '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서',
       '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서',
       '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서'],
      dtype='object', name='관서명')

In [122]:
df2017.index

Index(['광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계', '광주지방경찰청계',
       '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청', '광주지방경찰청',
       '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서', '광주동부경찰서',
       '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서', '광주서부경찰서',
       '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서', '광주남부경찰서',
       '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서', '광주북부경찰서',
       '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서', '광주광산경찰서'],
      dtype='object', name='관서명')

In [125]:
# set : 유일한 값으로 집합을 만들어주는 함수
set(df2017.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청', '광주지방경찰청계'}

In [126]:
set(df2015.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [127]:
set(df2016.index)

{'광주광산경찰서', '광주남부경찰서', '광주동부경찰서', '광주북부경찰서', '광주서부경찰서', '광주지방경찰청계'}

In [128]:
set(df2017.index)-set(df2015.index)

{'광주지방경찰청'}

#### 2. 데이터 전처리
- 2017년에만 담겨있는 광주지방경찰철 행을 삭제(최종결과에도 없는 행)

In [130]:
df2017.drop('광주지방경찰청', inplace = True)           # 행 삭제기 때문에 디폴트값인 axis=0이라 생략. 바로 적용을 위해 inplace값 설정.

In [131]:
df2017.shape

(36, 6)

#### 3. 지역별 범죄 증감율을 구하기 위해 범죄발생횟수의 총합이 필요

In [136]:
df2015['총계'] = df2015.loc[: , '살인':].sum(axis=1)
df2016['총계'] = df2016.loc[: , '살인':].sum(axis=1)
df2017['총계'] = df2017.loc[: , '살인':].sum(axis=1)

In [137]:
df2015.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36 entries, 광주지방경찰청계 to 광주광산경찰서
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   구분       36 non-null     object
 1   살인       36 non-null     int64 
 2   강도       36 non-null     int64 
 3   강간·강제추행  36 non-null     int64 
 4   절도       36 non-null     int64 
 5   폭력       36 non-null     int64 
 6   총계       36 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 2.2+ KB


In [138]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,37660
광주지방경찰청계,검거건수,18,47,758,5409,8301,29066
광주지방경찰청계,검거인원,17,66,776,3433,11774,32132
광주지방경찰청계,구속,9,33,42,104,58,492
광주지방경찰청계,불구속,1,26,511,2781,5618,17874
광주지방경찰청계,기타,7,7,223,548,6098,13766
광주동부경찰서,발생건수,3,5,92,1100,1155,4710
광주동부경찰서,검거건수,4,6,86,583,970,3298
광주동부경찰서,검거인원,4,7,98,447,1483,4078
광주동부경찰서,구속,3,2,8,13,10,72


#### 4. 구분 컬럼의 발생건수에 대한 총계만 따로 Series로 빼내기

In [139]:
# 각 년도별 발생건수의 총계만 Series로 저장
s15 = df2015[df2015['구분']=='발생건수']['총계']
s16 = df2016[df2016['구분']=='발생건수']['총계']
s17 = df2017[df2017['구분']=='발생건수']['총계']

In [140]:
s15

관서명
광주지방경찰청계    37660
광주동부경찰서      4710
광주서부경찰서      9440
광주남부경찰서      4234
광주북부경찰서     10932
광주광산경찰서      8344
Name: 총계, dtype: int64

#### 5. 전년대비 증감율 계산
- 증감율 공식 : (금년-작년)/작년 * 100

In [144]:
s1516 = (s16-s15)/s15*100
s1617 = (s17-s16)/s16*100

In [145]:
s1516

관서명
광주지방경찰청계   -59.065321
광주동부경찰서    -56.093418
광주서부경찰서    -58.771186
광주남부경찰서    -55.951819
광주북부경찰서    -62.056348
광주광산경찰서    -58.736817
Name: 총계, dtype: float64

In [146]:
s1617

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

#### 6. 4,5번의 시리즈 데이터들 병합하여 결과화면처럼 합치기

In [151]:
total = pd.concat([s15, s1516, s16, s1617, s17], axis =1)
total.columns = ['2015 총계', '2015-16 증감율', '2016 총계', '2016-17 증감율', '2017 총계']
total

Unnamed: 0_level_0,2015 총계,2015-16 증감율,2016 총계,2016-17 증감율,2017 총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,37660,-59.065321,15416,-9.516087,13949
광주동부경찰서,4710,-56.093418,2068,-13.007737,1799
광주서부경찰서,9440,-58.771186,3892,-6.526208,3638
광주남부경찰서,4234,-55.951819,1865,-17.050938,1547
광주북부경찰서,10932,-62.056348,4148,-4.893925,3945
광주광산경찰서,8344,-58.736817,3443,-12.285797,3020
