### Pandas란?
- 데이터 처리와 분석에 최적화된 라이브러리
 - 행과 열로(테이블 형식으로) 이루어진 데이터 객체를 만들 수 있음
 - 빅데이터를 처리하는데 매우 편리한 함수들을 제공

### Pandas 구조
- series 1차원 배열 데이터
- DataFrame 2차원 표형태의 배열 데이터 : 1차원의 Series들이 모여서  2차원 데이터프레임을 이루게됨

![11111.png](attachment:11111.png)

![22222.png](attachment:22222.png)

#### Pandas 라이브러리 불러오기

In [1]:
import pandas as pd

- Series 생성

In [2]:
population = pd.Series([9904312, 3448737, 2890451, 2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

- 인덱스를 지정하여 Series 생성

In [3]:
# 리스트로 Series 생성
population = pd.Series([9904312, 3448737, 2890451, 2466052],
                      index =['서울','부산','인천','대구']
                      )
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
# 딕셔너리 형태로 Series 생성
population = pd.Series({'서울':9904312, '부산':3448737, '인천':2890451, '대구':2466052})
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- Series의 이름, 인덱스 이름 설정

In [5]:
population.name = '인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [6]:
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- Series 데이터 갱신, 추가, 삭제

In [7]:
# 데이터 갱신
population['부산'] = 3500000

# 데이터 추가
population['대전'] = 2400000

# 데이터 삭제
del population['서울']

population

도시
부산    3500000
인천    2890451
대구    2466052
대전    2400000
Name: 인구, dtype: int64

#### DataFrame 생성

In [8]:
# 딕셔너리를 이용하여 데이터 프레임 설정
data = {'2015' : [9904312, 3448737, 2890451, 2466052],
        '2010' : [9631482, 3393191, 2632035, 2431774]
       }

In [9]:
population_df1 = pd.DataFrame(data)
population_df1
# Series와는 달리 key값이 컬럼명으로 들어감(Series는 key값이 index로 들어감)

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [10]:
# 리스트를 이용하여 데이터 프레임 생성
data = [[9904312, 3448737, 2890451, 2466052],
         [9631482, 3393191, 2632035, 2431774]
       ]
ind = ['2015', '2010']
col = ['서울', '부산', '인천', '대구']

In [11]:
population_df2 =pd.DataFrame(data, index=ind, columns=col)
population_df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [12]:
# T : 배열의 행과 열을 반대로 만들어줌 : 역행렬
population_df2 = population_df2.T
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


- DataFrame에 새로운 컬럼 추가하기

In [13]:
population_df2['2005'] = [9762546, 3512547, 2517680, 2456016]

In [14]:
population_df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


- 컬럼(열) 삭제

In [None]:
 del population_df2['2005']

In [None]:
population_df2

In [None]:
population_df2['2005'] = [9762546, 3512547, 2517680, 2456016]

In [None]:
# inplace =True : 자동으로 저장되어서 갱신됨
# axis는 지우고자 하는 방향을 뜻함(0: 열, 1:열), 디폴트값은 0
# 행 영 열 일
population_df2.drop('2005', axis= 1, inplace =True)
population_df2

### DataFrame 속성 확인

In [None]:
# 데이터 프레임의 행과 열 확인(넘파이 배열과 같음)
population_df2.shape

In [None]:
# 데이터 프레임의 데이터 값만 확인
population_df2.values

In [None]:
# 데이터 프레임의 인덱스만 확인
population_df2.index

In [None]:
# 데이터 프레임의 컬럼명 확인
population_df2.columns

![33333.png](attachment:33333.png)

In [None]:
population = pd.Series([175.3, 180.2, 178.6])
population

In [None]:
population = pd.Series([175.3, 180.2, 178.6],
                      index =['홍길동','김사또','임꺽정']
                      )
population

In [None]:
# 딕셔너리를 이용하여 데이터 프레임 설정
data = {'키' : [175.3, 180.2, 178.3],
        '몸무게' : [66.2,78.9,55.1],
        '나이' : [27.0, 49.0, 35.0]
       }

In [None]:
result = pd.DataFrame(data, index = ['홍길동', '김사또', '임꺽정'])
result
# Series와는 달리 key값이 컬럼명으로 들어감(Series는 key값이 index로 들어감)

In [None]:
result.T

#### Pandas 연산
- 요소별 연산
- 배열간 연산

In [None]:
population = pd.Series([9904312, 3448737, 2890451, 2466052],
                       index=['서울', '부산', '인천', '대구']
                      )
population

In [None]:
population2 = pd.Series({'서울' : 9631482, 
                         '부산' : 3393191, 
                         '인천' : 2632035, 
                         '대전' : 2431774})
population2

In [None]:
population / 1000000

In [None]:
population * 1000000

In [None]:
population - population2

#### Pandas 데이터 접근을 위한 인덱싱 & 슬라이싱
- 인덱스 번호로 접근 : index는 0번 부터 시작
- 인덱스명으로 접근 : 사용자가 지정하는 인덱스명
- 불리언 인덱싱 : True, False값을 이용하여 True에 해당하는 행 출력
- loc, iloc 인덱서에 의한 접근 : loc(문자열 입력), iloc(인덱스 번호 자체로 입력)

In [None]:
# Series의 인덱싱, 슬라이싱
score = pd.Series({'java':70, 'python': 95, 'html/css':80, 'ml':82})
score

In [None]:
# Python 점수에 접근해보자
score[1]  # 인덱스 번호로 접근

In [None]:
score['python'] # 인덱스 명으로 접근

In [None]:
# 인덱스 명 자체에 접근하고 싶을 때
score.index[1]

In [None]:
score.index[1:]

In [None]:
score.values[1:]

In [None]:
# python부터 ml까지 인덱스 번호로 접근
score[1:]

In [None]:
score['python':'ml']

- 중요한 것은 인덱스 명으로 접근할때는 끝값이 포함됨!

### DataFrame 인덱싱,슬라이싱

In [15]:
# csv 파일 데이터 불러와서 이용하기
# read_csv : csv파일을 불러오는 명령
# encoding = 'euc-kr' : 한글 데이터를 표시하게 해주는 명령
# index_col : 인덱스의 컬럼명을 설정
score_data = pd.read_csv("data/score.csv", encoding ='euc-kr', index_col = '과목')
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [None]:
# 1반 컬럼에 접근(1차원 Series로 출력)
score_data['1반']

In [None]:
# 1반 컬럼에 접근(2차원 DataFrame로 출력)
score_data[['1반']]

In [None]:
# 1반과 3반 컬럼을 인덱싱 해보세요~!
score_data[['1반' , '3반']]

In [None]:
score_data

In [None]:
# 데이터프레임에서 행 인덱싱을 위해서는 슬라이싱을 적용해줘야 함
score_data[0:2]

In [None]:
# 인덱스에 있는 문자열 값으로 행에 접근이 가능
score_data['수학':'영어']

#### loc,iloc 인덱서 : 행과 열에 모두 접근 가능
- loc : 인덱스 명으로 접근
- iloc : 인덱스 번호로 접근

In [16]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [17]:
# loc 
# 각 반의 과학 점수 출력
score_data.loc['과학']

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [18]:
# 4반의 과학점수 출력
score_data.loc['과학', '4반']   #[행, 열]

26

In [None]:
# iloc
# 각반의 과학점수 출력
score_data.iloc[4]

In [None]:
score_data.iloc[4,3]

In [None]:
score_data.loc['사회', '2반'] 

In [None]:
score_data.iloc[3,1]

#### 불리언 인덱싱
 - 특정 조건으로 value값을 True, False로 출력하여 True에 해당하는 데이터에 접근하게 하는 인덱싱 방법

In [None]:
score_data = score_data.T
score_data

In [None]:
# Score_data의 영어점수 중에서 75점 이상인 학급의 데이터들을 출력하시오
score_data['영어']>=75

In [None]:
# 불리언 인덱싱 결과 True에 해당하는 행 위치의 모든 데이터를 출력
score_data[score_data['영어']>=75]

In [None]:
# 불리언 인덱싱한 결과에서 영어 컬럼에만 접근
score_data[score_data['영어']>=75]['영어']

#### Pandas 유용한 함수들
- 정렬 함수

In [None]:
score_data = score_data.T
score_data

In [None]:
# index 기준 정렬
score_data.sort_index()

In [None]:
# 컬럼 기준 정렬(컬럼이 여러개일 경우 컬럼 중 기준이 되는 컬럼을 설정해줘야함)
# 3반 점수 기준으로 오름차순 정렬(정렬의 디폴트값은 오름차순)
# 내림차순으로 정렬하고 싶은 경우 asending = False
score_data.sort_values(by=['3반', '1반'])
# 3반 기준으로 정렬하고 그 중에서 같은 값이 있을 경우 1반 기준으로 한번 더 정렬

In [None]:
# 내림차순 정렬
score_data.sort_values(by=['3반', '1반'], ascending= False)

#### 삭제 drop()

In [None]:
score_data.drop('사회')

In [None]:
# 4반 컬럼을 지우고 반영까지 해보세요
# axis = 0 : 행, axis = 1 : 열
score_data.drop('4반'  ,axis= 1, inplace=True)

In [None]:
score_data

In [None]:
score_data = pd.read_csv("data/score.csv", encoding ='euc-kr', index_col = '과목')
score_data

#### 합계 : sum()

In [None]:
# axis = 0 : 행 방향 기준의 합 (아래), axis = 1 : 열 방향 기준의 합 (오른쪽)
# 각 반별 합계
score_data.sum()

In [None]:
# 각 과목별 합계

In [None]:
score_data.sum(axis= 1)

In [None]:
# 총합 컬럼을 추가해서 과목별 총합을 4반 컬럼 우측에 표시해 주세요
score_data['총합'] = score_data.sum(axis= 1)

In [None]:
score_data

In [None]:
# mean() 함수를 이용하여 과목들의 평균을 구하고 데이터프레임 우측에 새로운 컬럼으로 넣어보자~!
# 평균이라는 새로운 컬럼을 생성
# loc, iloc 인덱서를 통해서 모든 행의 1반 부터 4반까지 열로 접근
# 평균을 구하는 mean()함수를 열 방향(axis=1)으로 설정
score_data['평균'] = score_data.loc[:,'1반':'4반'].mean(axis=1)
score_data

In [None]:
# 1반에서 가장 높은 점수를 출력해보세요 : max() 사용
# 1반 컬럼에 접근 -> max 함수를 사용해보세요~!

In [None]:
score_data['1반'].max()

In [None]:
# 1~4반 중 가장 높은 수학 점수를 찾아보세요
int(score_data.loc['수학', '1반':'4반'].max())

In [None]:
# 과목별 가장 큰값과 작은값의 차이를 새로운 컬럼으로 추가시켜보세요
max_score = score_data.loc[:, :'4반'].max(axis=1)
min_score = score_data.loc[:, :'4반'].min(axis=1)

In [None]:
max_score - min_score

In [None]:
score_data['차이'] = max_score - min_score
score_data

#### apply()
- Pandas에서 사용자가 정의한 함수를 이용하여 조금 더 복잡한 처리를 데이터프레임 전체에 해주는 명령

In [None]:
score_data = pd.read_csv("data/score.csv", encoding ='euc-kr', index_col = '과목')
score_data

In [None]:
# 최대값과 최소값의 차이를 계산해주는 사용자 정의 함수
def calculate(x) :
    return x.max() - x.min()

In [None]:
# apply 함수 적용
# 데이터프레임명.apply(함수명, axis 방향 설정)
score_data.apply(calculate, axis=1)

In [None]:
# 각 반들끼리의 점수 차이를 내림차순으로 정렬해보세요
score_data.apply(calculate, axis=1).sort_values(ascending = False) 

#### 데이터 병합 : concat()
- Series나 DataFrame을 합칠때 사용

In [None]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series(['female', 'female', 'male', 'male', 'female'])
s3 = pd.Series([1, 0, 1, 0, 1])

In [None]:
# s1, s2, s3 시리즈를 하나의 데이터프레임으로 합치기
titanic = pd.concat([s1,s2,s3], axis=1)   # axis=1 : 열 방향으로 합치기
titanic.columns = ['PassengerID', 'Sex', 'Survived']
titanic

In [None]:
titanic = pd.concat([s1,s2,s3]) # 행 방향으로 합치기
titanic

#### groupby()
- 그룹별로 묶어서 집계를 낼 수 있게 하는 함수

In [None]:
titanic[['Sex', 'Survived']]

In [None]:
# 성별을 기준으로 생존자 수의 합계를 출력
titanic[['Sex', 'Survived']].groupby('Sex').sum()

In [None]:
# Sex, Survived를 기준으로 생존자수와 사망자수 확인하기
titanic.groupby(['Sex', 'Survived']).count() 

In [None]:
titanic

### Pandas 실습예제
- 2015-2017년 광주광역시 범죄 현황데이터를 이용해서 전년 대비 지역별 범죄 증감율을 구해보자!
- 증감율 공식 : (금년-작년)/작년*100

![%EA%B2%B0%EA%B3%BC%ED%99%94%EB%A9%B4.png](attachment:%EA%B2%B0%EA%B3%BC%ED%99%94%EB%A9%B4.png)

#### 1.데이터 로드

In [3]:
a_data = pd.read_csv("data/2015.csv", encoding ='euc-kr', index_col = '관서명')
b_data = pd.read_csv("data/2016.csv", encoding ='euc-kr', index_col = '관서명')
c_data = pd.read_csv("data/2017.csv", encoding ='euc-kr', index_col = '관서명')

In [4]:
a_data.shape

(36, 6)

In [5]:
b_data.shape

(36, 6)

In [6]:
c_data.shape

(42, 6)

#### 2.데이터 전처리
- df2017 데이터에 광주지방경찰청 이라는 관서명이 6개가 더 들어있음
- 결과 화면과 다른 데이터이기 때문에 삭제해줌

In [7]:
# 광주지방경찰철 행들을 전부 삭제
c_data.drop('광주지방경찰청', axis= 0, inplace =True)
c_data

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주동부경찰서,발생건수,3,5,77,624,1090
광주동부경찰서,검거건수,3,5,70,470,953
광주동부경찰서,검거인원,4,4,76,483,1538
광주동부경찰서,구속,2,3,2,19,9


### 3. 지역별 범죄 증감율을 구하기 위하여 범죄발생횟수의 총합이 필요

In [8]:
a_data['총계'] = a_data.sum(axis = 1)
b_data['총계'] = b_data.sum(axis = 1)
c_data['총계'] = c_data.sum(axis = 1)

In [9]:
a_data

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주지방경찰청계,검거건수,18,47,758,5409,8301,14533
광주지방경찰청계,검거인원,17,66,776,3433,11774,16066
광주지방경찰청계,구속,9,33,42,104,58,246
광주지방경찰청계,불구속,1,26,511,2781,5618,8937
광주지방경찰청계,기타,7,7,223,548,6098,6883
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주동부경찰서,검거건수,4,6,86,583,970,1649
광주동부경찰서,검거인원,4,7,98,447,1483,2039
광주동부경찰서,구속,3,2,8,13,10,36


#### 4. 필요한 데이터 분리 : 구분 컬럼의 발생건수의 총합을 분리해내보자

In [14]:
# 각 년도별 총계를 Series로 만들어보자
s15 = a_data.loc[a_data['구분'] == '발생건수', '총계']
s16 = b_data.loc[b_data['구분'] == '발생건수', '총계']
s17 = c_data.loc[c_data['구분'] == '발생건수', '총계']

In [11]:
s17

관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
Name: 총계, dtype: int64

#### 5. 전년대비 증감율 계산
- 증감율 공식 : (금년-작년) / 작년*100

In [15]:
s1516 = (s16 - s15) / s15*100
s1617 = (s17 - s16) / s16 * 100

In [16]:
s1516

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64

In [17]:
s1617

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

##### 6.Series들을 병합하여 데이터프레임으로 만들기

In [18]:
total = pd.concat([s15, s1516, s16, s1617, s17], axis =1)
total.columns = ['2015총계', '2015-2016 증감율', '2016총계', '2016-2017 증감율', '2017총계']
total

Unnamed: 0_level_0,2015총계,2015-2016 증감율,2016총계,2016-2017 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
