### pandas 사용하기


In [1]:
import pandas as pd

import numpy as np

### pandas 객체 종류

In [2]:
# Series Class : 1차원 -> 인덱스(index) + 값(value)
# DataFrame Class : 2차원 -> 표와 같은 형태

![image.png](attachment:image.png)

### pands 객체 다루기 

#### 1차원 시리즈 생성

In [3]:
series1 = pd.Series([3,4,5])
series1
# 시리즈는 여러 값을 나열한 자료구조
# 시리즈는 index , value로 구성됨
# 데이터 프레임을 구성하는 하위 요소. 즉 시리즈가 여러 개 모이면 하나의 데이터 프레임이 됨


0    3
1    4
2    5
dtype: int64

In [4]:
# 인덱스와 값을 가진 시리즈 생성 #1
series2 = pd.Series([3,4,5], index=['kim','seo','lee'])
series2

kim    3
seo    4
lee    5
dtype: int64

In [5]:
# 인덱스와 값을 가진 시리즈 생성 #2
series3 = pd.Series({'kim':3, 'seo':4, 'lee':5})

#### 시리즈 속성 확인 

In [6]:
# 값 확인 - values 
series3.values 

array([3, 4, 5], dtype=int64)

In [7]:
# 인덱스 확인 - index
series3.index 

Index(['kim', 'seo', 'lee'], dtype='object')

In [8]:
# 데이터 타입 확인 - dtype
series3.dtype

dtype('int64')

#### 시리즈와 인덱스의 이름 지정하기

In [9]:
display(series3.name) # 시리즈의 이름
display(series3.index.name) # 인덱스의 이름

# 이름 지정하기
series3.name = 'name_cnt'
series3.index.name = 'name'
display(series3.name) # 시리즈의 이름
display(series3.index.name) # 인덱스의 이름

None

None

'name_cnt'

'name'

In [10]:
series3

name
kim    3
seo    4
lee    5
Name: name_cnt, dtype: int64

- 리스트를 이용하여 시리즈 생성하기

In [11]:
country_p = pd.Series([9602000, 3344000, 1488000, 2419000], index=['서울','부산','광주','대구'])
country_p.name = '2020 인구수'
country_p.index.name = '도시'

display(country_p)

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

#### 시리즈 데이터 수정, 추가, 삭제

In [12]:
# 수정
country_p['부산'] = 3500000
country_p

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [13]:
# 추가
country_p['대전'] = 1500000
country_p

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [14]:
# 삭제 :  del, drop()
display(country_p.drop('서울'))  # pandas 시리즈 객체가 가지고 있는 내장 함수
display(country_p)               # drop을 적용하고자 할 떄는 inplace = True 로 설정

del country_p['서울'] # 파이썬 del 키워드
display(country_p)    # del 키워드는 실행과 동시에 초기화까지 됨.


도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [15]:
country_p

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 생성

In [16]:
# 단일 리스트로 데이터프레임 생성하기
num = [1, 2, 3]
df1 = pd.DataFrame(num)
df1 

Unnamed: 0,0
0,1
1,2
2,3


In [17]:
# 컬럼명과 인덱스를 부여한 데이터프레임 생성
df2 = pd.DataFrame(num, columns=['num'], index=['f', 's', 't'])
df2

Unnamed: 0,num
f,1
s,2
t,3


In [18]:
# 데이터를 이중 리스트로 넣어서 데이터프레임 생성하기
list1 = [['js-a',1],['js-b', 2],['ai',3]]
df3 = pd.DataFrame(list1, columns=['Class','Join'])
df3

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


In [19]:
# 데이터를 딕셔너리형으로 넣어서 데이터프레임 생성
df4 = pd.DataFrame({'Class' : ['js-a', 'js-b', 'ai'], 'Join' : [1, 2, 3]})
df4

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


#### 데이터프레임 속성 확인 

In [20]:
# 값 확인 - values
df4.values

array([['js-a', 1],
       ['js-b', 2],
       ['ai', 3]], dtype=object)

In [21]:
# 인덱스 확인 - index
df4.index

RangeIndex(start=0, stop=3, step=1)

In [22]:
# 컬럼명 확인 - columns
df4.columns

Index(['Class', 'Join'], dtype='object')

In [23]:
# 데이터 타입 확인 - dtypes 
df4.dtypes

Class    object
Join      int64
dtype: object

In [24]:
person_info = pd.DataFrame({'키':[175.3, 180.2, 178.6], '몸무게' : [66.2, 78.9, 55.1],
                            '나이':[27.0, 49.0, 35.0]}, index=['son','kim','park'])
display(person_info)

person_info.T # 전치(행과 열을 바꿔줌)

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [25]:
# 값 확인
display(person_info.values)
# 데이터 타입 확인
display(person_info.dtypes)
# 인덱스 확인
display(person_info.index)
# 컬럼명 확인
display(person_info.columns)

array([[175.3,  66.2,  27. ],
       [180.2,  78.9,  49. ],
       [178.6,  55.1,  35. ]])

키      float64
몸무게    float64
나이     float64
dtype: object

Index(['son', 'kim', 'park'], dtype='object')

Index(['키', '몸무게', '나이'], dtype='object')

### pandas 데이터 접근

#### 1차원 시리즈 데이터 접근

In [26]:
country_p

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [27]:
# 인덱스 번호로 접근
display(country_p[1]) # 광주
display(country_p[3]) # 대전

1488000

1500000

In [28]:
# 인덱스 라벨 접근
display(country_p['부산'])
display(country_p['대구'])

3500000

2419000

In [29]:
# 시리즈 변수에서 여러개 데이터 접근 
# 하나씩 가리키기(인덱싱)
display(country_p[['광주','대구']])
display(country_p[[1,2]])

# 슬라이싱
display(country_p['광주':'대전']) # 문자열로 슬라이싱 하면 끝값도 포함됨.마지막 값까지 접근이면 생략 가능
display(country_p[1:4]) # 마지막 값까지 접근이면 생략 가능 (인덱스 번호로 접근할 경우)

도시
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

도시
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

도시
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

도시
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 열 데이터 접근

In [30]:
df4

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


In [31]:
# 인덱싱 
df4['Class'] # 시리즈 형태로 출력

0    js-a
1    js-b
2      ai
Name: Class, dtype: object

In [32]:
df4[['Class']] # 대괄호로 두번 감싸면 데이터프레임 형태로 출력.

Unnamed: 0,Class
0,js-a
1,js-b
2,ai


In [33]:
# 여러 개의 컬럼을 한꺼번에 접근(추출)하기
df4[['Class','Join']]

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


#### 2차원 데이터 프레임 행 데이터 접근 

In [34]:
df6 = df4.set_index('Class') # Class 라는 컬럼을 인덱스로 사용하겠다
df6

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2
ai,3


In [35]:
# 슬라이싱으로 'js-a' 데이터 접근
df6[0 : 1] # 슬라이싱을 사용하면 행에 접근


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1


In [36]:
# js-b 꺼내오기 -> 슬라이싱으로
df6[1 : 2]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-b,2


In [37]:
# 인덱스 라벨을 이용하여 슬라이싱
df6['js-a' : 'js-b']

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


In [38]:
df6[:]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2
ai,3


#### 2차원 데이터프레임 행, 열 데이터에 더 편리하게 접근하기
- loc, iloc 인덱서
- loc(location) : 실제로 보이는 라벨명을 통해서 데이터에 접근하는 방법
- iloc(interger location) : numpy 배열의 인덱스 값을 통해서 데이터에 접근하는 방법, i는 interger인 
  index 번호값의 loc(위치)에 접근
- 사용형식 :
  데이터 변수명.인덱서[행, 열]
  -행, 열 자리 모두 여러 개의 요소에 접근할 경우 : [요소1, 요소2, ...], 슬라이싱을 통해서도 가능

In [39]:
# js-b 행 데이터 접근하기
display(df6.loc['js-b']) # 인덱스 라벨
display(df6.iloc[1])

Join    2
Name: js-b, dtype: int64

Join    2
Name: js-b, dtype: int64

In [40]:
# js-a 와 js-b 데이터 접근하기
display(df6.loc[:'js-b']) # 인덱스 라벨
display(df6.iloc[:2]) # 인덱스 번호
display(df6.iloc[[0, 1]])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


In [41]:
# Join 열 데이터 접근하기
display(df6.loc[:, 'Join'])
display(df6.iloc[:, 0])

Class
js-a    1
js-b    2
ai      3
Name: Join, dtype: int64

Class
js-a    1
js-b    2
ai      3
Name: Join, dtype: int64

In [42]:
# js-b의 Join 데이터 접근하기

In [43]:
display(df6.loc['js-b', 'Join']) # 인덱스 라벨
display(df6.iloc[1, 0])          # 인덱스 번호

2

2

In [44]:
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [45]:
# 1. person_info에서 'son' 의 나이 데이터
display(person_info.iloc[0, 2])


27.0

In [46]:
# 2. person_info에서 'son'의 키와 나이 데이터 추출
display(person_info.iloc[0, [0,2]])
person_info.iloc[0, : :2] # 슬라이싱 해서 두 개씩 띄어서 가지고 오는 규칙이 있을 경우

키     175.3
나이     27.0
Name: son, dtype: float64

키     175.3
나이     27.0
Name: son, dtype: float64

In [47]:
# 3, person_info에서 kim, park의 몸무게, 키 순서로 데이터 추출하기
display(person_info.loc[['kim','park'],['몸무게','키']])
person_info.iloc[1:, [1, 0]]
display(person_info.loc['kim':'park', ['몸무게','키']])
display(person_info.loc['kim':, ['몸무게','키']])

Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


#### 조건에 맞는 데이터 접근 : 불리언 인덱싱

In [48]:
df4

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


In [49]:
# Join 컬럼에서 값이 2 이상인 데이터 접근
df4[df4['Join' ] >= 2]

Unnamed: 0,Class,Join
1,js-b,2
2,ai,3


In [50]:
# 문자값을 기반으로 Class가 js-a 이거나 js-b인 데이터만 추출

In [51]:
df4[(df4['Class'] == 'js-a') | (df4['Class'] == 'js-b')]

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2


In [52]:
# Join의 컬럼 값이 2 이하인 클래스의 이름을 리스트나 배열로 출력하기
df4[df4['Join'] <= 2]['Class'].values

array(['js-a', 'js-b'], dtype=object)

In [53]:
df4.loc[df4['Join'] <= 2, 'Class'].values #loc 인덱서로 불리언 인덱싱한 값 

array(['js-a', 'js-b'], dtype=object)

#### query() : 함수를 통한 행 접근
- df4[df4['Join'] <= 2] ==> df4.query('Join <=2')

- query() 장점
  - 분석 코드가 간결
  - 가독성 좋음
  - 조건을 결합하여 사용하는 경우 더 강력함
- pandas의 query 함수는 SQL의 where 함수의 역할을 함.
- 하지만 query 는 필터링만 함. where는 조건에 따른 값을 받을 수 있음..?

In [54]:
# 숫자값 ==> Join의 값이 2 이상인 데이터 추출(불리언 인덱싱)
df4[df4['Join'] >= 2]

Unnamed: 0,Class,Join
1,js-b,2
2,ai,3


In [55]:
# query 함수를 사용하여 추출
df4.query('Join >= 2')

Unnamed: 0,Class,Join
1,js-b,2
2,ai,3


In [56]:
# 문자 값 ==> Class ai or js-a 데이터 추출하기
# 주의사항 : 전체조건과 추출할 문자의 따옴표 구분하기!!!!!!!!!!!
df4.query('Class == "ai" or Class == "js-a"')

Unnamed: 0,Class,Join
0,js-a,1
2,ai,3


In [57]:
# Join이 2 이하인 Class 명은 몇 개인지 확인하기 (query 함수 이용)

# 1. Join이 2 이하라는 조건에 맞는 값
df4.query('Join <= 2')
# 2. 1에서 추출한 값 []조합하여 최종 값 확인
df4.query('Join <= 2')['Class'].size

2

In [58]:
# 인덱서 기반으로 위 문제 접근하기
df4.loc[df4['Join'] <= 2, 'Class'].size

2

### pandas 연산 및 유용한 함수

#### 파일 불러오기 및 저장

In [59]:
exam = pd.read_csv('./data/exam.csv')
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


#### 데이터 파악하기
- head() : 앞에서부터 5개 행 출력
- tail() : 뒤에서부터 5개 행 출력
- shape  : 행, 열 개수 출력
- info() : 변수 속성 출력
- describe() : 요약 통계량 출력 --> 숫자 데이터에 대한 요약 통계량. 
                                --> 문자 데이터를 요약통계량으로 보고자 할 경우 (include='all')
     
                       

In [60]:
display(exam.head(3))
display(exam.tail(3))
display(exam.shape)
display(exam.info()) # 컬럼들의 속성을 보여줌 -> 모든 컬럼의 속성을 한 눈에 파악할 수 있음
# <class 'pandas.core.frame.DataFrame'> : 판다스의 데이터프레임 객체
# RangeIndex : 20 entries, 0 to 19 : 0 ~ 19 번 인덱스로 총 20개의 행 구현
# Data columns (total 5 columns) : 컬럼(변수) 개수 총 5개 구성
# # 변수 순서 
# Column : 컬럼명
# Non-Null Count : 컬럼(변수)에 들어있는 값의 개수, 결측치
# dtype : 데이터 타입
#       : int64 : 64는 변수가 64비트로 되어있다는 의미
#                   1비트(0,1)로 두 개의 값을 표현할 수 있으므로 int64 => 2^64개의 정수 표현 가능
display(exam.describe())

# 모든 변수의 요약 통계량 --> 기본적으로 숫자값들에 대한 통계정보 표시[문자값 : include='all']
# count : 빈도(frequency), 값의 개수
# mean : 평균. 모든 값을 더해서 값의 갯수로 나눈 값
# std : 표준편차(standard deviation), 변수 값들의 평균에서 떨어진 정도를 나타냄
# min : 최솟값, 가장 작은 값.
# 25% : 1사분위수(1st quantile), 하위 25%(4분의 1)지점에 위치한 값
# 50% : 중앙값(median), 하위 50%(중앙)지점에 위치한 값
# 75% : 3사분위수(3rd quantile), 하위 75%(4분의 3)지점에 위치한 값
# max : 최대값, 가장 큰 값

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


Unnamed: 0,id,nclass,math,english,science
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


(20, 5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes


None

Unnamed: 0,id,nclass,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


#### 정렬
- sort_values()

In [61]:
# 1차원 - 수학 컬럼을 정렬해보기 ( 내림차순으로 정렬 )
exam['math'].sort_values(ascending=False) # ascending = False => 내림차순 정렬. 기본값은 오름차순(True)

7     90
18    89
17    80
6     80
19    78
14    75
16    65
10    65
1     60
15    58
9     50
5     50
0     50
13    48
12    46
11    45
2     45
3     30
4     25
8     20
Name: math, dtype: int64

In [62]:
# 2차원 - 학생번호, 수학컬럼 내림차순 정렬
exam[['id','math']].sort_values(by='math', ascending=False).head()
# 컬럼 수가 두개 이상일 때 정렬할 기준 컬럼을 설정 => by = '기준컬럼'
# 정렬 기준 컬럼이 여러 개 일때 순서대로 입력 ==> by=['기준컬럼1', '기준컬럼2']

Unnamed: 0,id,math
7,8,90
18,19,89
17,18,80
6,7,80
19,20,78


#### 예제 5 

In [63]:
data2 = pd.read_csv('./data/mpg.csv',delimiter=',')
display(data2.head(3))
display(data2.tail(3))
display(data2.shape) 
# display(data2.info()) # 속성정보를 알 수 있음.
display(data2.describe())
data2[data2['manufacturer']=="audi"].sort_values(by="hwy",ascending=False).head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


(234, 11)

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


####  파생변수 만들기

In [64]:
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [65]:
exam['total'] = exam[['math','english','science']].sum(axis=1)



In [66]:
exam[['math','english','science']].sum(axis=1)

0     198
1     217
2     209
3     186
4     170
5     237
6     215
7     193
8     133
9     193
10    195
11    162
12    209
13    147
14    209
15    221
16    231
17    248
18    244
19    219
dtype: int64

In [67]:
exam = exam.assign(mean=exam['total']/3)
exam

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [68]:
exam = exam.assign(result=np.where(exam['mean']>=60,'합격','불합격'))
# 

In [69]:
exam

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,합격
1,2,1,60,97,60,217,72.333333,합격
2,3,1,45,86,78,209,69.666667,합격
3,4,1,30,98,58,186,62.0,합격
4,5,2,25,80,65,170,56.666667,불합격
5,6,2,50,89,98,237,79.0,합격
6,7,2,80,90,45,215,71.666667,합격
7,8,2,90,78,25,193,64.333333,합격
8,9,3,20,98,15,133,44.333333,불합격
9,10,3,50,98,45,193,64.333333,합격


####  apply() 함수
- 사용자 정의함수를 통해 복잡한 연산을 적용할 수 있다.



![image.png](attachment:image.png)

In [70]:
def grade_check(stuRow) :
    grade = ''
    if stuRow['mean'] >= 85 :
        grade = "A"
    elif stuRow['mean'] >= 70 :
        grade = "B"
    elif stuRow['mean'] >= 60 :
        grade = "C" 
    else : 
        grade = "F"
    return grade

In [71]:
exam['grade'] = exam.apply(grade_check,axis=1)
display(exam.head(3))

Unnamed: 0,id,nclass,math,english,science,total,mean,result,grade
0,1,1,50,98,50,198,66.0,합격,C
1,2,1,60,97,60,217,72.333333,합격,B
2,3,1,45,86,78,209,69.666667,합격,C


####  group by
- 데이터를 특정 컬럼에 맞춰 그룹화하는 함수

In [72]:
# 과정별 평균 구하기
exam.drop(['result','grade'], axis=1).groupby('nclass').mean()

Unnamed: 0_level_0,id,math,english,science,total,mean
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2.5,46.25,94.75,61.5,202.5,67.5
2,6.5,61.25,84.25,58.25,203.75,67.916667
3,10.5,45.0,86.5,39.25,170.75,56.916667
4,14.5,56.75,84.75,55.0,196.5,65.5
5,18.5,78.0,74.25,83.25,235.5,78.5


In [73]:
exam.drop(['result','grade'], axis=1).groupby('nclass').agg('mean')

Unnamed: 0_level_0,id,math,english,science,total,mean
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2.5,46.25,94.75,61.5,202.5,67.5
2,6.5,61.25,84.25,58.25,203.75,67.916667
3,10.5,45.0,86.5,39.25,170.75,56.916667
4,14.5,56.75,84.75,55.0,196.5,65.5
5,18.5,78.0,74.25,83.25,235.5,78.5


In [74]:
rs = exam.drop(['result'],axis=1).groupby(by=['nclass','grade']).mean() 

In [75]:
# 멀티인덱스 색인
rs.loc[(2,'C')]

id           8.000000
math        90.000000
english     78.000000
science     25.000000
total      193.000000
mean        64.333333
Name: (2, C), dtype: float64

![image.png](attachment:image.png)

In [76]:
midwest = pd.read_csv('./data/midwest.csv', delimiter=',')

midwest.rename(columns={'poptotal':'total', 'popasian':'asian'},inplace=True)

midwest['전체인구 대비 아시아 인구 백분율'] = midwest['asian']/midwest['total'] * 100




midwest = midwest.assign(avg=np.where(midwest['전체인구 대비 아시아 인구 백분율'] > midwest['전체인구 대비 아시아 인구 백분율'].mean(),'large','small'))


midwest.groupby('avg').count()['PID']


avg
large    119
small    318
Name: PID, dtype: int64

In [77]:
# 선생님 풀이


In [78]:
# m = midewst['전체인구 대비 아시아 인구 백분율'].mean()
# midwest.assign(result=np.where(midwest['전체인구 대비 아시아 인구 백분율']))

In [79]:
# midwest['result'].value_counts()
# midwest.groupby('result').size()

#### 예제7

![image.png](attachment:image.png)

In [80]:
#Q1
rs = data2[['category','cty']].groupby('category').mean()

In [81]:
# Q2
rs.sort_values(by='cty',ascending=False)

Unnamed: 0_level_0,cty
category,Unnamed: 1_level_1
subcompact,20.371429
compact,20.12766
midsize,18.756098
minivan,15.818182
2seater,15.4
suv,13.5
pickup,13.0


In [82]:
# Q3
data2[['manufacturer','hwy']].groupby('manufacturer').mean().sort_values('hwy',ascending=False).head(3)

Unnamed: 0_level_0,hwy
manufacturer,Unnamed: 1_level_1
honda,32.555556
volkswagen,29.222222
hyundai,26.857143


In [83]:
# Q4
data2[['manufacturer','category']][data2['category'] == 'compact'].groupby('manufacturer').size().sort_values(ascending=False)

manufacturer
audi          15
volkswagen    14
toyota        12
subaru         4
nissan         2
dtype: int64

In [84]:
# loc, iloc 를 이용한 방법
# data2.loc[행, 열]
data2.loc[data2['category']=='compact', ['manufacturer','category']]

Unnamed: 0,manufacturer,category
0,audi,compact
1,audi,compact
2,audi,compact
3,audi,compact
4,audi,compact
5,audi,compact
6,audi,compact
7,audi,compact
8,audi,compact
9,audi,compact


#### fillna - 결측치 처리

![image.png](attachment:image.png)

In [85]:
data = pd.DataFrame([['m',5.0],['f',4.0],[np.nan, 3.0],
                     ['m',4.0],['f',np.nan]],
                    columns=['gender','score'])
data 

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [86]:
data['score'] = data['score'].fillna(0)

In [87]:
data['gender'].fillna('m',inplace=True)

In [88]:
data

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,m,3.0
3,m,4.0
4,f,0.0


In [89]:
# 원본의 데이터가 변경되지 않음. 사용 후 원레 데이터에 덮어쓰기 작업 필요

#### dropna - 결측치 처리

In [90]:
data3 = pd.DataFrame([['m',5.0],['f',4.0],[np.nan, 3.0],
                     ['m',4.0],['f',np.nan]],
                    columns=['gender','score'])
data3

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [91]:
data3.dropna() # 결측치가 있는 행은 다 사라짐.

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
3,m,4.0


In [92]:
# 결측치를 확인하는 컬럼 지정
data3.dropna(subset='score')

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0


#### drop - 데이터 삭제 

In [93]:
data3.drop(2) 

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
3,m,4.0
4,f,


In [94]:
data3.drop('gender',axis=1) 

Unnamed: 0,score
0,5.0
1,4.0
2,3.0
3,4.0
4,


#### 이상치 처리
- 정상범위에서 벗어나거나 존재할 수 없는 값
- 삭제하거나 다른 대체값으로 변경한다.

In [95]:
data4 = pd.DataFrame([['m',5.0],['f',4.0],
                      ['ff',4.0],['m',4.0],
                      ['f',np.nan]],
                    columns=['gender','score'])
data4

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,ff,4.0
3,m,4.0
4,f,


In [96]:
data4['gender'] = np.where(data4['gender'] == 'ff', 'f', data4['gender'])

In [97]:
data4

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,f,4.0
3,m,4.0
4,f,


In [98]:
# 이 방법은 한번정도만 사용하는게 좋음. 
# 통계적인 방법으로 이상치 처리하기 -> 사분위수 활용
# 1사분위
pct25 = data2['hwy'].quantile(.25)
# 3사분위
pct75 = data2['hwy'].quantile(.75)

print(pct25, pct75)

# IQR 구하기
iqr = pct75 - pct25
print(iqr)

# 하한, 상한 경계 값 계싼
# iqr * 1.5
print("하한 경계값 :", pct25 - 1.5* iqr)
print("상한 경계값 :", pct75 + 1.5* iqr)

18.0 27.0
9.0
하한 경계값 : 4.5
상한 경계값 : 40.5


In [99]:
# 이상치 제거
data2['hwy'] = np.where((data2['hwy']<4.5) | (data2['hwy']>40.5), np.nan, data2['hwy'])

In [100]:
data2[data2['hwy'].isnull()]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,,d,compact
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,,d,subcompact
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,,d,subcompact


In [101]:
# 결측치 처리된 이상치를 삭제
data2.dropna(inplace=True)

#### cut - 카테고리(범주형) 데이터로 변경

In [102]:
# 일반적으로 데이터가 정해진 값 안에서 등장.
# 사용자가 임의로 사이값을 만들어 낼 수 없음 ex) 혈액형, 학점, 

# 수치형 데이터 : range가 정해져 있지 않음.

In [103]:
ages = [0, 2, 15, 21, 23, 37, 31, 61, 20, 41, 32, 100]
bins = [-1, 15, 25, 35, 60, 100] # 구간 정보
labels = ['미성년자','청년','중년','장년','노년']
# 미성년자 : 0 ~ 15, 청년 16~ 25, 중년 26 ~ 35, 장년 36~ 60, 노년 61 ~ 100
cats = pd.cut(ages, bins, labels=labels)

cats

['미성년자', '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', '노년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [104]:
# 구간을 정해서 데이터를 묶은 다음 살펴보면 좋음.

In [105]:
# 10대 20대 30대 40대 50대이상
bins = [-1, 19, 29, 39, 49, 100] 
labels = ['10대','20대','30대','40대','50대이상']

cats = pd.cut(ages, bins, labels=labels)

cats

['10대', '10대', '10대', '20대', '20대', ..., '50대이상', '20대', '40대', '30대', '50대이상']
Length: 12
Categories (5, object): ['10대' < '20대' < '30대' < '40대' < '50대이상']

#### concat - 데이터 병합

In [106]:
df1 = pd.DataFrame([[1,2,3,4,5], [60, 80, 70, 90, 85,]]).T
df1.columns = ['id', 'test']


df2 = pd.DataFrame([[1,2,3,4,5], [60, 80, 70, 90, 85,]]).T
df2.columns = ['id', 'test']

display(df1)
display(df2)

df3 = pd.concat([df1,df2])
display(df3)

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


#### merge - 데이터 병합 (join 과 같은 기능 )

In [107]:
df4 = pd.DataFrame([[1,2,3,4,5],[60,80,70,90,85]]).T
df4.columns=['id','midterm']

df5 = pd.DataFrame([[1,2,3,4,6],[70, 83, 65, 95, 80]]).T
df5.columns=['id','final']

total = pd.merge(df4, df5, how='left', on='id')
total

Unnamed: 0,id,midterm,final
0,1,60,70.0
1,2,80,83.0
2,3,70,65.0
3,4,90,95.0
4,5,85,


#### 데이터 로딩

In [108]:
# 각 동별로 인구, 공무원 수 , cctv 수
# how를 inner로 주면 교집합처럼 양쪽에 있는걸 고려해서 양쪽이 

In [265]:
cctv = pd.read_csv('./data/광주광역시_CCTV_20230630.CSV', encoding='euc-kr') 
dong = pd.read_csv('./data/광주광역시_행정동별 현황_20211231.csv', encoding='euc-kr')

In [266]:
cctv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5690 entries, 0 to 5689
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   관리기관명     5690 non-null   object 
 1   소재지지번주소   5690 non-null   object 
 2   소재지도로명주소  4247 non-null   object 
 3   카메라대수     5690 non-null   int64  
 4   카메라화소     5690 non-null   object 
 5   촬영방면정보    5690 non-null   object 
 6   보관일수      5690 non-null   object 
 7   설치연도      5690 non-null   int64  
 8   위도        5680 non-null   float64
 9   경도        5680 non-null   float64
 10  데이터기준일자   5690 non-null   object 
dtypes: float64(2), int64(2), object(7)
memory usage: 489.1+ KB


In [267]:
dong.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   동  별        102 non-null    object 
 1   인구(명)       102 non-null    int64  
 2   면적(제곱킬로미터)  102 non-null    float64
 3   세대수         102 non-null    int64  
 4   통           102 non-null    int64  
 5   리           0 non-null      float64
 6   반           102 non-null    int64  
 7   공무원(명)      102 non-null    int64  
dtypes: float64(2), int64(5), object(1)
memory usage: 6.5+ KB


#### 필요 데이터 추출(전처리) 

In [268]:
cctv.columns

Index(['관리기관명', '소재지지번주소', '소재지도로명주소', '카메라대수', '카메라화소', '촬영방면정보', '보관일수',
       '설치연도', '위도', '경도', '데이터기준일자'],
      dtype='object')

In [269]:
dong.columns

Index(['동  별', '인구(명)', '면적(제곱킬로미터)', '세대수', '통', '리', '반', '공무원(명)'], dtype='object')

In [270]:
cctv = cctv[["소재지지번주소","카메라대수","위도","경도"]]
dong = dong[["동  별","인구(명)","공무원(명)"]]

In [271]:
# 동 이름 추출
# 방법 1
def extractCCTV(row) :
    return row['소재지지번주소'].split(" ")[1]

In [272]:
cctv['동이름2'] = cctv.apply(extractCCTV, axis = 1)

In [273]:
# 방법 2
cctv['동이름3'] = cctv['소재지지번주소'].str.split(" ").str[1]

In [274]:
dong['동이름3']  = dong['동  별'].str.split("(").str[0]

In [275]:
# 두 데이터의 동이름 검색
len(set(cctv['동이름3']) & set(dong['동이름3']))

37

In [276]:
set(cctv['동이름3']) - set(dong['동이름3'])

{'각화동',
 '계림동',
 '고룡동',
 '광산동',
 '구동',
 '구소동',
 '궁동',
 '금곡동',
 '금남로1가',
 '금남로3가',
 '금남로4가',
 '금남로5가',
 '금동',
 '금호동',
 '남동',
 '남산동',
 '내남동',
 '내방동',
 '내산동',
 '노대동',
 '농성동',
 '누문동',
 '대의동',
 '대인동',
 '대지동',
 '덕림동',
 '덕의동',
 '덕흥동',
 '도금동',
 '도덕동',
 '도천동',
 '동산동',
 '동호동',
 '두암동',
 '두정동',
 '등임동',
 '마륵동',
 '망월동',
 '매월동',
 '명화동',
 '문화전당로',
 '문흥동',
 '박호동',
 '방림동',
 '백서로',
 '백운동',
 '벽진동',
 '복룡동',
 '본덕동',
 '본촌동',
 '봉선동',
 '북동',
 '불로동',
 '사동',
 '산막동',
 '산수동',
 '산월동',
 '산정동',
 '삼거동',
 '생용동',
 '서동',
 '서봉동',
 '서석동',
 '석정동',
 '선교동',
 '선동',
 '선암동',
 '세하동',
 '소촌동',
 '소태동',
 '송대동',
 '송산동',
 '송정동',
 '송촌동',
 '송치동',
 '송하동',
 '송학동',
 '수곡동',
 '수기동',
 '승촌동',
 '신룡동',
 '신장동',
 '신촌동',
 '쌍암동',
 '쌍촌동',
 '안청동',
 '압촌동',
 '양과동',
 '양림로',
 '양촌동',
 '연산동',
 '연제동',
 '오룡동',
 '오산동',
 '오선동',
 '오치동',
 '옥동',
 '용강동',
 '용곡동',
 '용동',
 '용두동',
 '용산동',
 '용연동',
 '용전동',
 '운림동',
 '운수동',
 '운암동',
 '운정동',
 '원산동',
 '월계동',
 '월곡동',
 '월남동',
 '월성동',
 '월전동',
 '월출동',
 '유동',
 '유촌동',
 '이장동',
 '임암동',
 '장덕동',
 '장동',
 '장등동',
 '장록동',
 '장수동',
 '주월동',
 '

In [277]:
set(dong['동이름3']) - set(cctv['동이름3'])

{'계림1동',
 '계림2동',
 '광산구',
 '금호1동',
 '금호2동',
 '남구',
 '농성1동',
 '농성2동',
 '동곡동',
 '동구',
 '두암1동',
 '두암2동',
 '두암3동',
 '문화동',
 '문흥1동',
 '문흥2동',
 '방림1동',
 '방림2동',
 '백운1동',
 '백운2동',
 '본량동',
 '봉선1동',
 '봉선2동',
 '북구',
 '사직동',
 '상무1동',
 '상무2동',
 '서구',
 '서남동',
 '석곡동',
 '송암동',
 '송정1동',
 '송정2동',
 '신흥동',
 '양3동',
 '어룡동',
 '오치1동',
 '오치2동',
 '운암1동',
 '운암2동',
 '운암3동',
 '월곡1동',
 '월곡2동',
 '월산4동',
 '월산5동',
 '주월2동',
 '중앙동',
 '중흥1동',
 '중흥2동',
 '중흥3동',
 '지산1동',
 '지산2동',
 '지원1동',
 '지원2동',
 '첨단1동',
 '첨단2동',
 '충장동',
 '평동',
 '학운동',
 '화정1동',
 '화정2동',
 '화정3동',
 '화정4동',
 '효덕동'}

In [278]:
# 동이름에서 숫자를 제거하고 병합하기
# 방법1
def removeNumber (row) :
    txt = row['동이름3']
    for i in range(10) :
        txt = txt.replace(str(i),"")
        
    return txt

In [279]:
cctv['동이름'] = cctv.apply(removeNumber, axis= 1)
dong['동이름'] = dong.apply(removeNumber, axis= 1)

In [280]:
len(set(cctv['동이름']) & set(dong['동이름']))

52

In [281]:
# 방법 2 정규표현식
cctv['동이름4']=cctv['동이름3'].str.replace("\d","",regex=True)
dong['동이름4']=dong['동이름3'].str.replace("\d","",regex=True)

In [282]:
len(set(cctv['동이름4']) & set(dong['동이름4']))

52

In [283]:
cctv

Unnamed: 0,소재지지번주소,카메라대수,위도,경도,동이름2,동이름3,동이름,동이름4
0,광산구 광산동 666-7,2,35.225272,126.735854,광산동,광산동,광산동,광산동
1,광산구 도덕동 320-15,1,35.162851,126.699911,도덕동,도덕동,도덕동,도덕동
2,광산구 도덕동 320-15,1,35.162851,126.699911,도덕동,도덕동,도덕동,도덕동
3,광산구 도산동 1128-4,4,35.127057,126.789353,도산동,도산동,도산동,도산동
4,광산구 도산동 1282-1,1,35.130739,126.789865,도산동,도산동,도산동,도산동
...,...,...,...,...,...,...,...,...
5685,서구 화정동 893,1,35.143405,126.881806,화정동,화정동,화정동,화정동
5686,북구 운암동 91-18,1,35.174489,126.879815,운암동,운암동,운암동,운암동
5687,북구 운암동 91-18,1,35.174489,126.879815,운암동,운암동,운암동,운암동
5688,북구 운암동 91-18,1,35.174489,126.879815,운암동,운암동,운암동,운암동


In [284]:
# 결측치 제거
cctv.dropna(inplace=True)

In [285]:
cctv['경도'].astype('float64')

0       126.735854
1       126.699911
2       126.699911
3       126.789353
4       126.789865
           ...    
5684    126.881806
5685    126.881806
5686    126.879815
5687    126.879815
5688    126.879815
Name: 경도, Length: 5680, dtype: float64

In [293]:
# 그룹핑 후 연산 # agg사용하면 컬럼별로 다른 연산 가능
cctv_group = cctv[['동이름',"위도","경도","카메라대수"]].groupby("동이름",as_index=False).agg({"카메라대수":"sum",
                                                    "위도":"mean","경도":"mean"})

In [294]:
dong_group = dong[["동이름","인구(명)",'공무원(명)']].groupby('동이름',as_index=False).sum()
dong_group

Unnamed: 0,동이름,인구(명),공무원(명)
0,건국동,22423,16
1,계림동,20827,28
2,광산구,404221,341
3,광천동,8084,15
4,금호동,48584,35
...,...,...,...
68,하남동,26266,17
69,학동,7724,13
70,학운동,11445,14
71,화정동,61642,61


In [296]:
# 두 데이터 병함
final = pd.merge(cctv_group, dong_group, how="inner", on="동이름")
final

Unnamed: 0,동이름,카메라대수,위도,경도,인구(명),공무원(명)
0,건국동,2,35.215098,126.880692,22423,16
1,계림동,163,37.176593,124.90274,20827,28
2,광천동,79,35.165186,126.880207,8084,15
3,금호동,182,35.132212,126.85773,48584,35
4,농성동,198,35.153344,126.890065,15908,31
5,대촌동,3,35.230968,126.863477,6305,14
6,도산동,124,35.130103,126.792174,15279,17
7,동림동,71,35.185267,126.856603,23375,15
8,동명동,65,35.150985,126.924681,3890,12
9,동천동,62,35.170229,126.862898,16245,16


In [299]:
!pip install folium



In [309]:
import folium
m = folium.Map(location=[35.1595454, 126.8526012], zoom_start=12)

folium.Marker(
    [35.1595454, 126.8526012], popup="<i>광주</i>", tooltip="클릭해보세요",
).add_to(m)


folium.CircleMarker(
    location=[35.1595454, 126.8526012],
    radius=50,
    popup="광주광역시",
    color="#3186cc",
    fill=True,
    fill_color="#3186cc",
).add_to(m)

m

In [310]:
from folium.plugins import MarkerCluster 

In [316]:
m = folium.Map(location=[35.1595454, 126.8526012], zoom_start=12)

# 마커들을 군집시켜 시각화해주는 플러그인 추가
marker_cluster = MarkerCluster().add_to(m)

for n, c, lat, long, in zip(final['동이름'],final['카메라대수'],final['위도'],final['경도']) :
    folium.Marker([lat,long],
                 tooltip=n+":"+str(c)+"대").add_to(marker_cluster)
    
m.save("index.html")
m

In [None]:
matplotlib 