### pandas 사용하기


In [1]:
import pandas as pd

import numpy as np

### pandas 객체 종류

In [2]:
# Series Class : 1차원 -> 인덱스(index) + 값(value)
# DataFrame Class : 2차원 -> 표와 같은 형태

![image.png](attachment:image.png)

### pands 객체 다루기 

#### 1차원 시리즈 생성

In [3]:
series1 = pd.Series([3,4,5])
series1
# 시리즈는 여러 값을 나열한 자료구조
# 시리즈는 index , value로 구성됨
# 데이터 프레임을 구성하는 하위 요소. 즉 시리즈가 여러 개 모이면 하나의 데이터 프레임이 됨


0    3
1    4
2    5
dtype: int64

In [4]:
# 인덱스와 값을 가진 시리즈 생성 #1
series2 = pd.Series([3,4,5], index=['kim','seo','lee'])
series2

kim    3
seo    4
lee    5
dtype: int64

In [5]:
# 인덱스와 값을 가진 시리즈 생성 #2
series3 = pd.Series({'kim':3, 'seo':4, 'lee':5})

#### 시리즈 속성 확인 

In [6]:
# 값 확인 - values 
series3.values 

array([3, 4, 5], dtype=int64)

In [7]:
# 인덱스 확인 - index
series3.index 

Index(['kim', 'seo', 'lee'], dtype='object')

In [8]:
# 데이터 타입 확인 - dtype
series3.dtype

dtype('int64')

#### 시리즈와 인덱스의 이름 지정하기

In [9]:
display(series3.name) # 시리즈의 이름
display(series3.index.name) # 인덱스의 이름

# 이름 지정하기
series3.name = 'name_cnt'
series3.index.name = 'name'
display(series3.name) # 시리즈의 이름
display(series3.index.name) # 인덱스의 이름

None

None

'name_cnt'

'name'

In [10]:
series3

name
kim    3
seo    4
lee    5
Name: name_cnt, dtype: int64

- 리스트를 이용하여 시리즈 생성하기

In [11]:
country_p = pd.Series([9602000, 3344000, 1488000, 2419000], index=['서울','부산','광주','대구'])
country_p.name = '2020 인구수'
country_p.index.name = '도시'

display(country_p)

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

#### 시리즈 데이터 수정, 추가, 삭제

In [12]:
# 수정
country_p['부산'] = 3500000
country_p

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [13]:
# 추가
country_p['대전'] = 1500000
country_p

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [14]:
# 삭제 :  del, drop()
display(country_p.drop('서울'))  # pandas 시리즈 객체가 가지고 있는 내장 함수
display(country_p)               # drop을 적용하고자 할 떄는 inplace = True 로 설정

del country_p['서울'] # 파이썬 del 키워드
display(country_p)    # del 키워드는 실행과 동시에 초기화까지 됨.


도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [15]:
country_p

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 생성

In [16]:
# 단일 리스트로 데이터프레임 생성하기
num = [1, 2, 3]
df1 = pd.DataFrame(num)
df1 

Unnamed: 0,0
0,1
1,2
2,3


In [17]:
# 컬럼명과 인덱스를 부여한 데이터프레임 생성
df2 = pd.DataFrame(num, columns=['num'], index=['f', 's', 't'])
df2

Unnamed: 0,num
f,1
s,2
t,3


In [18]:
# 데이터를 이중 리스트로 넣어서 데이터프레임 생성하기
list1 = [['js-a',1],['js-b', 2],['ai',3]]
df3 = pd.DataFrame(list1, columns=['Class','Join'])
df3

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


In [19]:
# 데이터를 딕셔너리형으로 넣어서 데이터프레임 생성
df4 = pd.DataFrame({'Class' : ['js-a', 'js-b', 'ai'], 'Join' : [1, 2, 3]})
df4

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


#### 데이터프레임 속성 확인 

In [20]:
# 값 확인 - values
df4.values

array([['js-a', 1],
       ['js-b', 2],
       ['ai', 3]], dtype=object)

In [21]:
# 인덱스 확인 - index
df4.index

RangeIndex(start=0, stop=3, step=1)

In [22]:
# 컬럼명 확인 - columns
df4.columns

Index(['Class', 'Join'], dtype='object')

In [23]:
# 데이터 타입 확인 - dtypes 
df4.dtypes

Class    object
Join      int64
dtype: object

In [24]:
person_info = pd.DataFrame({'키':[175.3, 180.2, 178.6], '몸무게' : [66.2, 78.9, 55.1],
                            '나이':[27.0, 49.0, 35.0]}, index=['son','kim','park'])
display(person_info)

person_info.T # 전치(행과 열을 바꿔줌)

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [25]:
# 값 확인
display(person_info.values)
# 데이터 타입 확인
display(person_info.dtypes)
# 인덱스 확인
display(person_info.index)
# 컬럼명 확인
display(person_info.columns)

array([[175.3,  66.2,  27. ],
       [180.2,  78.9,  49. ],
       [178.6,  55.1,  35. ]])

키      float64
몸무게    float64
나이     float64
dtype: object

Index(['son', 'kim', 'park'], dtype='object')

Index(['키', '몸무게', '나이'], dtype='object')

### pandas 데이터 접근

#### 1차원 시리즈 데이터 접근

In [26]:
country_p

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [27]:
# 인덱스 번호로 접근
display(country_p[1]) # 광주
display(country_p[3]) # 대전

1488000

1500000

In [28]:
# 인덱스 라벨 접근
display(country_p['부산'])
display(country_p['대구'])

3500000

2419000

In [29]:
# 시리즈 변수에서 여러개 데이터 접근 
# 하나씩 가리키기(인덱싱)
display(country_p[['광주','대구']])
display(country_p[[1,2]])

# 슬라이싱
display(country_p['광주':'대전']) # 문자열로 슬라이싱 하면 끝값도 포함됨.마지막 값까지 접근이면 생략 가능
display(country_p[1:4]) # 마지막 값까지 접근이면 생략 가능 (인덱스 번호로 접근할 경우)

도시
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

도시
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

도시
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

도시
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 열 데이터 접근

In [30]:
df4

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


In [31]:
# 인덱싱 
df4['Class'] # 시리즈 형태로 출력

0    js-a
1    js-b
2      ai
Name: Class, dtype: object

In [32]:
df4[['Class']] # 대괄호로 두번 감싸면 데이터프레임 형태로 출력.

Unnamed: 0,Class
0,js-a
1,js-b
2,ai


In [33]:
# 여러 개의 컬럼을 한꺼번에 접근(추출)하기
df4[['Class','Join']]

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


#### 2차원 데이터 프레임 행 데이터 접근 

In [34]:
df6 = df4.set_index('Class') # Class 라는 컬럼을 인덱스로 사용하겠다
df6

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2
ai,3


In [35]:
# 슬라이싱으로 'js-a' 데이터 접근
df6[0 : 1] # 슬라이싱을 사용하면 행에 접근


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1


In [36]:
# js-b 꺼내오기 -> 슬라이싱으로
df6[1 : 2]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-b,2


In [37]:
# 인덱스 라벨을 이용하여 슬라이싱
df6['js-a' : 'js-b']

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


In [38]:
df6[:]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2
ai,3


#### 2차원 데이터프레임 행, 열 데이터에 더 편리하게 접근하기
- loc, iloc 인덱서
- loc(location) : 실제로 보이는 라벨명을 통해서 데이터에 접근하는 방법
- iloc(interger location) : numpy 배열의 인덱스 값을 통해서 데이터에 접근하는 방법, i는 interger인 
  index 번호값의 loc(위치)에 접근
- 사용형식 :
  데이터 변수명.인덱서[행, 열]
  -행, 열 자리 모두 여러 개의 요소에 접근할 경우 : [요소1, 요소2, ...], 슬라이싱을 통해서도 가능

In [39]:
# js-b 행 데이터 접근하기
display(df6.loc['js-b']) # 인덱스 라벨
display(df6.iloc[1])

Join    2
Name: js-b, dtype: int64

Join    2
Name: js-b, dtype: int64

In [40]:
# js-a 와 js-b 데이터 접근하기
display(df6.loc[:'js-b']) # 인덱스 라벨
display(df6.iloc[:2]) # 인덱스 번호
display(df6.iloc[[0, 1]])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
js-a,1
js-b,2


In [41]:
# Join 열 데이터 접근하기
display(df6.loc[:, 'Join'])
display(df6.iloc[:, 0])

Class
js-a    1
js-b    2
ai      3
Name: Join, dtype: int64

Class
js-a    1
js-b    2
ai      3
Name: Join, dtype: int64

In [42]:
# js-b의 Join 데이터 접근하기

In [43]:
display(df6.loc['js-b', 'Join']) # 인덱스 라벨
display(df6.iloc[1, 0])          # 인덱스 번호

2

2

In [44]:
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [45]:
# 1. person_info에서 'son' 의 나이 데이터
display(person_info.iloc[0, 2])


27.0

In [46]:
# 2. person_info에서 'son'의 키와 나이 데이터 추출
display(person_info.iloc[0, [0,2]])
person_info.iloc[0, : :2] # 슬라이싱 해서 두 개씩 띄어서 가지고 오는 규칙이 있을 경우

키     175.3
나이     27.0
Name: son, dtype: float64

키     175.3
나이     27.0
Name: son, dtype: float64

In [47]:
# 3, person_info에서 kim, park의 몸무게, 키 순서로 데이터 추출하기
display(person_info.loc[['kim','park'],['몸무게','키']])
person_info.iloc[1:, [1, 0]]
display(person_info.loc['kim':'park', ['몸무게','키']])
display(person_info.loc['kim':, ['몸무게','키']])

Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


#### 조건에 맞는 데이터 접근 : 불리언 인덱싱

In [48]:
df4

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2
2,ai,3


In [49]:
# Join 컬럼에서 값이 2 이상인 데이터 접근
df4[df4['Join' ] >= 2]

Unnamed: 0,Class,Join
1,js-b,2
2,ai,3


In [50]:
# 문자값을 기반으로 Class가 js-a 이거나 js-b인 데이터만 추출

In [51]:
df4[(df4['Class'] == 'js-a') | (df4['Class'] == 'js-b')]

Unnamed: 0,Class,Join
0,js-a,1
1,js-b,2


In [52]:
# Join의 컬럼 값이 2 이하인 클래스의 이름을 리스트나 배열로 출력하기
df4[df4['Join'] <= 2]['Class'].values

array(['js-a', 'js-b'], dtype=object)

In [53]:
df4.loc[df4['Join'] <= 2, 'Class'].values #loc 인덱서로 불리언 인덱싱한 값 

array(['js-a', 'js-b'], dtype=object)

#### query() : 함수를 통한 행 접근
- df4[df4['Join'] <= 2] ==> df4.query('Join <=2')

- query() 장점
  - 분석 코드가 간결
  - 가독성 좋음
  - 조건을 결합하여 사용하는 경우 더 강력함
- pandas의 query 함수는 SQL의 where 함수의 역할을 함.

In [54]:
# 숫자값 ==> Join의 값이 2 이상인 데이터 추출(불리언 인덱싱)
df4[df4['Join'] >= 2]

Unnamed: 0,Class,Join
1,js-b,2
2,ai,3


In [55]:
# query 함수를 사용하여 추출
df4.query('Join >= 2')

Unnamed: 0,Class,Join
1,js-b,2
2,ai,3


In [56]:
# 문자 값 ==> Class ai or js-a 데이터 추출하기
# 주의사항 : 전체조건과 추출할 문자의 따옴표 구분하기!!!!!!!!!!!
df4.query('Class == "ai" or Class == "js-a"')

Unnamed: 0,Class,Join
0,js-a,1
2,ai,3


In [57]:
# Join이 2 이하인 Class 명은 몇 개인지 확인하기 (query 함수 이용)

# 1. Join이 2 이하라는 조건에 맞는 값
df4.query('Join <= 2')
# 2. 1에서 추출한 값 []조합하여 최종 값 확인
df4.query('Join <= 2')['Class'].size

2

In [58]:
# 인덱서 기반으로 위 문제 접근하기
df4.loc[df4['Join'] <= 2, 'Class'].size

2

### pandas 연산 및 유용한 함수

#### 파일 불러오기 및 저장

In [59]:
exam = pd.read_csv('./data/exam.csv')
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


#### 데이터 파악하기
- head() : 앞에서부터 5개 행 출력
- tail() : 뒤에서부터 5개 행 출력
- shape  : 행, 열 개수 출력
- info() : 변수 속성 출력
- describe() : 요약 통계량 출력 --> 숫자 데이터에 대한 요약 통계량. 
                                --> 문자 데이터를 요약통계량으로 보고자 할 경우 (include='all')
     
                       

In [60]:
display(exam.head(3))
display(exam.tail(3))
display(exam.shape)
display(exam.info()) # 컬럼들의 속성을 보여줌 -> 모든 컬럼의 속성을 한 눈에 파악할 수 있음
# <class 'pandas.core.frame.DataFrame'> : 판다스의 데이터프레임 객체
# RangeIndex : 20 entries, 0 to 19 : 0 ~ 19 번 인덱스로 총 20개의 행 구현
# Data columns (total 5 columns) : 컬럼(변수) 개수 총 5개 구성
# # 변수 순서 
# Column : 컬럼명
# Non-Null Count : 컬럼(변수)에 들어있는 값의 개수, 결측치
# dtype : 데이터 타입
#       : int64 : 64는 변수가 64비트로 되어있다는 의미
                  1비트(0,1)로 두 개의 값을 표현할 수 있으므로 int64 => 2^64개의 정수 표현 가능
display(exam.describe())

# 모든 변수의 요약 통계량 --> 기본적으로 숫자값들에 대한 통계정보 표시[문자값 : include='all']
# count : 빈도(frequency), 값의 개수
# mean : 평균. 모든 값을 더해서 값의 갯수로 나눈 값
# std : 표준편차(standard deviation), 변수 값들의 평균에서 떨어진 정도를 나타냄
# min : 최솟값, 가장 작은 값.
# 25% : 1사분위수(1st quantile), 하위 25%(4분의 1)지점에 위치한 값
# 50% : 중앙값(median), 하위 50%(중앙)지점에 위치한 값
# 75% : 3사분위수(3rd quantile), 하위 75%(4분의 3)지점에 위치한 값
# max : 최대값, 가장 큰 값

IndentationError: unexpected indent (3104333060.py, line 13)

#### 정렬
- sort_values()

In [None]:
# 1차원 - 수학 컬럼을 정렬해보기 ( 내림차순으로 정렬 )
exam['math'].sort_values(ascending=False) # ascending = False => 내림차순 정렬. 기본값은 오름차순(True)

In [None]:
# 2차원 - 학생번호, 수학컬럼 내림차순 정렬
exam[['id','math']].sort_values(by='math', ascending=False).head()
# 컬럼 수가 두개 이상일 때 정렬할 기준 컬럼을 설정 => by = '기준컬럼'
# 정렬 기준 컬럼이 여러 개 일때 순서대로 입력 ==> by=['기준컬럼1', '기준컬럼2']

#### 예제 5 

In [None]:
data2 = pd.read_csv('./data/mpg.csv',delimiter=',')
display(data2.head(3))
display(data2.tail(3))
display(data2.shape) 
# display(data2.info()) # 속성정보를 알 수 있음.
display(data2.describe())
data2[data2['manufacturer']=="audi"].sort_values(by="hwy",asce)

####  파생변수 만들기

In [None]:
exam

In [61]:
exam['total'] = exam[['math','english','science']].sum(axis=1)


In [62]:
exam[['math','english','science']].sum(axis=1)

0     198
1     217
2     209
3     186
4     170
5     237
6     215
7     193
8     133
9     193
10    195
11    162
12    209
13    147
14    209
15    221
16    231
17    248
18    244
19    219
dtype: int64

In [65]:
exam = exam.assign(mean=exam['total']/3)
exam

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [66]:
exam = exam.assign(result=np.where(exam['mean']>=60,'합격','불합격'))

In [67]:
exam

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,합격
1,2,1,60,97,60,217,72.333333,합격
2,3,1,45,86,78,209,69.666667,합격
3,4,1,30,98,58,186,62.0,합격
4,5,2,25,80,65,170,56.666667,불합격
5,6,2,50,89,98,237,79.0,합격
6,7,2,80,90,45,215,71.666667,합격
7,8,2,90,78,25,193,64.333333,합격
8,9,3,20,98,15,133,44.333333,불합격
9,10,3,50,98,45,193,64.333333,합격


####  apply() 함수
- 사용자 정의함수를 통해 복잡한 연산을 적용할 수 있다.



![image.png](attachment:image.png)

In [77]:
def grade_check(stuRow) :
    grade = ''
    if stuRow['mean'] >= 85 :
        grade = "A"
    elif stuRow['mean'] >= 70 :
        grade = "B"
    elif stuRow['mean'] >= 60 :
        grade = "C" 
    else : 
        grade = "F"
    return grade

In [81]:
exam['grade'] = exam.apply(grade_check,axis=1)
display(exam.head(3))

Unnamed: 0,id,nclass,math,english,science,total,mean,result,grade
0,1,1,50,98,50,198,66.0,합격,C
1,2,1,60,97,60,217,72.333333,합격,B
2,3,1,45,86,78,209,69.666667,합격,C


####  group by
- 데이터를 특정 컬럼에 맞춰 그룹화하는 함수

In [86]:
# 과정별 평균 구하기
exam.drop(['result','grade'], axis=1).groupby('nclass').mean()

Unnamed: 0_level_0,id,math,english,science,total,mean
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2.5,46.25,94.75,61.5,202.5,67.5
2,6.5,61.25,84.25,58.25,203.75,67.916667
3,10.5,45.0,86.5,39.25,170.75,56.916667
4,14.5,56.75,84.75,55.0,196.5,65.5
5,18.5,78.0,74.25,83.25,235.5,78.5


In [87]:
exam.drop(['result','grade'], axis=1).groupby('nclass').agg('mean')

Unnamed: 0_level_0,id,math,english,science,total,mean
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2.5,46.25,94.75,61.5,202.5,67.5
2,6.5,61.25,84.25,58.25,203.75,67.916667
3,10.5,45.0,86.5,39.25,170.75,56.916667
4,14.5,56.75,84.75,55.0,196.5,65.5
5,18.5,78.0,74.25,83.25,235.5,78.5


In [90]:
exam.drop(['result'],axis=1).groupby(by=['nclass','grade']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,id,math,english,science,total,mean
nclass,grade,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,B,2.0,60.0,97.0,60.0,217.0,72.333333
1,C,2.666667,41.666667,94.0,62.0,197.666667,65.888889
2,B,6.5,65.0,89.5,71.5,226.0,75.333333
2,C,8.0,90.0,78.0,25.0,193.0,64.333333
2,F,5.0,25.0,80.0,65.0,170.0,56.666667
3,C,10.5,57.5,81.5,55.0,194.0,64.666667
3,F,10.5,32.5,91.5,23.5,147.5,49.166667
4,B,16.0,58.0,98.0,65.0,221.0,73.666667
4,C,14.0,60.5,77.0,71.5,209.0,69.666667
4,F,14.0,48.0,87.0,12.0,147.0,49.0
