### Pandas 사용하기

In [1]:
import pandas as pd

### Pandas 객체 종류
- 1차원 Series  : index + value
- 2차원 DataFrame : 표와 같은 형태
- table 형식의 정형 데이터를 정리하고 저장하는 자료구조를 지원

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### Pandas 객체 다루기

#### 1차원 시리즈 생성

In [2]:
num_series = pd.Series([3,4,5])
num_series
# 시리즈는 여러 값을 나열한 자료구조
# 시리즈는 index와 value로 구성됨
# 데이터 프레임을 구성하는 하위요소 ==> 시리즈가 여러개 모이면 데이터 프레임을 만듦

0    3
1    4
2    5
dtype: int64

In [3]:
# 인덱스와 값을 가진 시리즈 생성 - 1 
num_series2 = pd.Series([3,4,5],index=['lee', 'kim','jang'])
num_series2

lee     3
kim     4
jang    5
dtype: int64

In [4]:
# 인덱스와 값을 가진 시리즈 생성 - 2
num_series3 = pd.Series({'lee' : 3, 'kim' : 4, 'jang' : 5})
num_series3

lee     3
kim     4
jang    5
dtype: int64

#### 시리즈 속성 확인

In [5]:
# 값 확인
num_series3.values

array([3, 4, 5], dtype=int64)

In [6]:
# 인덱스 확인
num_series3.index

Index(['lee', 'kim', 'jang'], dtype='object')

In [7]:
# 데이터 타입 확인
num_series3.dtype

dtype('int64')

#### 시리즈와 인덱스에 이름 지정

In [8]:
# 이름 지정하기
num_series3.name = 'name_cnt'
num_series3.index.name = 'name'

print(num_series3.name)
print(num_series3.index.name)

name_cnt
name


#### 리스트를 이용하여 시리즈 생성하기 - 2020 인구수

In [9]:
population = pd.Series([9602000, 3344000, 1488000, 2419000], index=['서울', '부산', '광주', '대구'])
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [10]:
population.index.name ='도시'
population.name = '2020 인구수'

In [11]:
population

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

#### 시리즈 데이터의 갱신, 추가, 삭제

In [12]:
# 갱신 : 부산 데이터 --> 3500000
population['부산'] = 3500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [13]:
# 추가 : 대전 - 1500000
population['대전'] = 1500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [14]:
# 삭제 : del 키워드, drop()
population.drop('서울') # inplace = True로 지정해줘야 삭제된 값이 변수에 반영

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [15]:
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [16]:
del population['서울'] # 셀이 실행됨과 동시에 변수에 반영

In [17]:
population

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 생성

In [18]:
# 단일 리스트로 데이터프레임 생성
num = [1, 1, 3]
num_df = pd.DataFrame(num)
num_df

Unnamed: 0,0
0,1
1,1
2,3


In [19]:
# 이중리스트로 데이터프레임 생성
num2 = [['big', 1], ['ai', 1], ['iot', 3]]
num2_df = pd.DataFrame(num2)
num2_df

Unnamed: 0,0,1
0,big,1
1,ai,1
2,iot,3


In [20]:
# 컬럼 값을 추가 1) - 데이터 프레임을 생성할 때 같이
# 인덱스 값도 추가하고 싶다면
num2_df = pd.DataFrame(num2, columns=['Class', 'Join'])
num2_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [21]:
# 딕셔너리 자료를 이용하여 데이터프레임 생성
num3_df = pd.DataFrame({'Class' : ['big', 'ai', 'iot'], 'Join' : [1,1,3]})
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


#### 데이터프레임 속성 확인

In [22]:
# 값 확인
num3_df.values

array([['big', 1],
       ['ai', 1],
       ['iot', 3]], dtype=object)

In [23]:
# 인덱스 확인
num3_df.index

RangeIndex(start=0, stop=3, step=1)

In [24]:
# 컬럼명 확인
num3_df.columns

Index(['Class', 'Join'], dtype='object')

In [25]:
# 데이터 타입 확인
num3_df.dtypes

Class    object
Join      int64
dtype: object

In [26]:
info = [[175.3, 66.2,27.0], [180.2, 78.9, 49.0], [178.6, 55.1, 35.0]]
person_info = pd.DataFrame(info, columns=['키', '몸무게', '나이'])
person_info.index = ['son', 'kim', 'park']
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [27]:
person_info.T

Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [28]:
print('밸류 : ', person_info.values)
print()
print('데이터 타입 : ', person_info.dtypes)
print()
print('인덱스 값 : ', person_info.index)
print()
print('컬럼 : ', person_info.columns)

밸류 :  [[175.3  66.2  27. ]
 [180.2  78.9  49. ]
 [178.6  55.1  35. ]]

데이터 타입 :  키      float64
몸무게    float64
나이     float64
dtype: object

인덱스 값 :  Index(['son', 'kim', 'park'], dtype='object')

컬럼 :  Index(['키', '몸무게', '나이'], dtype='object')


### Pandas 데이터 접근

#### 시리즈 데이터 접근

In [29]:
num_series3

name
lee     3
kim     4
jang    5
Name: name_cnt, dtype: int64

In [30]:
# 인덱스 번호로 접근
print(num_series3[0])
print(num_series3[1])
print(num_series3[2])

3
4
5


In [31]:
# 인덱스 라벨로 접근
print(num_series3['lee'])
print(num_series3['kim'])


3
4


In [32]:
# 여러개 접근
display(num_series3[['lee','kim']])
display(num_series3[[0,1]])
# 슬라이싱
display(num_series3[:2])
display(num_series3[:'jang']) # 문자열로 접근할 때 끝값이 포함됨

name
lee    3
kim    4
Name: name_cnt, dtype: int64

name
lee    3
kim    4
Name: name_cnt, dtype: int64

name
lee    3
kim    4
Name: name_cnt, dtype: int64

name
lee     3
kim     4
jang    5
Name: name_cnt, dtype: int64

#### 데이터 프레임 열 데이터 접근

In [33]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [34]:
num3_df['Class']

0    big
1     ai
2    iot
Name: Class, dtype: object

In [35]:
num3_df[['Class']]

Unnamed: 0,Class
0,big
1,ai
2,iot


In [36]:
# 여러 컬럼을 한꺼번에 접근(추출)하기
num3_df[['Class', 'Join']]

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


#### 데이터 프레임 행 데이터 접근

In [37]:
num4_df = num3_df.set_index('Class')
num4_df

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1
iot,3


In [38]:
# 슬라이싱으로 행에 접근
num4_df[1:]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
ai,1
iot,3


In [39]:
num4_df[:1]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1


In [40]:
num4_df[:'ai']

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


#### 데이터 프레임 행,열 데이터에 더 편리하게 접근하기
- loc, iloc 인덱서
- loc : 실제로 보이는 라벨명을 통해 데이터에 접근하는 방법
- iloc : 넘파이 배열인덱스값을 통해 데이터에 접근하는 방법
         i : interger이 index 번호값의 loc(위치)에 접근함.
- 데이터.인덱서[행,열]
    - 콤마(,)앞은 행 뒤는 열의 값을 입력
    - 행, 열 자리 모두 여러개에 접근할 경우 [요소1, 요소2, ....]
    - 슬라이싱[:]을 통해서 접근

In [41]:
num4_df

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1
iot,3


In [42]:
# iot 행 데이터 접근하기
# 인덱스 번호
display(num4_df.iloc[[2]])
# 인덱스 라벨
display(num4_df.loc[['iot']])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
iot,3


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
iot,3


In [43]:
# big, ai 데이터 행 접근
# 인덱스 번호
display(num4_df.iloc[:2])
# 인덱스 라벨
display(num4_df.loc['big':'ai'])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


In [44]:
# Join 열에 접근하기
# 인덱스 번호
display(num4_df.iloc[:,0])

# 인덱스 라벨
display(num4_df.loc['big','Join'])

Class
big    1
ai     1
iot    3
Name: Join, dtype: int64

1

In [45]:
display(person_info.loc['son','나이'])
display(person_info.loc['son',['키','나이']])
display(person_info.loc["kim":"park",["몸무게", "키"]])

27.0

키     175.3
나이     27.0
Name: son, dtype: float64

Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


#### 조건에 맞는 데이터 접근하기 : 불리언 인덱싱

In [46]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [47]:
# Join 값이 2 이상인 데이터 접근하기
num3_df[num3_df['Join'] >= 2]

Unnamed: 0,Class,Join
2,iot,3


In [48]:
# 문자값으로 조건 : class가 big이거나 ai인 데이터 추출하기
num3_df[(num3_df['Class'] == 'big') | (num3_df['Class'] == 'ai')]

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [49]:
# Join값이 2이하인 Class 이름을 리스트나 배열로 출력하기

display(num3_df[num3_df['Join']<=2].loc[:,'Class'].values)


array(['big', 'ai'], dtype=object)

#### query() 함수를 통한 행 접근 
- 판다스의 query()함수는 SQL의 where 함수의 역할
- query함수의 장점
    - 분석 코드가 간결
    - 읽기도 더 쉬움
    - 조건 결합을 사용하는 경우 더욱 강력해짐

In [50]:
num3_df.query('Join <=2') # num3_df[num3_df['Join']<=2]

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [51]:
# 문자값: Class가 ai이거나 iot인 데이터 추출
# 전체 조건과 추출할 문자의 따옴표 구별하기 ==> 중요
num3_df.query('Class == "ai" or Class == "iot" ')

Unnamed: 0,Class,Join
1,ai,1
2,iot,3


In [52]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [53]:
num3_df.query('Join <= 2')['Class'].size

2

### 판다스 연산 및 유용한 함수

#### 파일 불러오기 및 저장

In [54]:
exam = pd.read_csv('./data/exam.csv')
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


#### 데이터 파악하기
- head() : 앞에서 5개 행 출력
- tail() : 뒤에서 5개 행 출력
- shape : 행, 열  개수 출력
- info : 변수 속성 출력
- describe : 요약 통계량 출력

In [55]:
display(exam.head(3)) # 기본값 = 5



Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [56]:
display(exam.tail(3)) # 기본값 = 5


Unnamed: 0,id,nclass,math,english,science
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [57]:
display(exam.shape)


(20, 5)

In [58]:
display(exam.info())
# 컬럼드의 속성을 보여주는 함수
# 모든 컬럼들의 속성을 한 눈에 파악할 수 있음
# 1. <class 'pandas.core.frame.DataFrame'> ==> 판다스의 데이터 프레임 객체
# 2. RangeIndex: 20 entries, 0 to 19 ==> 0 ~ 19번 인덱스로 총 20개의 행 구성
# 3. Data columns (total 5 columns) ==> 컬럼(변수)개수 총 5개 구성
# 4. # ==> 변수 순서(인덱스 개념)
# 5. Column ==> 컬럼명
# 6. Non-Null Count ==> 컬럼(변수)에 들어있는 값의 개수
#                       결측치를 제외하고 구한 값의 개수를 나타냄
# 7. Dtype ==> 데이터 타입
#    int64 ==> 변수가 64비트로 되어있다는 의미
#    1비트로 두개의 값을 표현할 수 있으므로 int64는 2^64개의 정수를 표현할 수 있다는 의미


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes


None

In [59]:
display(exam.describe())
# 모든 변수의 요약 통계량 ==> 기본적으로 숫자값들에 대한 통계정보 표시
#                             문자로 된 변수의 요약 통계량을 함께 툴력하려면?
#                             describe(include='all')로 설정

# 1. count ==> 빈도(frequency), 값의 개수
# 2. mean ==> 평균, 모든 값을 더해 값의 개수로 나눈 값
# 3. std ==> 변수 값들이 평균에서 떨어진 정도를 나타내는 값
# 4. min ==> 최솟값, 가장 작은 값
# 5. 25% ==> 1사분위수
# 6. 50% ==> 중위수(중앙값)
# 7. 75% ==> 3사분위수
# 8. max ==> 최댓값, 가장 큰 값

Unnamed: 0,id,nclass,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


#### 데이터 정렬
- sort_values()

In [60]:
# 1차원 데이터의 정렬
exam['math'].sort_values() # 기본값 : ascending = True 오름차순

8     20
4     25
3     30
2     45
11    45
12    46
13    48
0     50
9     50
5     50
15    58
1     60
10    65
16    65
14    75
19    78
6     80
17    80
18    89
7     90
Name: math, dtype: int64

In [61]:
# 내림차순
exam['math'].sort_values(ascending=False)

7     90
18    89
17    80
6     80
19    78
14    75
16    65
10    65
1     60
15    58
9     50
5     50
0     50
13    48
12    46
11    45
2     45
3     30
4     25
8     20
Name: math, dtype: int64

In [62]:
# 2차원 데이터의 정렬
# 1. 수학컬럼을 정렬하여 top 5학생 확인
exam[['id','math']].sort_values(by='math', ascending=False).head()
# 2. 학생id를 기준으로 출력

Unnamed: 0,id,math
7,8,90
18,19,89
17,18,80
6,7,80
19,20,78


In [63]:
exam[['id','math']].sort_values(by='math').head(3)

Unnamed: 0,id,math
8,9,20
4,5,25
3,4,30


![image.png](attachment:image.png)

In [64]:
# 1. mpg = 
mpg = pd.read_csv('./data/mpg.csv')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [65]:
# 2. 앞, 뒤 3개씩 출력하기
display(mpg.head(3))
display(mpg.tail(3))

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


In [66]:
# 3. 데이터 크기(행, 열) 확인
mpg.shape

(234, 11)

In [67]:
# 4. 데이터 속성 확인
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [68]:
# 5. 요약 통계량 확인
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [69]:
# 6.'audi' 제뭄 중 고속도로 연비 탑5 출력
mpg[mpg['manufacturer']=='audi'].sort_values(by='hwy', ascending=False).head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


#### 파생변수(컬럼) 추가
- 파생변수(derived variable) ? 기존의 변수를 변형해서 만든 변수
- 데이터에 들어있는 변수만 이용해서 분석할 수 있지만,
  변수를 조합하거나 함수를 이용해서 새 변수를 만들어 분석에 간능
- 컬럼을 추가하는 방법
    - 방법 1 : 데이터['새 컬럼명'] = 데이터 만드는 공식
    - 방법 2 : 데이터.assign(새 컬럼명 = 데이터 만드는 공식)
        - assgin() : 변수 추가, 내부 새로운 컬럼명 지정할 때 사용, 따옴표X
        - 여러개의 컬럼을 동시에 추가 생성 가능

In [70]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [71]:
# 방법 1 : 데이터['새 컬럼명'] = 데이터 만드는 공식

# sum() 이용
# 학생들의 수학, 영어, 과학점수를 더해 'total' 컬럼을 생성
exam['total'] = exam[['math', 'english', 'science']].sum(axis=1)
exam

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [72]:
# 방법 2 : 데이터.assign(새 컬럼명 = 데이터 만드는 공식)

# totla 컬럼을 이용해서 mean 컬럼을 생성
exam = exam.assign(mean = exam['total'] / 3)

In [73]:
exam

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [74]:
# lamda 함수를 이용해서 새로운 컬럼 생성
# 수학, 영어, 과학 점수를 이용해서 'mean2' 컬럼 생성

# exam ==> lambda x
exam.assign(mean2 = lambda x :(x['math'] + x['english'] + x['science'])/3)

# lambda 함수의 장점
# x : 데이터프레임명
# 데이터프레임명 자리에 x를 입력하겠다는 의미로 코드가 간결


Unnamed: 0,id,nclass,math,english,science,total,mean,mean2
0,1,1,50,98,50,198,66.0,66.0
1,2,1,60,97,60,217,72.333333,72.333333
2,3,1,45,86,78,209,69.666667,69.666667
3,4,1,30,98,58,186,62.0,62.0
4,5,2,25,80,65,170,56.666667,56.666667
5,6,2,50,89,98,237,79.0,79.0
6,7,2,80,90,45,215,71.666667,71.666667
7,8,2,90,78,25,193,64.333333,64.333333
8,9,3,20,98,15,133,44.333333,44.333333
9,10,3,50,98,45,193,64.333333,64.333333


In [75]:
import numpy as np

In [76]:
# 조건에 따라서 다른 값을 부여하여 데이터를 생성 후 파생변수(컬럼) 추가
# np.where() ==> (조건, 참, 거짓) : mean >=60, pass, fail

# 평균값이 60점 이상이면 pass, 미만이면 fail
exam = exam.assign(result = np.where(exam['mean']>=60, 'pass', 'fail'))
exam.head(10)

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,pass
1,2,1,60,97,60,217,72.333333,pass
2,3,1,45,86,78,209,69.666667,pass
3,4,1,30,98,58,186,62.0,pass
4,5,2,25,80,65,170,56.666667,fail
5,6,2,50,89,98,237,79.0,pass
6,7,2,80,90,45,215,71.666667,pass
7,8,2,90,78,25,193,64.333333,pass
8,9,3,20,98,15,133,44.333333,fail
9,10,3,50,98,45,193,64.333333,pass


#### 복잡한 기능 연결하는 함수 : apply()

In [77]:
# exam 데이터를 새로 불러와서 exam2 변수에 담아주기
exam2 = pd.read_csv('./data/exam.csv')
exam2

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [78]:
# 3과목의 평균을 구해서
# 85점 이상이면 : A
# 70점 이상이면 : B
# 60점 이상이면 : C
# 나머지 : F

# 함수정의
# 행 하나(한 학생의 성적 데이터)를 받아서 평균을 구하고 학점 매기기
def grade_check(row) : 
    mean = (row['math'] + row['english'] + row['science']) / 3
    if mean >= 85 :
        return 'A'
    elif mean >=70 :
        return 'B'
    elif mean >=60 :
        return 'C'
    else :
        return 'F'
    
# 정의한 함수(grade_check)를 호출해서 apply() 함수에 적용하기
exam2['grade'] = exam2.apply(grade_check, axis = 1) # 열의 방향
exam2

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C
3,4,1,30,98,58,C
4,5,2,25,80,65,F
5,6,2,50,89,98,B
6,7,2,80,90,45,B
7,8,2,90,78,25,C
8,9,3,20,98,15,F
9,10,3,50,98,45,C


In [79]:
exam2.assign(grade = exam2.apply(grade_check, axis = 1))

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C
3,4,1,30,98,58,C
4,5,2,25,80,65,F
5,6,2,50,89,98,B
6,7,2,80,90,45,B
7,8,2,90,78,25,C
8,9,3,20,98,15,F
9,10,3,50,98,45,C


#### 집단별(그룹별)요약 통계 확인 함수 : 
- dfgroup(), df.agg()
- groupby() : 집단별로 묶어주는 함수
- agg() : 요약 통계를 구할 때 사용하는 함수
    - 형식 : 요약값 할당할 변수 = ('값을 요약하는데 사용할 변수', '함수')
    - 전체를 요약한 값을 구하기보다 groupby()에 적용해서 집단별 요약값을 구할 때 사용
    - 사용하는 함수 : mean(), std(), sum(), median(), min(). max(), count()

In [80]:
# 과정별로 모든 컬럼에 대한 평균 한번에 구하기
# groupby()의 기본값 : 기준으로 넣어주는 변수를 인덱스로 바꾸도록 설정
# ==> as_index = False 설정 : 기준으로 넣어주는 변수(컬럼값)를 인덱스로 바꾸지 않고 원래대로 유지
exam2.groupby('nclass').mean()

Unnamed: 0_level_0,id,math,english,science
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2.5,46.25,94.75,61.5
2,6.5,61.25,84.25,58.25
3,10.5,45.0,86.5,39.25
4,14.5,56.75,84.75,55.0
5,18.5,78.0,74.25,83.25


In [81]:
# nclass별 math의 평균
exam2[['nclass', 'math']].groupby('nclass').mean()

Unnamed: 0_level_0,math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [82]:
# 요약 통게 연결하는 함수 : agg()
exam2.agg(math_mean = ('math', 'mean'))

Unnamed: 0,math
math_mean,57.45


In [83]:
# 반별 수학 평균 구하기
exam2[['nclass', 'math']].groupby('nclass').agg(math_mean = ('math', 'mean'))

Unnamed: 0_level_0,math_mean
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [84]:
# 여러 요약 통계량을 한번에 구하기
exam2.groupby('nclass').agg(math_mean = ('math', 'mean'), # 반별 수학점수 평균
                           math_sum = ('math', 'sum'), # 반별 수학점수 합계
                           math_median = ('math', 'median'), # 반별 수학점수 중앙값
                           n_class = ('nclass', 'count')) # 반별 학생수(빈도)

Unnamed: 0_level_0,math_mean,math_sum,math_median,n_class
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


In [85]:
# 집단별로 그룹지어진 집단을 다시 나누기
# --> groupby()에 여러 컬럼(변수)을 지정하면 집단을 나눈 후 다시 하위 집단으로 나눌 수 있음.

# 반 별 pass, fail 사람 수 출력하기
exam_result_cnt = exam.groupby(['nclass', 'result']).agg(result_cnt = ('result', 'count'))
exam_result_cnt

Unnamed: 0_level_0,Unnamed: 1_level_0,result_cnt
nclass,result,Unnamed: 2_level_1
1,pass,4
2,fail,1
2,pass,3
3,fail,2
3,pass,2
4,fail,1
4,pass,3
5,pass,4


In [86]:
np.random.seed(10)

df = pd.DataFrame()
df['A'] = np.random.randint(0, 5, size = 5)
df['B'] = np.random.randint(0, 5, size = 5)
df

Unnamed: 0,A,B
0,1,4
1,4,1
2,0,0
3,1,1
4,3,2


In [87]:
display(df.apply(np.sum, axis = 1))
display(df.apply(np.sum, axis = 0))

0    5
1    5
2    0
3    2
4    5
dtype: int64

A    9
B    8
dtype: int64

In [88]:
display(df.sum(axis=0))

A    9
B    8
dtype: int64

In [89]:
# 멀티인덱스(중복 인덱스)일 경우 데이터 접근하기
exam_result_cnt.index

MultiIndex([(1, 'pass'),
            (2, 'fail'),
            (2, 'pass'),
            (3, 'fail'),
            (3, 'pass'),
            (4, 'fail'),
            (4, 'pass'),
            (5, 'pass')],
           names=['nclass', 'result'])

In [90]:
# 4반의 pass한 사람의 수에 접근하려면?
exam_result_cnt.loc[(4, 'pass')]

result_cnt    3
Name: (4, pass), dtype: int64

#### 데이터 빈도 구하기
- value_counts()

In [91]:
# groupby()로 데이터 분리 -> agg()의 count() 함수로 각 반의 빈도 구하기
# exam 데이터 활용
exam.groupby('nclass').agg(p_cnt = ('nclass', 'count'))

Unnamed: 0_level_0,p_cnt
nclass,Unnamed: 1_level_1
1,4
2,4
3,4
4,4
5,4


In [92]:
# value_counts() 적용한 반 별 빈도수 
exam['nclass'].value_counts() # 1차원 시리즈 형태

1    4
2    4
3    4
4    4
5    4
Name: nclass, dtype: int64

![image.png](attachment:image.png)

In [93]:
mpg.groupby('category').agg(cty_mean = ('cty', 'mean'))

Unnamed: 0_level_0,cty_mean
category,Unnamed: 1_level_1
2seater,15.4
compact,20.12766
midsize,18.756098
minivan,15.818182
pickup,13.0
subcompact,20.371429
suv,13.5


In [94]:
mpg.groupby('category').agg(cty_mean = ('cty', 'mean')).sort_values('cty_mean',ascending=False)

Unnamed: 0_level_0,cty_mean
category,Unnamed: 1_level_1
subcompact,20.371429
compact,20.12766
midsize,18.756098
minivan,15.818182
2seater,15.4
suv,13.5
pickup,13.0


In [95]:
mpg.groupby('manufacturer').agg(hwy_mean = ('hwy', 'mean')).sort_values('hwy_mean',ascending=False).head(3)

Unnamed: 0_level_0,hwy_mean
manufacturer,Unnamed: 1_level_1
honda,32.555556
volkswagen,29.222222
hyundai,26.857143


In [125]:
compact = mpg[np.where(mpg['category'] == 'compact', True, False)]

display(compact.groupby('manufacturer').agg(compact_cnt=('category', 'count')).sort_values('compact_cnt', ascending=False))

Unnamed: 0_level_0,compact_cnt
manufacturer,Unnamed: 1_level_1
audi,15
volkswagen,14
toyota,12
subaru,4
nissan,2


#### 결측치 처리
- 결측치(missing value) : 누락된 값, 비어 있는 값
- 수집 과정에서 발생한 오류 때문에 데이터가 비어있는 상태로 수집
- 결측치가 존재 ==> 함수 적용 불가, 분석 결과 왜곡 문제가 발생
- 실제 데이터를 분석할 때는 결측치가 있는지 확인 후
- 제거하거나 데이터 정제값으로 채워준 후에 분석 진행

In [97]:
# 결측치가 포함된 데이터프레임 만들기
# 넘파이의 np.nan ==> 결측치 생성
df = pd.DataFrame({'gender' : ['m', 'f', np.nan, 'm', 'f'],
                   'score' : [5,4,3,4,np.nan]})

df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [98]:
# 결측치가 있는 데이터 연산하기 
df['score'] + 1
# 결측치가 있는 경우는 연산후 출력 결과도 NaN

0    6.0
1    5.0
2    4.0
3    5.0
4    NaN
Name: score, dtype: float64

In [99]:
# 결측치 확인하기
pd.isna(df).sum() # 판다스 함수

gender    1
score     1
dtype: int64

In [100]:
df.isnull().sum() # 판다스 데이터프레임 함수

gender    1
score     1
dtype: int64

In [101]:
# 결측치 채우기 - 평균값
df['score'].mean()

4.0

In [102]:
# fillna(값)  결측치가 있는 곳에 해당하는 값으로 채워줌
df['score'].fillna(df['score'].mean()) # inplace = True ==> 변수에 초기화

0    5.0
1    4.0
2    3.0
3    4.0
4    4.0
Name: score, dtype: float64

In [103]:
df.loc[4,'score'] = df['score'].mean()

#### 데이터 삭제
- 결측치가 있는 행 제거

In [104]:
df = pd.DataFrame({'gender' : ['m', 'f', np.nan, 'm', 'f'],
                   'score' : [5,4,3,4,np.nan]})

df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [105]:
# 결측치가 하나라도 있는 행은 모두 제거
df.dropna()

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
3,m,4.0


In [106]:
# score 컬럼을 기준으로 결측치가 있는 행을 제거
df.dropna(subset='score')

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0


In [107]:
# 2, 4번 행 제거하기
df.drop(2, axis =0)
df.drop(4, axis = 0)
df.drop([2,4], axis = 0)

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
3,m,4.0


#### 해당하는 컬럼 삭제하기

In [108]:
# gender 컬럼 삭제하기
df.drop('gender', axis=1)
df.drop('score', axis=1)
df.drop(['gender','score'], axis=1)

0
1
2
3
4


#### 이상치 처리
- 정상 범위에서 크게 벗어난 값을 의미 : anomaly
- 논리적으로 존재할 수 없는 값
- 값의 범위가 극단적으로 크거나 작은 값 : 극단치(outlier)

In [109]:
df = pd.DataFrame({'gender' : ['m', 'f', 'ff', 'm', 'f'],
                   'score' : [5,4,3,4,3]})

df

Unnamed: 0,gender,score
0,m,5
1,f,4
2,ff,3
3,m,4
4,f,3


In [110]:
# ff 값을 f로 바꾸기 ==> np.where
df['gender'] = np.where(df['gender'] == 'ff', 'f', df['gender'])
df


Unnamed: 0,gender,score
0,m,5
1,f,4
2,f,3
3,m,4
4,f,3


In [111]:
# 극단치 기준값 구하기
# quantile() 함수 분위수를 구함
pct25 = mpg['hwy'].quantile(.25) # 1사분위수
pct75 = mpg['hwy'].quantile(.75) # 3사분위수
display(pct25)
display(pct75)

18.0

27.0

In [112]:
# IQR(inter quartile range) : Q3 - Q1, Box plot의 기본이 되는 수치
iqr = pct75 - pct25
iqr

9.0

In [113]:
# 하한, 상한 구하기
# 하한 : 1사분위수보다 'IQR의 1.5배만큼 더 작은 값', 최소 제한선
# 상한 : 3사분위수보다 'IQR의 1.5배만큼 더 큰 값', 최대 제한선
display(pct25 - 1.5 * iqr) # 하한
display(pct75 + 1.5 * iqr) # 상한


4.5

40.5

In [114]:
# 극단치를 결측치로 처리하기 --> 기준값(4.5~40.5)을 벗어나면 결측치
mpg['hwy'] = np.where((mpg['hwy']<4.5)|(mpg['hwy']>40.5), np.nan, mpg['hwy'])

In [115]:
mpg['hwy'].isnull().sum()

3

In [116]:
mpg[mpg['hwy'].isnull()]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,,d,compact
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,,d,subcompact
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,,d,subcompact


#### 카테고리 형식으로 데이터 정리 : cut()

In [117]:
age = [0,2,15,21,23,37,31,61,20,41,32,100]
labels = ['미성년자', '청년', '중년', '장년', '노년']
# 미성년자 --> 0~15, 청년--> 16~50, 중년 --> 51~70, 장년-->71~90, 노년-->91~100
bins = [-1, 15, 50, 70, 90, 100]

cat = pd.cut(age, bins,labels=labels)
cat

df_age = pd.DataFrame(age, columns=['age'])
df_age['category'] = cat
df_age

Unnamed: 0,age,category
0,0,미성년자
1,2,미성년자
2,15,미성년자
3,21,청년
4,23,청년
5,37,청년
6,31,청년
7,61,중년
8,20,청년
9,41,청년


#### 데이텁 병합
- 열 : 가로로 데이터 합침 - merge()
- 행 : 세로로 데이터 합침 - concat()

In [118]:
test1 = pd.DataFrame({'id':[1,2,3,4,5],'midterm':[60,80,70,90,85]})
test2 = pd.DataFrame({'id':[1,2,3,4,5],'final':[70,83,65,95,80]})

In [119]:
display(test1)
display(test2)

Unnamed: 0,id,midterm
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


Unnamed: 0,id,final
0,1,70
1,2,83
2,3,65
3,4,95
4,5,80


In [120]:
# merge()
total = pd.merge(test1, test2, how='left', on='id')
total

Unnamed: 0,id,midterm,final
0,1,60,70
1,2,80,83
2,3,70,65
3,4,90,95
4,5,85,80


In [121]:
# concat()
# 세로로 합하기 위해 특정 컬럼명 변경
group1 = test1.rename(columns={'midterm':'test'})
group2 = test2.rename(columns={'final':'test'})
display(group1)
display(group2)

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


Unnamed: 0,id,test
0,1,70
1,2,83
2,3,65
3,4,95
4,5,80


In [122]:
tot = pd.concat([group1,group2], ignore_index=True)
tot

#ignore_index = True : 기존에 가지고 있던 인덱스를 무시하고 새로운 인덱스로 부여하겠다

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
5,1,70
6,2,83
7,3,65
8,4,95
9,5,80
