In [1]:
import pandas as pd

### Pandas 객체 종류
- 1차원 Series : index + value
- 2차원 DataFrame : 표와 같은 형태
- table 형식의 정형 데이터를 정리하고 저장하는 자료구조를 지원

![KakaoTalk_20230704_172247144.png](attachment:KakaoTalk_20230704_172247144.png)

![KakaoTalk_20230704_172304333.png](attachment:KakaoTalk_20230704_172304333.png)

#### 1차원 시리즈 생성

In [2]:
num_series=pd.Series([3,4,5])
num_series
# 시리즈는 여러 값을 나열한 자료구조
# 시리즈는 index 와 value 로 구성됨
# 데이터 프레임을 구성하는 하위요소 ==> 시리즈가 여러개 모이면 데이터 프레임을 만듦

0    3
1    4
2    5
dtype: int64

In [3]:
# 인덱스와 값을 가진 시리즈 생성 - 1 
num_series2=pd.Series([3,4,5],index=['lee','kim','jang'])
num_series2

lee     3
kim     4
jang    5
dtype: int64

In [4]:
# 인덱스와 값을 가진 시리즈 생성 - 2 
num_series3=pd.Series([3,4,5],index={'lee':3,'kim':4,'jang':5})
num_series3

lee     3
kim     4
jang    5
dtype: int64

#### 시리즈 속성 확인

In [5]:
# 값 확인
num_series3.values

array([3, 4, 5], dtype=int64)

In [6]:
# 인덱스 확인
num_series3.index

Index(['lee', 'kim', 'jang'], dtype='object')

In [7]:
# 데이터 타입 확인
num_series3.dtype

dtype('int64')

#### 시리즈와 인덱스에 이름 지정

In [8]:
print(num_series3.name)
print(num_series3.index.name)
# 이름 지정하기
num_series3.name='name_cnt'
num_series3.index.name='name'
print(num_series3.name)
print(num_series3.index.name)

None
None
name_cnt
name


In [9]:
# 실습
population=pd.Series([9602000,3344000,1488000,2419000],index=['서울','부산','광주','대구'])
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [10]:
population.name='2020 인구수'
population.index.name='도시'
population

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

#### 시리즈 데이터의 갱신, 추가, 삭제

In [11]:
# 갱신 : 부산 데이터 => 3500000
population['부산']=3500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [12]:
# 추가 : 대전 => 1500000
population['대전']=1500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [13]:
# 삭제 : del 키워드, drop()
population.drop('서울') # inplace 변수를 True 로 지정해줘야만 실제로 삭제됨 

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [14]:
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [15]:
del population['서울'] # 셀이 실행됨과 동시에 삭제됨

In [16]:
population

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 생성

In [17]:
# 단일 리스트로 데이터프레임 생성
num=[1,1,3]
num

[1, 1, 3]

In [18]:
num_df=pd.DataFrame(num)
num_df

Unnamed: 0,0
0,1
1,1
2,3


In [19]:
# 이중 리스트로 데이터프레임 생성
num2=[['big',1],['ai',1],['iot',3]]
num2_df=pd.DataFrame(num2)
num2_df

Unnamed: 0,0,1
0,big,1
1,ai,1
2,iot,3


In [20]:
# 컬럼 값을 추가 1 => 데이터 프레임을 생성할 때 같이 
# 인덱스값도 추가하고 싶다면
num2_df=pd.DataFrame(num2,columns=['Class','Join'])
num2_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [21]:
# 딕셔너리 자료를 이용하여 데이터프레임 생성
num3_df=pd.DataFrame({'Class':['big','ai','iot'],'Join':[1,1,3]})
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


#### 데이터프레임 속성 확인

In [22]:
# 값 확인
num3_df.values

array([['big', 1],
       ['ai', 1],
       ['iot', 3]], dtype=object)

In [23]:
# 인덱스 확인
num3_df.index

RangeIndex(start=0, stop=3, step=1)

In [24]:
# 컬럼명 확인
num3_df.columns

Index(['Class', 'Join'], dtype='object')

In [25]:
# 데이터 타입 확인
num3_df.dtypes

Class    object
Join      int64
dtype: object

#### 예제 

In [26]:
person_info=pd.DataFrame({'키':[175.3,180.2,178.6],
                          '몸무게':[66.2,78.9,55.1],
                          '나이':[27.0,49.0,35.0]},
                        index=['son','kim','park'])
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [27]:
person_info.values

array([[175.3,  66.2,  27. ],
       [180.2,  78.9,  49. ],
       [178.6,  55.1,  35. ]])

In [28]:
person_info.index

Index(['son', 'kim', 'park'], dtype='object')

In [29]:
# 행렬 전환 : .T
person_info.T

Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [30]:
# 1. 밸류(값) 확인
person_info.values

array([[175.3,  66.2,  27. ],
       [180.2,  78.9,  49. ],
       [178.6,  55.1,  35. ]])

In [31]:
# 2. 데이터 타입 확인
person_info.dtypes

키      float64
몸무게    float64
나이     float64
dtype: object

In [32]:
# 3. 인덱스 값 확인
person_info.index

Index(['son', 'kim', 'park'], dtype='object')

In [33]:
# 4. 컬럼명 확인
person_info.columns

Index(['키', '몸무게', '나이'], dtype='object')

### Pandas 데이터 접근

#### 시리즈 데이터 접근

In [34]:
num_series3

name
lee     3
kim     4
jang    5
Name: name_cnt, dtype: int64

In [35]:
# 인덱스 번호로 접근
print(num_series3[0])
print(num_series3[1])
print(num_series3[2])

3
4
5


In [36]:
# 인덱스 라벨로 접근
print(num_series3['lee'])
print(num_series3['kim'])
print(num_series3['jang'])

3
4
5


In [37]:
# 여러개 접근
num_series3[['lee','kim']]

name
lee    3
kim    4
Name: name_cnt, dtype: int64

In [38]:
num_series3[[0,1]]

name
lee    3
kim    4
Name: name_cnt, dtype: int64

In [39]:
# display 함수 사용시 띄어쓰기 됨 
display(num_series3[['lee','kim']])
display(num_series3[[0,1]])
# 슬라이싱
display(num_series3[:2])
display(num_series3['kim':'jang'])
display(num_series3[:'jang'])

name
lee    3
kim    4
Name: name_cnt, dtype: int64

name
lee    3
kim    4
Name: name_cnt, dtype: int64

name
lee    3
kim    4
Name: name_cnt, dtype: int64

name
kim     4
jang    5
Name: name_cnt, dtype: int64

name
lee     3
kim     4
jang    5
Name: name_cnt, dtype: int64

#### 데이터 프레임 열 데이터 접근

In [40]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [41]:
num3_df['Class'] # 1차원 시리즈 형태로 불러짐 ( 컬럼명이 시리즈명이 됨)

0    big
1     ai
2    iot
Name: Class, dtype: object

In [42]:
num3_df[['Class']]

Unnamed: 0,Class
0,big
1,ai
2,iot


In [43]:
# 여러 컬럼을 한꺼번에 접근(추출)하기 
num3_df[['Class','Join']]

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


#### 데이터 프레임 행 데이터 접근

In [44]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [45]:
num4_df=num3_df.set_index('Class')
num4_df

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1
iot,3


In [46]:
# 슬라이싱으로 행에 접근
num4_df[1:]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
ai,1
iot,3


In [47]:
num4_df[:1]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1


In [48]:
num4_df[:'ai']

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


In [49]:
num4_df['big':'ai']

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


#### 데이터 프레임 행, 열 데이터에 더 편리하게 접근하기
- loc, iloc 인덱서 
- loc : 실제로 보이는 라벨명을 통해 데이터에 접근하는 방법 
- iloc : 넘파이 배열 인덱스값을 통해 데이터에 접근하는 방법 
            i : integer 이 index 번호값의 loc (위치)에 접근함 
- 데이터.인덱서[행, 열]
    - 콤마(,) 앞은 행, 콤마(,) 뒤는 열의 값을 입력 
    - 행, 열 자리 모두 여러개에 접근할 경우 [요소1, 요소2, ...] 
    - 슬라이싱 [ : ] 을 통해서 접근 

In [50]:
num4_df

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1
iot,3


In [51]:
# iot 행 데이터 접근하기 
# 인덱스 번호 
display(num4_df.iloc[2])
# 인덱스 라벨
display(num4_df.loc['iot'])

Join    3
Name: iot, dtype: int64

Join    3
Name: iot, dtype: int64

In [52]:
# big, ai 데이터 행 접근
# 인덱스 번호
display(num4_df.iloc[:2])
# 인덱스 라벨
display(num4_df.loc[:'ai'])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


In [53]:
# Join 열에 접근하기 
# 데이터.인덱서[행, 열]
# 인덱스 번호
display(num4_df.iloc[:,0])
# 인덱스 라벨
display(num4_df.loc[:,'Join'])

Class
big    1
ai     1
iot    3
Name: Join, dtype: int64

Class
big    1
ai     1
iot    3
Name: Join, dtype: int64

In [54]:
display(num4_df.iloc[:2,0])
display(num4_df.iloc[0,0])
display(num4_df.loc[:,'Join'])
#display(num4_df.loc[:1,'Join']) # 오류 발생 
display(num4_df.loc['big','Join'])

Class
big    1
ai     1
Name: Join, dtype: int64

1

Class
big    1
ai     1
iot    3
Name: Join, dtype: int64

1

In [55]:
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [56]:
# 실습
display(person_info.iloc[0,2])
display(person_info.loc['son','나이'])
display(person_info.loc['son',['키','나이']])
display(person_info.loc['kim':'park',['몸무게','키']])
display(person_info.loc[['son','park'],['몸무게','키']])

27.0

27.0

키     175.3
나이     27.0
Name: son, dtype: float64

Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


Unnamed: 0,몸무게,키
son,66.2,175.3
park,55.1,178.6


In [57]:
# 풀이
# 1. son 의 나이데이터 접근하기
display(person_info.loc['son','나이'])
# 2. son 의 키와 나이데이터 접근하기
display(person_info.loc['son',['키','나이']])
# 3. kim 과 park 의 몸무게, 키를 순서대로 접근하기
display(person_info.loc['kim':'park',['몸무게','키']])

27.0

키     175.3
나이     27.0
Name: son, dtype: float64

Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


In [58]:
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [59]:
# 인덱스로
display(person_info.iloc[0,2])
display(person_info.iloc[0,[0,2]])
display(person_info.iloc[1:3,[0,2]])
display(person_info.iloc[[0,2],[0,2]])

27.0

키     175.3
나이     27.0
Name: son, dtype: float64

Unnamed: 0,키,나이
kim,180.2,49.0
park,178.6,35.0


Unnamed: 0,키,나이
son,175.3,27.0
park,178.6,35.0


#### 조건에 맞는 데이터 접근하기 : 불리언 인덱싱

In [60]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [61]:
# Join 값이 2 이상인 데이터 접근하기 
num3_df[num3_df['Join']>=2]

Unnamed: 0,Class,Join
2,iot,3


In [62]:
# 문자값으로 조건 : class 가 big 이거나 ai 인 데이터 추출 ==> or, |
num3_df[(num3_df['Class']=='big') | (num3_df['Class']=='ai')]

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [63]:
# 실슴
# Join 값이 2 이하인 Class 이름을 리스트나 배열로 출력하기 
result=num3_df[(num3_df['Join']<=2)]
result

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [64]:
resultList=[]
for i in result['Class']:
    resultList.append(i)
resultList

['big', 'ai']

In [65]:
resultList=[]
for i in num3_df[(num3_df['Join']<=2)]['Class']:
    resultList.append(i)
resultList

['big', 'ai']

In [66]:
# 풀이
num3_df[num3_df['Join']<=2]['Class'].values

array(['big', 'ai'], dtype=object)

In [67]:
# 풀이
num3_df.loc[num3_df['Join']<=2,'Class'].values

array(['big', 'ai'], dtype=object)

#### query() 함수를 통한 행 접근
- 판다스의 query 함수는 SQL 의 where 함수의 역할
- query 함수의 장점
    - 분석 코드가 간결
    - 읽기도 더 쉬움
    - 조건 결함을 사용하는 경우 더욱 강력해짐 

In [68]:
num3_df.query('Join<=2') # num3_df[num3_df['Join']<=2]

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [69]:
# 문자값 : Class 가 ai 이거나 iot 인 데이터 추출
num3_df.query('Class=="ai" | Class=="iot"')

Unnamed: 0,Class,Join
1,ai,1
2,iot,3


In [70]:
# 실습
num2_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [71]:
num2_df[num2_df['Join']<=2]['Class'].size

2

In [72]:
# 풀이
num2_df.loc[num2_df['Join']<=2,'Class'].size

2

In [73]:
num2_df.query('Join<=2')['Class'].size

2

### 판다스 연산 및 유용한 함수

#### 파일 불러오기 및 저장

In [74]:
exam=pd.read_csv('./data/exam.csv')
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


#### 데이터 파악하기
- head() : 앞에서 5개 행 출력
- tail() : 뒤에서 5개 행 출력
- shape : 행, 열 개수 출력
- info() : 변수 속성 출력
- describe() : 요약 통계량 출력

In [75]:
exam.head() # 기본값 = 5 

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [76]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [77]:
exam.tail() # 기본값 = 5

Unnamed: 0,id,nclass,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [78]:
exam.tail(2)

Unnamed: 0,id,nclass,math,english,science
18,19,5,89,68,87
19,20,5,78,83,58


In [79]:
exam.shape

(20, 5)

In [80]:
exam.info()
# 컬럼들의 속성을 보여주는 함수
# 모든 컬럼들의 속성을 한 눈에 파악할 수 있음
# 1. <class 'pandas.core.frame.DataFrame'> ==> 판다스의 데이터 프레임 객체 
# 2. RangeIndex: 20 entries, 0 to 19 ==> 0 ~ 19 인덱스로 총 20개의 행으로 구성 
# 3. Data columns (total 5 columns): ==> 컬럼(변수)개수 총 5개 구성
# 4. # ==> 변수 순서 (인덱스 개녕)
# 5. Column ==> 컬럼명
# 6. Non-Null Count ==> 컬럼(변수)에 들어있는 값의 개수
#                       결측치를 제외하고 구한 값의 개수를 나타냄
# 7. Dtype ==> 데이터 타입
#    int64 ==> 변수가 64 비트로 되어 있다는 의미
#    1비트로 두개의 값을 표현할 수 있으므로 
#    int64 는 2^64개의 정수를 표현할 수 있다는 의미

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes


In [81]:
exam.describe()
# 모든 변수의 요약 통계량 ==> 기본적으로 숫자값들에 대한 통계정보 표시 
#                             문자로 된 변수의 요약 통계량을 함께 출력하려면? 
#                             describe(include='all') 로 설정

# 1. count ==> 빈도 (frequency). 값의 개수
# 2. mean ==> 평균. 모든 값을 더해서 값의 개수로 나눈 값 
# 3. std ==> 표준편차. 변수 값들이 평균에서 떨어진 정도를 나타내는 값 
# 4. min ==> 최소값. 가장 작은 값
# 5. 25% ==> 1 사분위 수 
# 6. 50% ==> 중위수 (중앙값) 
# 7. 75% ==> 3 사분위 수 
# 8. max ==> 최대값, 가장 큰 값 

Unnamed: 0,id,nclass,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [82]:
# exam.describe(include=all) # 문자 데이터가 없을경우 오류 발생 

#### 데이터 정렬
- sort_values()

In [83]:
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [84]:
exam['math']

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [85]:
exam[['math']]

Unnamed: 0,math
0,50
1,60
2,45
3,30
4,25
5,50
6,80
7,90
8,20
9,50


In [86]:
# 1차원 데이터의 정렬 
exam['math'].sort_values() # 오름차순 기본값 

8     20
4     25
3     30
2     45
11    45
12    46
13    48
0     50
9     50
5     50
15    58
1     60
10    65
16    65
14    75
19    78
6     80
17    80
18    89
7     90
Name: math, dtype: int64

In [87]:
exam['math'].sort_values(ascending=False) # 내림차순으로 변경 

7     90
18    89
17    80
6     80
19    78
14    75
16    65
10    65
1     60
15    58
9     50
5     50
0     50
13    48
12    46
11    45
2     45
3     30
4     25
8     20
Name: math, dtype: int64

In [88]:
# 2차원 데이터의 정렬
# 1. 수학컬럼을 정렬하여 top 5 학생 확인 
exam[['id','math']].head(5)

Unnamed: 0,id,math
0,1,50
1,2,60
2,3,45
3,4,30
4,5,25


In [89]:
# 2. 학생 id 를 기준으로 내림차순 출력
exam[['id','math']].head(5).sort_values(by='math', ascending=False)

Unnamed: 0,id,math
1,2,60
0,1,50
2,3,45
3,4,30
4,5,25


In [90]:
# 3. 수학 컬럼을 정렬하여 뒤에서 3명 확인
exam[['id','math']].tail(3).sort_values(by='math', ascending=False)

Unnamed: 0,id,math
18,19,89
17,18,80
19,20,78


![KakaoTalk_20230705_174100712.png](attachment:KakaoTalk_20230705_174100712.png)

In [91]:
mpg=pd.read_csv('./data/mpg.csv')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [92]:
# 과제 
display(mpg.head(3))
display(mpg.tail(3))
display(mpg.shape)
display(mpg.info())
display(mpg.describe())
mpg[mpg['manufacturer']=='audi'].sort_values(by='hwy',ascending=False).head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


(234, 11)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


None

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


In [93]:
mpg.query('manufacturer=="audi"').sort_values(by='hwy',ascending=False).head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


In [94]:
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [95]:
mpg.describe(include='all')

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
count,234,234,234.0,234.0,234.0,234,234,234.0,234.0,234,234
unique,15,38,,,,10,3,,,5,7
top,dodge,caravan 2wd,,,,auto(l4),f,,,r,suv
freq,37,11,,,,83,106,,,168,62
mean,,,3.471795,2003.5,5.888889,,,16.858974,23.440171,,
std,,,1.291959,4.509646,1.611534,,,4.255946,5.954643,,
min,,,1.6,1999.0,4.0,,,9.0,12.0,,
25%,,,2.4,1999.0,4.0,,,14.0,18.0,,
50%,,,3.3,2003.5,6.0,,,17.0,24.0,,
75%,,,4.6,2008.0,8.0,,,19.0,27.0,,


#### 파생변수(컬럼) 추가
- 파생변수 (derived variable) ? 기존의 변수를 변형해서 만든 변수
- 데이터에 들어있는 변수만 이용해서 분석할 수 있지만,
    변수를 조합하거나 함수를 이용해서 새 변수를 만들어 분석에 가능
- 컬럼을 추가하는 방법
    - 방법 1 : 데이터['새컬럼명'] = 데이터 만드는 공식
    - 방법 2 : 데이터.assign(새컬럼명 = 데이터 만드는 공식)
        - assign : 변수 추가, 내부 새로운 컬럼명 지정할 때 사용, 따옴표 X 
        - 여러개의 컬럼을 동시에 추가 생성 가능

In [96]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [97]:
exam[['math','english','science']].sum()

math       1149
english    1698
science    1189
dtype: int64

In [98]:
# 방법 1 : 데이터['새컬럼명'] = 데이터 만드는 공식

# sum() 이용
# 학생들의 수학, 영어, 과학점수를 더해 'total' 컬럼을 생성
exam['total']=exam[['math','english','science']].sum(axis=1)
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209


In [99]:
# 방법 2 : 데이터.assign(새컬럼명 = 데이터 만드는 공식)

# 'total' 컬럼을 이용해서 'mean' 컬럼을 생성
exam.assign(mean=exam['total']/3).head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667


In [100]:
exam.head(3) # 반영이 안되어 있음

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209


In [101]:
exam=exam.assign(mean=exam['total']/3) # 변수에 다시 담는다.

In [102]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667


In [103]:
exam.assign(test=exam[['math','english','science']].sum(axis=1)).head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean,test
0,1,1,50,98,50,198,66.0,198
1,2,1,60,97,60,217,72.333333,217
2,3,1,45,86,78,209,69.666667,209


In [104]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667


In [105]:
# lambda 함수를 이용해서 새로운 컬럼 생성
# 수학, 영어, 과학 점수를 이용해 'mean2' 컬럼 생성 

# exam ==> lambda x 
exam.assign(mean2=lambda x : x['math']+x['english']+x['science']/3).head(3)

# lambda 함수의 장점
# x : 데이터프레임명
# 데이터프레임명 자리에 x를 입력하겠다는 의미로 코드가 간결 

Unnamed: 0,id,nclass,math,english,science,total,mean,mean2
0,1,1,50,98,50,198,66.0,164.666667
1,2,1,60,97,60,217,72.333333,177.0
2,3,1,45,86,78,209,69.666667,157.0


In [106]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667


In [107]:
import numpy as np

In [108]:
# 조건에 따라 다른 값을 부여하여 데이터를 생성 후 파생변수(컬럼) 추가
# np.where() => (조건, 참, 거짓) : ( mean >= 60, pass, fail )

# 평균값이 60점 이상이면 pass, 미만이면 fail
exam.assign(result=np.where(exam['mean']>=60,'pass','fail')).head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,pass
1,2,1,60,97,60,217,72.333333,pass
2,3,1,45,86,78,209,69.666667,pass


In [109]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667


In [110]:
exam=exam.assign(result=np.where(exam['mean']>=60,'pass','fail'))
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,pass
1,2,1,60,97,60,217,72.333333,pass
2,3,1,45,86,78,209,69.666667,pass


#### 복잡한 기능 연결하는 함수 : apply()

In [111]:
# exam 데이터를 새로 불러와서 exam2 변수에 담아주기
exam2=pd.read_csv('./data/exam.csv')
exam2.head(3)

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [112]:
# 1. 세과목의 평균을 구해서
# 85점 이상 : A 
# 70점 이상 : B
# 60점 이상 : C
# 나머지 : F

# 함수정의
# 행 하나 ( 한 학생의 성적 데이터 ) 를 받아서 평균을 구하고 학점 매기기
def grade_check(row):
    mean=(row['math']+row['english']+row['science'])/3
    if mean>=85:
        return 'A'
    elif mean>=70:
        return 'B'
    elif mean>=60:
        return 'C'
    else:
        return 'F'

# 정의한 함수 ( grande_check ) 를 호출해서 apply() 함수에 적용하기 
exam2['grade']=exam2.apply(grade_check, axis=1) # 열의 방향 
exam2.head(3)

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C


In [113]:
exam2.assign(grade=exam2.apply(grade_check, axis=1)).head(3)

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C


In [114]:
exam2.head(3)

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C


#### 집단별 (그룹별) 요약 통계 확인 함수 :
- df.groupby(), df.agg()
- groupby() : 집단별로 묶어주는 함수
- agg() : 요약 통계 구할때 사용하는 함수
    - 형식 : 요약값 할당할 변수 = ('값을 요약하는데 사용할 변수','함수')
    - 전체를 요약한 값을 구하기보다는 groupby() 에 적용해서 집단별 요약값을 구할때 사용
    - 사용하는 함수 : mead(), std(), sum(), median(), min(), max(), count()

In [115]:
# 과정별 모든 컬럼에 대한 평균 한번에 구하기
exam2

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C
3,4,1,30,98,58,C
4,5,2,25,80,65,F
5,6,2,50,89,98,B
6,7,2,80,90,45,B
7,8,2,90,78,25,C
8,9,3,20,98,15,F
9,10,3,50,98,45,C


In [116]:
# groupby() 사용 
# groupby() 기본값 : 기준으로 넣어주는 변수를 인덱스로 바꾸도록 설정
# ==> as_index=False 설정 : 기준으로 넣어주는 변수 (컬럼값) 을 인덱스로 바꾸지 않고 원래대로 유지 
exam2.groupby('nclass').mean()

Unnamed: 0_level_0,id,math,english,science
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2.5,46.25,94.75,61.5
2,6.5,61.25,84.25,58.25
3,10.5,45.0,86.5,39.25
4,14.5,56.75,84.75,55.0
5,18.5,78.0,74.25,83.25


In [117]:
# nclass 별 math 의 평균
exam2[['nclass','math',]].groupby('nclass').mean()

Unnamed: 0_level_0,math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [118]:
# 요약 통계 연결하는 함수 : agg()
exam2.agg(math_mean=('math','mean'))

Unnamed: 0,math
math_mean,57.45


In [119]:
# 반별 수학 평균 구하기
exam2.groupby('nclass').agg(math_mean=('math','mean'))

Unnamed: 0_level_0,math_mean
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [120]:
# 여러 요약 통계량을 한번에 구하기

exam2

Unnamed: 0,id,nclass,math,english,science,grade
0,1,1,50,98,50,C
1,2,1,60,97,60,B
2,3,1,45,86,78,C
3,4,1,30,98,58,C
4,5,2,25,80,65,F
5,6,2,50,89,98,B
6,7,2,80,90,45,B
7,8,2,90,78,25,C
8,9,3,20,98,15,F
9,10,3,50,98,45,C


In [121]:
exam2.groupby('nclass').agg(math_mean=('math','mean'), # 반별 수학점수 평균
                            math_sum=('math','sum'), # 반별 수학점수 합계
                            math_median=('math','median'), # 반별 수학점수 중앙값
                            n_class=('nclass','count')) # 반별 학생수 (빈도) 

Unnamed: 0_level_0,math_mean,math_sum,math_median,n_class
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


In [122]:
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,pass
1,2,1,60,97,60,217,72.333333,pass
2,3,1,45,86,78,209,69.666667,pass


In [123]:
# 집단별로 그룹지어진 집단을 다시 나누기
# ==> groupby() 에 여러 컬럼 (변수) 을 지정하면 집단을 나눈 후 
# 다시 하위 집단으로 나눌 수 있음.

# 반별 pass, fail 사람수 출력하기
exam_result_cnt=exam.groupby(['nclass','result']).agg(result_cnt=('result','count'))
exam_result_cnt

Unnamed: 0_level_0,Unnamed: 1_level_0,result_cnt
nclass,result,Unnamed: 2_level_1
1,pass,4
2,fail,1
2,pass,3
3,fail,2
3,pass,2
4,fail,1
4,pass,3
5,pass,4


In [124]:
np.random.seed(10)

df=pd.DataFrame()
df['A']=np.random.randint(0,5,size=5)
df['b']=np.random.randint(0,5,size=5)
df

Unnamed: 0,A,b
0,1,4
1,4,1
2,0,0
3,1,1
4,3,2


In [125]:
# apply - 열
display(df.apply(np.sum,axis=1))
# apply - 행
display(df.apply(np.sum,axis=0))

0    5
1    5
2    0
3    2
4    5
dtype: int64

A    9
b    8
dtype: int64

In [126]:
# 멀티인덱스 (중복 인덱스) 일 경우 데이터 접근하기
exam_result_cnt.index

MultiIndex([(1, 'pass'),
            (2, 'fail'),
            (2, 'pass'),
            (3, 'fail'),
            (3, 'pass'),
            (4, 'fail'),
            (4, 'pass'),
            (5, 'pass')],
           names=['nclass', 'result'])

In [127]:
# 4 반의 pass 한 사람의 수에 접근하려면?
exam_result_cnt.loc[(4, 'pass')]

result_cnt    3
Name: (4, pass), dtype: int64

#### 데이터 빈도 구하기
- value_counts()

In [128]:
# groupby() 로 데이터 분리 - agg() 의 count() 함수로 각반의 빈도를 구하기
exam.head(3)

Unnamed: 0,id,nclass,math,english,science,total,mean,result
0,1,1,50,98,50,198,66.0,pass
1,2,1,60,97,60,217,72.333333,pass
2,3,1,45,86,78,209,69.666667,pass


In [129]:
# exam 데이터 활용
exam.groupby('nclass').agg(p_cnt=('nclass','count'))

Unnamed: 0_level_0,p_cnt
nclass,Unnamed: 1_level_1
1,4
2,4
3,4
4,4
5,4


In [130]:
# value_counts() 적용한 반별 빈도수
exam['nclass'].value_counts()

1    4
2    4
3    4
4    4
5    4
Name: nclass, dtype: int64

![KakaoTalk_20230706_162525902.png](attachment:KakaoTalk_20230706_162525902.png)


In [131]:
mpg.head(3)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


In [132]:
# Q1 풀이 
np.unique(mpg['category'])
cty_mean=mpg.groupby('category').agg(cty_mean=('cty','mean'))
cty_mean

Unnamed: 0_level_0,cty_mean
category,Unnamed: 1_level_1
2seater,15.4
compact,20.12766
midsize,18.756098
minivan,15.818182
pickup,13.0
subcompact,20.371429
suv,13.5


In [133]:
# Q2 풀이
cty_mean.sort_values(by='cty_mean',ascending=False)

Unnamed: 0_level_0,cty_mean
category,Unnamed: 1_level_1
subcompact,20.371429
compact,20.12766
midsize,18.756098
minivan,15.818182
2seater,15.4
suv,13.5
pickup,13.0


In [134]:
# Q3 풀이
mpg.groupby('manufacturer').agg(hwy_mean=('hwy','mean')).head(3)

Unnamed: 0_level_0,hwy_mean
manufacturer,Unnamed: 1_level_1
audi,26.444444
chevrolet,21.894737
dodge,17.945946


In [135]:
# Q4 풀이 회사별 compact 차종 수를 내림차순 정렬
display(np.unique(mpg['manufacturer'])) # 15 개사 

array(['audi', 'chevrolet', 'dodge', 'ford', 'honda', 'hyundai', 'jeep',
       'land rover', 'lincoln', 'mercury', 'nissan', 'pontiac', 'subaru',
       'toyota', 'volkswagen'], dtype=object)

In [178]:
a=mpg.query('category=="compact"').groupby('manufacturer').agg(cpt_cnt=('category','count'))

In [179]:
cty_mean=mpg.groupby('category').agg(cty_mean=('cty','mean'))

In [180]:
cpt_cnt.sort_values(by='a',ascending=False)

NameError: name 'cpt_cnt' is not defined

#### 결측치 처리
- 결측치(missing value) : 누락된 값, 비어 있는 값
- 수집 과정에서 발생한 오류 때문에 데이터가 비어있는 상태로 수집
- 결측치가 존재 ==> 함수 적용 불가, 분석 결과 왜곡 문제가 발생
- 실제 데이터를 분석할 때는 결측치가 있는지 확인 후 
- 제거하거나 데이터 정제값으로 채워준 후에 분석 진행

In [139]:
# 결측치가 포함된 데이터프레임 만들기
# 넘파이의 np.nan ==> 결측치 생성
df=pd.DataFrame({'gender':['m','f',np.nan,'m','f'],
                'score':[5,4,3,4,np.nan]})
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [140]:
# 결측치가 있는 데이터에 연산하기 
df['score']+1
# 결측치가 있는 경우는 연산후 출력 결과도 NaN 

0    6.0
1    5.0
2    4.0
3    5.0
4    NaN
Name: score, dtype: float64

In [141]:
# 결측치 확인하기
pd.isna(df).sum() # 판다스 함수

gender    1
score     1
dtype: int64

In [142]:
df.isnull().sum() # 판다스 데이터프레임 함수

gender    1
score     1
dtype: int64

In [143]:
# 결측치 채우기 - 평균값
df['score'].mean()

4.0

In [144]:
# fillna(값) : 결측치가 있는 곳에 해당하는 값으로 채워줌
df['score'].fillna(4.0) # inplace = True 적용시 변수에 초기화 함

0    5.0
1    4.0
2    3.0
3    4.0
4    4.0
Name: score, dtype: float64

In [145]:
df['score']

0    5.0
1    4.0
2    3.0
3    4.0
4    NaN
Name: score, dtype: float64

In [146]:
df.loc[4,'score']=4.0 # 바로 대입됨 

In [147]:
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,4.0


#### 데이터 삭제
- 결측치가 있는 행 제거

In [148]:
df=pd.DataFrame({'gender':['m','f',np.nan,'m','f'],
                'score':[5,4,3,4,np.nan]})
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [149]:
# 결측치가 하나라도 있는 행 모두 제거
df.dropna()

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
3,m,4.0


In [150]:
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [151]:
# score 컬럼을 기준으로 결측치가 있는 행 제거
df.dropna(subset='score')

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0


In [152]:
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [153]:
# 2, 4 번 행 제거하기
df.drop(2,axis=0)
df.drop(4,axis=0)

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0


In [154]:
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [155]:
df.drop([2,4],axis=0)

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
3,m,4.0


#### 해당하는 컬럼 삭제하기

In [156]:
# gender 컬럼 삭제하기
df.drop('gender',axis=1)

Unnamed: 0,score
0,5.0
1,4.0
2,3.0
3,4.0
4,


In [157]:
df

Unnamed: 0,gender,score
0,m,5.0
1,f,4.0
2,,3.0
3,m,4.0
4,f,


In [158]:
df.drop(['gender','score'],axis=1)

0
1
2
3
4


#### 이상치 처리
- 정상 범위에서 크게 벗어난 값을 의미 : anomaly
- 논리적으로 존재할 수 없는 값
- 값의 범위가 극단적으로 크거나 작은 값 : 극단치 (outlier)

In [159]:
df=pd.DataFrame({'gender':['m','f','ff','m','f'],
                'score':[5,4,3,4,3333]})
df

Unnamed: 0,gender,score
0,m,5
1,f,4
2,ff,3
3,m,4
4,f,3333


In [160]:
# ff 값을 f로 바꾸기 => np.where 사용
df['gender']=np.where(df['gender']=='ff','f',df['gender'])
df

Unnamed: 0,gender,score
0,m,5
1,f,4
2,f,3
3,m,4
4,f,3333


In [161]:
df['score']=np.where(df['score']>=10,3,df['score'])
df

Unnamed: 0,gender,score
0,m,5
1,f,4
2,f,3
3,m,4
4,f,3


In [162]:
# 극단치 기준값 구하기
# quantile() 함수로 분위수를 구함
pct25=mpg['hwy'].quantile(.25) # 1사분위수
pct75=mpg['hwy'].quantile(.75) # 3사분위수
display(pct25)
display(pct75)

18.0

27.0

In [163]:
# IQR (inter quartile range) : Q3 - Q1, Box plot 의 기본이 되는 수치
iqr=pct75-pct25
iqr

9.0

In [164]:
# 하한, 상한 구하기
# 하한 : 1사분위수보다 'IQR 의 1.5배만큼 더 작은 값', 최소 제한선
# 상한 : 3사분위수보다 'IQR의 1.5배만큼 더 큰 값', 최대 제한선
display(pct25-1.5*iqr) # 하한
display(pct75+1.5*iqr) # 상한

4.5

40.5

In [165]:
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [166]:
# 극단치를 결측치로 처리하기 => 기준값 (4.5 ~ 40.5) 을 벗어나면 결측치
mpg['hwy']=np.where((mpg['hwy']<4.5) | (mpg['hwy']>40.5),np.nan,mpg['hwy'])
mpg['hwy'].isnull().sum()

3

#### 카테고리 형식으로 데이터 정리 : cut()

In [167]:
age=[0,2,15,21,23,37,31,61,20,41,32,100]
labels=['미성년자','청년','중년','장년','노년']
age

[0, 2, 15, 21, 23, 37, 31, 61, 20, 41, 32, 100]

In [168]:
# 0 ~ 15, 16 ~ 50, 51 ~ 70, 71 ~ 90, 91 ~ 100
bins=[-1,15,50,70,90,100]
bins

[-1, 15, 50, 70, 90, 100]

In [169]:
pd.cut(age,bins,labels=labels)

['미성년자', '미성년자', '미성년자', '청년', '청년', ..., '중년', '청년', '청년', '청년', '노년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [170]:
cat=pd.cut(age,bins,labels=labels)
cat

['미성년자', '미성년자', '미성년자', '청년', '청년', ..., '중년', '청년', '청년', '청년', '노년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [171]:
df_age=pd.DataFrame(age,columns=['age'])
df_age

Unnamed: 0,age
0,0
1,2
2,15
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [172]:
df_age['category']=cat
df_age

Unnamed: 0,age,category
0,0,미성년자
1,2,미성년자
2,15,미성년자
3,21,청년
4,23,청년
5,37,청년
6,31,청년
7,61,중년
8,20,청년
9,41,청년


#### 데이터 병합
- 열 : 가로로 데이터 합침 - merge()
- 행 : 세로로 데이터 합침 - concat()

In [173]:
test1 = pd.DataFrame({'id':[1,2,3,4,5],'midterm':[60,80,70,90,85]})
test2 = pd.DataFrame({'id':[1,2,3,4,5],'final':[70,83,65,95,80]})

In [174]:
display(test1)
display(test2)

Unnamed: 0,id,midterm
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


Unnamed: 0,id,final
0,1,70
1,2,83
2,3,65
3,4,95
4,5,80


In [175]:
# merge()
total=pd.merge(test1,test2,how='left',on='id')
total

Unnamed: 0,id,midterm,final
0,1,60,70
1,2,80,83
2,3,70,65
3,4,90,95
4,5,85,80


In [176]:
# 컬럼명을 동일하게 변경
group1=test1.rename(columns={'midterm':'test'})
group2=test2.rename(columns={'final':'test'})
display(group1)
display(group2)

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


Unnamed: 0,id,test
0,1,70
1,2,83
2,3,65
3,4,95
4,5,80


In [177]:
# concat() 
tot=pd.concat([group1,group2],ignore_index=True) # ignore_index=True 로 기존 인덱스를 무시하고 새로 생성 
tot

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
5,1,70
6,2,83
7,3,65
8,4,95
9,5,80
