### 자유자재로 데이터 가공하기
이번 장에서는 데이터 분석을 위한 데이터를 추출하거나 여러 데이터를 합치는 등 데이터를 가공하는 방법을 익힌다      
논문을 위해서 여러가지 실험을 할 때는 데이터가 '가공된' 상태였다. 하지만 실제로 데이터를 보면 하나하나 분석해서 가공해야한다.      
따라서 다양한 방법을 통해서 데이터를 원하는대로 가공하는 것이 중요하다.

In [1]:
#데이터를 분석할 때 전체 데이터를 사용하기도 하지만 일부 관심있는 부분만 추출할 수 있다.
import pandas as pd
exam = pd.read_csv('./exam.csv')

In [3]:
#pandas 의 query문을 사용해서 원하는 부분만 꺼내올 수 있다.
exam.query('nclass == 1') #1반만 꺼내오기

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [4]:
exam.query('nclass != 1') #1반이 아닌 것만 꺼내오기

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [6]:
exam.query('math >= 50') #수학 50이상만 꺼내오기

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
9,10,3,50,98,45
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98


In [7]:
#여러가지 조건을 걸어서 추출할 수 있다.
exam.query('nclass == 1 & math > 50') #1반이면서 50점 넘는애

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60


In [8]:
exam.query('nclass == 1 and math > 50')

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60


In [9]:
#or 조건으로도 가능하다
exam.query('nclass==1 or math>50')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98


In [10]:
exam.query('nclass==1 | math>50')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98


In [12]:
#목록에 해당하는 행들만 꺼내오기 (예를들어서 1,3,5반만)
exam.query('nclass == 1 or nclass == 3 or nclass == 5')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


In [13]:
#한번에 리스트로 줄 수 있다.
exam.query('nclass in [1,3,5]')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


In [14]:
#1반의 평균을 구해보자
exam.query('nclass == 1')['math'].mean() #수학점수 평균

46.25

In [15]:
#문자열을 조건으로 줄 경우에는 따옴표를 다르게 설정해야한다.
df = pd.DataFrame({'sex':['f','m','f','m'],
                   'country': ['korea','china','japan','usa']})

df.query('sex=="f" and country == "korea"') #이런식으로 말이다.

Unnamed: 0,sex,country
0,f,korea


In [16]:
#데이터 프레임에 들어 있는 변수가 아니라 별도의 변수를 이용해 행을 추출하려면 변수명 앞에 @를 붙여서 조건을 입력하자
var = 3
exam.query('nclass==@var') #와 같이 변수명 앞에 @를 붙이면 잘 작동한다.

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32


In [17]:
#실습 mpg 데이터
#1. displ이 4이하인 자동차와 5이상인 자동차 중 hwy 평균이 높은지 알아보기
t_df = pd.read_csv('mpg.csv')
under = t_df.query('displ <=4')
upper = t_df.query('displ > 5')

if under['hwy'].mean() > upper['hwy'].mean():
    print('배기량이 적은게 연비가 좋아요')
else:
    print('배기량이 큰게 연기가 좋아요')

배기량이 적은게 연비가 좋아요


In [19]:
#2. audi와 toyota중 어느 manufacturer의 cty가 높은지 알아보기
audi = t_df.query('manufacturer=="audi"')
toyota = t_df.query('manufacturer == "toyota"')

if audi['cty'].mean() > toyota['cty'].mean():
    print('아우디가 연비가 좋아요')
else:
    print('도요타가 연비가 좋아요')

도요타가 연비가 좋아요


In [21]:
#3. chevrolet ford honda 세 회사의 자동차 고속도로 연비 평균
three_com = t_df.query('manufacturer in ["chevrolet","ford","honda"]')
print(three_com['hwy'].mean())

22.50943396226415


In [22]:
#여러 변수 추출하기
exam[['math','nclass','english']] #이렇게 순서도 바꿀 수 있다. 원래는 nclass가 math보다 왼쪽이였음 ! 

Unnamed: 0,math,nclass,english
0,50,1,98
1,60,1,97
2,45,1,86
3,30,1,98
4,25,2,80
5,50,2,89
6,80,2,90
7,90,2,78
8,20,3,98
9,50,3,98


In [23]:
#변수를 하나만 추출하면 series로 바뀌어서 종종 오류가 발생할 때도 있다. 그럴때는 한번 더 감싸줘서 데이터프레임으로 만들자
print(exam['math']) # series
print(exam[['math']]) # dataframe

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64
    math
0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78


In [24]:
#코드 가독성 추가해주기
#코드를 작성하다보면 길어진다 이때 가독성을 추가해줄 수 있는데 이는 엔터다.. 
#하지만 탭과 스페이스바로만 모든 가독성을 챙기기에 어렵다. 그럴때는 \를 사용하자
exam.query('math > 50') \
    [['id','math']] \
    .head()
#하지만 딱히 ? 라는 생각이 든다 차라리 주석을 추가하자 ㅋ

Unnamed: 0,id,math
1,2,60
6,7,80
7,8,90
10,11,65
14,15,75


In [25]:
#실습
#1. mpg데이터에서 category, cty만 가져오기
sample_df = t_df[['category','cty']]
print(sample_df)

    category  cty
0    compact   18
1    compact   21
2    compact   20
3    compact   21
4    compact   16
..       ...  ...
229  midsize   19
230  midsize   21
231  midsize   16
232  midsize   18
233  midsize   17

[234 rows x 2 columns]


In [27]:
#2. 앞에서 추출한 데이터를 사용해서 category가 suv인 자동차와 compact인 자동차 중 어떤 자동차의 cty가 높은지 계산하기
suv = sample_df.query('category=="suv"')['cty']
compact = sample_df.query('category=="compact"')['cty']

print(suv.mean())
print(compact.mean())
#작은게 더 낫다! 

13.5
20.127659574468087


3월 19일은 여기까지... 이력서쓰느라 시간을 너무 많이 썼다.
요즘 기사 실기 공부에 이력서에 시간이 통 안난다. 그래도 최대한 계속 볼 예정이다.
강의와 인터넷에서 찾아보는 것 말고도 이 책에 생각보다 자세하고 많이 적혀져있어서 좋은 것 같다. 