# 데이터 분석에 필요한 기초문법

- pandas에서 제공하는 기초 문법
    - query()
    - [], [[]]
    - sort_values()
    - groupby()
    - assign(), 파생변수 만들기, lambda
    - agg()
    - merge()
    - concat()
    - loc, iloc

In [2]:
import pandas as pd

In [6]:
df = pd.read_csv('exam.csv')
df.head()

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


## query()

    - 행 데이터를 추출할 때 사용
    - 수치형이 아닌 연속적인 범주형 데이터
    - 계산 가능 (이상, 이하, 초과, 미만 등등)

In [7]:
df.query('nclass == 2')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [8]:
df.query('english > 80')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
5,6,2,50,89,98
6,7,2,80,90,45
8,9,3,20,98,15
9,10,3,50,98,45
11,12,3,45,85,32
12,13,4,46,98,65


In [10]:
# and조건 or조건

df.query('english > 80 | math < 50') # and, or 또는 &,| 사용 가능

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
8,9,3,20,98,15
9,10,3,50,98,45
11,12,3,45,85,32


## 열을 추출하는 방법

    - [], [[]]

In [12]:
df[['id', 'math', 'english']].head()

Unnamed: 0,id,math,english
0,1,50,98
1,2,60,97
2,3,45,86
3,4,30,98
4,5,25,80


In [17]:
df.drop(columns = 'math') # inplace = True -> 데이터프레임에 반영

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


## Python 메서트체이싱

In [19]:
df.query('nclass == 4')['math']

12    46
13    48
14    75
15    58
Name: math, dtype: int64

In [20]:
df.query('nclass == 4')[['math', 'nclass']]

Unnamed: 0,math,nclass
12,46,4
13,48,4
14,75,4
15,58,4


In [23]:
# 반대로 진행해도 동일
df[['math', 'nclass']].query('nclass == 4')

Unnamed: 0,math,nclass
12,46,4
13,48,4
14,75,4
15,58,4


## 정렬

    - 내림차순, 오름차순
    - sort_values()

In [25]:
df.sort_values('math') # ascending = False -> 내림차순

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
0,1,1,50,98,50
9,10,3,50,98,45
5,6,2,50,89,98


In [26]:
df.sort_values('math', ascending = False)[['math', 'id']].query('math>10')

Unnamed: 0,math,id
7,90,8
18,89,19
17,80,18
6,80,7
19,78,20
14,75,15
16,65,17
10,65,11
1,60,2
15,58,16


In [27]:
# 2개 이상의 기준을 사용할 때 2차원의 개념이라 꼭 리스트에 넣어야 됨
df.sort_values(['math', 'nclass'])

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
0,1,1,50,98,50
5,6,2,50,89,98
9,10,3,50,98,45


## 파생변수 만들기

    - 컬럼을 직접 가져오기
    - apply 함수를 이용해서 lambda를 적용
    - loc, iloc 사용
    - assign() 함수 사용

In [28]:
df['mean'] = (df['math'] + df['english'] + df['science'])/3

In [30]:
df.assign(mean_s = (df['math'] + df['english'] + df['science'])/3)

Unnamed: 0,id,nclass,math,english,science,mean,mean_s
0,1,1,50,98,50,66.0,66.0
1,2,1,60,97,60,72.333333,72.333333
2,3,1,45,86,78,69.666667,69.666667
3,4,1,30,98,58,62.0,62.0
4,5,2,25,80,65,56.666667,56.666667
5,6,2,50,89,98,79.0,79.0
6,7,2,80,90,45,71.666667,71.666667
7,8,2,90,78,25,64.333333,64.333333
8,9,3,20,98,15,44.333333,44.333333
9,10,3,50,98,45,64.333333,64.333333


In [32]:
# assign 안에 인자를 넣으면 추가로 변수가 데이터프레임에 추가
df.assign(mean_t = (df['math'] + df['english'] + df['science'])/3, inplace = True, no = 1).head()

Unnamed: 0,id,nclass,math,english,science,mean,mean_t,inplace,no
0,1,1,50,98,50,66.0,66.0,True,1
1,2,1,60,97,60,72.333333,72.333333,True,1
2,3,1,45,86,78,69.666667,69.666667,True,1
3,4,1,30,98,58,62.0,62.0,True,1
4,5,2,25,80,65,56.666667,56.666667,True,1


In [33]:
import numpy as np

In [35]:
# np.where -> 조건이 참일 때 값, 거짓일 때 값 주기
df.assign(test = np.where(df['mean']>67.3, '평균이상', '평균이하'))

Unnamed: 0,id,nclass,math,english,science,mean,test
0,1,1,50,98,50,66.0,평균이하
1,2,1,60,97,60,72.333333,평균이상
2,3,1,45,86,78,69.666667,평균이상
3,4,1,30,98,58,62.0,평균이하
4,5,2,25,80,65,56.666667,평균이하
5,6,2,50,89,98,79.0,평균이상
6,7,2,80,90,45,71.666667,평균이상
7,8,2,90,78,25,64.333333,평균이하
8,9,3,20,98,15,44.333333,평균이하
9,10,3,50,98,45,64.333333,평균이하


In [37]:
# 넘파이를 이용해서 index 위치 잡고 그 잡은 위치에 값을 넣는 개념
np.where(df['mean']>67.3)

(array([ 1,  2,  5,  6, 12, 14, 15, 16, 17, 18, 19], dtype=int64),)

## lambda

In [41]:
lambda x: (df['math'] + df['english'] + df['science']) / 3

<function __main__.<lambda>(x)>

In [42]:
df.assign(text1 = lambda x: (x['math'] + x['english'] + x['science']) / 3)

Unnamed: 0,id,nclass,math,english,science,mean,text1
0,1,1,50,98,50,66.0,66.0
1,2,1,60,97,60,72.333333,72.333333
2,3,1,45,86,78,69.666667,69.666667
3,4,1,30,98,58,62.0,62.0
4,5,2,25,80,65,56.666667,56.666667
5,6,2,50,89,98,79.0,79.0
6,7,2,80,90,45,71.666667,71.666667
7,8,2,90,78,25,64.333333,64.333333
8,9,3,20,98,15,44.333333,44.333333
9,10,3,50,98,45,64.333333,64.333333


## groupby

    - 그룹으로 묶는다
    - 그룹으로 통계치를 계산하거나, 카운팅을 계산 등등
    - df.groupby(기준).agg(변수, 요약통계치)

In [43]:
df.groupby('nclass')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E5A2D31D50>

In [44]:
df.groupby('nclass').agg(ncl_math = ('math', 'mean'))

Unnamed: 0_level_0,ncl_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [45]:
df.groupby('nclass').agg(ncl_math = ('math', 'mean'),
                        ncl_eng = ('english', 'sum'),
                        ncl_math_mean = ('math', 'mean'))

Unnamed: 0_level_0,ncl_math,ncl_eng,ncl_math_mean
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,46.25,379,46.25
2,61.25,337,61.25
3,45.0,346,45.0
4,56.75,339,56.75
5,78.0,297,78.0
