# 데이터 추출

In [None]:
import pandas as pd
import numpy as np

In [None]:
exam = pd.read_csv("./exam.csv")
exam.head()

## 조건에 따른 데이터 추출
query 메소드를 이용해보자

In [None]:
# exam에서 nclass가 1인 경우 추출
exam.query('nclass == 2')

In [None]:
# exam에서 수학점수가 50점을 초과한 경우
exam.query('math > 50')

In [None]:
exam.query('math > 50 & english >=80')

In [None]:
# nclass에 1, 3, 5가 있는 경우
exam.query('nclass in [1,3,5]')

In [None]:
# 문자 변수를 이용해 조건에 맞는 행 추출
data = {'sex' : ["F", "M", "F", "M"],
        'country' : ['Korea', 'China', 'Japan', 'USA'] }

df = pd.DataFrame(data)
df

전체조건 = 작은 따옴표, 문자 = 큰 따옴표  
전체조건 = 큰 따옴표, 문자 = 작은 따옴표

In [None]:
df.query("sex == 'F' & country == 'Korea'")

## 필요한 변수 추출하기
* [] 기호를 이용해 변수를 추출하기
* 변수 추출해보기

In [None]:
exam['math']

In [None]:
exam[['nclass', 'math', 'english']]

특정 행을 제외하기

In [None]:
exam1 = exam.drop(columns = 'math')
exam1.head()

# 데이터 전처리
판다스 함수를 조합하기
* 코드의 길이가 줄어들음
* 반복 작업이 줄어든다.

## query()와 [] 조합하기

In [None]:
# 1반 학생들의 영어 점수
exam.query('nclass == 1')[['english']]

In [None]:
# 수학 점수가 50점 이상인 학생의 id와 math 추출
exam.query('math >= 50')[['id', 'math']]

In [None]:
# math가 50점 이상 중 id, math 앞부분 5행만 추출
exam.query('math >= 50')[['id', 'math']].head()

## 특정변수 기준 정렬

In [None]:
exam.sort_values('math', ascending=True)

In [None]:
exam.sort_values('math', ascending=False)

먼저 nclass를 기준으로 오름차순 정렬. 이후 math를 기준으로 오름차순 정렬

In [None]:
exam.sort_values(['nclass', 'math'])

nclass는 내림차순, math는 오름차순
* True, False를 1, 0으로 쓸 수도 있기는 함 (파이썬에서 define 되어 있기 때문)
* 단, 그렇게 추천하지는 않음

In [None]:
exam.sort_values(['nclass', 'math'], ascending=[True, False])

## 파생변수 만들기

In [None]:
exam.assign(total = exam['math'] + exam['english'] + exam['science'])

In [None]:
exam.assign(total = exam['math'] + exam['english'] + exam['science'],
            mean = (exam['math'] + exam['english'] + exam['science']) / 3)

In [None]:
exam.assign(test = np.where(exam['science'] >= 60, 'pass', 'fail'))

## 집단별로 요약하기
* groupby()와 agg()
* 집단별 평균이나 집단별 빈도처럼 각 집단을 요약한 값을 구할 때 사용

In [53]:
exam.agg(mean_math = ('math', 'mean'))

Unnamed: 0,math
mean_math,57.45


In [54]:
exam.groupby('nclass').agg(mean_math = ('math', 'mean'))

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [55]:
exam.groupby('nclass')['math'].mean()

nclass
1    46.25
2    61.25
3    45.00
4    56.75
5    78.00
Name: math, dtype: float64

In [56]:
exam.groupby('nclass').agg(mean_math = ('math', 'mean'),
                           sum_math = ('math', 'sum'),
                           median_math = ('math', 'median'),
                           n = ('nclass', 'count'))

Unnamed: 0_level_0,mean_math,sum_math,median_math,n
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


<정리>
* 데이터의 종류에 따른 기초통계량, 시각화, 분석방법이 다 다름.
* 따라서 여러가지 방법을 아는 것이 굉장히 중요하다
* 빈도분석, 기술분석, 교차분석, 비모수분석, 회귀분석 등등