# Pandas Exercise

In [1]:
import pandas as pd

## 1. DataFrame 생성

- 파이썬의 딕셔너리를 사용
- 각 칼럼에 대한 데이터를 저장한 후 딕셔너리를 DataFrame 클래스의 생성자 인자로 넘겨서 DataFrame 객체가 생성됩니다.
- 아래 예제에서는 score 딕셔너리는 '학번', '이름', '학과', 'Quiz', '중간고사'라는 키 값을 가지며 각 키는 리스트 타입의 값을 가집니다.
- 이를 DataFrame의 생성자로 넘겨주면 DataFrame 객체가 생성되는데 생성된 객체를 'df'라는 변수가 바인딩합니다.

In [2]:
score={'학번':[201524213,201621223,201621233, 201611111, 201722222],
       '이름':['오지환','박용택','정성훈', '다니엘', '지민'],
       '학과':['경영정보','경영정보','경영정보','컴퓨터공학','컴퓨터공학'],
       'Quiz':[15,20,10,17,18],
       '중간고사':[20,20,15,18,16]}

df= pd.DataFrame(score)
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
2,201621233,정성훈,경영정보,10,15
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16


- 딕셔너리 키 값에 접근한 것처럼 DataFrame의 칼럼 접근도 동일하다

In [8]:
df['학번']

0    201524213
1    201621223
2    201621233
3    201611111
4    201722222
Name: 학번, dtype: int64

## 2. DataFrame 인덱싱

- 뽑고자 하는 칼럼을 리스트 형태로 묶어서 인덱싱

In [6]:
df[['이름', '중간고사']]

Unnamed: 0,이름,중간고사
0,오지환,20
1,박용택,20
2,정성훈,15
3,다니엘,18
4,지민,16


## 3. reindex로 순서 변경

In [9]:
df = df.reindex([2, 0, 4, 1, 3])
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
2,201621233,정성훈,경영정보,10,15
0,201524213,오지환,경영정보,15,20
4,201722222,지민,컴퓨터공학,18,16
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


## 4. iloc, loc

- iloc[position] : 위치 인덱싱 (위치 정수 기반)
- loc[label] : 레이블 인덱싱 (레이블 기반)

In [11]:
print(df.iloc[3])

학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object


In [12]:
print(df.loc[1])

학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object


In [13]:
print(df.iloc[:, [1,4]])

    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18


In [18]:
print(df.loc[:, ['이름', '중간고사']])

    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18


## 5. mean

- DataFrame 뒤에 mean을 붙이면 칼럼별로 평균 산출
- 칼럼 인덱싱 해준 다음 mean 붙이면 특정 칼럼 평균만 산출

In [19]:
df.mean()

학번      201620000.4
Quiz           16.0
중간고사           17.8
dtype: float64

In [20]:
df['중간고사'].mean()

17.8

## 6. idxmin, idxmax

In [21]:
df['중간고사'].idxmin()

2

- df.loc[label,label]을 활용
- 'Quiz'에서 가장 높은 값의 행 + 학번 열 교차점

In [22]:
df.loc[df['Quiz'].idxmax(), '학번']

201621223

## 7. describe

- 칼럼별 요약 통계량
- 개수, 평균, 표준편차, 최소최대값 등 출력

In [24]:
df.describe()

Unnamed: 0,학번,Quiz,중간고사
count,5.0,5.0,5.0
mean,201620000.0,16.0,17.8
std,70189.95,3.807887,2.280351
min,201524200.0,10.0,15.0
25%,201611100.0,15.0,16.0
50%,201621200.0,17.0,18.0
75%,201621200.0,18.0,20.0
max,201722200.0,20.0,20.0


## 8. sort_values

- 데이터프레임 : DataFrame.sort_values()
- 튜플 : sorted(Tuple, key)
- 리스트 : list.sort(), sorted(list)

In [27]:
df.sort_values('중간고사', ascending=False)

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16
2,201621233,정성훈,경영정보,10,15


## 9. value_counts

유일한 값(unique value)의 개수를 세는 방식

In [31]:
df['학과'].unique()

array(['경영정보', '컴퓨터공학'], dtype=object)

In [29]:
df['학과'].value_counts()

경영정보     3
컴퓨터공학    2
Name: 학과, dtype: int64

## 10. groupby

1) 데이터프레임을 그룹별로 나누고(split)

2) 그룹별로 집계함수 적용(apply)

3) 집계 결과를 하나로 합친다 (combine)

In [32]:
df.groupby('학과')['중간고사'].mean()

학과
경영정보     18.333333
컴퓨터공학    17.000000
Name: 중간고사, dtype: float64

In [33]:
list(df.groupby('학과'))

[('경영정보',
            학번   이름    학과  Quiz  중간고사
  2  201621233  정성훈  경영정보    10    15
  0  201524213  오지환  경영정보    15    20
  1  201621223  박용택  경영정보    20    20),
 ('컴퓨터공학',
            학번   이름     학과  Quiz  중간고사
  4  201722222   지민  컴퓨터공학    18    16
  3  201611111  다니엘  컴퓨터공학    17    18)]

## 11. 간단 예제

### 1) 학생 중 퀴즈 점수가 평균 이상인 학생 이름 출력

- 퀴즈의 평균을 quiz_mean 변수에 할당
- quiz_mean보다 Quiz 점수가 높은 행의 이름 열만 출력

In [37]:
quiz_mean = df['Quiz'].mean()
df[df['Quiz'] > quiz_mean]['이름']

4     지민
1    박용택
3    다니엘
Name: 이름, dtype: object

### 2) 퀴즈와 중간고사 점수 모두 평균 이상인 학생 record 출력

- 퀴즈의 평균을 quiz_mean 변수에 할당
- 중간고사의 평균을 mid_mean 변수에 할당
- AND(&) 연산자를 활용해 각각의 점수보다 높은 record만 출력

In [35]:
quiz_mean = df['Quiz'].mean()
mid_mean = df['중간고사'].mean()
df[(df['Quiz'] > quiz_mean) & (df['중간고사'] > mid_mean)]

Unnamed: 0,학번,이름,학과,Quiz,중간고사
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18
