## 16.1 []이용 행,열 추출하기

In [6]:
import pandas as pd
xlsx=pd.read_excel("../Data/excel_exam.xlsx")
xlsx.to_csv('exam.csv')

### 조건을 충족하는 행 추출하기

**가로=열,row  // 세로=행,column**

In [2]:
import pandas as pd
df_raw = pd.read_csv('exam.csv')
df_raw.shape
df_raw.head()
df=df_raw.loc[:,df_raw.columns!=df_raw.columns[0]]
df.head()

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [21]:
# nclass 추출
df['nclass'] 

0     1
1     1
2     1
3     1
4     2
5     2
6     2
7     2
8     3
9     3
10    3
11    3
12    4
13    4
14    4
15    4
16    5
17    5
18    5
19    5
Name: nclass, dtype: int64

In [22]:
# nclass가 1인지 확인
df['nclass'] == 1

0      True
1      True
2      True
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
Name: nclass, dtype: bool

- []안에 조건을 넣을수도있다

In [23]:
# nclass가 1이면 추출
df[df['nclass'] == 1] 

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [24]:
# 수학 점수가 80점 이상이면 추출
df[df['math'] >= 80]

Unnamed: 0,id,nclass,math,english,science
6,7,2,80,90,45
7,8,2,90,78,25
17,18,5,80,78,90
18,19,5,89,68,87


- []안에 논리 연산자도 가능 ! 대신에 한개씩만 &, |

In [25]:
# nclass가 1이면서 수학 점수가 50점 이상
df[(df['nclass'] == 1) & (df['math'] >= 50)]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [26]:
# 수학 점수가 50점 미만이거나 영어 점수가 50점 미만
df[(df['math'] < 50) | (df['english'] < 50)]

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
8,9,3,20,98,15
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [27]:
# 데이터 프레임으로 추출
df[['id']]


Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [28]:
# .을 이용해 변수 추출
df.math

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [29]:
type(df.math)

pandas.core.series.Series

In [30]:
# query 검색이나 np.where검색 동일 기능
df[df['nclass'] == 1]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [31]:
type(df[df['nclass'] == 1])

pandas.core.frame.DataFrame

In [32]:
df[df['nclass'] == 1][1:3]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78


In [36]:
df[df['nclass'] == 1].loc[1:3]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [37]:
df[df['nclass'] == 1][['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


In [38]:
#agg통해서 집계
df.groupby('nclass') \
  .agg(math    = ('math', 'mean'), 
       english = ('english', 'mean'))

Unnamed: 0_level_0,math,english
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,45.0,86.5
4,56.75,84.75
5,78.0,74.25


In [39]:
#[]로 인덱싱해서 집계
df.groupby('nclass')[['math', 'english']].mean()

Unnamed: 0_level_0,math,english
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,45.0,86.5
4,56.75,84.75
5,78.0,74.25


## 16.2 df.loc[]

- 인덱스 문자열을 지정해 행 추출하기

In [41]:
df.loc[10]

id         11
nclass      3
math       65
english    65
science    65
Name: 10, dtype: int64

In [44]:
df.loc[[1,2,3]] 

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [43]:
df.loc[1:3,'math']

1    60
2    45
3    30
Name: math, dtype: int64

**인덱스검색을 번호로 하든 문자열로 하든 메소드상에서 달라지는건 없다**

In [45]:
# 첫 번째 행 ~ 2행 추출
df.loc[:2]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [46]:
# 5행 ~ 마지막 행 추출
df.loc[5:]

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


> 오히려 인덱스가 문자열이라면 인덱스 번호로 슬라이싱이 불가하다

----------
## 16.3 df.iloc

### loc메소드와 동일하지만 loc와 다르게 인덱스가 문자열이라도 인덱스 번호로 슬라이싱이 가능하다!

### 하지만 loc와 다르게 []안에 query조건을 넣을수없다

In [3]:
df.iloc[df['nclass']==1]

NotImplementedError: iLocation based boolean indexing on an integer type is not available