#### 간편 명령어
- m 이면 markdown
- y 이면 파이썬 코드
- h : help
- a,b : 셀 추가
- x : 한줄 셀 삭제
---


#### pandas

- 특정 데이터들을 DataFrame 형식으로 변환

In [54]:
import pandas as pd

In [55]:
df = pd.read_csv("../data_set/1.pandas/1.pandas.csv")

In [56]:
# 1차원 배열은 series
# 아래의 2차원 배열은 dataframe
df

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
2,Choi,90.5,B,40
3,jo,85.7,B,50


In [57]:
# 아래 2개 코드 동일한 결과 
df['name']  # 보편적으로 이거 많이 사용
# df.name

0     Kim
1     Cho
2    Choi
3      jo
Name: name, dtype: object

In [58]:
df[['name', 'age']] # [] 로 중첩시켜주면 dataframe 형식으로 가져올 수 있음

Unnamed: 0,name,age
0,Kim,20
1,Cho,30
2,Choi,40
3,jo,50


In [59]:
df[1:3] # slicing

Unnamed: 0,name,score,grade,age
1,Cho,95.0,A,30
2,Choi,90.5,B,40


In [60]:
df[:3]

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
2,Choi,90.5,B,40


In [61]:
df[1:]

Unnamed: 0,name,score,grade,age
1,Cho,95.0,A,30
2,Choi,90.5,B,40
3,jo,85.7,B,50


---
##### loc
- 열 또는 특정 조건의 값을 얻어옴
- df.loc[행(index), 열(column 조건식)]

In [62]:
df.loc[1:3, 'name']

1     Cho
2    Choi
3      jo
Name: name, dtype: object

In [63]:
df.loc[1:3, ['name']]
# df[1:3][['name']] # 같은 결과 반환

Unnamed: 0,name
1,Cho
2,Choi
3,jo


In [64]:
df.loc[1:3, ['name', 'age']]

Unnamed: 0,name,age
1,Cho,30
2,Choi,40
3,jo,50


In [65]:
# 모든 인덱스를 가져오돼, 컬럼은 name ~ grade 까지 가져와라
df.loc[ : , 'name':'grade']

Unnamed: 0,name,score,grade
0,Kim,100.0,A
1,Cho,95.0,A
2,Choi,90.5,B
3,jo,85.7,B


In [66]:
# 1 ~ 2 번째까지 인덱스를 가져오돼, 모든 컬럼을 가져와라
df.loc[1:2, ]

Unnamed: 0,name,score,grade,age
1,Cho,95.0,A,30
2,Choi,90.5,B,40


---
#### 조건식

In [67]:
df['grade'] == 'A'

0     True
1     True
2    False
3    False
Name: grade, dtype: bool

In [68]:
df[df['grade'] == 'A'] 

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30


---
#### 삭제

In [69]:
df.drop(2) #2번째 인덱스 삭제 (실제로 삭제가 이루어지는 것은 아님)

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
3,jo,85.7,B,50


In [70]:
df # 실제로 삭제가 이루어지는 것은 아님

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
2,Choi,90.5,B,40
3,jo,85.7,B,50


In [71]:
df

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
2,Choi,90.5,B,40
3,jo,85.7,B,50


In [72]:
df = df.drop(2)
df

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
3,jo,85.7,B,50


In [None]:
df.drop(1, inplace=True) # df 를 따로 재할당할 필요 없이 바로 반영된다
df

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
3,jo,85.7,B,50


---
#### axis
- 열 또는 행중에 어떠한 값을 기준으로 설정할지 결정
- axis는 기본적으로 행(index)으로 설정되어 있다. axis=0
- axis=0 : 행(index) 기준
- axis=1 : 열(column) 기준

In [75]:
df.drop(0, axis=0, inplace=True) # 첫번째 행을 삭제

In [76]:
df

Unnamed: 0,name,score,grade,age
3,jo,85.7,B,50


In [77]:
df.drop('score', axis=1, inplace=True) # score 의 첫번째 열 삭제
df

Unnamed: 0,name,grade,age
3,jo,B,50


---
#### 다양한 예제

In [78]:
df = pd.read_csv("../data_set/1.pandas/1.pandas.csv")
df

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
2,Choi,90.5,B,40
3,jo,85.7,B,50


In [79]:
df['score'] < 95

0    False
1    False
2     True
3     True
Name: score, dtype: bool

In [80]:
df[df['score'] < 95]

Unnamed: 0,name,score,grade,age
2,Choi,90.5,B,40
3,jo,85.7,B,50


In [81]:
df[df['score'] < 95]['name']

2    Choi
3      jo
Name: name, dtype: object

In [82]:
df.loc[df['score'] < 95, 'name']

2    Choi
3      jo
Name: name, dtype: object

In [84]:
df[df['score'] < 95][['name', 'age']]

Unnamed: 0,name,age
2,Choi,40
3,jo,50


In [85]:
df.loc[df['score'] < 95, ['name', 'age']]

Unnamed: 0,name,age
2,Choi,40
3,jo,50


In [86]:
df

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30
2,Choi,90.5,B,40
3,jo,85.7,B,50


---
#### dataframe 다양한 메서드

In [87]:
df.columns

Index(['name', 'score', 'grade', 'age'], dtype='object')

In [88]:
df.values

array([['Kim', 100.0, 'A', 20],
       ['Cho', 95.0, 'A', 30],
       ['Choi', 90.5, 'B', 40],
       ['jo', 85.7, 'B', 50]], dtype=object)

In [89]:
# object 는 str
df.dtypes

name      object
score    float64
grade     object
age        int64
dtype: object

In [91]:
df['grade'].isin(['A']) #해당하는 열에 'A' 값이 있는가

0     True
1     True
2    False
3    False
Name: grade, dtype: bool

In [92]:
df[df['grade'].isin(['A'])]

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30


In [93]:
df.loc[df['grade'].isin(['A']), ] # loc 에서 두번째 파라미터는 컬럼

Unnamed: 0,name,score,grade,age
0,Kim,100.0,A,20
1,Cho,95.0,A,30


In [94]:
index_name = ['김씨', '죠씨','쵹씨','쵸씨']
df.index = index_name
df

Unnamed: 0,name,score,grade,age
김씨,Kim,100.0,A,20
죠씨,Cho,95.0,A,30
쵹씨,Choi,90.5,B,40
쵸씨,jo,85.7,B,50


In [95]:
df[1:3] # 인덱스 이름이 변경돼도 숫자로 접근 가능

Unnamed: 0,name,score,grade,age
죠씨,Cho,95.0,A,30
쵹씨,Choi,90.5,B,40


In [96]:
df['김씨':'쵹씨']

Unnamed: 0,name,score,grade,age
김씨,Kim,100.0,A,20
죠씨,Cho,95.0,A,30
쵹씨,Choi,90.5,B,40
