# Pandas

In [1]:
import pandas as pd

# 데이터 생성

In [2]:
# 실습에 사용할 샘플 딕셔너리 생성

data = {
    '이름':['아이유', '김연아','홍길동', '장범준',' 강감찬'],
    '학과':['국문학', '수학', '컴퓨터', '철학', '경영학'],
    '성적':[3.0, 1.0, 3.5, 2.7, 4.0]
}

In [3]:
data

{'이름': ['아이유', '김연아', '홍길동', '장범준', ' 강감찬'],
 '학과': ['국문학', '수학', '컴퓨터', '철학', '경영학'],
 '성적': [3.0, 1.0, 3.5, 2.7, 4.0]}

In [5]:
# 딕셔너리 타입인 data를 pd.DataFrame() 인자로 넣어주면 변환됨
df = pd.DataFrame(data)
display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


# 데이터 csv로 저장하기

In [6]:
# to_scv 메소드 사용
df.to_csv('./data/student.csv', sep=',', index=False)
#to_csv(저장경로와 파일이름 지정, sep = seperate 콤마로 구분하겠다, index=숫자 01234안들어가게)

# 데이터 불러오기

In [8]:
# 데이터 로딩은 read_csv사용
df = pd.read_csv('./data/student.csv')
display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


# 원하는 데이터 선택하기

### 1) 슬라이싱(slicing)

In [9]:
# 데이터 슬라이싱
df[1:5] # 데이터의 1번행부터 4번행까지

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [10]:
df[0:3] # 첫번째부터 세번째 행까지  두번째 숫자 -1 접근

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5


In [11]:
df[0:]

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


### 2) 인덱싱(indexing)

In [12]:
df[1] # 데이터프레임에는 이런식으로 인덱싱 못함

KeyError: 1

In [13]:
# 단순인덱싱 
# 컬럼명을 주어 단순인덱싱
df['이름']

0     아이유
1     김연아
2     홍길동
3     장범준
4     강감찬
Name: 이름, dtype: object

In [14]:
df['학과']

0    국문학
1     수학
2    컴퓨터
3     철학
4    경영학
Name: 학과, dtype: object

### fancy Indexing

In [15]:
# 인덱싱시 리스트로 값을 주면됨
#이름과 학과 접근
df[['이름', '학과']]

Unnamed: 0,이름,학과
0,아이유,국문학
1,김연아,수학
2,홍길동,컴퓨터
3,장범준,철학
4,강감찬,경영학


In [16]:
fancy_list = ['이름', '학과']

df[fancy_list]

Unnamed: 0,이름,학과
0,아이유,국문학
1,김연아,수학
2,홍길동,컴퓨터
3,장범준,철학
4,강감찬,경영학


In [17]:
#컬럼 입력할때 순서는 중요하지 않음

df[['학과', '이름']]

Unnamed: 0,학과,이름
0,국문학,아이유
1,수학,김연아
2,컴퓨터,홍길동
3,철학,장범준
4,경영학,강감찬


### 슬라이싱 + 인덱싱

In [18]:
df[1:3][['학과', '이름']]

Unnamed: 0,학과,이름
1,수학,김연아
2,컴퓨터,홍길동


In [19]:
df[['학과', '이름']][1:3] # 이것도 순서 상관없음

Unnamed: 0,학과,이름
1,수학,김연아
2,컴퓨터,홍길동


Boolean indexing

In [20]:
df[df['학과'] == '수학'] # 학과가 수학과인 얘만 뽑아라

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0


In [21]:
# 성적이 0.5로 나누어지는 행에 접근
df[df['성적'] % 0.5 ==0]

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
4,강감찬,경영학,4.0


In [22]:
df['성적'] % 0.5 ==0

0     True
1     True
2     True
3    False
4     True
Name: 성적, dtype: bool

### pandas 고급 인덱싱 loc & iloc 인덱서

In [23]:
# 한개의 행에 대해서만 loc indexing
df.loc[3]

이름    장범준
학과     철학
성적    2.7
Name: 3, dtype: object

In [25]:
type(df.loc[3]) #시리즈 데이터 타입임

pandas.core.series.Series

In [26]:
# 행에 대해서 fancy indexing
df.loc[[1, 3, 4]]

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [27]:
# fancy 인덱싱 + 컬럼 슬라이싱
df.loc[[1, 3, 4], :]

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [33]:
df.loc[[1, 3, 4], '이름':'학과']

Unnamed: 0,이름,학과
1,김연아,수학
3,장범준,철학
4,강감찬,경영학


In [31]:
df.iloc[[1, 3, 4], 0:2]
# loc 는 문자로 하고 iloc는 숫자로 함 뒤에숫자 -1 까지

Unnamed: 0,이름,학과
1,김연아,수학
3,장범준,철학
4,강감찬,경영학


In [34]:
df.loc[df['성적'] % 2 != 0, ['이름', '학과', '성적']]
#성적이 2로 나누어 떨어지지 않는것들 

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
