In [2]:
import numpy as np

## 넘파이 배열 인덱싱

In [4]:
arr = np.array([1,2,3,4,5])
print(arr)

[1 2 3 4 5]


In [7]:
print(arr[0])
print(arr[3])
print(arr[-1])

1
4
5


In [10]:
# 2차원 배열 인덱싱
arr_2d = np.array([[1,2,3],[4,5,6]])
print(arr_2d)

[[1 2 3]
 [4 5 6]]


In [12]:
print(arr_2d[0,0])

1


In [13]:
# 배열 슬라이싱
# 슬라이싱 실습에 사용할 넘파이 배열을 arange라는 넘파이의 매서드를 사용
arr_2d = np.arange(1,7).reshape(2,3)
print(arr_2d)

[[1 2 3]
 [4 5 6]]


In [14]:
# 첫번째 행 전체 가져오기
print(arr_2d[0, :])

[1 2 3]


In [17]:
print(arr_2d[:, 2]) # 3번째 열에 있는 모든 원소 출력

[3 6]


## 판다스 pandas

In [18]:
import pandas as pd

In [23]:
# 딕셔너리 생성
data = {
    '이름' : ['아이유', '김연아', '홍길동', '장범준', '강감찬'],
    '학과' : ['국문학', '수학', '컴퓨터', '철학', '경영학'],
    '성적' : [3.0, 1.0, 3.5, 2.7, 4.0]
}

In [24]:
data

{'이름': ['아이유', '김연아', '홍길동', '장범준', '강감찬'],
 '학과': ['국문학', '수학', '컴퓨터', '철학', '경영학'],
 '성적': [3.0, 1.0, 3.5, 2.7, 4.0]}

In [25]:
# 딕셔녀리 타입인 data를 pd.DataFrame() 인자로 넣어주면 된다.
df = pd.DataFrame(data)

display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [None]:
# 데이터 csv로 저장하기
df.to_csv('./data/student.csv', sep=',', index=False)
# to_csv(저장 경로와 파일 이름 지정, sep=콤마로 구분, index=False-저장시 인덱스지정 )

In [36]:
# 데이터 로딩은 pandas의 read_csv를 활용
df = pd.read_csv('./data/student.csv') #경로 설정
display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [38]:
# 1. 슬라이싱
df[1:5]
df[0:3]

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5


In [None]:
# 2. 인덱싱
# 단순 인덱싱
# 컬럼명을 주어 단순 인덱싱
df['이름']

0    아이유
1    김연아
2    홍길동
3    장범준
4    강감찬
Name: 이름, dtype: object

In [40]:
# fancy indexing
# 인덱싱 시 리스트로 값을 주면 됨
df[['이름', '학과']]

Unnamed: 0,이름,학과
0,아이유,국문학
1,김연아,수학
2,홍길동,컴퓨터
3,장범준,철학
4,강감찬,경영학


In [None]:
fancy_list = ['이름', '학과']   # 원하는 컬럼만 리스트로 선택, 컬럼 입력시 순서는 중요하지 않음음
df[fancy_list]

Unnamed: 0,이름,학과
0,아이유,국문학
1,김연아,수학
2,홍길동,컴퓨터
3,장범준,철학
4,강감찬,경영학


In [None]:
# 슬라이싱 + 인덱싱
df[1:3][['학과', '이름']]

Unnamed: 0,학과,이름
1,수학,김연아
2,컴퓨터,홍길동


In [None]:
# boolean indexing
# 수학과 소속인 학생의 데이터만 불러옴
df[df['학과']=='수학']

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0


In [44]:
df[df['성적'] % 0.5 == 0]

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
4,강감찬,경영학,4.0


In [45]:
df['성적'] % 0.5 == 0

0     True
1     True
2     True
3    False
4     True
Name: 성적, dtype: bool

In [None]:
# pandas 고급 인덱싱 - loc & iloc
# 한개의 행에 대해서만 loc indexing
df.loc[3]
# index값인 3에 해당하는 장범준 학생에 대한 정보만 가져옴

이름    장범준
학과     철학
성적    2.7
Name: 3, dtype: object

In [47]:
type(df.loc[3])

pandas.core.series.Series

In [None]:
# 행에 대한 fancy indexing
df.loc[[1,3,4]]     # loc 인덱서에 리스트로 값을 부여

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [50]:
# 행에 대해서 fancy 인덱싱과 컬럼 슬라이싱
df.loc[[1,3,4], :]

Unnamed: 0,이름,학과,성적
1,김연아,수학,1.0
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [51]:
# 행에 대해서 fancy 인덱싱과 원하는 컬럼 슬라이싱
df.loc[[1,3,4], '이름' : '학과']

Unnamed: 0,이름,학과
1,김연아,수학
3,장범준,철학
4,강감찬,경영학


In [53]:
df.iloc[[1,3,4], 0:2]

Unnamed: 0,이름,학과
1,김연아,수학
3,장범준,철학
4,강감찬,경영학


In [54]:
df.loc[df['성적'] % 2 != 0, ['이름', '학과', '성적']]

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
