In [1]:
import numpy as np, pandas as pd

In [2]:
data = pd.Series([5, 3, -1, 9])
data

0    5
1    3
2   -1
3    9
dtype: int64

In [3]:
data.values

array([ 5,  3, -1,  9], dtype=int64)

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
data2 = pd.Series([8, -5, 0, 2], index=['A', 'B', 'C', 'D'])
data2

A    8
B   -5
C    0
D    2
dtype: int64

In [6]:
data2['A']

8

In [7]:
data2['A'] = 10
data2

A    10
B    -5
C     0
D     2
dtype: int64

### DataFrame으로 변환하기

In [8]:
a = [1, 2, 3]
print(a) # python list

b = np.array([1, 2, 3])
print(b) # numpy array

[1, 2, 3]
[1 2 3]


In [9]:
df = pd.DataFrame(a)
df

Unnamed: 0,0
0,1
1,2
2,3


In [10]:
df2 = pd.DataFrame(b)
df2

Unnamed: 0,0
0,1
1,2
2,3


In [11]:
# index와 columns 추가하기
df = pd.DataFrame(a, index=['1번', '2번', '3번'], columns=['A'])
df

Unnamed: 0,A
1번,1
2번,2
3번,3


In [12]:
# 2*3 크기의 python list와 numpy array 생성 후 DataFrame 변환
a = [[1, 2, 3], [4, 5, 6]]
b = np.array(a)

In [13]:
df = pd.DataFrame(a, index=['1번', '2번'], columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


In [14]:
df2 = pd.DataFrame(a, index=['1번', '2번'], columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


In [15]:
a = {'key1': [1, 2, 3], 'key2': [2, 3, 4], 'key3': [3, 5, 7]}
a

{'key1': [1, 2, 3], 'key2': [2, 3, 4], 'key3': [3, 5, 7]}

In [16]:
# key(문자열)는 columns로, value(list/array)는 컬럼 데이터로 매핑
df = pd.DataFrame(a)
df

Unnamed: 0,key1,key2,key3
0,1,2,3
1,2,3,5
2,3,4,7


In [17]:
data = {'제목': ['유미의 세포들', '기기괴괴', '프리드로우'],
        '작가': ['이동건', '오성대', '전선욱'], '장르': ['에피소드', '옴니버스', '스토리']}
data

{'제목': ['유미의 세포들', '기기괴괴', '프리드로우'],
 '작가': ['이동건', '오성대', '전선욱'],
 '장르': ['에피소드', '옴니버스', '스토리']}

In [18]:
type(data)

dict

In [19]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,제목,작가,장르
0,유미의 세포들,이동건,에피소드
1,기기괴괴,오성대,옴니버스
2,프리드로우,전선욱,스토리


In [20]:
# columns 순서 바꿔주면 순서 예쁘게 잘 바뀜
frame = pd.DataFrame(data, columns=['장르', '제목', '작가'])
frame

Unnamed: 0,장르,제목,작가
0,에피소드,유미의 세포들,이동건
1,옴니버스,기기괴괴,오성대
2,스토리,프리드로우,전선욱


In [21]:
frame = pd.DataFrame(data, index=['1번', '2번', '3번'])
frame

Unnamed: 0,제목,작가,장르
1번,유미의 세포들,이동건,에피소드
2번,기기괴괴,오성대,옴니버스
3번,프리드로우,전선욱,스토리


In [22]:
frame['제목']

1번    유미의 세포들
2번       기기괴괴
3번      프리드로우
Name: 제목, dtype: object

In [23]:
# 행렬전치
frame.T

Unnamed: 0,1번,2번,3번
제목,유미의 세포들,기기괴괴,프리드로우
작가,이동건,오성대,전선욱
장르,에피소드,옴니버스,스토리


### 데이터 정렬하기

In [24]:
frame = pd.DataFrame([[1, 3, 2, 4], [8, 11, 1, 7], [10, 5, 20, 1]],
                     index=['5번', '2번', '4번'], columns=['B', 'Z', 'C', 'A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,20,1


In [25]:
# index 기준으로 정렬하기

# frame.sort_index(ascending=True)
frame.sort_index()

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,20,1
5번,1,3,2,4


In [26]:
# 특정 열의 값을 기준으로 정렬하기

# frame.sort_values(by=['특정값'], ascending=True)
frame.sort_values(by=['Z'])

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,20,1
2번,8,11,1,7


In [27]:
frame = pd.DataFrame([[1, 3, 20, 4], [8, 11, 1, 7], [10, 5, 2, 1]],
                     index=['5번', '2번', '4번'], columns=['B', 'Z', 'C', 'A'])

# B 먼저 정렬하고 C 정렬
frame.sort_values(by=['B', 'C'])

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,10,5,2,1


### 데이터 삭제하기

In [28]:
# frame.drop(labels=['5번', '2번'], axis=0)
frame.drop(labels=['5번', '2번'])

Unnamed: 0,B,Z,C,A
4번,10,5,2,1


In [29]:
frame.drop(labels=['Z', 'A'], axis=1)

Unnamed: 0,B,C
5번,1,20
2번,8,1
4번,10,2


### 데이터 조회하기

In [30]:
frame = pd.DataFrame([[1, 3, 20, 4], [8, 11, 1, 7], [1, 5, 2, 1], [1, 2, 3, 4], [1, 3, 5, 7], [2, 4, 6, 8]],
                     index=['5번', '2번', '4번', '10번', '3번', '15번'], columns=['B', 'Z', 'C', 'A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [31]:
# 첫 3개의 행 보기
frame.head(3)

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [32]:
# 뒷 3개의 행 보기
frame.tail(3)

Unnamed: 0,B,Z,C,A
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [33]:
# 특정 행에 접근
frame.loc['10번']

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [34]:
# 특정 행의 특정 열에 접근
frame.loc['10번', 'C']

3

In [35]:
# 인덱스 위치 값을 이용해 접근
frame.iloc[3]

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [36]:
# 특정 행 인덱스 위치에 특정 열 인덱스에 접근
frame.iloc[3, 2]

3

### 데이터 세기

In [37]:
# 특정 열의 unique한 데이터 개수 세기
frame['B'].value_counts()

1    4
8    1
2    1
Name: B, dtype: int64

### 데이터 읽고 쓰기

In [38]:
# 우리가 쓰던 데이터 파일을 csv로 저장
frame.to_csv('example.csv')

In [39]:
data = pd.read_csv('example.csv')
data

Unnamed: 0.1,Unnamed: 0,B,Z,C,A
0,5번,1,3,20,4
1,2번,8,11,1,7
2,4번,1,5,2,1
3,10번,1,2,3,4
4,3번,1,3,5,7
5,15번,2,4,6,8
