https://pandas.pydata.org/pandas-docs/version/1.4/reference/index.html

In [4]:
import pandas as pd
import numpy as np

In [6]:
arr = np.array([1,2,3])
arr2 = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr, arr2

(array([1, 2, 3]),
 array([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]))

### 1.Series 생성
- class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

In [15]:
# [1] index를 별도로 지정하지 않음 -> index가 자동지정됨 - RangeIndex(start=0, stop=3, step=1)
s = pd.Series([1, 2, 3])
display(s, s.index)

0    1
1    2
2    3
dtype: int64

RangeIndex(start=0, stop=3, step=1)

In [19]:
# [2] index를 지정 - Index(['A', 'B', 'C'], dtype='object')
#list('ABC'), [10, 20, 30], pd.RangeIndex(3), ...
s = pd.Series([1, 2, 3], index=list('ABC'))
display(s, s.index)

A    1
B    2
C    3
dtype: int64

Index(['A', 'B', 'C'], dtype='object')

In [20]:
# [3] index를 지정 - Index(['A', 'B', 'C'], dtype='object')
#list('ABC'), [10, 20, 30], pd.RangeIndex(3), ...
s = pd.Series([1, 2, 3])
s.index = list('ABC')
display(s, s.index)

A    1
B    2
C    3
dtype: int64

Index(['A', 'B', 'C'], dtype='object')

In [21]:
# [4] dict 를 사용한 Series 생성
s = pd.Series({'A': 1, 'B': 2, 'C': 3})
s

A    1
B    2
C    3
dtype: int64

In [22]:
# [5] 이렇게 사용하면 value가 list 가 된다
# 일반적인 사용법은 아님!
s = pd.Series({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
s

A    [1, 2, 3]
B    [4, 5, 6]
C    [7, 8, 9]
dtype: object

### 2.DataFrame 생성

In [23]:
# [6] DataFrame 만들기 (2차원 list 사용) 
# -> index, columns가 자동지정됨 - RangeIndex(start=0, stop=3, step=1)
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [24]:
# [7] DataFrame 만들기 (2차원 numpy 사용)
# -> index, columns가 자동지정됨 - RangeIndex(start=0, stop=3, step=1)
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
df = pd.DataFrame(arr)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [8]:
# [8] DataFrame 만들기 - index, columns 지정 (개수는 행, 열의 개수를 맞게 사용)
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]],
                 index=list('ABC'), columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [41]:
# [9] DataFrame 만들기 - index, columns 지정 (개수는 행, 열의 개수를 맞게 사용)
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]])
df.index=list('ABC')
df.columns=['X1', 'X2', 'X3']
df.index.name = 'index'
df.columns.name = 'columns'
df.index.name =''  # 제거하고 싶을 때
df

columns,X1,X2,X3
,,,
A,1.0,2.0,3.0
B,4.0,5.0,6.0
C,7.0,8.0,9.0


In [27]:
# [10] dict를 사용해서 DataFrame 만들기 
# dict의 key가 columns의 label로 사용
df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


### 3.Series, DataFrame 생성 연습
- class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

In [30]:
ss = pd.Series([100,101,102,103,104], dtype='int32', name='number')
ss

0    100
1    101
2    102
3    103
4    104
Name: soyoung, dtype: int32

In [34]:
# name과 dtype 지정을 생성 후 하고 싶다면
ss = pd.Series([100,101,102,103,104], dtype='int32')
ss = ss.astype('int32')
ss.name = 'number'
ss.index = list('ABCDE')
ss

A    100
B    101
C    102
D    103
E    104
Name: number, dtype: int32

In [39]:
ss = pd.Series([100,101,102,103,104], dtype='int32', index=list('ABCDE'))
ss.index.name = 'index'
display(ss.index, ss.index.name, ss.index.values, ss.index.dtype)

Index(['A', 'B', 'C', 'D', 'E'], dtype='object', name='index')

'index'

array(['A', 'B', 'C', 'D', 'E'], dtype=object)

dtype('O')

### 4.Series, DataFrame 의 특성

In [54]:
# s1은 자료저장소로 사용, dict 처럼 사용할 때
s1 = pd.Series([1, '헬로', 3.14, [1,2,3]])
display(s1, [type(x) for x in s1])

0            1
1           헬로
2         3.14
3    [1, 2, 3]
dtype: object

[int, str, float, list]

In [46]:
[type(x) for x in s1]

[int, str, float, list]

In [55]:
# s2는 자료저장소 뿐 아니라 다양한 연산, 처리 기능을 사용할 수 있음
# 같은 dtype을 갖는 것이 여러 가지 기능을 사용할 수 있어 편리함
s2 = pd.Series(['010-3456-2131', '010-2334-9081'])
display(s2, [type(x) for x in s2])
s2.str.split('-').str[-1]

0    010-3456-2131
1    010-2334-9081
dtype: object

[str, str]

0    2131
1    9081
dtype: object

### 6.파일 입출력
- 텍스트 문서는 engine이 필요 없음
- 바이너리(binary)는 engine이 필요 함 / 별도의 라이브러리(모듈)이 필요함
- excel의 경우 : xlrd, xlwt, openpyxl 을 추가로 설치해야함
- `!pip install xlrd xlwt openpyxl`

In [56]:
df = pd.DataFrame({'A':list('AAABBBCCC'), 'B':[3,1,0,1,7,3,2,1,3],
                  'C':[1,2,5,6,2,3,4,1,2], 'D':list('XXYXYXXYX')})
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [57]:
# [1] csv로 저장하기 - index를 포함
df.to_csv('data_1.csv')

In [58]:
# [2] csv로 저장하기 - index를 제외
df.to_csv('data_2.csv', index=False)

In [60]:
# [3] csv를 DataFrame으로 읽어오기
df = pd.read_csv('data_1.csv')
df

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,A,3,1,X
1,1,A,1,2,X
2,2,A,0,5,Y
3,3,B,1,6,X
4,4,B,7,2,Y
5,5,B,3,3,X
6,6,C,2,4,X
7,7,C,1,1,Y
8,8,C,3,2,X


In [61]:
# [4] csv를 DataFrame으로 읽어오기
df = pd.read_csv('data_2.csv')
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [69]:
# [5] csv를 DataFrame으로 읽어오기 - chunksize를 주어서 읽어오기
df = list(pd.read_csv('data_2.csv', chunksize=3))
#[display(x) for x in df]
len(df)

3

In [67]:
chunk = pd.read_csv('data_2.csv', chunksize=3)
chunk.get_chunk()  # chunk 를 하나씩 가져오기

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y


In [68]:
chunk.get_chunk()

Unnamed: 0,A,B,C,D
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X


In [70]:
df = pd.DataFrame({'A':list('AAABBBCCC'), 'B':[3,1,0,1,7,3,2,1,3],
                  'C':[1,2,5,6,2,3,4,1,2], 'D':list('XXYXYXXYX')})
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [75]:
# 엑셀 파일로 저장하기, 시트 이름을 'SHEET1' 지정
# index도 저장됨
df.to_excel('data_1.xlsx', sheet_name='SHEET1')

In [73]:
# 엑셀 파일로 저장하기, 시트 이름을 'SHEET1' 지정
# index를 제외하고 저장
df.to_excel('data_2.xlsx', sheet_name='SHEET1', index=False)

In [78]:
# 여러 시트를 갖는 엑셀 파일로 저장하기
writer = pd.ExcelWriter('data_3.xlsx')
df.to_excel(writer, sheet_name='SHEET1', index=False)
df.to_excel(writer, sheet_name='SHEET2', index=False)
df.to_excel(writer, sheet_name='SHEET3', index=False)
writer.close()

In [81]:
# 여러 시트를 갖는 엑셀 파일 - 모든 시트 가져오기
dfDict = pd.read_excel('data_3.xlsx', sheet_name=None)
print(dfDict.keys())
dfDict['SHEET1']

dict_keys(['SHEET1', 'SHEET2', 'SHEET3'])


Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,A,3,1,X
1,1,A,1,2,X
2,2,A,0,5,Y
3,3,B,1,6,X
4,4,B,7,2,Y
5,5,B,3,3,X
6,6,C,2,4,X
7,7,C,1,1,Y
8,8,C,3,2,X
