In [1]:
import pandas as pd
import numpy as np

In [2]:
arr=np.array([1,2,3])
print(arr)
arr2=np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2)

[1 2 3]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 1. Series 생성

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)[source]

In [3]:
# index를 별도로 지정하지 않음 -> index가 자동 지정됨(ex.RangeIndex(start=0, stop3, step1))
s=pd.Series([1,2,3])
display(s, s.index)

0    1
1    2
2    3
dtype: int64

RangeIndex(start=0, stop=3, step=1)

In [4]:
# [2] index를 지정 - Index(['A', 'B', 'C'], dtype='object')
#list('ABC'), [10, 20, 30]
# pd.RangeIndex(3), ... Series의 index를 RangeIndex에서 원하는 것으로 바꿀 수 있음
s=pd.Series([1,2,3], index=list('ABC'))
display(s, s.index)

A    1
B    2
C    3
dtype: int64

Index(['A', 'B', 'C'], dtype='object')

In [5]:
# index를 먼저 series 생성 후에 나중에 index 이름 변경도 가능
s=pd.Series([1,2,3])
s.index=list('ABC')
display(s,s.index)

A    1
B    2
C    3
dtype: int64

Index(['A', 'B', 'C'], dtype='object')

In [6]:
# Series를 만들 때 dict 형태로도 생성 가능
s = pd.Series({'A': 1, 'B': 2, 'C': 3})
s

A    1
B    2
C    3
dtype: int64

In [7]:
# 이렇게 Series 안에 List를 넣으면 Object로 들어가지만 series에 왠만하면 list를 넣지 않음
# 이후에 연산을 하기 위해서는 DataFrame으로 만드는게 더 좋음
s = pd.Series({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
s

A    [1, 2, 3]
B    [4, 5, 6]
C    [7, 8, 9]
dtype: object

### 2. DataFrame 생성

In [8]:
# DataFrame 만들기(2차원 list 사용) 
# -> index, columns 가 자동 지정됨(ex.RangeIndex(start=0, stop3, step1))
df=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
# DataFrame 만들기 (2차원 numpy 사용)
# -> index, columns가 자동지정됨 - RangeIndex(start=0, stop=3, step=1)
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
df = pd.DataFrame(arr)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [10]:
# DataFrame 만들기 - index, columns 이름 지정(개수는 행, 열의 개수를 맞게 사용)
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index=list('ABC'), columns=['X1', 'X2', 'X3'])

df.index.name='index' #index 이름 변경
df.columns.name='columns' #column 이름 변경

df

columns,X1,X2,X3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,3
B,4,5,6
C,7,8,9


In [11]:
# dict를 사용해서 DataFrame 만들기
# dict의 key가 columns의 label로 사용
df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


### 3. Series, DataFrame 생성

In [12]:
# 이런 식으로 내가 원하는 대로 Series 생성
pd.Series([100, 101, 102, 103, 104], dtype='int32', name='number')
#pd.Series(np.arange(100,105), dtype='int32', name='number')


0    100
1    101
2    102
3    103
4    104
Name: number, dtype: int32

In [13]:
#name과 dtype 지정을 생성 후 하고 싶다면
ss=pd.Series([100, 101, 102, 103, 104])
ss=ss.astype('int32')
ss.name='number'
ss.index=list('ABCDE')
ss

A    100
B    101
C    102
D    103
E    104
Name: number, dtype: int32

### 4. Series, DataFrame의 특성

In [14]:
# 반복문을 쓸 수도 있음
# 그리고 내부적으로 여러 Object 종류가 섞여 있으면 Object라고 나옴
# s1은 자료 저장소처럼 사용, dict 처럼 사용할 때

s1 = pd.Series([1, '헬로', 3.14, [1, 2, 3]])
display(s1,[type(x) for x in s1])

0            1
1           헬로
2         3.14
3    [1, 2, 3]
dtype: object

[int, str, float, list]

In [15]:
#s2는 안에 들어있는 Object가 통일될 경우 자료 저장도 뿐만 아니라 다양한 연산, 처리 기능을 사용할 수 있음
s2=pd.Series(['010-3456-2131', '010-2334-9081'])
display(s2,[type(x) for x in s2])

#가령
s2.str.split('-').str[-1]

0    010-3456-2131
1    010-2334-9081
dtype: object

[str, str]

0    2131
1    9081
dtype: object

### 5. 파일 입출력

In [16]:
# 텍스트 문서는 engine이 필요 없음
# 바이너리(binary)는 engine이 필요함/ 별도의 library(모듈)이 필요
# excel의 경우 : xlrd, openpyxl, xlwt 을 추가로 설치해야함 (jupyter notebook에서는 !pip install 로 설치 가능)


In [17]:
df = pd.DataFrame({'A':list('AAABBBCCC'), 'B':[3,1,0,1,7,3,2,1,3],
                  'C':[1,2,5,6,2,3,4,1,2], 'D':list('XXYXYXXYX')})
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [18]:
# [1] csv로 저장하기 - index를 포함
df.to_csv('data_1.csv')

In [19]:
# [2] csv로 저장하기 - index 제외
df.to_csv('data_2.csv', index=False)

In [20]:
# [3] csv를 DataFrame으로 읽어오기
df = pd.read_csv('data_1.csv')
df

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,A,3,1,X
1,1,A,1,2,X
2,2,A,0,5,Y
3,3,B,1,6,X
4,4,B,7,2,Y
5,5,B,3,3,X
6,6,C,2,4,X
7,7,C,1,1,Y
8,8,C,3,2,X


In [21]:
# [4] csv를 DataFrame으로 읽어오기
df = pd.read_csv('data_2.csv')
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [22]:
# [5] csv를 DataFrame으로 읽어오기 - chunksize를 주어서 읽어오기
df = list(pd.read_csv('data_2.csv', chunksize=3))
[display(x) for x in df]   #꼭 list 안에 넣어야 함
len(df) #DataFrame에서 len 함수 쓰면 행 개수 반환

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y


Unnamed: 0,A,B,C,D
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X


Unnamed: 0,A,B,C,D
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


3

In [23]:
chunk = pd.read_csv('data_2.csv', chunksize=3)
print(chunk.get_chunk())  # chunk 를 하나씩 가져오기
print('---------------------')
print(chunk.get_chunk())
print('---------------------')
print(chunk.get_chunk())

   A  B  C  D
0  A  3  1  X
1  A  1  2  X
2  A  0  5  Y
---------------------
   A  B  C  D
3  B  1  6  X
4  B  7  2  Y
5  B  3  3  X
---------------------
   A  B  C  D
6  C  2  4  X
7  C  1  1  Y
8  C  3  2  X


In [24]:
# 엑셀 파일로 저장하게 (Sheet 이름을 저장)
# index도 저장됨
df = pd.DataFrame({'A':list('AAABBBCCC'), 'B':[3,1,0,1,7,3,2,1,3],
                  'C':[1,2,5,6,2,3,4,1,2], 'D':list('XXYXYXXYX')})
                  
df.to_excel('data_1.xlsx', sheet_name='SHEET1')

In [25]:
df.to_excel('data_2.xlsx', sheet_name='SHEET1', index=False)

In [26]:
# 여러 시트를 갖는 엑셀 파일로 저장하기
writer = pd.ExcelWriter('data_3.xlsx')
df.to_excel(writer, sheet_name='SHEET1', index=False)
df.to_excel(writer, sheet_name='SHEET2', index=False)
df.to_excel(writer, sheet_name='SHEET3', index=False)
writer.close()

In [27]:
# 여러 시트를 갖는 엑셀 파일 - 모든 시트 가져오기
dfDict = pd.read_excel('data_3.xlsx', sheet_name=None)
print(dfDict.keys()) #엑셀 파일 내 모든 시트 이름 출력
dfDict['SHEET1'] #SHEET1만 input

dict_keys(['SHEET1', 'SHEET2', 'SHEET3'])


Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X
