## Pandas 01
- https://pandas.pydata.org/docs/reference/index.html

## 자료구조 생성

### Series 생성
- Pandas에서 Series를 만들기 위해 Series 함수 사용
- Series 생성 시 index 매개 변수를 이용하여 이름 지정 가능
- index 매개 변수를 이용 할 때 데이터의 개수와 인덱스의 개수는 동일해야 함
- https://pandas.pydata.org/docs/reference/api/pandas.Series.html

In [1]:
import pandas as pd
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [2]:
s.values

array([1, 2, 3], dtype=int64)

In [3]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [4]:
s = pd.Series([1, 2, 3], 
              index=['A', 'B', 'C'])
s

A    1
B    2
C    3
dtype: int64

In [5]:
s= pd.Series([1, 2.5, 3, 5.5])
s

0    1.0
1    2.5
2    3.0
3    5.5
dtype: float64

In [6]:
s=pd.Series([1, 50, '헬로', 'world', 5, 6.3])
s

0        1
1       50
2       헬로
3    world
4        5
5      6.3
dtype: object

### DataFrame 생성
- Pandas에서 DataFrame을 만들기 위해 DataFrame 함수 사용
- DataFrame 생성 시 index 매개 변수를 이용하여 행 인덱스 지정 가능
- columns 매개 변수를 이용하여 열 인덱스(컬럼명) 지정 가능

In [8]:
# index, columns를 지정하지 않은 경우 0, 1, 2 .. 와 같이 자동으로 index가 지정됨
df = pd.DataFrame([[1, 2, 3], 
                   [4, 5, 6],
                   [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
import pandas as pd 
df = pd.DataFrame([[1, 2, 3], 
                   [4, 5, 6], 
                   [7, 8, 9]],
                  index=['A', 'B', 'C'],
                  columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [10]:
df.index

Index(['A', 'B', 'C'], dtype='object')

In [11]:
df.columns

Index(['X1', 'X2', 'X3'], dtype='object')

In [12]:
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

###  Pandas 자료구조 생성
- Series와 DataFrame 생성 시 사용되는 데이터는 리스트, 배열 뿐만 아니라 딕셔너리도 올 수 있음
- Series의 경우 Key가 행 인덱스로, DataFrame의 경우 Key로 열 인덱스 지정

In [13]:
# dict를 사용한 Series 생성
# key가 행 인덱스로 사용됨
s = pd.Series({'A':[1,2,3], 
               'B':[2,3,4]})
s

A    [1, 2, 3]
B    [2, 3, 4]
dtype: object

In [None]:
# dict를 사용한 DataFrame 생성 **
# key가 열 인덱스로 사용됨
df = pd.DataFrame({'A':[1,2,3], 
                   'B':[2,3,4]}) 
df

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


### Pandas I/O
- 다양한 데이터 파일 유형을 읽어오거나 해당 유형으로 저장할 수 있음
- csv 파일 읽기, 저장 : read_csv / to_csv 함수 이용
- excel 파일 읽기, 저장 : read_excel / to_excel 함수 이용

In [5]:
df = pd.DataFrame({
    'A' : ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'B' : [3, 1, 0, 1, 7, 3, 2, 1, 3],
    'C' : [1, 2, 5, 6, 2, 3, 4, 1, 2]
})
df['D'] = ['X', 'X', 'Y', 'X', 'Y', 'X', 'X', 'Y', 'X']
df

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [6]:
# df를 csv 파일로 저장함
# data_1.csv : index를 포함하여 저장
# data_2.csv : index를 제외하고 저장함
df.to_csv('data_1.csv')
df.to_csv('data_2.csv', index=False)   #####

#### CSV 파일 읽기
- 만약 파일이 utf-8 형식이 아니라 다른 형식인 경우 인코딩(encoding)을 지정해야 함
    - 한글이 포함된 데이터의 경우 주로 cp949, euc-kr 과 같은 형식을 많이 사용
- 열과 열을 구분하는 구분자가 콤마(,)가 아닌 경우 구분자(sep)를 지정해야 함
- 데이터가 너무 커 분할해서 데이터 로드 시 : chunksize 매개변수를 활용하여 설정
가능

In [9]:
imsi = pd.read_csv('data_1.csv')
imsi

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,A,3,1,X
1,1,A,1,2,X
2,2,A,0,5,Y
3,3,B,1,6,X
4,4,B,7,2,Y
5,5,B,3,3,X
6,6,C,2,4,X
7,7,C,1,1,Y
8,8,C,3,2,X


In [11]:
imsi2 = pd.read_csv('data_2.csv') 
imsi2

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [13]:
# data_2.csv를 3개씩 나누어 DataFrame으로 읽어오기
# 반복문을 사용하여 각 DataFrame을 받아옴
for df in pd.read_csv('data_2.csv', chunksize=3):
    display(df)

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y


Unnamed: 0,A,B,C,D
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X


Unnamed: 0,A,B,C,D
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


In [15]:
chuck = pd.read_csv('data_2.csv', chunksize=3)
chuck.get_chunk()

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y


In [16]:
chuck.get_chunk()

Unnamed: 0,A,B,C,D
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X


In [17]:
chuck.get_chunk()

Unnamed: 0,A,B,C,D
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


## Pandas I/O - Excel 
- Excel 파일 저장
- index를 False로 지정하면 index 저장하지 않음
- sheet_name 을 통해 시트명 지정 가능
- 여러 개의 시트를 저장하기 위해서는 ExcelWriter를이용해야 함
- !pip install openpyxl

In [18]:
# data_2.csv 파일을 읽어 data_1.xlsx 파일의 'SHEET1' 시트로 저장
df = pd.read_csv('data_2.csv')
df.to_excel('data_1.xlsx', sheet_name='SHEET1')

In [19]:
# 여러 개의 시트로 저장하기 위해 ExcelWriter 사용
writer = pd.ExcelWriter('data_2.xlsx')
df.to_excel(writer, sheet_name='SHEET1', index=False)
df.to_excel(writer, sheet_name='SHEET2', index=False)
df.to_excel(writer, sheet_name='SHEET3', index=False)
writer.close()

- sheet_name을 통해 특정 시트의 데이터만 가지고 올 수 있음
- sheet_name이 None으로 지정되면 모든 시트를 가지고 오며 시트명을 Key로 시트를
value로 가지는 딕셔너리 형태로 읽어 옴

In [20]:
# data_2.xlsx 파일을 읽어오기
pd.read_excel('data_1.xlsx')

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,A,3,1,X
1,1,A,1,2,X
2,2,A,0,5,Y
3,3,B,1,6,X
4,4,B,7,2,Y
5,5,B,3,3,X
6,6,C,2,4,X
7,7,C,1,1,Y
8,8,C,3,2,X


In [22]:
# sheet_name을 None으로 지정하면 모든 sheet를 dict 로 읽어옴
# key => 시트이름, value => DataFrame
temp = pd.read_excel('data_2.xlsx', sheet_name=None)
temp

{'SHEET1':    A  B  C  D
 0  A  3  1  X
 1  A  1  2  X
 2  A  0  5  Y
 3  B  1  6  X
 4  B  7  2  Y
 5  B  3  3  X
 6  C  2  4  X
 7  C  1  1  Y
 8  C  3  2  X,
 'SHEET2':    A  B  C  D
 0  A  3  1  X
 1  A  1  2  X
 2  A  0  5  Y
 3  B  1  6  X
 4  B  7  2  Y
 5  B  3  3  X
 6  C  2  4  X
 7  C  1  1  Y
 8  C  3  2  X,
 'SHEET3':    A  B  C  D
 0  A  3  1  X
 1  A  1  2  X
 2  A  0  5  Y
 3  B  1  6  X
 4  B  7  2  Y
 5  B  3  3  X
 6  C  2  4  X
 7  C  1  1  Y
 8  C  3  2  X}

In [26]:
for k, v in temp.items():
    display(k, v)

'SHEET1'

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


'SHEET2'

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


'SHEET3'

Unnamed: 0,A,B,C,D
0,A,3,1,X
1,A,1,2,X
2,A,0,5,Y
3,B,1,6,X
4,B,7,2,Y
5,B,3,3,X
6,C,2,4,X
7,C,1,1,Y
8,C,3,2,X


## Pandas Attribute
- Series와 DataFrame의 속성을 통해 데이터를 편리하게 조회 할 수 있음
- ndim : 데이터의 차원
- shape : 각 차원의 크기 (tuple)
- values : 해당 Object의 값
- index : 해당 Object의 행 인덱스 반환
- columns : 해당 Object의 열 인덱스 반환
   - DataFrame에서 만 사용가능
- T : 해당 Object를 전치 시킨 결과 반환

### Pandas Attribute (Series)

In [None]:
# Series 객체 생성
s = pd.Series({'A':[1,2,3], 'B':[2,3,4]})
s

A    [1, 2, 3]
B    [2, 3, 4]
dtype: object

In [None]:
# Series s의 차원 확인
s.ndim

1

In [None]:
# Series s의 shape 확인
s.shape

(2,)

In [None]:
# Series s의 index 확인


Index(['A', 'B'], dtype='object')

In [None]:
# Series s의 values 확인


array([list([1, 2, 3]), list([2, 3, 4])], dtype=object)

### 2-02 Pandas Attribute (DataFrame)

In [None]:
# DataFrame 객체 생성
df = pd.DataFrame({'A':[1,2,3], 'B':[2,3,4]})
df

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [None]:
# DataFrame df의 차원 확인
df.ndim

2

In [None]:
# DataFrame df의 shape 확인
df.shape

(3, 2)

In [None]:
# DataFrame df의 values 확인
df.values

array([[1, 2],
       [2, 3],
       [3, 4]])

In [None]:
# DataFrame df의 index 확인


RangeIndex(start=0, stop=3, step=1)

In [None]:
# DataFrame df의 columns 확인


Index(['A', 'B'], dtype='object')

- p 165
- index와 columns 속성은 값을 조회하는 것뿐만 아니라 값을 수정하는 것도 가능함
- 수정하고자 하는 데이터 개수와 대입하는 데이터 개수가 동일해야 함

In [None]:
# DataFrame df 확인
df

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [None]:
# DataFrame df의 columns를 ['X1', 'X2'], index를 ['A', 'B', 'C']로 수정
df.columns = ['X1', 'X2']
df.index = ['A', 'B', 'C']
df

Unnamed: 0,X1,X2
A,1,2
B,2,3
C,3,4


In [None]:
# DataFrame df의 전치행렬

df.T

Unnamed: 0,A,B,C
X1,1,2,3
X2,2,3,4


### Pandas dtype 변경
- Pandas DataFrame의 경우 Numpy Array와는 다르게 각 열은 다른 자료형을 가질 수 있음
- DataFrame의 경우 여러 개의 Series가 이름으로 묶여있는 형태이기 때문
- dtypes 속성을 통해 데이터 유형 조회
- astype 함수를 이용해 데이터 유형 변경

In [None]:
# DataFrame df의 각 열별 dtype을 조회함
df.dtypes

X1    int64
X2    int64
dtype: object

In [None]:
# Dataframe df의 모든 열에 대해 'float' dtype으로 변경
# df의 astype 메서드를 사용함
# df.astype(dtype)
df.astype('float')

Unnamed: 0,X1,X2
A,1.0,2.0
B,2.0,3.0
C,3.0,4.0


## Pandas Operation
- Pandas 연산은 Numpy와 동일하게 Element Wise 연산, 필요시 Broadcasting
- Element Wise 연산 시 위치가 기준이 아닌 인덱스를 기준으로 함
- 만약 매치되는 인덱스가 없는 경우 결과 값이 NaN으로 설정됨
- DataFrame의 경우 행 인덱스뿐만 아니라 열 인덱스도 일치해야 계산이 가능함


### Series의 연산

In [None]:
# Series 끼리의 연산 - Element Wise (같은 index)
x1 = pd.Series([1,2,3,4])
y1 = pd.Series([5,6,7,8])
x1 + y1

0     6
1     8
2    10
3    12
dtype: int64

In [None]:
# index가 서로 다른 Series의 연산
# 매치되는 인덱스가 없는 경우 결과 값이 NaN으로 설정됨
x1 = pd.Series([1,2,3,4], index=['A','B','C','D'])
y1 = pd.Series([5,6,7,8], index=['B','C','D','E'])
x1 + y1

A     NaN
B     7.0
C     9.0
D    11.0
E     NaN
dtype: float64

### DataFrame의 연산

In [None]:
# DataFrame 끼리의 연산 - Element Wise (같은 index, column)
x2 = pd.DataFrame([[1,2],[3,4]])
y2 = pd.DataFrame([[5,6],[7,8]])
x2 + y2

Unnamed: 0,0,1
0,6,8
1,10,12


In [None]:
# DataFrame의 경우 행 인덱스뿐만 아니라 열 인덱스도 일치해야 계산이 가능함
# 매치되는 인덱스가 없는 경우 결과 값이 NaN으로 설정됨
x2 = pd.DataFrame([[1,2],[3,4]], index=['A', 'B'])
y2 = pd.DataFrame([[5,6],[7,8]])
x2 + y2

Unnamed: 0,0,1
A,,
B,,
0,,
1,,


In [None]:
x2 = pd.DataFrame([[1,2],[3,4]], index=['A', 'B'], columns=['A', 'B'])
y2 = pd.DataFrame([[5,6],[7,8]])
x2 + y2

Unnamed: 0,A,B,0,1
A,,,,
B,,,,
0,,,,
1,,,,
