## Pandas 구조
- 시리즈(Series)
- 데이터프레임(DataFrame)
- 패널(Panel)

In [2]:
import pandas as pd

시리즈(Series)
- 시리즈 클래스는 1차원 배열의 값에 각 값에 대응되는 인덱스를 부여할 수 있는 구조

In [4]:
sr = pd.Series([17000, 18000, 1000, 5000], index = ['피자', '치킨', '콜라', '맥주'])
print(sr)

피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64


In [9]:
print(sr.index)
print(sr.values)

Index(['피자', '치킨', '콜라', '맥주'], dtype='object')
[17000 18000  1000  5000]


In [None]:
sr[0] # sr.iloc[0] # 인덱스 번호로 인덱싱

In [None]:
sr['피자'] # sr.loc['피자'] 인덱스명으로 인덱싱

데이터프레임(DataFrame)
- 2차원 리스트를 매개변수로 전달
- 2차원이므로 행방향 인덱스와 열방향 인덱스가 존재(row, col)
- 열, 인덱스, 값으로 구성

In [13]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)
print(df.index)
print(df.columns)
print(df.values)

       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9
Index(['one', 'two', 'three'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [11]:
import numpy as np

In [12]:
np.array(df) # 판다스 데이터프레임을 2차원 배열로 변환

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

In [14]:
# 리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
]
df = pd.DataFrame(data)
print(df)


      0         1      2
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [15]:
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [None]:
data = { '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'],
'이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'],
         '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]}

df = pd.DataFrame(data)
print(df)


In [16]:
np.array(data)

array([['1000', 'Steve', '90.72'],
       ['1001', 'James', '78.09'],
       ['1002', 'Doyeon', '98.43'],
       ['1003', 'Jane', '64.19'],
       ['1004', 'Pilwoong', '81.3'],
       ['1005', 'Tony', '99.14']], dtype='<U8')

In [20]:
# 딕셔너리로 생성하기
data = [{   '학번' : '1000','이름' :'Steve', '점수': 90.72},
        {   '학번' : '1001','이름' :'James', '점수': 78.09},
        {   '학번' : '1002','이름' :'Doyeon', '점수': 98.43},
        {   '학번' : '1003','이름' :'Jane', '점수': 64.19}]

df = pd.DataFrame(data)
print(df)

     학번      이름     점수
0  1000   Steve  90.72
1  1001   James  78.09
2  1002  Doyeon  98.43
3  1003    Jane  64.19


In [18]:
np.array(data)

array([{'학번': '1000', '이름': 'Steve', '점수': 90.72},
       {'학번': '1001', '이름': 'James', '점수': 78.09},
       {'학번': '1002', '이름': 'Doyeon', '점수': 98.43},
       {'학번': '1003', '이름': 'Jane', '점수': 64.19}], dtype=object)

In [21]:
np.array(df[['학번', '점수']])

array([['1000', 90.72],
       ['1001', 78.09],
       ['1002', 98.43],
       ['1003', 64.19]], dtype=object)

## 외부 데이터 읽기
- Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성
- df = pd.read_csv(csv, text), df=pd.read_excel(엑셀파일), df = pd.read_html(url), df = pd.read_json(json파일)

In [None]:
# !pip install pandas_profiling

In [61]:
import pandas_profiling

df = pd.read_csv('c:/pythonworkspace/multi/0805/data/spam.csv', encoding='latin1')
df

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,
...,...,...,...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...,,,
5568,ham,Will Ì_ b going to esplanade fr home?,,,
5569,ham,"Pity, * was in mood for that. So...any other s...",,,
5570,ham,The guy did some bitching but I acted like i'd...,,,


In [62]:
pr = df.profile_report()
pr.to_file('./pr_profile.html')

(using `df.profile_report(correlations={"phi_k": {"calculate": False}})`
If this is problematic for your use case, please report this as an issue:
https://github.com/pandas-profiling/pandas-profiling/issues
(include the error message: ''ascii' codec can't encode characters in position 18-20: ordinal not in range(128)')
Summarize dataset: 100%|██████████| 18/18 [00:01<00:00, 15.06it/s, Completed]
Generate report structure: 100%|██████████| 1/1 [00:01<00:00,  1.59s/it]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  1.17it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 334.10it/s]


## Numpy
- 수치 데이터를 다루는 파이썬 패키지
- 핵심 : 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용

In [None]:
import numpy as np

Numpy의 주요 모듈
- np.array() # 리스트, 튜플, 배열로부터 ndarray를 생성
- np.asarray() # 기존의 array로부터 ndarray를 생성
- np.arange() # range와 비슷
- np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
- np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성


In [23]:
a = np.array([1, 2, 3, 4, 5]) #리스트를 가지고 1차원 배열 생성
print(type(a))
print(a)

<class 'numpy.ndarray'>
[1 2 3 4 5]


In [24]:
b = np.array([[10, 20, 30], [ 60, 70, 80]]) # 2차원 배열
print(b) #출력


[[10 20 30]
 [60 70 80]]


In [26]:
print(b.ndim) # 차원 출력
print(b.shape) # 구조 출력

2
(2, 3)


ndarray의 초기화
- zeros(): 해당 배열에 모두 0을 삽입
- ones() : 해당 배열에 모두 1을 삽입
- full() : 배열에 사용자가 지정한 값을 넣는데 사용
- eye() : 대각선을 는 1이고 나머지는 0인 2차원 배열을 생성

In [28]:
a = np.zeros((2,3)) # 모든 값이 0인 2x3배열 생성
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


In [29]:
a = np.ones((2,3)) # 모든 값이 1인 2x3배열 생성
print(a)

[[1. 1. 1.]
 [1. 1. 1.]]


In [30]:
a = np.full((2,3), 7) # 모든 값이 n인 배열 생성(이 배열은 7 지정)
print(a)

[[7 7 7]
 [7 7 7]]


In [31]:
a = np.eye(3) # 대각선으로는 1이고 나머지는 0인 2차원 배열을 생성(3 > 3x3)
print(a)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


np.arange()
- 지정해준 범위에 대해서 배열을 생성
- numpy.arange(start, stop, step, dtype)
- a = np.arange(n) # 0, ..., n-1까지 범위의 지정
- a = np.arange(i, j, k) # i부터 j-1까지 k씩 증가하는 배열
- a = np. arange(i, j, k, dtype=int64) # i부터 j-1까지 k씩 증가하는 배열

In [37]:
a = np.arange(5)
print(a.dtype)
a

int32


array([0, 1, 2, 3, 4])

In [36]:
a = np.arange(5.0)
print(a.dtype)
a

float64


array([0., 1., 2., 3., 4.])

Numpy의 dtype
- np.int8: 8-bit signed integer (from -128 to 127)
- np.uint8: 8-bit unsigned integer (from 0 to 255)
- np.int16: 16-bit signed integer (from -32768 to 32767)
- np.uint16: 16-bit unsigned integer (from 0 to 65535)
- np.int32: 32-bit signed integer (from -231 to 231-1)
- np.uint32: 32-bit unsigned integer (from 0 to 2**32-1)
- np.int64: 64-bit signed integer (from -263 to 263-1)
- np.uint64: 64-bit unsigned integer (from 0 to 2**64-1)


reshape
- 배열구조 변경

In [38]:
a = np.array(np.arange(30))
print(a)

print(a.reshape((5, 6)))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]]


In [39]:
a = np.array(np.arange(30)).reshape((5, 6))
print(a)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]]


Numpy 슬라이싱

- ndarray를 통해 만든 다차원 배열은 파이썬의 리스트처럼 슬라이스(Slice) 기능을 지원
- 원소들 중 복수 개에 접근할 수 있음
- 다차원 배열을 슬라이싱하기 위해서는 각 차원 별로 슬라이스 범위를 지정

In [44]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a

2

In [41]:
a[0:2, 1:]

array([[2, 3],
       [5, 6]])

In [45]:
a.reshape(-1)

array([1, 2, 3, 4, 5, 6])

In [48]:
b = a[0, :] # 첫번쨰 행 출력
print(b)

[1 2 3]


In [47]:
b = a[:, 1] # 첫번쨰 열 출력
print(b)
print(b.shape)

[2 5]
(2,)


numpy 정수 인덱싱(integer indexing)
- 원본 배열로부터 부분 배열을 구함

In [49]:
a = np.array([[1,2], [4,5], [7,8]])
print(a)
b = a[[2, 1],[1, 0]] # a[[row2, row1],[col1, col0]]을 의미함.
print(b)


[[1 2]
 [4 5]
 [7 8]]
[8 4]


Numpy 연산
- Numpy를 이용하면 배열간 연산을 손쉽게 수행
- +, -, *, /의 연산자를 사용할 수 있음(산술연산)
- add(), subtract(), multiply(), divide() 함수
- 벡터와 행렬의 곱 또는 행렬곱을 위해서는 dot()을 사용


In [50]:
x = np.array([1,2,3])
y = np.array([4,5,6])

In [51]:
b = x + y
# b = np.add(x, y)와 동일함
print(b)

[5 7 9]


In [None]:
b = x - y # 각 요소에 대해서 빼기
# b = np.subtract(x, y)와 동일함
print(b)

In [52]:
b = b * x # 각 요소에 대해서 곱셈
# b = np.multiply(b, x)와 동일함
print(b)


[ 5 14 27]


In [53]:
b = y / x  # 각 요소에 대해서 나눗셈
# b = np.divide(y, x)와 동일함
print(b)


[4.  2.5 2. ]


In [54]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6],[7,8]])


In [56]:
c = np.dot(a, b)
print(c)

[[19 22]
 [43 50]]
[[ 5 12]
 [21 32]]


In [57]:
a = np.array([[1, 2], [3, 4], [5, 6]])
b = np.array([[5, 6, 7], [8, 9, 10]])
c = np.array([[2, 2], [3, 3], [4, 4]])

print(a);print(b);print(c)
print(a.shape);print(b.shape);print(c.shape)

[[1 2]
 [3 4]
 [5 6]]
[[ 5  6  7]
 [ 8  9 10]]
[[2 2]
 [3 3]
 [4 4]]
(3, 2)
(2, 3)
(3, 2)


In [59]:
                 # a = 3x2, b는 2x3 행렬이므로 연산시 a의 열(2)과 b의행(2)이 같으므로 연산 가능
d = np.dot(a, b) # a = 3x2, b는 2x3 행렬이므로 연산시 a의 행(3)xb의열(3) 행렬이 결과값으로 출력 
print(d.shape)
d

(3, 3)


array([[21, 24, 27],
       [47, 54, 61],
       [73, 84, 95]])

In [60]:
e = np.dot(d, c)
print(e.shape)
print(e)

(3, 2)
[[222 222]
 [500 500]
 [778 778]]
