### 2024년 1학기 Python 기초입문 - v 1.5




[colaboratory로 실행](https://colab.research.google.com/drive/1TXmYXPhF4uqdtizL_2fJToqI8UpXsaFr?usp=sharing)


# 파이썬 기초 - 06

### 1. Numpy
# [Numpy](https://numpy.org/)
---
- 과학 계산과 수치분석(Numerical Analysis) python 도구
- core 는 C 언어로 구현되어 연산이 가볍고 빠름

  https://numpy.org/doc/stable/user/absolute_beginners.html

- 배열 (Array) : 동일한 자료형의 데이터 요소들을 하나의 변수에 연속적으로 저장하는 자료의 구조
		a. 인덱스 접근 가능
		b. 정적 크기 : 일정한 크기의 배열이 정해지면 변환하거나 연산하거나 새로 생성하기 전까지 유지
		c. 연속된 메모리에 저장하여 메모리 효율성이 높다.
		d. 다차원 배열이 가능하다. (행렬/배열 처리 및 연산)

2. Numpy 기본 형식

In [None]:
import numpy as np  #numpy 모듈을 불러오고 별칭 np 로 지정

data = np.array([[1,2],[3,4],[5,6]])
print(type(data))
print(data)

data.ndim # 차원 수(축)

data.shape # 각차원의 원소 개수르 표시하시 튜플

data.size # 배열의 전체 원소 개수

data.dtype # 배열 원소의 데이터 유형

data.nbytes # 데이터 저장에 사용된 바이트 수

data = np.array([1,2,3], dtype=np.float) # 데이터 유형 지정
data.astype(np.int) # 유형 지정 또는 변경


- 기본 수치 데이터 유형

| dtype   | Variants                            | Description |
| ------- | ----------------------------------- | ----------- |
| int     | int8, int16, int32, int64           | 정수          |
| uint    | uint8, uint16, uint32, uint64       | 부호 없는 정수    |
| bool    | Bool                                | 참 거짓        |
| float   | float16, float32, float64, float128 | 부동소수        |
| complex | complex64, complex128, complex256   | 복수소         |

\

- 기본적으로 타입은 더 높은 표현식으로 자동 변환되지만 적절한 표현식이 필요한 경우도 있음.

In [None]:
np.sqrt(np.array([-1,0,1]))
np.sqrt(np.array([-1,0,1], dtype=complex))

3. 배열의 생성

In [None]:
# 1) 리스트나 다른 객체로 부터 생성
np.array([1,2,3,4])
np.array([[1,2],3,4])


# 2) 일정한 값으로 채운 배열
np.zeros((2,3))
np.ones(4)

x1 = 5.4 * np.ones(10)
x2 = np.full(10,5.4)

# 빈 배열을 만들때 명시적 초기화 필요
np.empty(3, dtype=np.float)

x3 = np.empty(5)
x3.fill(3.0)


# 3) 증분 sequence로 만든 배열
np.arange(0.0, 10, 1)
np.linspace(0, 10, 11)
np.logspace(0, 2 , 5)

# 4) meshgrid 배열
x = np.array([-1,0,1])
y = np.array([-2,0,2])
X,Y = np.meshgrid(x,y)

Z = ( X + Y ) ** 2

# 5) 특정 배열의 크기와 데이터 유형으로 만들기
y = np.ones_like(x)

np.identity(3)
np.eye(3)
np.eye(3,k=1)
np.eye(3,k=-1)

np.diag(np.arange(0,20,5))




4. 슬라이싱/인덱싱

In [None]:

# 특정 함수로 부터 배열 생성
f = lambda m, n: 10*m + n
A = np.fromfunction(f, (6,6), dtype=int)

# 특정 행, 열 인덱스 사용
A[:, 1] # 두번째 열
A[1, :] # 두번째 행
A[:3,:3]

A[::2, ::2] # 0, 0 부터 시작해서 매 두번째 원소

5. View

In [None]:
B = A[1:5, 1:5]
B

B[:,:] = 0
A

C = B[1:3,1:3].copy()
C

C[:,:] = 1
C
B

5. 형상 변경

In [None]:
# reshape
data = np.array([[1,2],[3,4]])
np.reshape(data,(1,4))
print(data.shape)
data.reshape(4)
print(data.shape)

# flatten
data = np.array([[1,2],[3,4]])
data.flatten()

# 차원 축 증가 시키기
data = np.arange(0,5)
col1 = data[:,np.newaxis]
col2 = np.expand_dims(data, axis=1)
row1 = data[np.newaxis,:]
row2 = np.expand_dims(data, axis=0)

# 수직 쌓기
data = np.arange(5)
np.vstack((data,data,data))

# 수평 쌓기
data = np.arange(5)
# np.hstack((data,data,data))
data = np.expand_dims(data, axis=1)
np.hstack((data,data,data))

np.transpose # 배열을 전치한다.
data.T`

np.concatenate # 지정한 축을 따라 배열을 이어 붙여서 새로운 배열을 만든다.
np.append # 배열에 원소를 추가한다.
np.insert # 지정한 위치에 원소를 추가한다.
np.delete # 지정한 위치의 원소를 삭제한다.
np.sort # 지정한 축을 따라 배열 정열

np.where # 조건 배열의 주어진 값에 따라 연산 선택
x =  np.linspace(-4,4,9)
np.where(x < 0, x**2, X**3)

6. 기본 연산


- `+`,`-`,`*`,`/` 등의 연산자 사용가능  
- `add()`,`substract()`,`multiply()`,`divide()`

In [None]:
a = np.array([1,2,3])
b = np.array([4,5,6])

# 각 요소 더하기
c = a+b
# c= np.add(a, b)
print(c)

# 각 요소 곱하기
c = a*b
# c = np.multiply(a, b)
print(c)

# 각 요소 나누기
c = a/b
# c = np.divide(a,b)

In [None]:
# 행렬의 곱
arr1 = [[1,2],[3,4]]
arr2 = [[5,6],[7,8]]
a = np.array(arr1)
b = np.array(arr2)

c= np.dot(a, b)
print(c)

In [None]:
a = np.array([[-1,2,3],[3,4,8]])
s = np.sum(a)
print('sum=',a.sum()) # 행, 열 별 연산 (axis = 0 or 1)
print('sum=',a.sum(axis=0))
print('mean=',a.mean())
print('std=', a.std())
print('product=',a.prod())

- 수학 함수

| Function        | Description                                                                       |
| :-------------- | :-------------------------------------------------------------------------------- |
| abs, fabs       | absolute value element-wise for integer, foating-point, or complex values         |
| sqrt            | square root of each element (equivalent to arr ** 0.5)                            |
| square          | square of each element (equivalent to arr ** 2)                                   |
| exp             | exponent $e^{x}$ of each element                                                  |
| log, log10,     | Natural logarithm (base e), log base 10, log base 2, and log(1 + x), respectively |
| log2, log1p     |                                                                                   |
| sign            | sign of each element: 1 (positive), 0 (zero), or –1 (negative)                    |
| ceil            | ceiling of each element (i.e., 주어진 수보다 크거나 같은 최소 정수)                              |
| floor           | floor of each element (i.e., 작거나 같은 최대정수)                                         |
| rint            | 반올림                                                                               |
| isnan           | NaN (Not a Number) 체크, [True\|False]                                              |
| isfinite, isinf | 유한/무한 체크                                                                          |
| cos, cosh, sin, | 삼각함수                                                                              |


\
\

- 선형대수 함수

| Function | Description                                                            |
| :------- | :--------------------------------------------------------------------- |
| diag     | diagonal elements of a square matrix as a 1D array, or                 |
|          | convert a 1D array into a square matrix with zeros on the off-diagonal |
| dot      | Matrix multiplication                                                  |
| trace    | sum of the diagonal elements                                           |
| det      | matrix determinant                                                     |
| eig      | eigenvalues and eigenvectors of a square matrix                        |
| inv      | inverse of a square matrix                                             |
| pinv     | Moore-Penrose pseudo-inverse of a matrix                               |
| qr       | QR decomposition                                                       |
| svd      | singular value decomposition (SVD)                                     |
| solve    | Ax=b for x, where A is a matrix                                        |
| lstsq    | least-squares solution to Ax=b                                         |


In [None]:
# 내적연산
x = np.array([1, 2, 3])
y = np.array([6,23,-1])
print(x.dot(y.T))

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
print(x.dot(y))

- 역행렬

In [None]:
from numpy.linalg import inv
np.random.seed()
X = np.array([[1,2,3],[1,0,0],[0,0,1]])
Y = inv(X)
print(Y)
X.dot(Y)

- 난수 생성


|함수|분포|
|:--|:--|
|beta(a, b[, size])|Beta distribution.|
|binomial(n, p[, size])|binomial distribution.|
|chisquare(df[, size])|chi-square distribution.|
|exponential([scale, size])|exponential distribution.|
|f(dfnum, dfden[, size])|F distribution.|
|gamma(shape[, scale, size])|Gamma distribution.|
|geometric(p[, size])|geometric distribution.|
|hypergeometric(ngood, nbad,|Hypergeometric distribution.|
|nsample[, size])||
|multinomial(n, pvals[, size])|multinomial distribution.|
|negative_binomial(n, p[, size])|negative binomial distribution.|
|normal([loc, scale, size])|normal (Gaussian) distribution.|
|poisson([lam, size])|Poisson distribution.|


In [None]:
# 균등분포 난수 생성
x = np.random.uniform(size=100)
x.reshape(20,5)

# 정규분포 난수 생성
s = np.random.normal(0,1,1000)

import matplotlib.pyplot as plt
plt.hist(s)

#### Numpy save, load

In [None]:
a = np.array([1,2,3,4,5,6,7])
np.save('filename',a)
b = np.load('filename.npy')

csv_arr = np.array([1,2,3,4,5,6,7,8])
np.savetxt('new_file.csv',csv_arr)
# np.savetxt('np.csv', csv_arr, fmt='%.2f', delimiter=',', header='')
np.loadtxt('new_file.csv')

import pandas as pd

df = pd.DataFrame(a)
df.to_csv('pd.csv')
data = pd.read_csv('pd.csv')


---
# 7. [Pandas](https://pandas.pydata.org/)

- DataFrame : 2차원 Table 형태의 자료구조
		a. 2차원구조
		b. 행(row), 열(column) 인덱스로 접근 가능
		c. 열(column) 단위로 다른 데이터 타입을 가질 수 있음.
		d. 백터 연산 가능

## DataFrame 만들기

(1) Dictionary 구조에서 (Keys와 Values 관계 깊이 유의)

In [48]:
import pandas as pd

df = pd.DataFrame(
				   {
								 "ID"  : [1,2,3],
			           "Name": [
				               "Braund, Mr. Owen Harris",
				               "Allen, Mr. William Henry",
				               "Bonnell, Miss. Elizabeth",
					           ],
			           "Age": [22, 35, 58],
			           "Sex": ["male", "male", "female"],
          }
)

# col = ["ID","name", "Age", "Sex",]
# ind = [0,1,2]
# data = [
#     [1,"Braund, Mr. Owen Harris", 22, "male", ],
#     [2,"Allen, Mr. William Henry", 35, "male"],
#     [3,"Bonnell, Miss. Elizabeth", 58, "female"],
# ]
# df = pd.DataFrame(data, index=ind, columns=col)

df

Unnamed: 0,ID,Name,Age,Sex
0,1,"Braund, Mr. Owen Harris",22,male
1,2,"Allen, Mr. William Henry",35,male
2,3,"Bonnell, Miss. Elizabeth",58,female


## DataFrame 정보

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      3 non-null      int64 
 1   Name    3 non-null      object
 2   Age     3 non-null      int64 
 3   Sex     3 non-null      object
dtypes: int64(2), object(2)
memory usage: 224.0+ bytes


In [28]:
# 데이터 타입
df.dtypes

ID       int64
Name    object
Age      int64
Sex     object
dtype: object

In [43]:
# 기초 통계량
df.describe()

Unnamed: 0,Age
count,3.0
mean,38.333333
std,18.230012
min,22.0
25%,28.5
50%,35.0
75%,46.5
max,58.0


### DataFrame 조작

- DataFrame 의 column은 Series 로 구성되어 있음.
 이는 컬럼 명이 key 이고 value 가 같은 데이터 유형의 list로 되어 있는 python dictionary 와 유사하다.

In [29]:
# ages = pd.Series([22,35,58], name="Age")
# Series 단위로 padas의 method 사용 가능
# ages.max()

df["Age"].max()


58

In [30]:
# 컬럼의 데이터 타입 변경하기
print(df["Age"].dtypes)
df["Age"] = df["Age"].astype('float32')
df.dtypes

int64


ID        int64
Name     object
Age     float32
Sex      object
dtype: object

In [31]:
# 컬럼명 변경
df.rename(columns = {'name':'Name', 'Age':'AGE', 'Sex':'male/female'}, inplace=True)
df

Unnamed: 0,ID,Name,AGE,male/female
0,1,"Braund, Mr. Owen Harris",22.0,male
1,2,"Allen, Mr. William Henry",35.0,male
2,3,"Bonnell, Miss. Elizabeth",58.0,female


In [49]:
# 인덱스 지정
df.set_index(keys='ID',drop=True, append=False, inplace=True, verify_integrity=False)
df

Unnamed: 0_level_0,Name,Age,Sex
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,"Braund, Mr. Owen Harris",22,male
2,"Allen, Mr. William Henry",35,male
3,"Bonnell, Miss. Elizabeth",58,female


In [46]:
# 인덱스 초기화
df.reset_index()

Unnamed: 0,ID,Name,Age,Sex,Score
0,1,"Braund, Mr. Owen Harris",22,male,100
1,2,"Allen, Mr. William Henry",35,male,90
2,3,"Bonnell, Miss. Elizabeth",58,female,80


In [50]:
df['Score'] = [100,90,80]
df

Unnamed: 0_level_0,Name,Age,Sex,Score
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,"Braund, Mr. Owen Harris",22,male,100
2,"Allen, Mr. William Henry",35,male,90
3,"Bonnell, Miss. Elizabeth",58,female,80



# pandas DataFrame 다루기 연습

- insert 행, 열 삽입

In [10]:
import pandas as pd

data = {
    '이름' : ['철수','영희','바둑이'],
    '나이' : [22, 18, 5],
    '키' : [183, 165, 32]
}

friends = pd.DataFrame(data)
friends

Unnamed: 0,이름,나이,키
0,철수,22,183
1,영희,18,165
2,바둑이,5,32


In [11]:
new1 = {
    '이름':['츄루'],
    '나이': [3],
    '키' : [25]
}

cat = pd.DataFrame(new1)

friends = pd.concat([friends,cat]) # axis= 0 , 1

friends

Unnamed: 0,이름,나이,키
0,철수,22,183
1,영희,18,165
2,바둑이,5,32
0,츄루,3,25


In [12]:
new2 = ['골램',200,500]
friends.loc[3] = new2
friends

Unnamed: 0,이름,나이,키
0,철수,22,183
1,영희,18,165
2,바둑이,5,32
0,츄루,3,25
3,골램,200,500


- 정렬

In [13]:
friends.sort_index()

Unnamed: 0,이름,나이,키
0,철수,22,183
0,츄루,3,25
1,영희,18,165
2,바둑이,5,32
3,골램,200,500


In [14]:
friends['키'].sort_values(ascending=False)


3    500
0    183
1    165
2     32
0     25
Name: 키, dtype: int64

In [15]:
friends = friends.sort_values(by='키',ascending=False)
friends

Unnamed: 0,이름,나이,키
3,골램,200,500
0,철수,22,183
1,영희,18,165
2,바둑이,5,32
0,츄루,3,25


In [16]:
friends.insert(3,'몸무게',[5000,84,52,15, 5])
friends

Unnamed: 0,이름,나이,키,몸무게
3,골램,200,500,5000
0,철수,22,183,84
1,영희,18,165,52
2,바둑이,5,32,15
0,츄루,3,25,5


In [17]:
friends['키순서'] = [1,2,3,4,5]
friends

Unnamed: 0,이름,나이,키,몸무게,키순서
3,골램,200,500,5000,1
0,철수,22,183,84,2
1,영희,18,165,52,3
2,바둑이,5,32,15,4
0,츄루,3,25,5,5


In [18]:
friends = friends.set_index(keys='키순서', drop=True)
friends

Unnamed: 0_level_0,이름,나이,키,몸무게
키순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,골램,200,500,5000
2,철수,22,183,84
3,영희,18,165,52
4,바둑이,5,32,15
5,츄루,3,25,5


- 인덱스와 컬럼 접근

In [22]:
print(friends.index)
print(friends.columns)
print(friends.shape)

Index([1, 2, 3, 4, 5], dtype='int64', name='키순서')
Index(['이름', '나이', '키', '몸무게'], dtype='object')
(5, 4)


- 값 접근

In [24]:
friends.loc[1]

이름       골램
나이      200
키       500
몸무게    5000
Name: 1, dtype: object

In [25]:
friends.iloc[1]

이름      철수
나이      22
키      183
몸무게     84
Name: 2, dtype: object

In [26]:
friends['이름'][3]

'영희'

In [28]:
friends.iloc[2,3]

52

In [49]:
friends.iloc[1:4,3]

키순서
2    84
3    52
4    15
Name: 몸무게, dtype: int64

In [41]:
frd = friends.copy()
frd

Unnamed: 0_level_0,이름,나이,키,몸무게
키순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,골램,200,500,5000
2,철수,22,183,84
3,영희,18,165,52
4,바둑이,5,32,15
5,츄루,3,25,5


In [43]:
frd.drop(1, axis=0)

Unnamed: 0_level_0,이름,나이,키,몸무게
키순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,철수,22,183,84
3,영희,18,165,52
4,바둑이,5,32,15
5,츄루,3,25,5


In [46]:
frd.drop('몸무게', axis=1)

Unnamed: 0_level_0,이름,나이,키
키순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,골램,200,500
2,철수,22,183
3,영희,18,165
4,바둑이,5,32
5,츄루,3,25


In [48]:
w = frd.pop('몸무게')
print(w)
print(frd)

키순서
1    5000
2      84
3      52
4      15
5       5
Name: 몸무게, dtype: int64
      이름   나이    키
키순서               
1     골램  200  500
2     철수   22  183
3     영희   18  165
4    바둑이    5   32
5     츄루    3   25


### pivot, melt

In [None]:
# resetindex
friends = friends.reset_index()

In [76]:
friends['분류'] = ['돌','사람','사람','동물','동물']
friends['관계'] = ['친함','나쁨','나쁨','친함','친함']
friends

Unnamed: 0,키순서,이름,나이,키,몸무게,분류,관계
0,1,골램,200,500,5000,돌,친함
1,2,철수,22,183,84,사람,나쁨
2,3,영희,18,165,52,사람,나쁨
3,4,바둑이,5,32,15,동물,친함
4,5,츄루,3,25,5,동물,친함


In [77]:
# pivot
pvt =friends.pivot(index='분류',columns='이름', values='키')
pvt

이름,골램,바둑이,영희,철수,츄루
분류,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
돌,500.0,,,,
동물,,32.0,,,25.0
사람,,,165.0,183.0,


In [78]:
meltTable = friends.melt(id_vars='이름',value_vars=['키','몸무게'])
meltTable

Unnamed: 0,이름,variable,value
0,골램,키,500
1,철수,키,183
2,영희,키,165
3,바둑이,키,32
4,츄루,키,25
5,골램,몸무게,5000
6,철수,몸무게,84
7,영희,몸무게,52
8,바둑이,몸무게,15
9,츄루,몸무게,5


### 형식 변환 (또는 저장)

In [31]:
# numpy array
val = friends.values
val

array([['골램', 200, 500, 5000],
       ['철수', 22, 183, 84],
       ['영희', 18, 165, 52],
       ['바둑이', 5, 32, 15],
       ['츄루', 3, 25, 5]], dtype=object)

In [34]:
type(val)

numpy.ndarray

In [None]:
# excel
friends.to_excel('./friends.excel', sheet_name='friends', header=True, index=True)
exfriends =pd.read_excel('./friends.excel')

In [None]:
# csv
friends.to_csv('./friends.csv', sep=',', na_rep='', header=True, index=True)
cfriends = pd.read_csv('./friends.csv')

In [None]:
# dictionary
friends.to_dict(orient='dict')
friends.to_dict(orient='list')

In [None]:
# pickle
friends.to_pickle('./friends.pkl')
refriends_2 = pd.read_pickle('./friends.pkl')

In [None]:
# sql
friends.to_sql (
    name = tableName,   # table name
    con= con,           # DB connect 객체
    if_exists='replace' # fail, append

)

In [None]:
# clipboard
friends.to_clipboard(excel=True) # header = [] 지정가능

#### Pandas DataFrame 합치기
- 종류 : merge,  join,  concat

In [89]:
import pandas as pd

df1 = pd.DataFrame({'A1':['a0','a1','a2','a3'],
                    'B1':['b0','b1','b2','b3'],
                    'C1':['c0','c1','c2','c3']},
                    index = [0,1,2,3])

df2 = pd.DataFrame({'A2':['a2','a3','a4','a5'],
                   'B2':['b2','b3','b4','b5'],
                   'C2':['c2','c3','c4','c5'],
                   'D2':['d2','d3','d4','d5']},
                   index = [2,3,4,5])
print(f"df1 -- \n{df1}\n")
print(f"df2 -- \n{df2}\n")

df1 -- 
   A1  B1  C1
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3

df2 -- 
   A2  B2  C2  D2
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5



In [91]:
## join 인덱스 기준
print(df1.join(df2,how='left'))

   A1  B1  C1   A2   B2   C2   D2
0  a0  b0  c0  NaN  NaN  NaN  NaN
1  a1  b1  c1  NaN  NaN  NaN  NaN
2  a2  b2  c2   a2   b2   c2   d2
3  a3  b3  c3   a3   b3   c3   d3


In [92]:
## join 인덱스 기준
print(df1.join(df2,how='right'))

    A1   B1   C1  A2  B2  C2  D2
2   a2   b2   c2  a2  b2  c2  d2
3   a3   b3   c3  a3  b3  c3  d3
4  NaN  NaN  NaN  a4  b4  c4  d4
5  NaN  NaN  NaN  a5  b5  c5  d5


In [94]:
## join 인덱스 기준
print(df1.join(df2,how='outer'))

    A1   B1   C1   A2   B2   C2   D2
0   a0   b0   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5


In [95]:
print(df1.join(df2,how='inner'))

   A1  B1  C1  A2  B2  C2  D2
2  a2  b2  c2  a2  b2  c2  d2
3  a3  b3  c3  a3  b3  c3  d3


In [96]:
print(df1.join(df2,how='left',sort=True))

   A1  B1  C1   A2   B2   C2   D2
0  a0  b0  c0  NaN  NaN  NaN  NaN
1  a1  b1  c1  NaN  NaN  NaN  NaN
2  a2  b2  c2   a2   b2   c2   d2
3  a3  b3  c3   a3   b3   c3   d3


In [109]:
# merge
df1 = pd.DataFrame({'col_1':['a','b','c','a'],'vals':[1,2,3,4]})
print(df1)
df2 = pd.DataFrame({'col_2':['a','c','d','e'],'vals':[3,4,5,6]})
print(df2)

  col_1  vals
0     a     1
1     b     2
2     c     3
3     a     4
  col_2  vals
0     a     3
1     c     4
2     d     5
3     e     6


In [110]:
# columns condition
print(df1.merge(df2, left_on='col_1', right_on='col_2'))

  col_1  vals_x col_2  vals_y
0     a       1     a       3
1     a       4     a       3
2     c       3     c       4


In [111]:
# index condition
df1 = df1.set_index('vals')
df2 = df2.set_index('vals')
print(df1.merge(df2, left_index=True, right_index=True ))

     col_1 col_2
vals            
3        c     a
4        a     c


In [114]:
df_m = df1.merge(df2, how='outer',on='vals')
df_m

Unnamed: 0_level_0,col_1,col_2
vals,Unnamed: 1_level_1,Unnamed: 2_level_1
1,a,
2,b,
3,c,a
4,a,c
5,,d
6,,e


### 결측값 확인

In [115]:
print(df_m.isna())

      col_1  col_2
vals              
1     False   True
2     False   True
3     False  False
4     False  False
5      True  False
6      True  False


In [118]:
col  = ['A','B','C','D','E']
row  = ['r1','r2','r3','r4','r5']
value = [[1,2,3,pd.NA,5],[6,7,8,pd.NA,10],[pd.NA,12,13,14,15],[16,17,18,19,20],[21,22,23,24,25]]

data = pd.DataFrame(value, columns=col, index=row)
data

Unnamed: 0,A,B,C,D,E
r1,1.0,2,3,,5
r2,6.0,7,8,,10
r3,,12,13,14.0,15
r4,16.0,17,18,19.0,20
r5,21.0,22,23,24.0,25


In [120]:
print(data.notna())

        A     B     C      D     E
r1   True  True  True  False  True
r2   True  True  True  False  True
r3  False  True  True   True  True
r4   True  True  True   True  True
r5   True  True  True   True  True


In [121]:
print(data.dropna(axis=0))

     A   B   C   D   E
r4  16  17  18  19  20
r5  21  22  23  24  25


In [122]:
print(data.dropna(axis=1))

     B   C   E
r1   2   3   5
r2   7   8  10
r3  12  13  15
r4  17  18  20
r5  22  23  25


In [None]:
data.dropna() # how='all', 'any' # thresh=n # subset

In [123]:
print(data.fillna('X'))

     A   B   C   D   E
r1   1   2   3   X   5
r2   6   7   8   X  10
r3   X  12  13  14  15
r4  16  17  18  19  20
r5  21  22  23  24  25


- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
- 기본 적인 많이 사용하는 메서드 나열

In [None]:

df = pd.read_csv("filename.csv")
df.head(10) # 앞쪽 데이터 확인
df.tail(10)
df.dtypes # 컬럼별 데이터 유형
df.info()
df.shape
df.isnull().sum()
df.fillna()
df.describe()

df.loc[:]
df.iloc[:]
df.get()

df.set_index
df.index
df.columns
df.colnames
df.rename

df.groupby('col1').sum()['col2']

df.to_excel("filename.xlsx", sheet_name="sheet_A", index=False)
df2 = pd.read_excel("filename.xlsx",sheet_name="sheet_A")

### 연산

In [136]:
col1  = ['A','B','C']
row1  = ['r1','r2','r3']
value1 = [[1,2,3,],[4,5,6],[7,8,9]]
calc1 = pd.DataFrame(value1, columns=col1, index=row1)
col2  = ['A','B']
row2  = ['r1','r2']
value2 = [[1,2],[3,4]]
calc2 = pd.DataFrame(value2, columns=col2, index=row2)

print(f"calc1 \n{calc1}")
print('----------------')
print(f"calc2 \n{calc2}")

calc1 
    A  B  C
r1  1  2  3
r2  4  5  6
r3  7  8  9
----------------
calc2 
    A  B
r1  1  2
r2  3  4


In [137]:
rs_add = calc1.add(1) # calc + 1
rs_add

Unnamed: 0,A,B,C
r1,2,3,4
r2,5,6,7
r3,8,9,10


In [138]:
calc1+calc2 # calc1.add(calc2,fill_value=0)

Unnamed: 0,A,B,C
r1,2.0,4.0,
r2,7.0,9.0,
r3,,,


In [139]:
rs_sub = calc1.sub(1) # calc - 1
rs_sub

Unnamed: 0,A,B,C
r1,0,1,2
r2,3,4,5
r3,6,7,8


In [140]:
calc1-calc2 # calc1.sub(calc2,fill_value=0)

Unnamed: 0,A,B,C
r1,0.0,0.0,
r2,1.0,1.0,
r3,,,


In [141]:
rs_mul = calc1.mul(2) # calc * 2
rs_mul

Unnamed: 0,A,B,C
r1,2,4,6
r2,8,10,12
r3,14,16,18


In [142]:
calc1*calc2

Unnamed: 0,A,B,C
r1,1.0,4.0,
r2,12.0,20.0,
r3,,,


In [143]:
calc1.mul(calc2,fill_value=0)

Unnamed: 0,A,B,C
r1,1.0,4.0,0.0
r2,12.0,20.0,0.0
r3,0.0,0.0,0.0


In [144]:
rs_div = calc1.div(2) # calc1/2
rs_div

Unnamed: 0,A,B,C
r1,0.5,1.0,1.5
r2,2.0,2.5,3.0
r3,3.5,4.0,4.5


In [145]:
calc1.div(calc2,fill_value=1) # calc1/colc2

Unnamed: 0,A,B,C
r1,1.0,1.0,3.0
r2,1.333333,1.25,6.0
r3,7.0,8.0,9.0


In [146]:
calc1.mod(2) # calc1%2

Unnamed: 0,A,B,C
r1,1,0,1
r2,0,1,0
r3,1,0,1


In [147]:
calc1.pow(2) # calc1**2

Unnamed: 0,A,B,C
r1,1,4,9
r2,16,25,36
r3,49,64,81


In [153]:
# dot product
M1 = [[1,2],[3,4]]
M2 = [[5,6],[7,8]]
df_m1 = pd.DataFrame(M1)
df_m2 = pd.DataFrame(M2)

print(f"df_m1 \n{df_m1}")
print(f"df_m2 \n{df_m2}")

df_m1 
   0  1
0  1  2
1  3  4
df_m2 
   0  1
0  5  6
1  7  8


In [155]:
rs_dot = df_m1.dot(df_m2)
print(rs_dot)

    0   1
0  19  22
1  43  50


### DataFrame 내부연산
- DataFrame.round(n) : n 자리까지 반올림 (n<0 : 10의 n 곱까지 )

- DataFrame.sum(axis=n) : n = 0 row , n = 1 col

- DataFrame.prod(axis=n) : n = 0 row, n = 1 col

- DataFrame.abs() : 절대값

- DataFrame.transpose() : 전치

- DataFrame['target'].rank(method) : method = average, min, max, first, dense

- DataFrame.diff(periods, axis)

- DataFrame.clip(low_limit, up_limit)

- DataFrame.sample() : frac, weights, replace

- 시계열 인덱스

period = pd.period_range(start='202x-xx-xx 00:00:00',end='202x-xx-xx xx:xx:xx', freq=) : freq - "S","T","T","H","D","M","Y"

to_timestamp(freq= , how= )

- pandas 통계처리 명령어

|Method|Description|
|:--|:--|
|count|Number of non-NA values|
|describe|Compute set of summary statistics for Series or each DataFrame column|
|min, max|Compute minimum and maximum values|
|argmin, argmax|Compute index locations (integers) at which minimum or maximum value obtained, respectively|
|idxmin, idxmax|Compute index labels at which minimum or maximum value obtained, respectively|
|quantile|Compute sample quantile ranging from 0 to 1|
|sum|Sum of values|
|mean|Mean of values|
|median|median (50% quantile) of values|
|mad|Mean absolute deviation from mean value|
|prod|Product of all values|
|var|Sample variance of values|
|std|Sample standard deviation of values|
|skew|Sample skewness (third moment) of values|
|kurt|Sample kurtosis (fourth moment) of values|
|cumsum|Cumulative sum of values|
|cummin, cummax|Cumulative minimum or maximum of values, respectively|
|cumprod|Cumulative product of values|
|diff|Compute first arithmetic difference (useful for time series)|
|pct_change|Compute percent changes|


In [None]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
# sns.get_dataset_names()
# 위 명령을 사용해보자

# 컬럼명으로 특정 컬럼 가져오기
ages = titanic["age"]
ages.head()
print(type(titanic["age"]))
titanic["age"].shape

age_sex = titanic[["age","sex"]]
age_sex.head()
type(titanic[["age", "sex"]])
titanic[["age", "sex"]].shape

# 특정 컬럼에 조건식으로 불러오기
titanic["Age"] > 35
above_35 = titanic[titanic["age"] > 35]
above_35.head()
above_35.shape

class_23 = titanic[titanic["Pclass"].isin([2, 3])] #해당 컬럼의 내용에 조건이 들어 있는 행만 가져오기
class_23.head()
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

age_no_na = titanic[titanic["age"].notna()]

- 특정 컬럼이나 인텍스 조건으로 선택하기

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()
titanic.iloc[9:25, 2:5]

anonymous = titanic.iloc[0:3,3] = "anonymous"
anonymous.head()

- Indexing options with DataFrame

| Type                 | Notes                                                                       |
| :------------------- | :-------------------------------------------------------------------------- |
| df[val]              | Select single column or sequence of columns from the DataFrame              |
| df.loc[val]          | Selects single row or subset of rows from the DataFrame by label            |
| df.loc[:, val]       | Selects single column or subset of columns by label                         |
| df.loc[val1, val2]   | Select both rows and columns by label                                       |
| df.iloc[where]       | Selects single row or subset of rows from the DataFrame by integer position |
| df.iloc[:, where]    | Selects single column or subset of columns by integer position              |
| df.iloc[where_i, whe | re_j] Select both rows and columns by integer position                      |
| df.at[label_i, label | _j] Select a single scalar value by row and column label                    |
| df.iat[i, j]         | Select a single scalar value by row and column position (integers)          |
| get_value(), set_val | ue() Select single value by row and column label                            |


- groupby

| 함수              | 내용          |
| --------------- | ----------- |
| count           | 데이터의 개수     |
| sum             | 합계          |
| mean            | 평균          |
| median          | 중앙값         |
| var, std        | 분산, 표준편차    |
| min, max        | 최소, 최대값     |
| unique, nunique | 고유값, 고유값 개수 |
| prod            | 곲           |
| first, last     | 첫째, 마지막값    |


In [None]:
titanic[["sex", "age"]].groupby("sex").mean()

titanic.groupby("sex").mean(numeric_only=True)

titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

titanic["Pclass"].value_counts()

titanic.groupby("Pclass")["Pclass"].count()

In [None]:
# 예제 데이터에  groupby 사용
tips = sns.load_dataset('tips')
tips.head()
tips.info()

tips.groupby("sex", observed=True).mean(numeric_only=True)
tips.groupby("sex", observed=True).var(numeric_only=True)

tips.groupby('sex', observed=True).agg({'total_bill': 'mean',
                       'tip': ['sum', 'var'],
                       'size': 'median'
                      })

tips.groupby('sex', observed=True)[['total_bill', 'tip']].agg(lambda x: x.mean() / x.std())

- 순회

In [None]:
# sex, smoker 기준으로 그룹한 후 순회하며 출력
for (k1, k2), group in df.groupby(['sex', 'smoker'], observed=True):
    print((k1, k2))
    # 데이터프레임 출력
    display(group.head())

### apply() 사용하여 데이터 조작

In [None]:
# titanic 'age' 컬럼에 null 값 총수 확인
print(titanic['age'].isnull().sum())
# null 값을 해당 컬럼의 성별 평균 값으로 결측치 채우기
titanic['age'].fillna(titanic_df['age'].mean(), inplace=True)
print(titanic['age'].isnull().sum())

def range_age(age):
    age = int(age)
    if age >= 70:
        return 'Old'
    elif age >= 10:
        return str(age//10) + 'age range'
    else:
        return 'baby'

titanic['age_range'] = titanic['age'].apply(range_age)


- index 지정

In [None]:

df.set_index('col')
df.set_index(pd.Index(['col1','col2','col3','col3']))

# index reset
df.reset_index()
df.reset_index(level='col1')

# rename

df.rename(columns={"col1":"kal1","col2":"kal2",}, inplace=True)
df.columns = [] # colname list

#### Read & Write Data

| Function   | Description                                                                                 |
| :--------- | :------------------------------------------------------------------------------------------ |
| read_csv   | Load delimited data from a file, URL, or file-like object; use comma as default delimiter   |
| read_table | Load delimited data from a file, URL, or file-like object; use tab (’) as default delimiter |
| read_fwf   | Read data in fixed-width column format (i.e., no delimiters)                                |
| read_excel | Read tabular data from an Excel XLS or XLSX file                                            |
| read_html  | Read all tables found in the given HTML document                                            |
| read_json  | Read data from a JSON (JavaScript Object Notation) string representation                    |

