In [1]:
import pandas as pd

In [2]:
print(pd.__version__)

1.5.3


### DataFrame 구조 
- index(row) - column(column) - data

In [3]:
num_list = [10, 20, 30, 40, 50]
pd.DataFrame(data=num_list)

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [4]:
double_list = [
            [1000, '과자','2019-12-31','반품'],
            [2000, '음료', '2020-03-02', '정상'],
            [3000, '아이스크림', '2020-02-03','정상'],
            [1000,'과자','2019-12-31','반품']
                ]
pd.DataFrame(data=double_list)

Unnamed: 0,0,1,2,3
0,1000,과자,2019-12-31,반품
1,2000,음료,2020-03-02,정상
2,3000,아이스크림,2020-02-03,정상
3,1000,과자,2019-12-31,반품


In [5]:
double_columns = ['가격','종류','판매일자','반품여부']
df_saledays = pd.DataFrame(data=double_list, columns=double_columns)
df_saledays

Unnamed: 0,가격,종류,판매일자,반품여부
0,1000,과자,2019-12-31,반품
1,2000,음료,2020-03-02,정상
2,3000,아이스크림,2020-02-03,정상
3,1000,과자,2019-12-31,반품


In [6]:
type(df_saledays)

pandas.core.frame.DataFrame

In [7]:
df_saledays.columns, type(df_saledays.columns), list(df_saledays.columns)

(Index(['가격', '종류', '판매일자', '반품여부'], dtype='object'),
 pandas.core.indexes.base.Index,
 ['가격', '종류', '판매일자', '반품여부'])

In [8]:
df_saledays.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
df_saledays.values

array([[1000, '과자', '2019-12-31', '반품'],
       [2000, '음료', '2020-03-02', '정상'],
       [3000, '아이스크림', '2020-02-03', '정상'],
       [1000, '과자', '2019-12-31', '반품']], dtype=object)

In [10]:
# df_saledays.drop(columns=['종류', '판매일자'], inplace=True) 자체 지정한 df값이 변화한다 
#대신 아래와 같이 이름 변경으로 새로운 df 만들기
df_saledays_dropcol = df_saledays.drop(columns=['종류', '판매일자'])

In [11]:
df_saledays_dropcol

Unnamed: 0,가격,반품여부
0,1000,반품
1,2000,정상
2,3000,정상
3,1000,반품


In [12]:
# 필터: and - & , or - |
# 내가 만든 condition을 레코드 하나하나씩 비교하면서 내려감 (반품여부를 정상과 비교)
# series로 나옴/ 위치로 기억/ 듀플로 묶어  
# condition = (df_saledays_dropcol['반품여부'] == '정상')
condition = (df_saledays_dropcol['가격'] >= 2500 )
df_saledays_dropcol.loc[condition]


Unnamed: 0,가격,반품여부
2,3000,정상


In [13]:
# (df_saledays_dropcol['가격'] >= 2500 ) | (df_saledays_dropcol['가격'] <= 1000 ) # 특정 범위 선택
(df_saledays_dropcol['반품여부'] == '정상') & (df_saledays_dropcol['가격'] >= 2500 )

0    False
1    False
2     True
3    False
dtype: bool

In [14]:
# 요약 https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html
# df_saledays_dropcol.pivot_table(index = '반품여부', values='가격')
# setvalues. 반품에 따른 평균 가격. index가 group by됨. 
# pd.pivot_table(data=df_saledays_dropcol, index = '반품여부', values='가격')
import numpy as np 
# df_saledays_dropcol.pivot_table(index = '반품여부', values='가격', aggfunc=np.sum)
df_saledays_dropcol.pivot_table(index = '반품여부', values='가격', aggfunc=np.var)

Unnamed: 0_level_0,가격
반품여부,Unnamed: 1_level_1
반품,0
정상,500000


In [15]:
pd.pivot_table(data=df_saledays_dropcol, index = '반품여부', values='가격')

Unnamed: 0_level_0,가격
반품여부,Unnamed: 1_level_1
반품,1000
정상,2500


In [16]:
df_saledays.pivot_table(index=['반품여부', '종류'], values='가격', aggfunc=[np.sum, np.min, np.size])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,amin,size
Unnamed: 0_level_1,Unnamed: 1_level_1,가격,가격,가격
반품여부,종류,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
반품,과자,2000,1000,2
정상,아이스크림,3000,3000,1
정상,음료,2000,2000,1


In [27]:
 df_saledays['가격'] + df_saledays['가격차이']

KeyError: '가격차이'

### Series 
- index - data

In [17]:
single_data = [0.1, 0.2, 0.3, 0.4, 0.5]
series_floats = pd.Series(data=single_data)
series_floats

0    0.1
1    0.2
2    0.3
3    0.4
4    0.5
dtype: float64

In [18]:
type(series_floats)

pandas.core.series.Series

### 통계 수치 표현 

In [19]:
import numpy as np
# 숫자만 다루는 패키지, 통계 및 행렬을 다룸  

In [20]:
arr = np.array([6, 4, 1, 3, 5, 3, 10, 7, 9])
# numpy 안에 array라는 생성자 
arr

array([ 6,  4,  1,  3,  5,  3, 10,  7,  9])

In [21]:
# 평균, 합계
np.mean(arr), np.mean(arr)

(5.333333333333333, 5.333333333333333)

In [22]:
# 중앙값 
np.median(arr)
# 약간 오른쪽으로 쏠려있음 (평균쪽으로) 

5.0

In [23]:
# 최솟값, 최대값
print(np.min(arr), np.max(arr))

1 10


In [24]:
#분산, 표준편차 (6sigma)
np.var(arr), np.std(arr)

(7.777777777777778, 2.788866755113585)