## 데이터 프레임 다루기

In [2]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### df.sort_index(ascending=False)

In [7]:
# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 
             'c1':[4,5,6], 
             'c2':[7,8,9], 
             'c3':[10,11,12], 
             'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)
print('\n')

# 내림차순으로 행 인덱스 정렬
df.sort_index(ascending=False, inplace=True)
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


### df.sort_values(by = 'c1', ascending=Flase)

In [9]:
# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 
             'c1':[4,5,6], 
             'c2':[7,8,9], 
             'c3':[10,11,12], 
             'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)
print('\n')

# c1 열을 기준으로 내림차순 정렬
print("df.sort_values(by='c1', ascending=False)")
df.sort_values(by=['c1'], ascending=False, inplace=True) # max -> min
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


df.sort_values(by='c1', ascending=False)
    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


### Broad casting

In [11]:
# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
print(student1)
print('\n')

# 학생의 과목별 점수를 200으로 나누기
percentage = (student1 / 200)*100

# student1['percentage'] = percentage
# print(student1)
print('\n')

print(percentage)
# print('\n')
# print(type(percentage))

국어    100
영어     80
수학     90
dtype: int64




국어    50.0
영어    40.0
수학    45.0
dtype: float64


### 데이터프레임 연산

In [12]:
# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['survived','age','fare']]
df['won'] = df['fare'] * 1300
print(df.head())   #첫 5행만 표시
print('\n')
print(type(df))
print('\n')

   survived   age     fare       won
0         0  22.0   7.2500   9425.00
1         1  38.0  71.2833  92668.29
2         1  26.0   7.9250  10302.50
3         1  35.0  53.1000  69030.00
4         0  35.0   8.0500  10465.00


<class 'pandas.core.frame.DataFrame'>




In [13]:
# 데이터프레임에 숫자 10 더하기
addition = df + 10
print(addition.head())   #첫 5행만 표시
print('\n')
print(type(addition))

# 데이터프레임끼리 연산하기 (additon - df)
subtraction = addition - df
print(subtraction.tail())   #마지막 5행을 표시
print('\n')
print(type(subtraction))

   survived   age     fare       won
0        10  32.0  17.2500   9435.00
1        11  48.0  81.2833  92678.29
2        11  36.0  17.9250  10312.50
3        11  45.0  63.1000  69040.00
4        10  45.0  18.0500  10475.00


<class 'pandas.core.frame.DataFrame'>
     survived   age  fare   won
886        10  10.0  10.0  10.0
887        10  10.0  10.0  10.0
888        10   NaN  10.0  10.0
889        10  10.0  10.0  10.0
890        10  10.0  10.0  10.0


<class 'pandas.core.frame.DataFrame'>


## Filter

```
==, 같다  
!=, 다르다
>, 크다 
<,  작다
>=, 크거나 같다
<=, 작거나 같다
```

In [4]:
# dataframe 자료 만들기, dictionary 형태로 입력

df = pd.DataFrame({
    'hdz':['yes', 'no', 'no', 'no', 'yes'],
    'chestpain': [True, False, False, True, False],
    'cholesterol':[208, 282, 235, 277, 280],
    'sysbp':[160, 140, 188, 162, 122]
}, index = np.arange(5))

In [5]:
## chestpain == "No"
cp = df['chestpain'] != 'yes'
df[cp]

## cholesterol 210 이상인 경우
ch = df["cholesterol"] > 210
df[ch]

## cholesterol가 220 이상이고 sysbp가 170 이상인 경우
flt_chol_bp = (df["cholesterol"] > 220) & (df["sysbp"] > 170)
# flt_chol_bp
df[flt_chol_bp]

Unnamed: 0,hdz,chestpain,cholesterol,sysbp
2,no,False,235,188
