# 데이터 파일 불러오기

In [1]:
import pandas as pd

## 인코딩 옵션 : euc-kr
- euc-kr로 불러오면 한글 잘 불러와짐

In [5]:
df = pd.read_csv('../datasets/빅분기 실기 데이터/EX_GrapeData.csv', encoding='euc-kr')

In [6]:
df

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


# 열 불러오기
- 데이터셋명[['열 이름']]
- 데이터셋명[데이터셋명.columns[[열 번호]]]
- 데이터셋명.loc[:, 첫 열 이름 : 끝 열 이름]

In [13]:
df['price'] # series 형태
df[['price']] # DataFrame 형태

df[df.columns[[0,2,4]]]

df.loc[:, 'size':'price']

Unnamed: 0,size,period,price
0,10.7,47.65,144
1,14.0,63.13,215
2,9.0,58.76,105
3,8.0,34.88,69
4,10.0,55.53,134
...,...,...,...
58,5.0,16.66,21.5
59,21.0,43.00,
60,5.0,12.00,
61,13.0,20.00,


# 데이터 프레임 특정 행과 열 불러오기
- 데이터셋명.iloc[첫 행:끝 행, 첫 열:끝 열]

In [14]:
df.iloc[1:7, 0:2]

Unnamed: 0,continent,brand
1,2,3
2,2,2
3,1,1
4,2,2
5,2,2
6,2,2


# 특정한 하나의 값을 지정해 불러오기
- 데이터셋명.at[행 번호, '열 이름']

In [16]:
df.at[5, 'price']

'129'

# 변수이름 변경 / 변수 추가&삭제

In [21]:
df.rename(columns={'period':'time'}, inplace=True)
df.columns

Index(['continent', 'brand', 'size', 'time', 'price'], dtype='object')

In [25]:
df['growth'] = df['size']/df['time']
df.head(2)

Unnamed: 0,continent,brand,size,time,price,growth
0,2,2,10.7,47.65,144,0.224554
1,2,3,14.0,63.13,215,0.221765


In [26]:
del df['growth']
df.head(2)

Unnamed: 0,continent,brand,size,time,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215


# 특정 조건 만족하는 데이터 추출
- AND 조건 : &
- OR 조건 : |

In [27]:
df_continent = df[(df['continent']==1) & (df['brand']==1)]
df_continent.head(2)

Unnamed: 0,continent,brand,size,time,price
3,1,1,8.0,34.88,69
11,1,1,10.4,17.67,54


# 코딩 변경

In [28]:
df['brand'].value_counts()

2    24
1    23
3    16
Name: brand, dtype: int64

In [31]:
recode_brand = {'brand':{1:1, 2:1, 3:2}}
df_recode1 = df.replace(recode_brand)
df_recode1['brand'].value_counts()

1    47
2    16
Name: brand, dtype: int64

In [34]:
def brand_groups(series):
    if series == 1 :
        return 1
    elif series == 2 :
        return 1
    elif series == 3 :
        return 2
    
df['re_brand'] = df['brand'].apply(brand_groups)
df.head(5)

Unnamed: 0,continent,brand,size,time,price,re_brand
0,2,2,10.7,47.65,144,1
1,2,3,14.0,63.13,215,2
2,2,2,9.0,58.76,105,1
3,1,1,8.0,34.88,69,1
4,2,2,10.0,55.53,134,1
