# 5. pandas 와 기본 데이터 처리

## 5.1 pandas 함수 개요

### 가. pandas
판다스(pandas)는 자료구조 및 데이터 분석 처리를 위한 파이썬의 핵심 패키지입니다. 눈으로 데이터를 쉽게 확인 할 수 있어 많은 분석자들은 판다스 형태로 데이터를 불러와 데이터를 확인하고 분석을 수행 합니다. 판다스는 크게 Series 와 DataFrame 의 형태로 나눌 수 있습니다.


### 나. Series

시리즈(Series)는 인덱스와 벨류 형태를 갖고 있는 pandas의 자료 구조 입니다.  시리즈는 value 외에 index 도 갖기 때문에 리스트와는 다른 자료형 입니다. index 는 기본 값으로 0, 1, 2, 3.. 으로 자동 생성 됩니다.

판다스도 파이썬에서 사용할 때마다 **import pandas as pd** 라고 축약하여 사용됩니다.

In [5]:
# pandas 함수 불러오기
import pandas as pd
from pandas import Series, DataFrame

# Series 설정
a = Series([1, 3, 5, 7]) # 인덱스가 자동으로 부여 된다.
print(a)

print(a.values)
print(a.index)

# index 변경
a2 = pd.Series([1, 3, 5, 7], index=['a', 'b','c', 'd']) # 인덱스는 숫자 뿐 아니라 문자도 가능하다.
print(a2)

0    1
1    3
2    5
3    7
dtype: int64
[1 3 5 7]
RangeIndex(start=0, stop=4, step=1)
a    1
b    3
c    5
d    7
dtype: int64


## 5.2 데이터 불러 오기

데이터 프레임은 2차원 행렬구조로 구성 된 자료 형이다. pandas 에 행렬 구조로 작성된 csv 파일을 불러와 봅니다.


In [8]:
# csv 파일을 pandas DataFrame 형태로 불러오기
df = pd.read_csv('./extrafiles/EX_GrapeData.csv')
df

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


In [39]:
# 엑셀 파일을 pandas DataFrame 형태로 불러오기
df = pd.read_excel('./extrafiles/EX_GrapeData.xlsx')
df

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


In [None]:
# 인코딩 옵션을 더한 파일 불러오기 - encoding 옵션을 추가할 수 있다.
df = pd.read_csv('filename', encoding='euc-kr')
df = pd.read_excel('filename', encoding='euc-kr')

## 나. DataFrame 확인하기

불러온 데이터 프레임은 '.head()' 로 가장 처음 시작하는 행의 일부를 확인 할 수 있다. (공백시 기본 5건)

In [11]:
# 데이터 프레임 head 조회
df.head()

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


In [12]:
# 데이터 프레임 tail 조회
df.tail()

Unnamed: 0,continent,brand,size,period,price
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.0,
60,2,2,5.0,12.0,
61,2,3,13.0,20.0,
62,2,3,31.0,19.0,


In [13]:
# DataFrame 슬라이싱
df[1:5]

Unnamed: 0,continent,brand,size,period,price
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


In [14]:
# 처음부터 5까지 출력
df[:5]

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


In [16]:
# 60 부터 끝까지 출력
df[60:]

Unnamed: 0,continent,brand,size,period,price
60,2,2,5.0,12.0,
61,2,3,13.0,20.0,
62,2,3,31.0,19.0,


In [18]:
# 열(Column) 단위로 가져오기
df['price'] # 아래와 동일
df.price

0     144.0
1     215.0
2     105.0
3      69.0
4     134.0
      ...  
58     21.5
59      NaN
60      NaN
61      NaN
62      NaN
Name: price, Length: 63, dtype: float64

In [19]:
# price 변수(열) 불러오기 - [[]] 형태로 호출 해야지만 DataFrame 으로 리턴 된다.
df[['price']]

Unnamed: 0,price
0,144.0
1,215.0
2,105.0
3,69.0
4,134.0
...,...
58,21.5
59,
60,
61,


In [21]:
# 변수명이 아닌 인덱스로 호출 하기
print(df.columns[[0, 2, 4]]) -- 리턴 벨류가 [컬럼명]이다.
df[df.columns[[0, 2, 4]]]

Index(['continent', 'size', 'price'], dtype='object')


Unnamed: 0,continent,size,price
0,2,10.7,144.0
1,2,14.0,215.0
2,2,9.0,105.0
3,1,8.0,69.0
4,2,10.0,134.0
...,...,...,...
58,1,5.0,21.5
59,2,21.0,
60,2,5.0,
61,2,13.0,


In [22]:
# size 부터 price 까지 출력
df.loc[:, 'size':'price'] # row 는 전체, col 은 'size'에서'price'까지

Unnamed: 0,size,period,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0
...,...,...,...
58,5.0,16.66,21.5
59,21.0,43.00,
60,5.0,12.00,
61,13.0,20.00,


In [26]:
# 특정 행과 열을 모두 지정 하여 리턴
df.loc[1:7, 'size':'price'] # 이름으로 호출 가능
df.iloc[1:7, 0:2] # 인덱스로 호출 하고자 할 경우 iloc

Unnamed: 0,continent,brand
1,2,3
2,2,2
3,1,1
4,2,2
5,2,2
6,2,2


In [27]:
# 특정 행의 특정 컬럼의 값을 불러오기
df.at[5, 'price']

129.0

## 5.3 데이터 변환하기

### 가. 복사, 추가, 삭제

판다스를 이용하여 불러온 데이터를 insert(추가), del(삭제), rename(이름변경) 함수를 사용하여 추가, 삭제, 수정이 가능하다.

In [73]:
# 데이터 프레임 전체 복사(백업)
df_columns = df.copy()
df_columns

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


In [74]:
# 데이터 프레임의 열 이름 확인
df_columns.columns

Index(['continent', 'brand', 'size', 'period', 'price'], dtype='object')

In [75]:
# 데이터 프레임 열(컬럼) 필터링
df_columns = df_columns[['size', 'period', 'price']]
df_columns.head()

Unnamed: 0,size,period,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0


### 나. 변수이름 변경, 행추가 및 삭제

데이터의 열을 수정 하고자 할 경우 rename 이라는 명령어를 사용한다. 기존 컬럼명 period 를 time 이라는 이름으로 변경한 후 이를 교체(inplace=True)하도록 하자.

In [76]:
# 데이터 열(변수) 이름 수정 : period -> time
df_selectCol = df_columns.rename(columns={'period':'time'}, inplace=False) # inPlace 옵션이 False 인 수정된 데이터프레임을 리턴한다.
print(df_selectCol.columns)

print(df_columns.columns)

df_columns.rename(columns={'period':'time'}, inplace=True) # inPlace 옵션이 True 인 경우 원본 데이터 프레임을 대체 한다.
print(df_columns.columns)


Index(['size', 'time', 'price'], dtype='object')
Index(['size', 'period', 'price'], dtype='object')
Index(['size', 'time', 'price'], dtype='object')


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().rename(


In [77]:
# size 를 time 으로 나누어 월별 포도 크기로 계산하여 growth 변수를 생성 한 예
df_columns['growth'] = df_columns['size']/df_columns['time']
df_columns.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_columns['growth'] = df_columns['size']/df_columns['time']


Unnamed: 0,size,time,price,growth
0,10.7,47.65,144.0,0.224554
1,14.0,63.13,215.0,0.221765
2,9.0,58.76,105.0,0.153165
3,8.0,34.88,69.0,0.229358
4,10.0,55.53,134.0,0.180083


In [78]:
# 특정 변수 삭제 : growth 삭제
del df_columns['growth']
df_columns.head()

Unnamed: 0,size,time,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0


### 다. 데이터 케이스 추출

전체 데이터 중 특정 집단 데이터만 추출 하고자 할 경우 연산자를 이용하여 조건을 구성 할 수 있다. **AND 조건은 '&'** 으로 **OR 조건은 '|'** 로 두개 이상의 조건을 연결 할 수 있다.

In [85]:
# 특정 케이스 선택 1 : 집단 선택
df_continent_brand = df[ (df['continent'] == 1) & (df['brand'] == 1) ] # () 으로 엮인 조건 2개를 AND 로 엮어 필터링
df_continent_brand.head()

Unnamed: 0,continent,brand,size,period,price
3,1,1,8.0,34.88,69.0
11,1,1,10.4,17.67,54.0
12,1,1,7.4,16.41,39.0
13,1,1,5.4,12.02,29.5
16,1,1,6.0,23.21,42.0


In [86]:
# 특정 케이스 선택 2: 기준값 이상 혹은 이하 선택
df_over_size_period = df[ (df['size'] >= 10 & (df['period'] >= 30))]
df_over_size_period.head()

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


### 라. 코딩변경

데이터셋 중 기존의 값을 변경 하려는 경우
1. replace 기능
2. 함수로 정의


In [87]:
# 데이터 셋의 값의 분포 확인
df['brand'].value_counts()

2    24
1    23
3    16
Name: brand, dtype: int64

In [92]:
# replcae 기능을 이용하여 두 종류의 값을 하나로 합친다.
recode_brand = {"brand" : {1:1, 2:1, 3:2}}
df_recode1 = df.replace(recode_brand) # 앞서 정의한 brand 열에 대한 매핑 정보를 대입하여 데이터를 조작 하였다. {from:to, from:to}
df_recode1.head()

Unnamed: 0,continent,brand,size,period,price
0,2,1,10.7,47.65,144.0
1,2,2,14.0,63.13,215.0
2,2,1,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,1,10.0,55.53,134.0


In [95]:
df_recode1["brand"].value_counts() # 기존 1, 2, 3 3종류의 값들이 1, 2 두종류로 변경되었다.

1    47
2    16
Name: brand, dtype: int64

In [96]:
# 코딩 변경 함수 정의 방식
def brand_groups(series):
    if series==1:
        return 1
    elif series==2:
        return 1
    elif series==3:
        return 2

df['re_brand'] = df['brand'].apply(brand_groups) # apply 함수를 통하여 분류 함수와 데이터를 바인드 시켜 준다.
df.head()

Unnamed: 0,continent,brand,size,period,price,re_brand
0,2,2,10.7,47.65,144.0,1
1,2,3,14.0,63.13,215.0,2
2,2,2,9.0,58.76,105.0,1
3,1,1,8.0,34.88,69.0,1
4,2,2,10.0,55.53,134.0,1


### 마. pandas 와 numpy 전환

판다스와 넘파이 간에 데이터를 쉽게 변환 할 수 있다. **머신러닝이나 딥러닝에서는 넘파이로 분석하는 쪽이 보다 빠른 연산이 가능** 하기 때문에 판다스로는 기본적인 분석을, 넘파이로는 머신러닝, 딥러닝을 수행하는 식의 작업을 보통 한다. 반대로 **넘파이 데이터는 시각적인 확인이 어렵기 때문에 판다스로 변환하여 살펴보는 식**의 작업을 한다.

In [97]:
import pandas as pd
df = pd.read_csv('./extrafiles/EX_GrapeData.csv')
df.head()

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


In [98]:
# pandas -> numpy
df_num = df.to_numpy()
df_num

array([[2, 2, 10.7, 47.65, '144'],
       [2, 3, 14.0, 63.13, '215'],
       [2, 2, 9.0, 58.76, '105'],
       [1, 1, 8.0, 34.88, '69'],
       [2, 2, 10.0, 55.53, '134'],
       [2, 2, 10.5, 43.14, '129'],
       [2, 2, 16.0, 54.86, '155'],
       [2, 1, 15.0, 44.14, '99'],
       [2, 1, 6.5, 17.46, '38.5'],
       [2, 1, 5.0, 21.04, '36.5'],
       [2, 2, 25.0, 109.38, '260'],
       [1, 1, 10.4, 17.67, '54'],
       [1, 1, 7.4, 16.41, '39'],
       [1, 1, 5.4, 12.02, '29.5'],
       [2, 2, 15.4, 49.48, '109'],
       [2, 1, 12.4, 48.74, '89.5'],
       [1, 1, 6.0, 23.21, '42'],
       [1, 1, 9.0, 28.64, '65'],
       [1, 3, 9.0, 44.95, '115'],
       [1, 1, 12.4, 23.77, '49.5'],
       [1, 1, 7.5, 20.21, '36.5'],
       [1, 3, 14.0, 32.62, '109'],
       [1, 1, 7.0, 17.84, '45'],
       [1, 2, 9.0, 22.82, '58'],
       [1, 2, 12.0, 29.48, '89'],
       [1, 1, 5.5, 15.61, '30'],
       [1, 2, 6.0, 13.25, '31'],
       [1, 3, 12.0, 45.78, '119'],
       [2, 1, 5.5, 26.53, '22'],
     

In [100]:
# numpy -> pandas
df_pd=pd.DataFrame(df_num) # column 명은 하나도 남아 있지 않다..
df_pd.head()

Unnamed: 0,0,1,2,3,4
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


In [101]:
# numpy -> pandas 2 : 컬럼명을 지정하여 변환
df_pd2 = pd.DataFrame(data = df_num, columns = ["continent", "brand", "size", "period", "price"])
df_pd2.head()


Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
