# Pandas 실습

- Pandas, Numpy는 상호변환하여 활용하는 경우 많음
- Pandas로 Data확인 후 Numpy로 변환하여 고속 연산에 이용
- Pandas, Numpy로 외부 자료 로드시 경로 입력 필수

## Import Pandas as pd

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame #Dataframe, Series 불러오기

##  ★★ Series 만들기 기초

### Series 생성 시 Index 자동으로 부여 : 0,1,2,3....

In [3]:
a=Series([1,3,5,7])
print(a)

0    1
1    3
2    5
3    7
dtype: int64


### Series에서 Index, Value 출력하기

In [10]:
print("series의 values : ",a.values)
print("series의 indes : ",a.index)

series의 values :  [1 3 5 7]
series의 indes :  RangeIndex(start=0, stop=4, step=1)


### Series의 Index 변경

In [11]:
a2=Series([1,3,5,7], index=["가","나","다","라"])
print(a2)

가    1
나    3
다    5
라    7
dtype: int64


## ★★ Data Frame  

### 외부 Data 불러와서 Data Frame으로 만들기

#### CSV 파일 불러온 후 Dataframe으로 변환

In [13]:
df=pd.read_csv("EX_GrapeData.csv")
df

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


#### Excel 파일 불러온 후 Dataframe으로 변환

In [14]:
df=pd.read_excel("EX_GrapeData.xlsx")
df.head()

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


### Encoding 지정하기

#### CSV 파일만 해당 : EXCEL 해당 옵션이 없음

In [20]:
df=pd.read_csv("EX_GrapeData.csv", encoding="euc-kr")


## ★★★ Dataframe 확인하기 - 중요

### 대략적으로 데이터 확인하기

#### head() : 상위 행 확인

In [22]:
df=pd.read_excel("EX_GrapeData.xlsx")
df.head() # ()안에 개수 지정 가능

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


#### tail() : 하위 행 확인

In [24]:
df.tail() # ()안에 개수 지정 가능

Unnamed: 0,continent,brand,size,period,price
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.0,
60,2,2,5.0,12.0,
61,2,3,13.0,20.0,
62,2,3,31.0,19.0,


### 특정 행 확인하기

####  ★★ 행 확인하기 : 1번 부터 4번

In [26]:
df[1:5]#1행부터 4행까지

Unnamed: 0,continent,brand,size,period,price
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


####  ★★ 처음부터 인덱스 2번까지

In [27]:
df[:3]

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0


#### ★★ 인덱스 60번 부터 끝까지

In [29]:
df[60:]

Unnamed: 0,continent,brand,size,period,price
60,2,2,5.0,12.0,
61,2,3,13.0,20.0,
62,2,3,31.0,19.0,


### ★★★ 특정 열 확인하기 - 중요

1. 데이터프레임[["열이름"]] : 괄호를 이중으로 해야 결과가 이쁘게 나옴 (한번만 사용하면 Series 형태로 반환)
2. 데이터프레임[데이터프레임.columns[[열번호를 리스트로 작성 - 순서 상관없음]]]
3. 데이터프레임.loc[행번호 (":" 입력하면 전체 행), 첫번째열이름 : 마지막열이름]

#### Series로 불러오기

In [40]:
# Series로 불러오기
print(df['size'])
print(type(df['size']))

0     10.7
1     14.0
2      9.0
3      8.0
4     10.0
      ... 
58     5.0
59    21.0
60     5.0
61    13.0
62    31.0
Name: size, Length: 63, dtype: float64
<class 'pandas.core.series.Series'>


#### 데이터프레임[["열이름"]]  이용

In [36]:
df[['size']]

Unnamed: 0,size
0,10.7
1,14.0
2,9.0
3,8.0
4,10.0
...,...
58,5.0
59,21.0
60,5.0
61,13.0


#### 데이터프레임[데이터프레임.columns[[열번호]]]

In [41]:
df[df.columns[[0,2,4]]]

Unnamed: 0,continent,size,price
0,2,10.7,144.0
1,2,14.0,215.0
2,2,9.0,105.0
3,1,8.0,69.0
4,2,10.0,134.0
...,...,...,...
58,1,5.0,21.5
59,2,21.0,
60,2,5.0,
61,2,13.0,


In [42]:
df[df.columns[[4,1,2]]]

Unnamed: 0,price,brand,size
0,144.0,2,10.7
1,215.0,3,14.0
2,105.0,2,9.0
3,69.0,1,8.0
4,134.0,2,10.0
...,...,...,...
58,21.5,1,5.0
59,,1,21.0
60,,2,5.0
61,,3,13.0


#### 데이터프레임.loc[행번호 , 열이름(복수 가능)]

In [45]:
df.loc[:,"size":"price"]

Unnamed: 0,size,period,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0
...,...,...,...
58,5.0,16.66,21.5
59,21.0,43.00,
60,5.0,12.00,
61,13.0,20.00,


In [47]:
df.loc[:,["size","price"]] # 열이름 list형태로도 가능

Unnamed: 0,size,price
0,10.7,144.0
1,14.0,215.0
2,9.0,105.0
3,8.0,69.0
4,10.0,134.0
...,...,...
58,5.0,21.5
59,21.0,
60,5.0,
61,13.0,


### ★★ 특정 행/열 범위 불러오기

#### iloc사용 :Index 넘버 활용

In [50]:
#1행부터 6행, 0~2열 불러오기
df.iloc[1:7,0:2]

Unnamed: 0,continent,brand
1,2,3
2,2,2
3,1,1
4,2,2
5,2,2
6,2,2


#### 특정한 하나의 값만 불러오기 

In [51]:
# 5번 인덱스의 "price" 변수 값 불러오기
df.at[5,'price']

129.0

## ★★★ Dataframe 조작하기 

### ★★ Dataframe 복사하기

- dataframe 전체 복사 (주로 원본 백업 시 활용)

In [54]:
df_columns=df.copy()
df_columns

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


### ★★ 열이름 (Field명) 확인하기

In [57]:
df_columns.columns

Index(['continent', 'brand', 'size', 'period', 'price'], dtype='object')

#### 열이름 List로 저장

In [61]:
colnames=df_columns.columns.to_list()
print(colnames)

['continent', 'brand', 'size', 'period', 'price']


### ★★★ 열이름으로 Filtering

In [65]:
df_columns_reduced=df_columns[["size","period","price"]]
df_columns_reduced.head()

Unnamed: 0,size,period,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0


## ★★★ 변수(열=Field)  변경 및 추가 삭제 

### rename활용하여 변수 명 수정

In [68]:
# 변수 명 수정 : period -> time
# inplace = true로 설정해야 실제 변수에 변경점 반영
df_columns.rename(columns={"period":"time"},inplace=True)
df_columns.columns

Index(['continent', 'brand', 'size', 'time', 'price'], dtype='object')

### ★★★ 변수 간 사칙 연산통한 새로운 변수 생성하기

In [69]:
df_columns['growth']=df_columns['size']/df_columns['time']
df_columns.head()

Unnamed: 0,continent,brand,size,time,price,growth
0,2,2,10.7,47.65,144.0,0.224554
1,2,3,14.0,63.13,215.0,0.221765
2,2,2,9.0,58.76,105.0,0.153165
3,1,1,8.0,34.88,69.0,0.229358
4,2,2,10.0,55.53,134.0,0.180083


### 변수 삭제

In [70]:
del df_columns['growth']
df_columns.head()

Unnamed: 0,continent,brand,size,time,price
0,2,2,10.7,47.65,144.0
1,2,3,14.0,63.13,215.0
2,2,2,9.0,58.76,105.0
3,1,1,8.0,34.88,69.0
4,2,2,10.0,55.53,134.0


## (Update 중)