## 3. pandas 패키지
+ 고수준의 자료구조의 빠르고 쉬운 데이터 분석 처리를 위한 패키지
+ 눈으로 데이터를 쉽게 확인할 수 있음
+ 참조: (https://harryp.tistory.com/868) *정말 강력하게 추천합니다!*

### 3.1 pandas 자료구조
+ 모든 자료구조는 index를 가짐
+ 판다스의 인덱스 
    + 리스트에서 사용하는 순서를 나타태는 __숫자 인덱스__  
    + 사전형에서 사용하는 __키 인덱스__   
    

+ <font color="#FF69B4">__Series__</font> : index와 value의 형태를 갖고 있는 1차원 자료구조 <font color="gray">(index는 0부터 자동생되며 변경 가능)</font>  
+ <font color="#FF69B4"> __DataFrame__</font> : 2차원 자료구조 
    + 한 개의 컬럼은 Series
    + dataFrame[컬럼명] : Series
    + dataFrame[[컬럼명1, 컬럼명2, ..]] : DataFrame
+ <font color="#FF69B4"> __Panel__</font> :<font color="gray"> 이런 게 있다는 것만 알아두자</font>

### 3.2 Pandas 사용방법
#### 3.2.1 데이터 불러오기
+ __.read_csv('파일이름')__ : 쉼표로 구분된 값(csv) 파일을 DataFrame으로 불러오기
+ __.read_excel('파일이름')__ : excel 파일 불러오기
+ __.read_table('파일이름')__ : DataFrame으로 구분된 일반 파일 불러오기
+ __.read_clipboard('파일이름')__ : 클립보드에서 텍스트를 Dataframe으로 불러오기
+ __데이터프레임명.copy()__ : 데이터프레임명을 복사하기

#### 3.2.2 데이터 타입 변경하기
데이터 파일을 dataframe 형식으로 불러올 때, column 별로 data type이 자동으로 결정됩니다. data type을 변경하면 적합한 연산자, 분석용 함수를 사용할 수 있습니다.  
+ __.astype( 'dtype', copy=[True|False], error=['raise','ignore'] )__ : pandas 객체를 지정된 __dtype__으로 변경
+ __.to_timedelta()__ : 인수를 timedelta로 변경
+ __.to_datatime('dtype', format='%Y%m%d')__ : 인수를 날짜 시간으로 변경
+ __.to_numeric()__ : 인수를 숫자로 변경
+ __.Categorical()__ : 

#### 3.2.3 데이터 값 변경하기
데이터의 값 변경은 일반적으로 [ '컬럼명(Series)' ]를 기반으로 일어난다.
+ <font color = "#FF69B4">__.replace__</font>( 변경대상, 변경내용 )
+ <font color = "#FF69B4">__.replace__</font>( [변경대상1, 변경대상2, ...], [변경내용1, 변경내용2] )
+ <font color = "#FF69B4">__.replace__</font>( {변경대상1 : 변경내용1, 변경대상2 : 변경내용2 ...} )  
  
<font color = "#CC4643"> replace()는 값 전체에 적용된다는 것을 주의하자.</font>  
예) 540만 -> 5400000으로 변경해보자.  
'540만' 중에 일부인 '만'만 변경하려면, replace('만', '0000', <font color=green>regex=True</font>)으로 하면 된다. 
  
값의 일부만 변경하려면 regex=True를 사용하는 것을 기억하자. (regex:  regular expression)

__1. pandas 설치하기 (jupyter notebookd은 이미 되어있음)__  
__2. pandas 불러오기__

In [27]:
import pandas as pd
from pandas import Series, DataFrame

#### 3. Series 초기화
+ 1차원 리스트와 유사
+ 다른점은 index 이름 부여 가능

In [28]:
s=Series([1,2,3,4]) # index와 value로 구성된 자료 구조
print(s)            
print(s.values)     # value [1 2 3 4] 출력
print(s.index)      # index 범위 출력

ss=Series([1,2,3,4], index=[1,2,3,4]) # index 1부터 시작
print(ss)
print(ss.index)                       # index [1 2 3 4] 출력

0    1
1    2
2    3
3    4
dtype: int64
[1 2 3 4]
RangeIndex(start=0, stop=4, step=1)
1    1
2    2
3    3
4    4
dtype: int64
Int64Index([1, 2, 3, 4], dtype='int64')


#### 4. pandas
+ 숫자 문자 등 다양한 자료형을 하나의 table에 담는 자료구조
+ 판다스는 어떤 자료든 데이터프레임 형태로 불러올 수 있다.
+ pd.read_자료확장명("파일이름")

__4.1__ csv파일과 xlsx파일을 dataframe 형태로 불러오기

In [41]:
EX_df_csv = pd.read_csv("EX_GrapeData.csv")
EX_df_csv

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


In [30]:
!pip install openpyxl
EX_df_xlsx = pd.read_excel("EX_GrapeData.xlsx")
EX_df_xlsx



Unnamed: 0,continent,brand,size,period,price
0,2.0,2.0,10.7,47.65,144.0
1,2.0,3.0,14.0,63.13,215.0
2,2.0,2.0,9.0,58.76,105.0
3,1.0,1.0,8.0,34.88,69.0
4,2.0,2.0,10.0,55.53,134.0
...,...,...,...,...,...
58,1.0,1.0,5.0,16.66,21.5
59,2.0,1.0,21.0,43.00,
60,2.0,2.0,5.0,12.00,
61,2.0,3.0,13.0,20.00,


__4.2__ 파일에 있는 한글이 깨지지 않게 불러오기
+ pd.read_파일확장명("파일이름", __encoding="utf-8"__) 
+ pd.read_파일확장명("파일이름", __encoding="euc-kr"__) 

In [36]:
cos_df = pd.read_csv("cosmetics.csv", encoding='utf-8')
cos_df

Unnamed: 0,Label,Brand,Name,Price,Rank,Ingredients,Combination,Dry,Normal,Oily,Sensitive
0,Moisturizer,LA MER,Crème de la Mer,175,4.1,"Algae (Seaweed) Extract, Mineral Oil, Petrolat...",1,1,1,1,1
1,Moisturizer,SK-II,Facial Treatment Essence,179,4.1,"Galactomyces Ferment Filtrate (Pitera), Butyle...",1,1,1,1,1
2,Moisturizer,DRUNK ELEPHANT,Protini™ Polypeptide Cream,68,4.4,"Water, Dicaprylyl Carbonate, Glycerin, Ceteary...",1,1,1,1,0
3,Moisturizer,LA MER,The Moisturizing Soft Cream,175,3.8,"Algae (Seaweed) Extract, Cyclopentasiloxane, P...",1,1,1,1,1
4,Moisturizer,IT COSMETICS,Your Skin But Better™ CC+™ Cream with SPF 50+,38,4.1,"Water, Snail Secretion Filtrate, Phenyl Trimet...",1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...
1467,Sun protect,KORRES,Yoghurt Nourishing Fluid Veil Face Sunscreen B...,35,3.9,"Water, Alcohol Denat., Potassium Cetyl Phospha...",1,1,1,1,1
1468,Sun protect,KATE SOMERVILLE,Daily Deflector™ Waterlight Broad Spectrum SPF...,48,3.6,"Water, Isododecane, Dimethicone, Butyloctyl Sa...",0,0,0,0,0
1469,Sun protect,VITA LIBERATA,Self Tan Dry Oil SPF 50,54,3.5,"Water, Dihydroxyacetone, Glycerin, Sclerocarya...",0,0,0,0,0
1470,Sun protect,ST. TROPEZ TANNING ESSENTIALS,Pro Light Self Tan Bronzing Mist,20,1.0,"Water, Dihydroxyacetone, Propylene Glycol, PPG...",0,0,0,0,0


__4.3__ DataFrame 확인하기 
+ 행 불러오기  
    + 변수이름.head()  
    + 변수이름.tail()  
    + 변수이름[시작:끝:간격]  
+ 열 불러오기
    + 데이터세트이름[['열 이름']]
    + 데이터세트이름[[데이터세트명.columnx[[[열번호]]]
    + 데이터세트이름.loc[:, 첫행이름: 끝열이름]

In [43]:
df = EX_df_csv
df.head() # 처음부터 5행까지 출력

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


In [44]:
df.tail() # 맨 마지막부터 5행을 출력

Unnamed: 0,continent,brand,size,period,price
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.0,
60,2,2,5.0,12.0,
61,2,3,13.0,20.0,
62,2,3,31.0,19.0,


In [45]:
df[1:5] # [1부터 : 4까지] 출력

Unnamed: 0,continent,brand,size,period,price
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


In [46]:
df[:5] # [0부터 4까지] 출력

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


In [47]:
df[60:] # [60부터 끝까지] 출력

Unnamed: 0,continent,brand,size,period,price
60,2,2,5.0,12.0,
61,2,3,13.0,20.0,
62,2,3,31.0,19.0,


In [None]:
df['subscriber'].replace('만', '0000', regx=True).astype(int64)