## Pandas 관련 자료
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandasdocumentation](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [1]:
import pandas as pd
import numpy as np

## DataFrame
* pd.DataFrame()

In [2]:
# 비어있는 데이터프레임을 생성합니다.
df=pd.DataFrame()

## 컬럼 추가하기
* df["컬럼명"]=["  ","  ",    ,"  "]

In [3]:
df["약품명"]=["소화제", "감기약", "비타민", "digestive", "Omega3", "오메가3", "vitamin", "Vitamin"]
df

Unnamed: 0,약품명
0,소화제
1,감기약
2,비타민
3,digestive
4,Omega3
5,오메가3
6,vitamin
7,Vitamin


In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df["가격"]=3000
df # 데이터프레임, 행렬, 2차원

Unnamed: 0,약품명,가격
0,소화제,3000
1,감기약,3000
2,비타민,3000
3,digestive,3000
4,Omega3,3000
5,오메가3,3000
6,vitamin,3000
7,Vitamin,3000


In [6]:
df["가격"] # Seies, pandas의 Series는 1차원 배열과 같은 자료구조

0    3000
1    3000
2    3000
3    3000
4    3000
5    3000
6    3000
7    3000
Name: 가격, dtype: int64

In [7]:
df[["가격"]]  #표형태, dataframe

Unnamed: 0,가격
0,3000
1,3000
2,3000
3,3000
4,3000
5,3000
6,3000
7,3000


In [8]:
# type 을 사용해서 데이터의 타입을 출력
type(df["가격"])

pandas.core.series.Series

In [9]:
# type 을 사용해서 데이터의 타입을 출력
type(df[["가격"]])

pandas.core.frame.DataFrame

In [10]:
# 가져온 "가격" 컬럼을 리스트 형태로 변경
df["가격"].tolist() # tolist()컬럼을 리스트 형태로 변경

[3000, 3000, 3000, 3000, 3000, 3000, 3000, 3000]

## 컬럼값 변경하기

In [11]:
# 가격을 다음의 리스트 값으로 변경
df["가격"]=[3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000] # nan == not a number 의 약자로 결측치를 의미
df

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


# nan == not a number
* 결측치
* float형


In [12]:
df.dtypes

약품명     object
가격     float64
dtype: object

In [13]:
df["지역"]="서울시" # "지역" 컬럼을 추가
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울시
1,감기약,3200.0,서울시
2,비타민,4000.0,서울시
3,digestive,3200.0,서울시
4,Omega3,3700.0,서울시
5,오메가3,,서울시
6,vitamin,2000.0,서울시
7,Vitamin,1000.0,서울시


In [14]:
df["종류"]="일반의약품" # "종류"라는 컬럼을 만들어일반의약품이라는 내용을 추가
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울시,일반의약품
1,감기약,3200.0,서울시,일반의약품
2,비타민,4000.0,서울시,일반의약품
3,digestive,3200.0,서울시,일반의약품
4,Omega3,3700.0,서울시,일반의약품
5,오메가3,,서울시,일반의약품
6,vitamin,2000.0,서울시,일반의약품
7,Vitamin,1000.0,서울시,일반의약품


# 컬럼을 잘못 추가했거나 삭제
* drop

In [15]:
df["종류2"]="일반의약품"  # "종류2"라는 컬럼을 실수로 추가
df

Unnamed: 0,약품명,가격,지역,종류,종류2
0,소화제,3500.0,서울시,일반의약품,일반의약품
1,감기약,3200.0,서울시,일반의약품,일반의약품
2,비타민,4000.0,서울시,일반의약품,일반의약품
3,digestive,3200.0,서울시,일반의약품,일반의약품
4,Omega3,3700.0,서울시,일반의약품,일반의약품
5,오메가3,,서울시,일반의약품,일반의약품
6,vitamin,2000.0,서울시,일반의약품,일반의약품
7,Vitamin,1000.0,서울시,일반의약품,일반의약품


In [16]:
df["종류3"]="일반의약품" # "종류3"라는 컬럼을 실수로 추가
df

Unnamed: 0,약품명,가격,지역,종류,종류2,종류3
0,소화제,3500.0,서울시,일반의약품,일반의약품,일반의약품
1,감기약,3200.0,서울시,일반의약품,일반의약품,일반의약품
2,비타민,4000.0,서울시,일반의약품,일반의약품,일반의약품
3,digestive,3200.0,서울시,일반의약품,일반의약품,일반의약품
4,Omega3,3700.0,서울시,일반의약품,일반의약품,일반의약품
5,오메가3,,서울시,일반의약품,일반의약품,일반의약품
6,vitamin,2000.0,서울시,일반의약품,일반의약품,일반의약품
7,Vitamin,1000.0,서울시,일반의약품,일반의약품,일반의약품


In [17]:
# df.drop(["종류2"])-> 작동안함 오류!
# axis 0:행, 1:컬럼 
df=df.drop(["종류2"],axis=1) #종류2 열 삭제

In [18]:
# df.drop(["종류3"])-> 작동안함 오류!
# axis 0:행, 1:컬럼 
df=df.drop(["종류3"],axis=1) #종류3 열 삭제
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울시,일반의약품
1,감기약,3200.0,서울시,일반의약품
2,비타민,4000.0,서울시,일반의약품
3,digestive,3200.0,서울시,일반의약품
4,Omega3,3700.0,서울시,일반의약품
5,오메가3,,서울시,일반의약품
6,vitamin,2000.0,서울시,일반의약품
7,Vitamin,1000.0,서울시,일반의약품


## 데이터 요약하기

In [19]:
# 데이터 프레임의 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   약품명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
 3   종류      8 non-null      object 
dtypes: float64(1), object(3)
memory usage: 384.0+ bytes


In [20]:
# 데이터 프레임의 크기
df.shape #df.shape() 작동 오류!
#괄호있는거 method, 괄호업는거 attribut형 #수치형

(8, 4)

In [21]:
# 데이터의 타입만 봅니다.
df.dtypes #df.dtypes() 작동 오류!

약품명     object
가격     float64
지역      object
종류      object
dtype: object

# 데이터프레임의 요약정보
* 수치형: .describe()
* 범주형: .describe(include="object")

In [22]:
df.describe() # 수치형

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


In [23]:
df.describe(include="object") #범주형

Unnamed: 0,약품명,지역,종류
count,8,8,8
unique,8,1,1
top,감기약,서울시,일반의약품
freq,1,8,8


## 컬럼명으로 데이터 가져오기

In [24]:
df["약품명"]

0          소화제
1          감기약
2          비타민
3    digestive
4       Omega3
5         오메가3
6      vitamin
7      Vitamin
Name: 약품명, dtype: object

In [25]:
df["가격"]

0    3500.0
1    3200.0
2    4000.0
3    3200.0
4    3700.0
5       NaN
6    2000.0
7    1000.0
Name: 가격, dtype: float64

## 2개 이상의 컬럼명 가져오기

In [26]:
df[["약품명","가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


## 행을 기준으로 데이터 가져오기

In [27]:
# 인덱스 번호로 첫번째 데이터 가져오기
df.loc[1] #series 형태

약품명       감기약
가격     3200.0
지역        서울시
종류      일반의약품
Name: 1, dtype: object

In [28]:
# 위에서 3개의 행 데이터 가져오기

df.loc[:2] #데이터프레임 형태

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울시,일반의약품
1,감기약,3200.0,서울시,일반의약품
2,비타민,4000.0,서울시,일반의약품


## 행과 열을 함께 가져오기

In [29]:
# loc[행, 열]
df.loc[1,"약품명"]

'감기약'

In [30]:
# loc[행, 열]
df.loc[2,"약품명"]

'비타민'

In [31]:
# loc[행, 열]
df.loc[[2],["약품명","가격"]]

Unnamed: 0,약품명,가격
2,비타민,4000.0


## 특정약품만 가져오기

In [32]:
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울시,일반의약품
1,감기약,3200.0,서울시,일반의약품
2,비타민,4000.0,서울시,일반의약품
3,digestive,3200.0,서울시,일반의약품
4,Omega3,3700.0,서울시,일반의약품
5,오메가3,,서울시,일반의약품
6,vitamin,2000.0,서울시,일반의약품
7,Vitamin,1000.0,서울시,일반의약품


In [33]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and

df[df["약품명"].str.contains("vita")]

Unnamed: 0,약품명,가격,지역,종류
6,vitamin,2000.0,서울시,일반의약품


In [34]:
# 하지만 파이썬은 대소문자를 구분
# 약품명을 모두 소문자

df["약품명"].str.lower()

0          소화제
1          감기약
2          비타민
3    digestive
4       omega3
5         오메가3
6      vitamin
7      vitamin
Name: 약품명, dtype: object

### 파생변수 만들기

In [35]:
df["약품명 소문자"]=df["약품명"].str.lower()

In [36]:
df[df["약품명 소문자"].str.contains("vita|비타")]

Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
2,비타민,4000.0,서울시,일반의약품,비타민
6,vitamin,2000.0,서울시,일반의약품,vitamin
7,Vitamin,1000.0,서울시,일반의약품,vitamin


## 가격이 특정 금액 이상인 것만 가져오기

In [37]:
df[df["가격"]>3000]


Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
0,소화제,3500.0,서울시,일반의약품,소화제
1,감기약,3200.0,서울시,일반의약품,감기약
2,비타민,4000.0,서울시,일반의약품,비타민
3,digestive,3200.0,서울시,일반의약품,digestive
4,Omega3,3700.0,서울시,일반의약품,omega3


In [38]:
df[df["가격"]<3000]


Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
6,vitamin,2000.0,서울시,일반의약품,vitamin
7,Vitamin,1000.0,서울시,일반의약품,vitamin


## 정렬하기

In [39]:
# sort_values 를 통해 정렬
df.sort_values(by="가격",ascending=True)

Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
7,Vitamin,1000.0,서울시,일반의약품,vitamin
6,vitamin,2000.0,서울시,일반의약품,vitamin
1,감기약,3200.0,서울시,일반의약품,감기약
3,digestive,3200.0,서울시,일반의약품,digestive
0,소화제,3500.0,서울시,일반의약품,소화제
4,Omega3,3700.0,서울시,일반의약품,omega3
2,비타민,4000.0,서울시,일반의약품,비타민
5,오메가3,,서울시,일반의약품,오메가3


In [40]:
# sort_values 를 통해 정렬
df.sort_values(by="가격",ascending=False)

Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
2,비타민,4000.0,서울시,일반의약품,비타민
4,Omega3,3700.0,서울시,일반의약품,omega3
0,소화제,3500.0,서울시,일반의약품,소화제
1,감기약,3200.0,서울시,일반의약품,감기약
3,digestive,3200.0,서울시,일반의약품,digestive
6,vitamin,2000.0,서울시,일반의약품,vitamin
7,Vitamin,1000.0,서울시,일반의약품,vitamin
5,오메가3,,서울시,일반의약품,오메가3


In [41]:
df.sort_values(by=["가격","약품명 소문자"],ascending=[True,False])

Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
7,Vitamin,1000.0,서울시,일반의약품,vitamin
6,vitamin,2000.0,서울시,일반의약품,vitamin
1,감기약,3200.0,서울시,일반의약품,감기약
3,digestive,3200.0,서울시,일반의약품,digestive
0,소화제,3500.0,서울시,일반의약품,소화제
4,Omega3,3700.0,서울시,일반의약품,omega3
2,비타민,4000.0,서울시,일반의약품,비타민
5,오메가3,,서울시,일반의약품,오메가3


## 파일로 저장하기

In [42]:
# to_csv 를 통해 csv 파일로 저장하기
df.to_csv("data/pandas.csv")

In [43]:
# 저장된 csv 파일을 읽기
pd.read_csv("data/pandas.csv") #unnamed를 삭제하고 싶으면 df.to_csv("",index=False)

Unnamed: 0.1,Unnamed: 0,약품명,가격,지역,종류,약품명 소문자
0,0,소화제,3500.0,서울시,일반의약품,소화제
1,1,감기약,3200.0,서울시,일반의약품,감기약
2,2,비타민,4000.0,서울시,일반의약품,비타민
3,3,digestive,3200.0,서울시,일반의약품,digestive
4,4,Omega3,3700.0,서울시,일반의약품,omega3
5,5,오메가3,,서울시,일반의약품,오메가3
6,6,vitamin,2000.0,서울시,일반의약품,vitamin
7,7,Vitamin,1000.0,서울시,일반의약품,vitamin
