<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="300">

## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandasdocumentation](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [1]:
# 필요한 라이브러리를 로드합니다.
# pandas, numpy를 불러옵니다.
import pandas as pd
import numpy as np

## DataFrame

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">

In [2]:
# 비어있는 데이터프레임을 생성합니다.

df = pd.DataFrame()
df

## 컬럼 추가하기

In [3]:
# 약품명 시리즈 타입으로 약품명을 만듭니다.
# 다음의 리스트를 만들고 약품명이라는 컬럼에 담습니다.
df["약품명"] = ["소화제", "감기약", "비타민", "digestive", "Omega3", "오메가3", "vitamin", "Vitamin"]
df

Unnamed: 0,약품명
0,소화제
1,감기약
2,비타민
3,digestive
4,Omega3
5,오메가3
6,vitamin
7,Vitamin


In [4]:
# 가격 컬럼을 만듭니다. 
# df["가격"] 이라는 컬럼에 3500 이라는 값을 넣습니다.
# 그리고 컬럼이 제대로 추가 되었는지 데이터 프레임 전체를 출력해 봅니다.
# 데이터프레임, 행렬, 2차원

df["가격"] = 3500
df

Unnamed: 0,약품명,가격
0,소화제,3500
1,감기약,3500
2,비타민,3500
3,digestive,3500
4,Omega3,3500
5,오메가3,3500
6,vitamin,3500
7,Vitamin,3500


In [5]:
# 가격 컬럼만 가져와서 봅니다.
# 컬럼 하나만 가져오면 데이터프레임 전체를 출력했을 때와 다른 모습을 보입니다.
# 이렇게 데이터를 가져오면 Series 라는 데이터 형태로 출력이 됩니다.
# Seies, 벡터, 1차원

df['가격']

0    3500
1    3500
2    3500
3    3500
4    3500
5    3500
6    3500
7    3500
Name: 가격, dtype: int64

In [6]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.
type(df)

pandas.core.frame.DataFrame

In [7]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.

type(df["가격"])

pandas.core.series.Series

In [8]:
# 가져온 "가격" 컬럼을 리스트 형태로 변경합니다.

df["가격"].tolist()

[3500, 3500, 3500, 3500, 3500, 3500, 3500, 3500]

## 컬럼값 변경하기

In [9]:
# 가격을 다음의 리스트 값으로 변경합니다.
df["가격"] = [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]
df

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


In [10]:
# nan == not a number 의 약자로 결측치를 의미합니다.
# nan의 데이터 타입은 float 입니다.
type(np.nan)

float

In [11]:
# "지역" 컬럼을 하나 더 추가해 봅니다.
df['지역'] = '서울'
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


In [12]:
# "종류"라는 컬럼을 만들어 일반의약품이라는 내용을 추가해 봅니다.

df['종류'] = "일반의약품"
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [13]:
# 실수로 컬럼을 잘못 추가했거나 삭제하고자 할 때
# axis 0:행, 1:컬럼을 의미합니다.

df["종류2"] = "일반의약품"

df = df.drop("종류2", axis = 1)
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [14]:
df [ df["약품명"] != "감기약" ]  # True 값이 기본값으로 묶임 , 키워드로 드랍시킬때

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [15]:
a = df["약품명"] == "감기약"
df[~a]   # ~ : not

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [16]:
df.drop([0,1,2])

Unnamed: 0,약품명,가격,지역,종류
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


## 데이터 요약하기

In [17]:
# 데이터 프레임의 정보를 봅니다.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   약품명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
 3   종류      8 non-null      object 
dtypes: float64(1), object(3)
memory usage: 384.0+ bytes


In [18]:
# 데이터 프레임의 크기를 출력합니다.
# (행, 열)

df.shape

(8, 4)

In [19]:
# 데이터의 타입만 봅니다.

df.dtypes

약품명     object
가격     float64
지역      object
종류      object
dtype: object

In [20]:
# 데이터프레임의 요약정보를 가져옵니다.
# 수치형 데이터의 기술통계 값을 봅니다.

df.describe()

#빈도수 ,평균, 표준편차, 최소값, 25:1사분위 수, 50:2사분위수, 75:3사분위수, 최대값

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


In [21]:
# 범주형 데이터의 기술통계 값을 봅니다.
df.describe(include = 'object')

# 빈도수, 유니크, 가장 많은것(최빈값), 최빈값에 대한 빈도수

Unnamed: 0,약품명,지역,종류
count,8,8,8
unique,8,1,1
top,소화제,서울,일반의약품
freq,1,8,8


## 컬럼명으로 데이터 가져오기

In [22]:
df["약품명"]

0          소화제
1          감기약
2          비타민
3    digestive
4       Omega3
5         오메가3
6      vitamin
7      Vitamin
Name: 약품명, dtype: object

In [23]:
df["가격"]

0    3500.0
1    3200.0
2    4000.0
3    3200.0
4    3700.0
5       NaN
6    2000.0
7    1000.0
Name: 가격, dtype: float64

## 2개 이상의 컬럼명 가져오기
* 파이썬에서 2개 이상의 데이터를 다룰 때는 보통 리스트 자료형을 사용합니다.
* 리스트는 대괄호[ ]로 묶여져 있는 데이터를 의미합니다.

In [24]:
df[["약품명", "가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


## 행을 기준으로 데이터 가져오기

In [25]:
# 인덱스 번호로 첫번째 데이터 가져오기

df.loc[0]

약품명       소화제
가격     3500.0
지역         서울
종류      일반의약품
Name: 0, dtype: object

In [26]:
# 위에서 3개의 행 데이터 가져오기

df.loc[[0,1,2]]   ## 리스트로 감싸주기!

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품


## 행과 열을 함께 가져오기

In [27]:
# loc[행, 열]
df.loc[0,"약품명"]

'소화제'

In [28]:
# loc[행, 열]
df.loc[0,["약품명", "가격"]]

약품명       소화제
가격     3500.0
Name: 0, dtype: object

In [29]:
df.loc[[0,1], ["약품명", "가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0


In [30]:
df.loc[0,"약품명"]

'소화제'

In [31]:
#%timeit 여러번 돌린 평균 값 >> 코드 프로파일링? 하는 방법
%timeit df.loc[0,"약품명"]

4.34 µs ± 57.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [32]:
%timeit df.loc[0]["약품명"]

60.4 µs ± 930 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [33]:
58.7 / 4.33

13.556581986143188

## 특정약품만 가져오기

In [34]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and를 의미합니다.
# 여러 검색어로 검색을 한다 가정하고 | 로 검색어를 넣어준다고 생각하면 됩니다.
# str.contains 를 사용해서 약품명을 가져올 수 있습니다.

#df["약품명"].str.contains("비타")
df [ df["약품명"].str.contains("비타") ]

Unnamed: 0,약품명,가격,지역,종류
2,비타민,4000.0,서울,일반의약품


In [35]:
# 하지만 파이썬은 대소문자를 구분합니다.

df["약품명"]

0          소화제
1          감기약
2          비타민
3    digestive
4       Omega3
5         오메가3
6      vitamin
7      Vitamin
Name: 약품명, dtype: object

In [36]:
# 약품명을 모두 소문자로 만듭니다.

df["약품명"].str.lower()

0          소화제
1          감기약
2          비타민
3    digestive
4       omega3
5         오메가3
6      vitamin
7      vitamin
Name: 약품명, dtype: object

### 파생변수 만들기
<img src="https://pandas.pydata.org/docs/_images/05_newcolumn_2.svg">

In [37]:
# 대소문자로 인해 검색이 되지 않는 문제를 해결하기 위해 모두 소문자로 만듭니다.
# 파이썬의 str 메소드를 사용해서 소문자로 변경이 가능합니다.

df["약품명_소문자"] =  df["약품명"].str.lower()

In [38]:
# 약품명_소문자 컬럼에서 "vita|비타" 값이 들어가는 문자를 찾습니다.

df[ df["약품명_소문자"].str.contains("vita|비타") ]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin


In [39]:
# 파이썬의 정규표현식에서는 
# |(엔터키 위에 있는 키를 shift키를 누르시면 나옵니다.)는 or를 &는 and를 의미합니다.



## 가격이 특정 금액 이상인 것만 가져옵니다.

<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg">

In [40]:
# 특정 금액 이상의 가격에 해당되는 데이터프레임을 가져옵니다.

df [ df["가격"] > 3200 ]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,소화제,3500.0,서울,일반의약품,소화제
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3


In [41]:
# 특정 금액 이하의 가격에 해당되는 데이터프레임을 가져옵니다.

df[ df["가격"] < 3200 ]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin


## 정렬하기

In [42]:
# sort_values 를 통해 정렬합니다.

df.sort_values(by = ["가격", "약품명"], ascending = [False, True])


Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3
0,소화제,3500.0,서울,일반의약품,소화제
3,digestive,3200.0,서울,일반의약품,digestive
1,감기약,3200.0,서울,일반의약품,감기약
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin
5,오메가3,,서울,일반의약품,오메가3


## 파일로 저장하기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [51]:
# to_csv 를 통해 csv 파일로 저장합니다.
#### 파일을 오픈하는 곳에 encoding = '오픈하려고하는 것' 이렇게 설정하면됨
df.to_csv("pandas_df.csv", index = False, encoding = 'cp949' )

In [52]:
# 저장된 csv 파일을 읽어옵니다.
## 저장할때도 encoding 부분을 기입했다면, 읽어올때도 encoding 부분을 기입해줘야함
pd.read_csv("pandas_df.csv", encoding = 'cp949')

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,소화제,3500.0,서울,일반의약품,소화제
1,감기약,3200.0,서울,일반의약품,감기약
2,비타민,4000.0,서울,일반의약품,비타민
3,digestive,3200.0,서울,일반의약품,digestive
4,Omega3,3700.0,서울,일반의약품,omega3
5,오메가3,,서울,일반의약품,오메가3
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin
