<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="300">

## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandasdocumentation](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [2]:
# 필요한 라이브러리를 로드합니다.
# pandas, numpy를 불러옵니다.
import pandas as pd
import numpy as np

## DataFrame

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">

In [7]:
# 비어있는 데이터프레임을 생성합니다.
df=pd.DataFrame()
df

## 컬럼 추가하기

In [9]:
# 약품명 시리즈 타입으로 약품명을 만듭니다.
# 다음의 리스트를 만들고 약품명이라는 컬럼에 담습니다.

df["약품명"]=["소화제", "감기약", "비타민", 
             "digestive", "Omega3", "오메가3", 
             "vitamin", "Vitamin"]
df

Unnamed: 0,약품명
0,소화제
1,감기약
2,비타민
3,digestive
4,Omega3
5,오메가3
6,vitamin
7,Vitamin


In [11]:
# 가격 컬럼을 만듭니다. 
# df["가격"] 이라는 컬럼에 3500 이라는 값을 넣습니다.
# 그리고 컬럼이 제대로 추가 되었는지 데이터 프레임 전체를 출력해 봅니다.
# 데이터프레임, 행렬, 2차원
df["가격"]=3500
df

Unnamed: 0,약품명,가격
0,소화제,3500
1,감기약,3500
2,비타민,3500
3,digestive,3500
4,Omega3,3500
5,오메가3,3500
6,vitamin,3500
7,Vitamin,3500


In [14]:
# 가격 컬럼만 가져와서 봅니다.
# 컬럼 하나만 가져오면 데이터프레임 전체를 출력했을 때와 다른 모습을 보입니다.
# 이렇게 데이터를 가져오면 Series 라는 데이터 형태로 출력이 됩니다.
# Seies, 벡터, 1차원
df["가격"]

0    3500
1    3500
2    3500
3    3500
4    3500
5    3500
6    3500
7    3500
Name: 가격, dtype: int64

In [15]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.
type(df["가격"])

pandas.core.series.Series

In [16]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.
type(df)

pandas.core.frame.DataFrame

In [21]:
# 가져온 "가격" 컬럼을 리스트 형태로 변경합니다.
price=df["가격"].tolist()
type(price)

list

## 컬럼값 변경하기

In [24]:
type(np.nan)

float

In [23]:
# 가격을 다음의 리스트 값으로 변경합니다.
df["가격"]=[3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]
df

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


In [None]:
# nan == not a number 의 약자로 결측치를 의미합니다.
# nan의 데이터 타입은 float 입니다.


In [26]:
# "지역" 컬럼을 하나 더 추가해 봅니다.
df["지역2"]="서울"
df

Unnamed: 0,약품명,가격,지역,지역2
0,소화제,3500.0,서울,서울
1,감기약,3200.0,서울,서울
2,비타민,4000.0,서울,서울
3,digestive,3200.0,서울,서울
4,Omega3,3700.0,서울,서울
5,오메가3,,서울,서울
6,vitamin,2000.0,서울,서울
7,Vitamin,1000.0,서울,서울


In [32]:
# 실수로 컬럼을 잘못 추가했거나 삭제하고자 할 때
# axis 0:행, 1:컬럼을 의미합니다.
df=df.drop("지역2",axis=1)

KeyError: "['지역2'] not found in axis"

In [31]:
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


## 데이터 요약하기

In [34]:
# 데이터 프레임의 정보를 봅니다.
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   약품명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes


In [35]:
# 데이터 프레임의 크기를 출력합니다.
# (행, 열)
df.shape

(8, 3)

In [36]:
# 데이터프레임의 요약정보를 가져옵니다.
# 수치형 데이터의 기술통계 값을 봅니다.
df.describe()

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


In [42]:
# 범주형 데이터의 기술통계 값을 봅니다.
df.describe(include=np.object)

Unnamed: 0,약품명,지역
count,8,8
unique,8,1
top,오메가3,서울
freq,1,8


## 컬럼명으로 데이터 가져오기

In [48]:
df[["약품명"]]

Unnamed: 0,약품명
0,소화제
1,감기약
2,비타민
3,digestive
4,Omega3
5,오메가3
6,vitamin
7,Vitamin


In [47]:
df[["약품명","가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


## 2개 이상의 컬럼명 가져오기
* 파이썬에서 2개 이상의 데이터를 다룰 때는 보통 리스트 자료형을 사용합니다.
* 리스트는 대괄호[ ]로 묶여져 있는 데이터를 의미합니다.

In [49]:
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


## 행을 기준으로 데이터 가져오기

In [54]:
# 인덱스 번호로 첫번째 데이터 가져오기
df.loc[0]

약품명     소화제
가격     3500
지역       서울
Name: 0, dtype: object

In [56]:
# 위에서 3개의 행 데이터 가져오기
df.loc[[0,1,2]]

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울


## 행과 열을 함께 가져오기

In [57]:
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


In [58]:
# loc[행, 열]
df.loc[0,"약품명"]

'소화제'

In [60]:
df.loc[0]["약품명"]

'소화제'

## 특정약품만 가져오기

In [73]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and를 의미합니다.
# 여러 검색어로 검색을 한다 가정하고 | 로 검색어를 넣어준다고 생각하면 됩니다.
# str.contains 를 사용해서 약품명을 가져올 수 있습니다.
df[df["약품명"].str.contains("비타|vita")]


Unnamed: 0,약품명,가격,지역,약품명_소문자
2,비타민,4000.0,서울,비타민
6,vitamin,2000.0,서울,vitamin


In [68]:
# 하지만 파이썬은 대소문자를 구분합니다.
df["약품명_소문자"]=df["약품명"].str.lower()

In [74]:
df[df["약품명_소문자"].str.contains("비타|vita")]

Unnamed: 0,약품명,가격,지역,약품명_소문자
2,비타민,4000.0,서울,비타민
6,vitamin,2000.0,서울,vitamin
7,Vitamin,1000.0,서울,vitamin


### 파생변수 만들기
<img src="https://pandas.pydata.org/docs/_images/05_newcolumn_21.svg">

In [None]:
# 대소문자로 인해 검색이 되지 않는 문제를 해결하기 위해 모두 소문자로 만듭니다.
# 파이썬의 str 메소드를 사용해서 소문자로 변경이 가능합니다.
# df["약품명_소문자"]

In [None]:
# 파이썬의 정규표현식에서는 
# |(엔터키 위에 있는 키를 shift키를 누르시면 나옵니다.)는 or를 &는 and를 의미합니다.


## 가격이 특정 금액 이상인 것만 가져옵니다.

<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg">

In [78]:
# 특정 금액 이상의 가격에 해당되는 데이터프레임을 가져옵니다.
df[df["가격"]>3500]

Unnamed: 0,약품명,가격,지역,약품명_소문자
2,비타민,4000.0,서울,비타민
4,Omega3,3700.0,서울,omega3


In [79]:
# 특정 금액 이상의 가격에 해당되는 데이터프레임을 가져옵니다.
df[df["가격"]>3200]

Unnamed: 0,약품명,가격,지역,약품명_소문자
0,소화제,3500.0,서울,소화제
2,비타민,4000.0,서울,비타민
4,Omega3,3700.0,서울,omega3


## 정렬하기

In [85]:
# sort_values 를 통해 정렬합니다.
df.sort_values(["가격","약품명"],ascending=[False,True])

Unnamed: 0,약품명,가격,지역,약품명_소문자
2,비타민,4000.0,서울,비타민
4,Omega3,3700.0,서울,omega3
0,소화제,3500.0,서울,소화제
3,digestive,3200.0,서울,digestive
1,감기약,3200.0,서울,감기약
6,vitamin,2000.0,서울,vitamin
7,Vitamin,1000.0,서울,vitamin
5,오메가3,,서울,오메가3


## 파일로 저장하기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [88]:
# to_csv 를 통해 csv 파일로 저장합니다.
df.to_csv("판다스 실습.csv",index=False)

In [89]:
# 저장된 csv 파일을 읽어옵니다.
pd.read_csv("판다스 실습.csv")

Unnamed: 0,약품명,가격,지역,약품명_소문자
0,소화제,3500.0,서울,소화제
1,감기약,3200.0,서울,감기약
2,비타민,4000.0,서울,비타민
3,digestive,3200.0,서울,digestive
4,Omega3,3700.0,서울,omega3
5,오메가3,,서울,오메가3
6,vitamin,2000.0,서울,vitamin
7,Vitamin,1000.0,서울,vitamin
