<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="300">

## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandasdocumentation](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [1]:
# 필요한 라이브러리를 로드
# pandas, numpy 호출
import pandas as pd
import numpy as np

## DataFrame

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">

In [2]:
# 비어있는 데이터프레임 생성
df=pd.DataFrame()
df

## 컬럼 추가하기

In [3]:
# 약품명 시리즈 타입으로 약품명을 생성
# 다음의 리스트를 만들고 약품명이라는 컬럼에 담기

df["약품명"]=["소화제", "감기약", "비타민", "digestive", "Omega3", "오메가3", "vitamin", "Vitamin"]
df

Unnamed: 0,약품명
0,소화제
1,감기약
2,비타민
3,digestive
4,Omega3
5,오메가3
6,vitamin
7,Vitamin


In [4]:
# 가격 컬럼을 생성 
# df["가격"] 이라는 컬럼에 3500 이라는 값 할당
# 그리고 컬럼이 제대로 추가 되었는지 데이터 프레임 전체를 출력
# 데이터프레임, 행렬, 2차원

df["가격"]=3500
df

Unnamed: 0,약품명,가격
0,소화제,3500
1,감기약,3500
2,비타민,3500
3,digestive,3500
4,Omega3,3500
5,오메가3,3500
6,vitamin,3500
7,Vitamin,3500


In [5]:
# 가격 컬럼만 가져와서 확인
# 컬럼 하나만 가져오면 데이터프레임 전체를 출력했을 때와 다른 모습
# 이렇게 데이터를 가져오면 Series 라는 데이터 형태로 출력
# Seies, 벡터, 1차원

df["가격"]

0    3500
1    3500
2    3500
3    3500
4    3500
5    3500
6    3500
7    3500
Name: 가격, dtype: int64

In [6]:
# type 을 사용해서 데이터의 타입을 출력

type(df)

pandas.core.frame.DataFrame

In [7]:
# type 을 사용해서 데이터의 타입을 출력

type(df["가격"])

pandas.core.series.Series

In [8]:
# 가져온 "가격" 컬럼을 리스트 형태로 변경

df["가격"].tolist()

[3500, 3500, 3500, 3500, 3500, 3500, 3500, 3500]

## 컬럼값 변경하기

In [9]:
# 가격을 다음의 리스트 값으로 변경
#np.nan 
df["가격"]=[3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]
df

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


In [10]:
# nan == not a number 의 약자로 결측치를 의미
# nan의 데이터 타입은 float 
type(np.nan)

float

In [11]:
# "지역" 컬럼을 하나 더 추가
df["지역"]="서울"
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


In [12]:
# "종류"라는 컬럼을 만들어 일반의약품이라는 내용을 추가
df["종류"]="일반의약품"
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [13]:
# 실수로 컬럼을 잘못 추가했거나 삭제하고자 할 때
# axis 0:행, 1:컬럼을 의미
# 괄호 안에 shift+tap 설명보기
df["종류2"]="일반의약품"
df.drop("종류2", axis=1)
df

Unnamed: 0,약품명,가격,지역,종류,종류2
0,소화제,3500.0,서울,일반의약품,일반의약품
1,감기약,3200.0,서울,일반의약품,일반의약품
2,비타민,4000.0,서울,일반의약품,일반의약품
3,digestive,3200.0,서울,일반의약품,일반의약품
4,Omega3,3700.0,서울,일반의약품,일반의약품
5,오메가3,,서울,일반의약품,일반의약품
6,vitamin,2000.0,서울,일반의약품,일반의약품
7,Vitamin,1000.0,서울,일반의약품,일반의약품


In [14]:
#다시 df에 담아줘야 특정 컬럼 지워짐
df["종류2"]="일반의약품"
df=df.drop("종류2", axis=1)
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


## 데이터 요약하기

In [15]:
# 데이터 프레임의 정보 보기

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   약품명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
 3   종류      8 non-null      object 
dtypes: float64(1), object(3)
memory usage: 384.0+ bytes


In [16]:
# 데이터 프레임의 크기를 출력 .shape
# (행, 열)

df.shape

(8, 4)

In [17]:
# 데이터의 타입만 확인 .dtypes
df.dtypes

약품명     object
가격     float64
지역      object
종류      object
dtype: object

In [18]:
# 데이터프레임의 요약정보를 가져오기
# 수치형 데이터의 기술통계 값 확인 .describe()

df.describe()

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


In [19]:
# 범주형 데이터의 기술통계 값
df.describe(include=object)

Unnamed: 0,약품명,지역,종류
count,8,8,8
unique,8,1,1
top,소화제,서울,일반의약품
freq,1,8,8


In [20]:
df.describe(include="all")

Unnamed: 0,약품명,가격,지역,종류
count,8,7.0,8,8
unique,8,,1,1
top,소화제,,서울,일반의약품
freq,1,,8,8
mean,,2942.857143,,
std,,1064.35762,,
min,,1000.0,,
25%,,2600.0,,
50%,,3200.0,,
75%,,3600.0,,


## 컬럼명으로 데이터 가져오기

In [21]:
df["약품명"]

0          소화제
1          감기약
2          비타민
3    digestive
4       Omega3
5         오메가3
6      vitamin
7      Vitamin
Name: 약품명, dtype: object

## 2개 이상의 컬럼명 가져오기
* 파이썬에서 2개 이상의 데이터를 다룰 때는 보통 리스트 자료형을 사용
* 리스트는 대괄호[ ]로 묶여져 있는 데이터를 의미

In [22]:
df[["약품명","가격","지역"]]

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


In [23]:
a=df["약품명"]=="감기약"
df[~a]

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [24]:
df.drop([0,1,2])

Unnamed: 0,약품명,가격,지역,종류
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


## 행을 기준으로 데이터 가져오기

In [25]:
# 인덱스 번호로 첫번째 데이터 가져오기

df.loc[0]

약품명       소화제
가격     3500.0
지역         서울
종류      일반의약품
Name: 0, dtype: object

In [26]:
# 위에서 3개의 행 데이터 가져오기

df.loc[[0,1,2]]

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품


## 행과 열을 함께 가져오기

In [27]:
# loc[행, 열]
# 훨씬 빠름
df.loc[0,"약품명"]

'소화제'

In [28]:
df.loc[0]["약품명"]

'소화제'

In [29]:
%timeit df.loc[0,"약품명"]

20.9 µs ± 2.74 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [30]:
%timeit df.loc[0]["약품명"]

The slowest run took 4.67 times longer than the fastest. This could mean that an intermediate result is being cached.
619 µs ± 428 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [31]:
# loc[행, 열]
df.loc[0,["약품명","가격"]]

약품명       소화제
가격     3500.0
Name: 0, dtype: object

In [32]:
df.loc[[0,1],["약품명","가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0


## 특정약품만 가져오기

In [33]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and를 의미합니다.
# 여러 검색어로 검색을 한다 가정하고 | 로 검색어를 넣어준다고 생각하면 됩니다.
# str.contains 를 사용해서 약품명을 가져올 수 있습니다.

df["약품명"].str.contains("비타민")

0    False
1    False
2     True
3    False
4    False
5    False
6    False
7    False
Name: 약품명, dtype: bool

In [34]:
df[df["약품명"].str.contains("비타민")]

Unnamed: 0,약품명,가격,지역,종류
2,비타민,4000.0,서울,일반의약품


In [35]:
df[df["약품명"].str.contains("비타|vita")]

Unnamed: 0,약품명,가격,지역,종류
2,비타민,4000.0,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품


In [36]:
# 하지만 파이썬은 대소문자를 구분합니다.
df["약품명"]

0          소화제
1          감기약
2          비타민
3    digestive
4       Omega3
5         오메가3
6      vitamin
7      Vitamin
Name: 약품명, dtype: object

In [37]:
# 약품명을 모두 소문자로 만듭니다.

df["약품명"].str.lower()

0          소화제
1          감기약
2          비타민
3    digestive
4       omega3
5         오메가3
6      vitamin
7      vitamin
Name: 약품명, dtype: object

### 파생변수 만들기
<img src="https://pandas.pydata.org/docs/_images/05_newcolumn_2.svg">

In [38]:
# 대소문자로 인해 검색이 되지 않는 문제를 해결하기 위해 모두 소문자로 만듭니다.
# 파이썬의 str 메소드를 사용해서 소문자로 변경이 가능합니다.

df["약품명_소문자"]=df["약품명"].str.lower()


In [39]:
# 약품명_소문자 컬럼에서 "vita|비타" 값이 들어가는 문자를 찾습니다.

df[df["약품명_소문자"].str.contains("vita|비타")]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin


In [40]:
# 파이썬의 정규표현식에서는 
# |(엔터키 위에 있는 키를 shift키를 누르시면 나옵니다.)는 or를 &는 and를 의미합니다.

True and True

True

In [41]:
True & True

True

## 가격이 특정 금액 이상인 것만 가져옵니다.

<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg">

In [43]:
# 특정 금액 이상의 가격에 해당되는 데이터프레임을 가져옵니다.
df[df["가격"]>3200]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,소화제,3500.0,서울,일반의약품,소화제
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3


In [44]:
# 특정 금액 이상의 가격에 해당되는 데이터프레임을 가져옵니다.

df[df["가격"]<=3200]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
1,감기약,3200.0,서울,일반의약품,감기약
3,digestive,3200.0,서울,일반의약품,digestive
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin


## 정렬하기

In [46]:
# sort_values 를 통해 정렬합니다.

df.sort_values("가격")

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
7,Vitamin,1000.0,서울,일반의약품,vitamin
6,vitamin,2000.0,서울,일반의약품,vitamin
1,감기약,3200.0,서울,일반의약품,감기약
3,digestive,3200.0,서울,일반의약품,digestive
0,소화제,3500.0,서울,일반의약품,소화제
4,Omega3,3700.0,서울,일반의약품,omega3
2,비타민,4000.0,서울,일반의약품,비타민
5,오메가3,,서울,일반의약품,오메가3


In [47]:
df.sort_values(["가격","약품명"])

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
7,Vitamin,1000.0,서울,일반의약품,vitamin
6,vitamin,2000.0,서울,일반의약품,vitamin
3,digestive,3200.0,서울,일반의약품,digestive
1,감기약,3200.0,서울,일반의약품,감기약
0,소화제,3500.0,서울,일반의약품,소화제
4,Omega3,3700.0,서울,일반의약품,omega3
2,비타민,4000.0,서울,일반의약품,비타민
5,오메가3,,서울,일반의약품,오메가3


In [48]:
df.sort_values(["가격","약품명"], ascending=False)

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3
0,소화제,3500.0,서울,일반의약품,소화제
1,감기약,3200.0,서울,일반의약품,감기약
3,digestive,3200.0,서울,일반의약품,digestive
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin
5,오메가3,,서울,일반의약품,오메가3


In [49]:
df.sort_values(["가격","약품명"], ascending=[False,True])

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3
0,소화제,3500.0,서울,일반의약품,소화제
3,digestive,3200.0,서울,일반의약품,digestive
1,감기약,3200.0,서울,일반의약품,감기약
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin
5,오메가3,,서울,일반의약품,오메가3


## 파일로 저장하기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [50]:
# to_csv 를 통해 csv 파일로 저장합니다.

df.to_csv("pandas1_df.csv")

In [51]:
# 저장된 csv 파일을 읽어옵니다.
pd.read_csv("pandas1_df.csv")

Unnamed: 0.1,Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,0,소화제,3500.0,서울,일반의약품,소화제
1,1,감기약,3200.0,서울,일반의약품,감기약
2,2,비타민,4000.0,서울,일반의약품,비타민
3,3,digestive,3200.0,서울,일반의약품,digestive
4,4,Omega3,3700.0,서울,일반의약품,omega3
5,5,오메가3,,서울,일반의약품,오메가3
6,6,vitamin,2000.0,서울,일반의약품,vitamin
7,7,Vitamin,1000.0,서울,일반의약품,vitamin


In [52]:
df.to_csv("pandas1_df.csv",index=False)

In [53]:
pd.read_csv("pandas1_df.csv")

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,소화제,3500.0,서울,일반의약품,소화제
1,감기약,3200.0,서울,일반의약품,감기약
2,비타민,4000.0,서울,일반의약품,비타민
3,digestive,3200.0,서울,일반의약품,digestive
4,Omega3,3700.0,서울,일반의약품,omega3
5,오메가3,,서울,일반의약품,오메가3
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin


In [54]:
#excel용
df.to_csv("pandas1_df.csv",index=False, encoding="cp949")

In [55]:
pd.read_csv("pandas1_df.csv")

Unnamed: 0,��ǰ��,����,����.1,����.2,��ǰ��_�ҹ���
0,��ȭ��,3500.0,����,�Ϲ��Ǿ�ǰ,��ȭ��
1,�����,3200.0,����,�Ϲ��Ǿ�ǰ,�����
2,��Ÿ��,4000.0,����,�Ϲ��Ǿ�ǰ,��Ÿ��
3,digestive,3200.0,����,�Ϲ��Ǿ�ǰ,digestive
4,Omega3,3700.0,����,�Ϲ��Ǿ�ǰ,omega3
5,���ް�3,,����,�Ϲ��Ǿ�ǰ,���ް�3
6,vitamin,2000.0,����,�Ϲ��Ǿ�ǰ,vitamin
7,Vitamin,1000.0,����,�Ϲ��Ǿ�ǰ,vitamin


In [56]:
pd.read_csv("pandas1_df.csv",encoding="cp949")

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,소화제,3500.0,서울,일반의약품,소화제
1,감기약,3200.0,서울,일반의약품,감기약
2,비타민,4000.0,서울,일반의약품,비타민
3,digestive,3200.0,서울,일반의약품,digestive
4,Omega3,3700.0,서울,일반의약품,omega3
5,오메가3,,서울,일반의약품,오메가3
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin
