<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="300">

## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandasdocumentation](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [1]:
# 필요한 라이브러리를 로드합니다.
# pandas, numpy를 불러옵니다.

import pandas as pd
import numpy as np

## DataFrame

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">

In [2]:
# 비어있는 데이터프레임을 생성합니다.

df = pd.DataFrame()
df

## 컬럼 추가하기

In [3]:
# 약품명 시리즈 타입으로 약품명을 만듭니다.
# 다음의 리스트를 만들고 약품명이라는 컬럼에 담습니다.

df["약품명"] = ["소화제", "감기약", "비타민", "digestive", "Omega3", "오메가3", "vitamin", "Vitamin"]
df

Unnamed: 0,약품명
0,소화제
1,감기약
2,비타민
3,digestive
4,Omega3
5,오메가3
6,vitamin
7,Vitamin


In [4]:
# 가격 컬럼을 만듭니다. 
# df["가격"] 이라는 컬럼에 3500 이라는 값을 넣습니다.
# 그리고 컬럼이 제대로 추가 되었는지 데이터 프레임 전체를 출력해 봅니다.
# 데이터프레임, 행렬, 2차원

df["가격"] = 3500
df


Unnamed: 0,약품명,가격
0,소화제,3500
1,감기약,3500
2,비타민,3500
3,digestive,3500
4,Omega3,3500
5,오메가3,3500
6,vitamin,3500
7,Vitamin,3500


In [5]:
# 가격 컬럼만 가져와서 봅니다.
# 컬럼 하나만 가져오면 데이터프레임 전체를 출력했을 때와 다른 모습을 보입니다.
# 이렇게 데이터를 가져오면 Series 라는 데이터 형태로 출력이 됩니다.
# Seies, 벡터, 1차원

df["가격"]

0    3500
1    3500
2    3500
3    3500
4    3500
5    3500
6    3500
7    3500
Name: 가격, dtype: int64

In [6]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.
print("type(df) = ",type(df))
print('type(df["가격"]) = ',type(df["가격"]))


type(df) =  <class 'pandas.core.frame.DataFrame'>
type(df["가격"]) =  <class 'pandas.core.series.Series'>


In [7]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.

type(df)

pandas.core.frame.DataFrame

In [8]:
# 가져온 "가격" 컬럼을 리스트 형태로 변경합니다.

df["가격"].tolist()

[3500, 3500, 3500, 3500, 3500, 3500, 3500, 3500]

## 컬럼값 변경하기

In [9]:
# 가격을 다음의 리스트 값으로 변경합니다.
df["가격"] = [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]
df

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


In [10]:
# nan == not a number 의 약자로 결측치를 의미합니다.
# nan의 데이터 타입은 float 입니다.
type(np.nan)

float

In [11]:
pd.Series([1, "2", 3, np.nan])

0      1
1      2
2      3
3    NaN
dtype: object

In [12]:
# "지역" 컬럼을 하나 더 추가해 봅니다.
df["지역"] = "서울"
df

Unnamed: 0,약품명,가격,지역
0,소화제,3500.0,서울
1,감기약,3200.0,서울
2,비타민,4000.0,서울
3,digestive,3200.0,서울
4,Omega3,3700.0,서울
5,오메가3,,서울
6,vitamin,2000.0,서울
7,Vitamin,1000.0,서울


In [13]:
# "종류"라는 컬럼을 만들어일반의약품이라는 내용을 추가해 봅니다.

df["종류"] = "일반의약품"
df

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품
3,digestive,3200.0,서울,일반의약품
4,Omega3,3700.0,서울,일반의약품
5,오메가3,,서울,일반의약품
6,vitamin,2000.0,서울,일반의약품
7,Vitamin,1000.0,서울,일반의약품


In [14]:
df["종류2"] = "일반의약품"
df

Unnamed: 0,약품명,가격,지역,종류,종류2
0,소화제,3500.0,서울,일반의약품,일반의약품
1,감기약,3200.0,서울,일반의약품,일반의약품
2,비타민,4000.0,서울,일반의약품,일반의약품
3,digestive,3200.0,서울,일반의약품,일반의약품
4,Omega3,3700.0,서울,일반의약품,일반의약품
5,오메가3,,서울,일반의약품,일반의약품
6,vitamin,2000.0,서울,일반의약품,일반의약품
7,Vitamin,1000.0,서울,일반의약품,일반의약품


In [15]:
# 실수로 컬럼을 잘못 추가했거나 삭제하고자 할 때
# axis 0:행, 1:컬럼을 의미합니다.

df["종류2"] = "일반의약품"
display(df.head(1))
df = df.drop("종류2", axis=1)
df.head(1)

Unnamed: 0,약품명,가격,지역,종류,종류2
0,소화제,3500.0,서울,일반의약품,일반의약품


Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품


## 데이터 요약하기

In [16]:
# 데이터 프레임의 정보를 봅니다.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   약품명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
 3   종류      8 non-null      object 
dtypes: float64(1), object(3)
memory usage: 384.0+ bytes


In [17]:
# 데이터 프레임의 크기를 출력합니다.
# (행, 열)

df.shape

(8, 4)

In [18]:
# 데이터의 타입만 봅니다.

df.dtypes

약품명     object
가격     float64
지역      object
종류      object
dtype: object

In [19]:
# 데이터프레임의 요약정보를 가져옵니다.
# 수치형 데이터의 기술통계 값을 봅니다.

df.describe()

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


In [20]:
# 범주형 데이터의 기술통계 값을 봅니다.
df.describe(include="object")

Unnamed: 0,약품명,지역,종류
count,8,8,8
unique,8,1,1
top,소화제,서울,일반의약품
freq,1,8,8


## 컬럼명으로 데이터 가져오기

In [21]:
df["약품명"]

0          소화제
1          감기약
2          비타민
3    digestive
4       Omega3
5         오메가3
6      vitamin
7      Vitamin
Name: 약품명, dtype: object

In [None]:
df["가격"]

## 2개 이상의 컬럼명 가져오기
* 파이썬에서 2개 이상의 데이터를 다룰 때는 보통 리스트 자료형을 사용합니다.
* 리스트는 대괄호[ ]로 묶여져 있는 데이터를 의미합니다.

In [39]:
df[["약품명","가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0
3,digestive,3200.0
4,Omega3,3700.0
5,오메가3,
6,vitamin,2000.0
7,Vitamin,1000.0


## 행을 기준으로 데이터 가져오기

In [40]:
# 인덱스 번호로 첫번째 데이터 가져오기
df.loc[0]


약품명       소화제
가격     3500.0
지역         서울
종류      일반의약품
Name: 0, dtype: object

In [41]:
# 위에서 3개의 행 데이터 가져오기

df.loc[[0,1,2]]

Unnamed: 0,약품명,가격,지역,종류
0,소화제,3500.0,서울,일반의약품
1,감기약,3200.0,서울,일반의약품
2,비타민,4000.0,서울,일반의약품


## 행과 열을 함께 가져오기

In [43]:
# loc[행, 열]
df.loc[0,"약품명"]

'소화제'

In [44]:
# loc[행, 열]
df.loc[1, "약품명"]

'감기약'

In [45]:
df.loc[[0, 1, 2 ], ["약품명", "가격"]]

Unnamed: 0,약품명,가격
0,소화제,3500.0
1,감기약,3200.0
2,비타민,4000.0


## 특정약품만 가져오기

In [47]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and를 의미합니다.
# 여러 검색어로 검색을 한다 가정하고 | 로 검색어를 넣어준다고 생각하면 됩니다.
# str.contains 를 사용해서 약품명을 가져올 수 있습니다.
df["약품명"].str.contains("비타")


0    False
1    False
2     True
3    False
4    False
5    False
6    False
7    False
Name: 약품명, dtype: bool

In [27]:
# 하지만 파이썬은 대소문자를 구분합니다.



In [48]:
# 약품명을 모두 소문자로 만듭니다.
df["약품명"].str.lower()


0          소화제
1          감기약
2          비타민
3    digestive
4       omega3
5         오메가3
6      vitamin
7      vitamin
Name: 약품명, dtype: object

### 파생변수 만들기
<img src="https://pandas.pydata.org/docs/_images/05_newcolumn_2.svg">

In [49]:
# 대소문자로 인해 검색이 되지 않는 문제를 해결하기 위해 모두 소문자로 만듭니다.
# 파이썬의 str 메소드를 사용해서 소문자로 변경이 가능합니다.

df["약품명_소문자"] = df["약품명"].str.lower()
df

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,소화제,3500.0,서울,일반의약품,소화제
1,감기약,3200.0,서울,일반의약품,감기약
2,비타민,4000.0,서울,일반의약품,비타민
3,digestive,3200.0,서울,일반의약품,digestive
4,Omega3,3700.0,서울,일반의약품,omega3
5,오메가3,,서울,일반의약품,오메가3
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin


In [58]:
# 약품명_소문자 컬럼에서 "vita|비타" 값이 들어가는 문자를 찾습니다.

df["약품명_소문자"].str.contains("vita|비타민")

0    False
1    False
2     True
3    False
4    False
5    False
6     True
7     True
Name: 약품명_소문자, dtype: bool

In [31]:
# 파이썬의 정규표현식에서는 
# |(엔터키 위에 있는 키를 shift키를 누르시면 나옵니다.)는 or를 &는 and를 의미합니다.



## 가격이 특정 금액 이상인 것만 가져옵니다.

<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg">

In [60]:
# 특정 금액 이상의 가격에 해당되는 데이터프레임을 가져옵니다.

df["가격"] > 3500

0    False
1    False
2     True
3    False
4     True
5    False
6    False
7    False
Name: 가격, dtype: bool

In [61]:
# 특정 금액 이하의 가격에 해당되는 데이터프레임을 가져옵니다.

df[df["가격"] > 3500]

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3


## 정렬하기

In [66]:
# sort_values 를 통해 정렬합니다.

df = df.sort_values(by = "가격", ascending = False)
df

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
2,비타민,4000.0,서울,일반의약품,비타민
4,Omega3,3700.0,서울,일반의약품,omega3
0,소화제,3500.0,서울,일반의약품,소화제
1,감기약,3200.0,서울,일반의약품,감기약
3,digestive,3200.0,서울,일반의약품,digestive
6,vitamin,2000.0,서울,일반의약품,vitamin
7,Vitamin,1000.0,서울,일반의약품,vitamin
5,오메가3,,서울,일반의약품,오메가3


## 파일로 저장하기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [78]:
# to_csv 를 통해 csv 파일로 저장합니다.

df.to_csv("판다스실습.csv", index = False)

In [79]:
# 저장된 csv 파일을 읽어옵니다.
pd.read_csv("판다스실습.csv")

Unnamed: 0,약품명,가격,지역,종류,약품명_소문자
0,비타민,4000.0,서울,일반의약품,비타민
1,Omega3,3700.0,서울,일반의약품,omega3
2,소화제,3500.0,서울,일반의약품,소화제
3,감기약,3200.0,서울,일반의약품,감기약
4,digestive,3200.0,서울,일반의약품,digestive
5,vitamin,2000.0,서울,일반의약품,vitamin
6,Vitamin,1000.0,서울,일반의약품,vitamin
7,오메가3,,서울,일반의약품,오메가3
