## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandas 0.25.0 documentation](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [1]:
# 필요한 라이브러리를 로드합니다.

import pandas as pd


## DataFrame

In [3]:
# 비어있는 데이터프레임을 생성합니다.

df = pd.DataFrame()
type(df)

pandas.core.frame.DataFrame

## 컬럼 추가하기

In [6]:
# 상호명에 카페이름을 넣어 상호명을 만듭니다.
# 다음의 리스트를 만들고 
# 해당 리스트를 ["스타벅스", "이디야", "폴바셋", "Ediya", "ediya", "스타벅스 코리아", "starbucks", "StarBucks"]
# 상호명이라는 컬럼에 담습니다.

df["상호명"] = ["스타벅스", "이디야", "폴바셋", "Ediya", "ediya", "스타벅스 코리아", "starbucks", "StarBucks"]
df

Unnamed: 0,상호명
0,스타벅스
1,이디야
2,폴바셋
3,Ediya
4,ediya
5,스타벅스 코리아
6,starbucks
7,StarBucks


In [9]:
# 가격 컬럼을 만듭니다. 
# df["가격"] 이라는 컬럼에 3500 이라는 값을 넣습니다.
# 그리고 컬럼이 제대로 추가 되었는지 데이터 프레임 전체를 출력해 봅니다.

df["가격"] = 3500
df

Unnamed: 0,상호명,가격
0,스타벅스,3500
1,이디야,3500
2,폴바셋,3500
3,Ediya,3500
4,ediya,3500
5,스타벅스 코리아,3500
6,starbucks,3500
7,StarBucks,3500


In [10]:
# 가격 컬럼만 가져와서 봅니다.
# 컬럼 하나만 가져오면 데이터프레임 전체를 출력했을 때와 다른 모습을 보입니다.
# 이렇게 데이터를 가져오면 Series 라는 데이터 형태로 출력이 됩니다.

df["가격"]


0    3500
1    3500
2    3500
3    3500
4    3500
5    3500
6    3500
7    3500
Name: 가격, dtype: int64

In [11]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.

type(df["가격"])

pandas.core.series.Series

In [12]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.

type(df)

pandas.core.frame.DataFrame

In [13]:
# 가져온 "가격" 컬럼을 리스트 형태로 변경합니다.

df["가격"].tolist()

[3500, 3500, 3500, 3500, 3500, 3500, 3500, 3500]

## 컬럼값 변경하기

In [14]:
# 가격을 다음의 리스트 값으로 변경합니다.
# [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]

df["가격"] = [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]

NameError: name 'np' is not defined

In [18]:
import numpy as np # np 는 공학용 계산기
df["가격"] = [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]
df

Unnamed: 0,상호명,가격
0,스타벅스,3500.0
1,이디야,3200.0
2,폴바셋,4000.0
3,Ediya,3200.0
4,ediya,3700.0
5,스타벅스 코리아,
6,starbucks,2000.0
7,StarBucks,1000.0


In [20]:
# 컬럼을 하나 더 추가해 봅니다.

df["지역"] = "서울"
df

Unnamed: 0,상호명,가격,지역
0,스타벅스,3500.0,서울
1,이디야,3200.0,서울
2,폴바셋,4000.0,서울
3,Ediya,3200.0,서울
4,ediya,3700.0,서울
5,스타벅스 코리아,,서울
6,starbucks,2000.0,서울
7,StarBucks,1000.0,서울


## 데이터 요약하기

In [21]:
# 데이터 프레임의 정보를 봅니다. int 는 소수점 없는 숫자, float 는 소수점 있는 숫자 

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   상호명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes


In [22]:
# 데이터 프레임의 크기를 출력합니다. (행,열)

df.shape


(8, 3)

In [23]:
# 데이터프레임의 요약정보를 가져옵니다.
# 기본 값은 숫치 데이터에 대한 요약을 보여줍니다. (std : 표준편차)

df.describe()

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


## 컬럼명으로 데이터 가져오기

In [26]:
df["가격"]

0    3500.0
1    3200.0
2    4000.0
3    3200.0
4    3700.0
5       NaN
6    2000.0
7    1000.0
Name: 가격, dtype: float64

In [27]:
df["상호명", "가격"]

KeyError: ('상호명', '가격')

## 2개 이상의 컬럼명 가져오기
* 파이썬에서 2개 이상의 데이터를 다룰 때는 보통 리스트 자료형을 사용합니다.
* 리스트는 대괄호[ ]로 묶여져 있는 데이터를 의미합니다.

In [28]:
df[["상호명", "가격"]]

Unnamed: 0,상호명,가격
0,스타벅스,3500.0
1,이디야,3200.0
2,폴바셋,4000.0
3,Ediya,3200.0
4,ediya,3700.0
5,스타벅스 코리아,
6,starbucks,2000.0
7,StarBucks,1000.0


## 행을 기준으로 데이터 가져오기

In [29]:
# 인덱스 번호로 첫번째 데이터 가져오기
df.loc[[0,1,2]]


Unnamed: 0,상호명,가격,지역
0,스타벅스,3500.0,서울
1,이디야,3200.0,서울
2,폴바셋,4000.0,서울


In [None]:
# 위에서 3개의 행 데이터 가져오기



## 행과 열을 함께 가져오기

In [30]:
df.loc[0]["상호명"]

'스타벅스'

In [31]:
df.loc[0,"상호명"]

'스타벅스'

In [33]:
# 성능 측정하기 - loc 사용법에 따른 속도 비교
%time df.loc[0]["상호명"]

CPU times: user 513 µs, sys: 0 ns, total: 513 µs
Wall time: 519 µs


'스타벅스'

In [34]:
# 성능 측정하기 - loc 사용법에 따른 속도 비교
%time df.loc[0,"상호명"]

CPU times: user 91 µs, sys: 0 ns, total: 91 µs
Wall time: 96.1 µs


'스타벅스'

In [36]:
%timeit df.loc[0]["상호명"]

132 µs ± 2.52 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [37]:
%timeit df.loc[0,"상호명"]

6.23 µs ± 104 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [38]:
132/6.23 #아래처럼 데이터를 불러오는 것이 21배 정도 빠른 것을 확인할 수 있다

21.18780096308186

## 특정상호만 가져오기

In [None]:
# 상호명 컬럼만 series 형태로 출력합니다.



In [None]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and를 의미합니다.
# 여러 검색어로 검색을 한다 가정하고 | 로 검색어를 넣어준다고 생각하면 됩니다.
# str.contains 를 사용해서 상호명을 가져올 수 있습니다.


In [None]:
# 하지만 파이썬은 대소문자를 구분합니다. 



In [None]:
# 대소문자로 인해 검색이 되지 않는 문제를 해결하기 위해 모두 소문자로 만듭니다.
# 파이썬의 str 메소드를 사용해서 소문자로 변경이 가능합니다.


In [None]:
# str.contains 를 사용해 "스타|star"가 들어가는 데이터를 찾습니다.



## 가격이 특정 금액 이상인 것만 가져옵니다.

In [None]:
# 가격이 3500보다 큰 값을 가져오세요.


In [None]:
# 위 결과에서 상호명만 따로 가져옵니다.
# loc == locate


## 시각화의 중요성 이해하기

In [None]:
# seaborn 라이브러리를 로드합니다.

# Shift + Tab 키를 누르면 도움말을 보실 수 있습니다.
# Load the example dataset for Anscombe's quartet

