## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandas 0.25.0 documentation](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [2]:
# 필요한 라이브러리를 로드합니다.

import pandas as pd

## DataFrame

In [3]:
# 비어있는 데이터프레임을 생성합니다.

df = pd.DataFrame()
type(df)

pandas.core.frame.DataFrame

## 컬럼 추가하기

In [4]:
# 상호명에 카페이름을 넣어 상호명을 만듭니다.
# 다음의 리스트를 만들고 
# 해당 리스트를 ["스타벅스", "이디야", "폴바셋", "Ediya", "ediya", "스타벅스 코리아", "starbucks", "StarBucks"]
# 상호명이라는 컬럼에 담습니다.

df["상호명"] = ["스타벅스", "이디야", "폴바셋", "Ediya", "ediya", "스타벅스 코리아", "starbucks", "StarBucks"]
df

Unnamed: 0,상호명
0,스타벅스
1,이디야
2,폴바셋
3,Ediya
4,ediya
5,스타벅스 코리아
6,starbucks
7,StarBucks


In [5]:
# 가격 컬럼을 만듭니다. 
# df["가격"] 이라는 컬럼에 3500 이라는 값을 넣습니다.
# 그리고 컬럼이 제대로 추가 되었는지 데이터 프레임 전체를 출력해 봅니다.

df["가격"] = 3500

In [6]:
# 가격 컬럼만 가져와서 봅니다.
# 컬럼 하나만 가져오면 데이터프레임 전체를 출력했을 때와 다른 모습을 보입니다.
# 이렇게 데이터를 가져오면 Series 라는 데이터 형태로 출력이 됩니다.

df["가격"]

0    3500
1    3500
2    3500
3    3500
4    3500
5    3500
6    3500
7    3500
Name: 가격, dtype: int64

In [7]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.

df

Unnamed: 0,상호명,가격
0,스타벅스,3500
1,이디야,3500
2,폴바셋,3500
3,Ediya,3500
4,ediya,3500
5,스타벅스 코리아,3500
6,starbucks,3500
7,StarBucks,3500


In [8]:
# type 을 사용해서 데이터의 타입을 출력할 수 있습니다.

type(df)

pandas.core.frame.DataFrame

In [9]:
type(df["가격"])

pandas.core.series.Series

### 가져온 "가격" 컬럼을 리스트 형태로 변경합니다.

In [10]:
df["가격"].tolist()

[3500, 3500, 3500, 3500, 3500, 3500, 3500, 3500]

## 컬럼값 변경하기

In [11]:
# 가격을 다음의 리스트 값으로 변경합니다.
# [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]

import numpy as np # 공학용 계산기(nan 값때문에 안된다.)

df["가격"] = [3500, 3200, 4000, 3200, 3700, np.nan, 2000, 1000]

In [12]:
# 컬럼을 하나 더 추가해 봅니다.

df["지역"] = "서울"
df

Unnamed: 0,상호명,가격,지역
0,스타벅스,3500.0,서울
1,이디야,3200.0,서울
2,폴바셋,4000.0,서울
3,Ediya,3200.0,서울
4,ediya,3700.0,서울
5,스타벅스 코리아,,서울
6,starbucks,2000.0,서울
7,StarBucks,1000.0,서울


## 데이터 요약하기

In [13]:
# 데이터 프레임의 정보를 봅니다.

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   상호명     8 non-null      object 
 1   가격      7 non-null      float64
 2   지역      8 non-null      object 
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes


### 데이터 프레임의 크기를 출력합니다.

In [14]:
df.shape # 행열순.(8행 3열(컬럼))

(8, 3)

### 데이터프레임의 요약정보를 가져옵니다.

In [15]:
# 기본 값은 숫치 데이터에 대한 요약을 보여줍니다.

df.describe()

Unnamed: 0,가격
count,7.0
mean,2942.857143
std,1064.35762
min,1000.0
25%,2600.0
50%,3200.0
75%,3600.0
max,4000.0


## 컬럼명으로 데이터 가져오기

In [16]:
df["가격"]

0    3500.0
1    3200.0
2    4000.0
3    3200.0
4    3700.0
5       NaN
6    2000.0
7    1000.0
Name: 가격, dtype: float64

In [17]:
df["상호명"]

0         스타벅스
1          이디야
2          폴바셋
3        Ediya
4        ediya
5     스타벅스 코리아
6    starbucks
7    StarBucks
Name: 상호명, dtype: object

## 2개 이상의 컬럼명 가져오기
* 파이썬에서 2개 이상의 데이터를 다룰 때는 보통 리스트 자료형을 사용합니다.
* 리스트는 대괄호[ ]로 묶여져 있는 데이터를 의미합니다.

In [18]:
df[["상호명", "가격"]]

Unnamed: 0,상호명,가격
0,스타벅스,3500.0
1,이디야,3200.0
2,폴바셋,4000.0
3,Ediya,3200.0
4,ediya,3700.0
5,스타벅스 코리아,
6,starbucks,2000.0
7,StarBucks,1000.0


## 행을 기준으로 데이터 가져오기

In [19]:
# 인덱스 번호로 첫번째 데이터 가져오기

df.loc[0]

상호명    스타벅스
가격     3500
지역       서울
Name: 0, dtype: object

In [20]:
# 위에서 3개의 행 데이터 가져오기

df.loc[[2, 1, 2]]

Unnamed: 0,상호명,가격,지역
2,폴바셋,4000.0,서울
1,이디야,3200.0,서울
2,폴바셋,4000.0,서울


## 행과 열을 함께 가져오기

In [21]:
df.loc[0]

상호명    스타벅스
가격     3500
지역       서울
Name: 0, dtype: object

In [22]:
df.loc[0]["상호명"]

'스타벅스'

In [23]:
df.loc[0, "상호명"]

'스타벅스'

In [24]:
# 성능 측정하기 - loc 사용법에 따른 속도 비교
%time df.loc[0]["상호명"]

Wall time: 0 ns


'스타벅스'

In [25]:
# 성능 측정하기 - loc 사용법에 따른 속도 비교
%time df.loc[0, "상호명"]

Wall time: 0 ns


'스타벅스'

In [26]:
# 성능 측정하기 - loc 사용법에 따른 속도 비교
%timeit df.loc[0]["상호명"]

120 µs ± 1.29 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [27]:
# 성능 측정하기 - loc 사용법에 따른 속도 비교
%timeit df.loc[0, "상호명"]w

6.31 µs ± 84.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 2회차 수업 시작 부분 

## 특정상호만 가져오기

#### 상호명 컬럼만 series 형태로 출력합니다.

In [37]:
df["상호명"]


0         스타벅스
1          이디야
2          폴바셋
3        Ediya
4        ediya
5     스타벅스 코리아
6    starbucks
7    StarBucks
Name: 상호명, dtype: object

In [38]:
# 파이썬의 정규표현식에서는 |는 or를 &는 and를 의미합니다.
#  여러 검색어로 검색을 한다 가정하고 | 로 검색어를 넣어준다고 생각하면 됩니다.
#  str.contains 를 사용해서 상호명을 가져올 수 있습니다.

df["상호명"]. str.contains("star")

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7    False
Name: 상호명, dtype: bool

In [39]:
# 위에서 선택한 소문자만 출력 하나만 가져온다 이유: 대소문자를 구분하기때문이다.


df[df["상호명"]. str.contains("star")]

Unnamed: 0,상호명,가격,지역
6,starbucks,2000.0,서울


####  하지만 파이썬은 대소문자를 구분합니다. 



In [40]:
df["상호명"].str.lower()

0         스타벅스
1          이디야
2          폴바셋
3        ediya
4        ediya
5     스타벅스 코리아
6    starbucks
7    starbucks
Name: 상호명, dtype: object

#### 대소문자로 인해 검색이 되지 않는 문제를 해결하기 위해 모두 소문자로 만듭니다.
#### 파이썬의 str 메소드를 사용해서 소문자로 변경이 가능합니다.


In [75]:
df["상호명_소문자"] = df["상호명"]. str.contains("star")
df

Unnamed: 0,상호명,가격,지역,상호명_소문자
0,스타벅스,3500.0,서울,False
1,이디야,3200.0,서울,False
2,폴바셋,4000.0,서울,False
3,Ediya,3200.0,서울,False
4,ediya,3700.0,서울,False
5,스타벅스 코리아,,서울,False
6,starbucks,2000.0,서울,True
7,StarBucks,1000.0,서울,False


In [76]:
df["상호명_소문자"] = df["상호명"]. str.lower()
df

Unnamed: 0,상호명,가격,지역,상호명_소문자
0,스타벅스,3500.0,서울,스타벅스
1,이디야,3200.0,서울,이디야
2,폴바셋,4000.0,서울,폴바셋
3,Ediya,3200.0,서울,ediya
4,ediya,3700.0,서울,ediya
5,스타벅스 코리아,,서울,스타벅스 코리아
6,starbucks,2000.0,서울,starbucks
7,StarBucks,1000.0,서울,starbucks


#  오류 안된다 지금 질문하기 


#### str.contains 를 사용해 "스타|star"가 들어가는 데이터를 찾습니다.



In [77]:
df[df["상호명_소문자"].str.contains("스타|star")]

Unnamed: 0,상호명,가격,지역,상호명_소문자
0,스타벅스,3500.0,서울,스타벅스
5,스타벅스 코리아,,서울,스타벅스 코리아
6,starbucks,2000.0,서울,starbucks
7,StarBucks,1000.0,서울,starbucks


## 가격이 특정 금액 이상인 것만 가져옵니다.

#### 가격이 3500보다 큰 값을 가져오세요.


In [50]:
high_price = df[df["가격"] > 3500]
high_price

Unnamed: 0,상호명,가격,지역,상호명_소문자
2,폴바셋,4000.0,서울,False
4,ediya,3700.0,서울,False


#### 위 결과에서 상호명만 따로 가져옵니다.
#### loc == locate


In [51]:
high_price["상호명"]

2      폴바셋
4    ediya
Name: 상호명, dtype: object

In [53]:
df.loc[df["가격"] > 3500]

Unnamed: 0,상호명,가격,지역,상호명_소문자
2,폴바셋,4000.0,서울,False
4,ediya,3700.0,서울,False


In [None]:
# loc는 [행인덱스]
# .loc[행, 열]
# .loc[조건식, 열]
name: 상호명, dtype: object

In [None]:
iloc 인덱스 명과 상관없이 순서로 가져온다.

loc 는 안된다.

In [57]:
# 순서
df.iloc[0,0]

'스타벅스'

In [58]:
# 행, 열 인덱스명
df.loc[0,0]

TypeError: cannot do label indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [0] of <class 'int'>

## 시각화의 중요성 이해하기

#### seaborn 라이브러리를 로드합니다.

#### Shift + Tab 키를 누르면 도움말을 보실 수 있습니다.
#### Load the example dataset for Anscombe's quartet



In [61]:
import seaborn as sns 

mpg = sns.load_dataset("mpg")

In [62]:
mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


In [63]:
mpg.index

RangeIndex(start=0, stop=398, step=1)

In [78]:
mpg = mpg.set_index("name")

mpg

In [79]:
mpg.loc["ford torino"]

mpg               17
cylinders          8
displacement     302
horsepower       140
weight          3449
acceleration    10.5
model_year        70
origin           usa
Name: ford torino, dtype: object

mpg.iloc[0] 