In [18]:
import pandas as pd
import matplotlib.pyplot as plt

csv: comma seperated values의 약자로 콤마로 열이 구분되어 있다
tsv: tab~~

|이름|설명|
|-|-|
|read_csv|csv파일을 불러옴|
|sep|구분자 설정|
|set_option|옵션 설정|
|display.max_columns|표시 되는 최대 행(작으면 ... 으로 표시 됨)|

In [6]:
df = pd.read_csv("./chipotle.tsv", sep="\t")  # 구분자를 tab으로
pd.set_option('display.max_columns', 3)

shape: dataframe의 모양 (행, 열)

In [4]:
df.shape

(4622, 5)

## info
전반적인 정보를 보여준다.

여기서 결측값(null)을 확인해야 한다.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


이 외에도 isnull이라는 것을 사용해서 결측값을 확인할 수 있다.

결측값을 채울 때는 fillna를 사용한다.
꼭!!! 결측값을 채우고 나서 대입해야 값이 나온다.

In [12]:
df.isnull().sum()
df['choice_description'] = df['choice_description'].fillna('[]')

## head
위에서 부터 다섯줄

In [7]:
df.head()

Unnamed: 0,order_id,...,item_price
0,1,...,$2.39
1,1,...,$3.39
2,1,...,$3.39
3,1,...,$2.39
4,2,...,$16.98


In [13]:
pd.set_option('display.max_columns', 100)
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,[],$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,[],$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


## describe
기초 통계량.
numeric(int, float) 칼럼에 대해서만 알려준다.

In [14]:
df.describe()

Unnamed: 0,order_id,quantity
count,4622.0,4622.0
mean,927.254868,1.075725
std,528.890796,0.410186
min,1.0,1.0
25%,477.25,1.0
50%,926.0,1.0
75%,1393.0,1.0
max,1834.0,15.0


## 데이터 전처리
여기서 item_price는 사실상 numeric한 변수인데, `$` 때문에 문자로 취급 됐다

그리고 order_id는 numeric해봤자 쓸모가 없기 때문에 object로 다시 바꿔준다.

In [15]:
df['order_id'] = df['order_id'].astype(str)
df['item_price'] = df['item_price'].apply(lambda x: float(x[1:]))

In [16]:
df.describe()

Unnamed: 0,quantity,item_price
count,4622.0,4622.0
mean,1.075725,7.464336
std,0.410186,4.245557
min,1.0,1.09
25%,1.0,3.39
50%,1.0,8.75
75%,1.0,9.25
max,15.0,44.25


In [17]:
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,[],2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,[],2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98


* 각 행을 선택했을 때 반환 타입: Series
* 여러 행을 선택했을 때 반환 타입: DataFrame

In [22]:
type(df['order_id'])

pandas.core.series.Series

In [23]:
type(df[['order_id', 'item_price']])

pandas.core.frame.DataFrame

In [24]:
df[['order_id', 'item_price']]

Unnamed: 0,order_id,item_price
0,1,2.39
1,1,3.39
2,1,3.39
3,1,2.39
4,2,16.98
...,...,...
4617,1833,11.75
4618,1833,11.75
4619,1834,11.25
4620,1834,8.75


In [25]:
df

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,[],2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,[],2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",8.75


## Series.unique()
반환 타입: ndarray

In [28]:
# 주문 개수
df['order_id'].unique().size

1834