# 40 Examples to Master Pandas

참고자료 : https://towardsdatascience.com/40-examples-to-master-pandas-c69d058f434e

## 1. Reading csv files

- read_csv() 함수로 pandas의 dataframe 만들기

In [20]:
import numpy as np
import pandas as pd

marketing = pd.read_csv("DirectMarketing.csv")
groceries = pd.read_csv("Groceries_dataset.csv")

In [2]:
marketing.head()

Unnamed: 0,Age,Gender,OwnHome,Married,Location,Salary,Children,History,Catalogs,AmountSpent
0,Old,Female,Own,Single,Far,47500,0,High,6,755
1,Middle,Male,Rent,Single,Close,63600,0,High,6,1318
2,Young,Female,Rent,Single,Close,13500,0,Low,18,296
3,Middle,Male,Own,Married,Close,85600,1,High,18,2436
4,Middle,Female,Own,Single,Close,68400,0,High,12,1304


In [3]:
groceries.head()

Unnamed: 0,Member_number,Date,itemDescription
0,1808,21-07-2015,tropical fruit
1,2552,05-01-2015,whole milk
2,2300,19-09-2015,pip fruit
3,1187,12-12-2015,other vegetables
4,3037,01-02-2015,whole milk


## 2. Changing data type with astype

- 날짜 같은 경우는 pandas의 datetime 함수를 이용해야하기 때문에 datetime 형식으로 저장되어야함

In [32]:
groceries.dtypes

Member_number       int64
Date               object
itemDescription    object
dtype: object

- Date의 타입이 object다
- 이를 datetime 형식으로 바꿔주자

In [6]:
groceries["Date"] = groceries["Date"].astype("datetime64")

In [7]:
groceries.dtypes

Member_number               int64
Date               datetime64[ns]
itemDescription            object
dtype: object

## 3. Changing the date type with to_datetime

- to_datetime 함수로 날짜에 적절한 타입으로 변환할 수 있음
- 다만 astype 함수랑 살짝 syntax가 다름

In [8]:
groceries["Date"] = pd.to_datetime(groceries["Date"])

## 4. Parsing dates

- read_csv로 파일 읽을 때 날짜를 date 형식으로 할당시킬 수 있음

In [9]:
groceries = pd.read_csv("Groceries_dataset.csv", parse_dates=["Date"])

In [10]:
groceries.dtypes

Member_number               int64
Date               datetime64[ns]
itemDescription            object
dtype: object

## 5. Filtering with the isin method

- dataframe의 특정 값만 필터링

In [11]:
groceries[groceries.Member_number.isin([3737, 2433, 3915, 2625])].shape

(126, 3)

- 해당 조건을 가진 데이터 개수는 126개

## 6. Tlide operator

- 물결표(~)
- "not"을 의미한다

In [12]:
groceries[~groceries.Member_number.isin([3737, 2433, 3915, 2625])].shape

(38639, 3)

## 7. Value counts with normalization

- 각 값이나 리턴된 series의 개수를 셈
- 파라미터에 normalize를 넣으면 백분율을 볼 수 있음

In [13]:
marketing.Catalogs.value_counts(normalize=True)

12    0.282
6     0.252
24    0.233
18    0.233
Name: Catalogs, dtype: float64

- 가장 많이 차지하는 Catalogs는 28.2%를 차지한 12

## 8. Setting a column as index

- Pandas는 dataframe의 index로 integer를 디폴트로 할당함
- 이를 set_index 함수로 바꿀 수 있음
- groceries dataframe의 index를 Date 피처로 할당하는 예시

In [14]:
groceries.set_index("Date", inplace=True)

In [15]:
groceries.head()

Unnamed: 0_level_0,Member_number,itemDescription
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-07-21,1808,tropical fruit
2015-05-01,2552,whole milk
2015-09-19,2300,pip fruit
2015-12-12,1187,other vegetables
2015-01-02,3037,whole milk


## 9. Resetting the index

- 행이 통째로 삭제되면 Pandas는 자동적으로 index를 다시 할당해주지 않음
- 2개의 dataframe이 합쳐져도 index 다시 할당해주지 않음
- 이 경우 만들어진 새로운 dataframe은 index를 다시 순서대로 할당해주어야 함

In [21]:
groceries.drop(1, inplace=True)
groceries.head()

Unnamed: 0,Member_number,Date,itemDescription
0,1808,21-07-2015,tropical fruit
2,2300,19-09-2015,pip fruit
3,1187,12-12-2015,other vegetables
4,3037,01-02-2015,whole milk
5,4941,14-02-2015,rolls/buns


In [22]:
groceries.reset_index(drop=True, inplace=True)

In [23]:
groceries.head()

Unnamed: 0,Member_number,Date,itemDescription
0,1808,21-07-2015,tropical fruit
1,2300,19-09-2015,pip fruit
2,1187,12-12-2015,other vegetables
3,3037,01-02-2015,whole milk
4,4941,14-02-2015,rolls/buns


- 여기서 drop 파라미터를 True로 설정하지 않으면 예전의 index가 새로운 열로 남아있음
- inplace 파라미터는 바뀐 상황을 저장한다는 것

## 10. The unique values

- unique 함수로 각 열에서 유일한 값 찾기

In [26]:
groceries["itemDescription"].unique()[:5]

array(['tropical fruit', 'pip fruit', 'other vegetables', 'whole milk',
       'rolls/buns'], dtype=object)

- 5개만 출력

## 11. The number of unique values

- unique 값의 개수
- 전체 dataframe이나 특정 열 반환

In [27]:
groceries.nunique()

Member_number      3898
Date                728
itemDescription     167
dtype: int64

- unique 함수로 반환되는 array의 길이로 unique 값의 개수 셀 수 있음

## 12. Creating a random sample of larger size

- sample 함수로 무작위의 샘플 추출
- 머신러닝에서 균형이 맞지 않은 데이터셋일 때 사용
- replace 파라미터가 True가 아닐 때는 원본보다 더 적은 샘플만 생성할 수 있음
- maketing의 AmountSpent가 300보다 작은 행에 대해 무작위 샘플 생성

In [28]:
less = marketing[marketing.AmountSpent < 300].sample(n=400, replace=True)

In [29]:
less.shape

(400, 10)

## 13. Combining dataframes

- concat 함수로 dataframe들을 수평 or 수직으로 합칠 수 있음
- axis 파라미터로 축 결정

In [30]:
less.shape, marketing.shape

((400, 10), (1000, 10))

In [31]:
new = pd.concat([marketing, less])
new.shape

(1400, 10)

- axis 파라미터의 디폴트 값은 0 = index에 따라 합치는 것
- dataframe들은 반드시 같은 개수의 열을 가지고 있어야 함

## 14. Selecting a range of rows and columns by index