## 라이브러리 불러오기

Google Colab에서는 별도의 라이브러리를 설치할 필요 없이 Pandas 라이브러리를 불러올 수 있습니다. 

In [None]:
import pandas as pd
print(pd.__version__)

1.1.5


### 테스트

Pandas가 제대로 설치되었는지 확인하기 위해, 객체 생성이 실제로 되는지 확인해봅시다. 

In [None]:
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
print(type(df))

<class 'pandas.core.frame.DataFrame'>


## 구글 드라이브 연동

Google Colab을 사용한다고 해서, 구글 드라이브를 바로 사용할 수 있는 것은 아닙니다. **드라이브에 접속해 인증 절차**를 진행해야 합니다.  
다음 코드를 실행해 인증을 위한 URL을 클릭하고, 비밀번호를 복사해 "Enter your authorization code:"를 입력합니다. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
DATA_PATH = "경로를 입력하시기를 바랍니다."

# 필자의 경로는 다음과 같았습니다. 
DATA_PATH = '/content/drive/MyDrive/Colab Notebooks/project01/bjpublic/PART_I_Intro/'
lemonade = pd.read_csv(DATA_PATH + 'data/Lemonade2016.csv')
lemonade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Date         31 non-null     object 
 1   Location     32 non-null     object 
 2   Lemon        32 non-null     int64  
 3   Orange       32 non-null     int64  
 4   Temperature  32 non-null     int64  
 5   Leaflets     31 non-null     float64
 6   Price        32 non-null     float64
dtypes: float64(2), int64(3), object(2)
memory usage: 1.9+ KB


허용 버튼을 클릭한 후, 코드를 복사해 Google Colab에 붙여 넣으면 구글 드라이브와 연동됩니다.  
그 후에 경로를 설정하는 작업을 합니다. 

## 데이터 둘러보기

데이터를 불러온 뒤 Lemonade로 지정한 데이터명을 한 번 확인해봅시다.  
Pandas 라이브러리의 **Head()**와 **Tail()**로 데이터의 윗줄과 아랫줄을 확인합니다. 
괄호 안의 숫자만큼의 데이터를 확인할 수 있습니다.

In [None]:
lemonade.head(5)

Unnamed: 0,Date,Location,Lemon,Orange,Temperature,Leaflets,Price
0,7/1/2016,Park,97,67,70,90.0,0.25
1,7/2/2016,Park,98,67,72,90.0,0.25
2,7/3/2016,Park,110,77,71,104.0,0.25
3,7/4/2016,Beach,134,99,76,98.0,0.25
4,7/5/2016,Beach,159,118,78,135.0,0.25


In [None]:
lemonade.tail(3)

Unnamed: 0,Date,Location,Lemon,Orange,Temperature,Leaflets,Price
29,7/29/2016,Park,100,66,81,95.0,0.35
30,7/30/2016,Beach,88,57,82,81.0,0.35
31,7/31/2016,Beach,76,47,82,68.0,0.35


**Info()** 함수는 갈 열에 Null 값이 있는지와 열의 데이터 타입을 말합니다.  
Null 값에 대한 처리는 데이터 전처리에서 제일 기본적이고 필수적인 절차입니다. 

In [None]:
print(lemonade.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Date         31 non-null     object 
 1   Location     32 non-null     object 
 2   Lemon        32 non-null     int64  
 3   Orange       32 non-null     int64  
 4   Temperature  32 non-null     int64  
 5   Leaflets     31 non-null     float64
 6   Price        32 non-null     float64
dtypes: float64(2), int64(3), object(2)
memory usage: 1.9+ KB
None


**Describe()** 함수는 데이터 분포와 **기술 통계량**을 확인할 수 있어 유용합니다.  
- Count는 Non-Null의 개수
- Mean은 평균, Std는 표준 편차, Min은 최솟값, Max는 최댓값
- 25%, 50%, 75% 사분위수


In [None]:
lemonade.describe()

Unnamed: 0,Lemon,Orange,Temperature,Leaflets,Price
count,32.0,32.0,32.0,31.0,32.0
mean,116.15625,80.0,78.96875,108.548387,0.354687
std,25.823357,21.863211,4.067847,20.117718,0.113137
min,71.0,42.0,70.0,68.0,0.25
25%,98.0,66.75,77.0,90.0,0.25
50%,113.5,76.5,80.5,108.0,0.35
75%,131.75,95.0,82.0,124.0,0.5
max,176.0,129.0,84.0,158.0,0.5


**Value_Count()** 함수는 문자형 데이터의 개수를 파악할 때 매우 유용하게 사용됩니다. 

In [None]:
lemonade['Location'].value_counts()

Beach    17
Park     15
Name: Location, dtype: int64

## 데이터 다뤄보기

데이터는 크게 **행(Row)**과 **열(Column)**으로 다룰 수 있습니다. 

새로운 변수 Sold를 추가해봅시다.  
[] 연산자를 이용해서 새로운 열 이름과 함께 데이터를 넣으면 자연스럽게 새로운 열이 생성됩니다. 

In [None]:
lemonade['Sold'] = 0 
print(lemonade.head(3))

       Date Location  Lemon  Orange  Temperature  Leaflets  Price  Sold
0  7/1/2016     Park     97      67           70      90.0   0.25     0
1  7/2/2016     Park     98      67           72      90.0   0.25     0
2  7/3/2016     Park    110      77           71     104.0   0.25     0


Lemon과 Orange의 합을 Sold 열에 넣고 값을 확인합니다. 

In [None]:
lemonade['Sold'] = lemonade['Lemon'] + lemonade['Orange']
print(lemonade.head(3))

       Date Location  Lemon  Orange  Temperature  Leaflets  Price  Sold
0  7/1/2016     Park     97      67           70      90.0   0.25   164
1  7/2/2016     Park     98      67           72      90.0   0.25   165
2  7/3/2016     Park    110      77           71     104.0   0.25   187


Lemon 열과 Orange 열의 연산값을 다른 열에 넣을 수 있습니다. 

Price와 Sold를 곱해 Revenue 열을 만듭시다.

In [None]:
lemonade['Revenue'] = lemonade['Price'] * lemonade['Sold']
print(lemonade.head(3))

       Date Location  Lemon  Orange  ...  Leaflets  Price  Sold  Revenue
0  7/1/2016     Park     97      67  ...      90.0   0.25   164    41.00
1  7/2/2016     Park     98      67  ...      90.0   0.25   165    41.25
2  7/3/2016     Park    110      77  ...     104.0   0.25   187    46.75

[3 rows x 9 columns]


Google Colab에서는 열의 개수가 많아지면 중간에 생략 표시(...)가 결괏값으로 나타납니다. 

Pandas에 옵션을 추가하면 전체 데이터가 나타납니다. 

In [None]:
pd.set_option('display.max_columns', None)

lemonade['Revenue'] = lemonade['Price'] * lemonade['Sold']
print(lemonade.head(3))

       Date Location  Lemon  Orange  Temperature  Leaflets  Price  Sold  \
0  7/1/2016     Park     97      67           70      90.0   0.25   164   
1  7/2/2016     Park     98      67           72      90.0   0.25   165   
2  7/3/2016     Park    110      77           71     104.0   0.25   187   

   Revenue  
0    41.00  
1    41.25  
2    46.75  


옵션을 해제하려면, None 대신 0을 입력합니다.

In [None]:
pd.set_option('display.max_columns', 0)

lemonade['Revenue'] = lemonade['Price'] * lemonade['Sold']
print(lemonade.head(3))

       Date Location  Lemon  Orange  ...  Leaflets  Price  Sold  Revenue
0  7/1/2016     Park     97      67  ...      90.0   0.25   164    41.00
1  7/2/2016     Park     98      67  ...      90.0   0.25   165    41.25
2  7/3/2016     Park    110      77  ...     104.0   0.25   187    46.75

[3 rows x 9 columns]


특정 열을 제거하기 위해서는 **Drop()** 함수를 사용할 수 있습니다.  
Axis를 **0으로 설정하면 행 방향**으로 Drop을 수행하고, **1로 설정하면 열 방향**으로 Drop을 수행합니다. 

In [None]:
lemonade_column_drop = lemonade.drop('Sold', axis=1)
print(lemonade_column_drop.head(3))

       Date Location  Lemon  Orange  Temperature  Leaflets  Price  Revenue
0  7/1/2016     Park     97      67           70      90.0   0.25    41.00
1  7/2/2016     Park     98      67           72      90.0   0.25    41.25
2  7/3/2016     Park    110      77           71     104.0   0.25    46.75


In [None]:
lemonade_row_drop = lemonade_column_drop.drop(0, axis=0)
print(lemonade_row_drop.head(3))

       Date Location  Lemon  Orange  Temperature  Leaflets  Price  Revenue
1  7/2/2016     Park     98      67           72      90.0   0.25    41.25
2  7/3/2016     Park    110      77           71     104.0   0.25    46.75
3  7/4/2016    Beach    134      99           76      98.0   0.25    58.25


## 데이터 인덱싱


[] Selection을 통해 첫 5줄만 출력합시다.

In [None]:
print(lemonade[0:5])

       Date Location  Lemon  Orange  ...  Leaflets  Price  Sold  Revenue
0  7/1/2016     Park     97      67  ...      90.0   0.25   164    41.00
1  7/2/2016     Park     98      67  ...      90.0   0.25   165    41.25
2  7/3/2016     Park    110      77  ...     104.0   0.25   187    46.75
3  7/4/2016    Beach    134      99  ...      98.0   0.25   233    58.25
4  7/5/2016    Beach    159     118  ...     135.0   0.25   277    69.25

[5 rows x 9 columns]


Beach에서 판매한 날들의 데이터만 보고 싶으면, 다음과 같은 방법을 사용할 수 있습니다. 

In [None]:
lemonade['Location'] == 'Beach'

0     False
1     False
2     False
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30     True
31     True
Name: Location, dtype: bool

lemonade['Location'] == 'Beach' 는 True/ False 만 출력했지만, 해당 데이터가 보고 싶을 때는 다음과 같은 방법을 사용할 수 있습니다. 

In [None]:
print(lemonade[lemonade['Location'] == 'Beach'].head(3))

       Date Location  Lemon  Orange  ...  Leaflets  Price  Sold  Revenue
3  7/4/2016    Beach    134      99  ...      98.0   0.25   233    58.25
4  7/5/2016    Beach    159     118  ...     135.0   0.25   277    69.25
5  7/6/2016    Beach    103      69  ...      90.0   0.25   172    43.00

[3 rows x 9 columns]


Iloc과 Loc는 각각 위치 기반 인덱싱과 명칭 기반 인덱싱을 의미합니다. 

In [None]:
print(lemonade.iloc[0:3, 0:2])

       Date Location
0  7/1/2016     Park
1  7/2/2016     Park
2  7/3/2016     Park


위치 기반 인덱싱이라면 행과 열에 각각 해당하는 번호를 입력합니다.   
[] 연산자 내의 좌측은 행을, 우측은 열을 의미합니다. 

In [None]:
print(lemonade.loc[0:2, ['Date','Location']])

       Date Location
0  7/1/2016     Park
1  7/2/2016     Park
2  7/3/2016     Park


Loc에서는 변수명이 들어가고 그에 따라 출력됩니다. 

다음은 조건에 따라 데이터를 추리는 방법입니다. 간단하고 빠르게 데이터를 추출해 전처리에서 거의 **필수적으로 사용**되는 문법입니다. 

In [None]:
print(lemonade.loc[lemonade['Revenue']>45, ['Date','Revenue']].head(3))

       Date  Revenue
2  7/3/2016    46.75
3  7/4/2016    58.25
4  7/5/2016    69.25


## 기본 데이터 전처리

Numpy의 Sort와 비슷합니다.  
3개의 주요 파라미터는 **By, Ascending, Inplace**로 이루어집니다.  
- **By**는 어떤 열을 기준으로 정렬할 것인지를 정합니다. 
- **Ascending= True/False**는 오름차순으로 정렬할 것인지를 뜻합니다.
- **Inplace=True/False**는 해당 명령을 본 데이터에 적용할 것인지를 정합니다.


우선 Temperature 변수 기준으로 정렬합니다. 

In [None]:
print(lemonade.sort_values(by=['Temperature']).head(5))

         Date Location  Lemon  Orange  ...  Leaflets  Price  Sold  Revenue
0    7/1/2016     Park     97      67  ...      90.0   0.25   164    41.00
20  7/20/2016     Park     71      42  ...       NaN   0.50   113    56.50
2    7/3/2016     Park    110      77  ...     104.0   0.25   187    46.75
1    7/2/2016     Park     98      67  ...      90.0   0.25   165    41.25
16  7/16/2016    Beach     81      50  ...      90.0   0.50   131    65.50

[5 rows x 9 columns]


Temperature와 Revenue를 내림차순으로 정렬합니다. 

In [None]:
lemonade.sort_values(by=['Temperature', 'Revenue'], ascending= False, inplace = True)
print(lemonade.loc[:,['Date','Temperature', 'Revenue']].head(5))

         Date  Temperature  Revenue
25  7/25/2016           84   134.50
12  7/12/2016           84    56.25
26  7/26/2016           83   106.75
11  7/11/2016           83    70.50
24  7/24/2016           82   101.50


Lemonade.Loc 후에 행의 인덱스에 들어가는 좌측 값에 :가 들어가는 것은 모든 행을 선택한다는 의미입니다.  
결과적으로 우선 Temperature 기준으로 내림차순으로 정렬되고, 동일 Temperature 값 중에서는 Revenue를 기준으로 최종적으로 내림차순으로 정렬됩니다. 

**Groupby()** 함수는 데이터 전처리에서 아주 많이 활용되는 함수입니다.  
특정 열을 기준으로 그 열의 고윳값들로 데이터를 나눕니다.

In [None]:
print(lemonade.groupby(by='Location').count())

          Date  Lemon  Orange  Temperature  Leaflets  Price  Sold  Revenue
Location                                                                  
Beach       16     17      17           17        17     17    17       17
Park        15     15      15           15        14     15    15       15


Location으로 Groupby 하니 데이터가 Beach와 Park로 분류됩니다. 직관적으로 보기 어렵습니다.  
데이터에서 인사이트를 얻으려면 Groupby 함수에 **Agg() 함수**를 활용하는 것이 좋습니다.  
Agg는 Aggregation의 약자로, Groupby로 묶ㅇ

In [None]:
print(lemonade.groupby('Location')['Revenue'].agg([max,min]))

            max   min
Location             
Beach      95.5  43.0
Park      134.5  41.0


Agg() 함수에는 하나의 변수 뿐만 아니라 여러 개의 변수를 넣을 수도 있습니다. 

In [None]:
print(lemonade.groupby('Location')[['Revenue', 'Sold']].agg([max,min]))

         Revenue       Sold     
             max   min  max  min
Location                        
Beach       95.5  43.0  282  123
Park       134.5  41.0  305  113
