---
# 📁 Hyun's Code collection (Pandas) 
---

### <h3 align="right">🥇 Authored by <strong>Hyun</strong></h3>

# ✏️  What is **Pandas**?

- Pandas는 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있어 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구
- 대따대따대따 많이 쓰임

# ✏️ Importing Libraries

In [None]:
# Basic Setting
import openpyxl
import pandas as pd
from pandas import Series, DataFrame
import pandas_profiling

# Time Series Data
import calendar
import dateutil
from dateutil.parser import parse
import datetime

# tqdm thing
from tqdm.notebook import tqdm
import time

# row, column setting
pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 200)

# ✏️  Methods and Examples


## 🔎 Basic Methods

- **pd. Series ( data , index= [ index names ] )**: series data 만들기
- **pd. DataFrame ( data , columns = [ " column1 " , " column2 " ] )**: dataframe 만들기
- **.array** : Change to array
- **.to_numpy( )** : Change to Numpy Array
- **np .asarray( <Dataframe> )** : Change to Numpy Array
- **series.name**: Show name for Series
- **series.rename( < New Name > )**: Rename Series's name attribute
- **type ( )**: type을 보여줌
- **.shape**: 해당 dataframe의 row, column 수를 반환
- **.columns**: columns를 보여줌 
- **.info ( )**: index, columns 갯수, type 등을 반환
- **.dtypes**: Columns들의 type을 보여줌
- 🌟**.describe ( )**: 기술통계를 보여줌
- **.describe ( include = [ " object " ] )**: Categorial data의 통계를 보여줌
- **pandas_profiling.ProfileReport()**: pandas profiling 보기
- **.corr ( )**: 상관관계를 보여줌
- **a.corrwith ( b )**: a와 b의 상관관계를 보여줌
- **.index**: index를 보여줌
- **.values**: 각 index의 value 값들을 보여줌
- **.tolist ( )**: 데이터 프레임을 리스트로 반환
- **.to_dict ( )**: dataframe을 dictionary 형태로 반환
- **.sum ( )**: 합
- **.mean ( )**: mean (Column perspective)
- 🌟**.mean ( 1 )**: mean (row perspective)
- **.median ( )**: 중앙값
- **.std ( )**: 표준편차
- **.max ( )**: 최대값
- **.min ( )**: 최소값
- **.idxmin()** : return index of minimum value
- **.idxmax()** : return index of maximum value
- **.corr( )**: 피어슨 상관계수 구하기
- **.DESCR**: 데이터 대략적인 묘사
- **inplace=True**: 반환 받지 않고 데이터프레임을 바로 변형하게 하는 것

- **divmod ( <pd.Sereis>, <num> ) **: Takes floor division and modulo operation at the same time. Return two-tuple

- **.eq()** : Same (==)
- **.ne()** : Different (!=)
- **.lt()** : less than (<)
- **.gt()** : greater than (>)
- **.le()** : less or equal (<=)
- **.ge()** : grater or equal (>=)

- **.to_numpy()**: numpy array 형태로 바꿔준다. 단 index, column label은 없음.
- 🌟**.sort_index(axis=1)**: Sort by columns
- 🌟**.iat[ ]**: Fast iloc. Get Scalar value
- 🌟**.at[ ]**: Fast loc. Get Scalar value

- **df .at[ dates[0], < Column > ] = 0**: Setting values by label
- **df .iat[ 1, 1 ] = 0**: Setting values by position

- **.cat** : Select series as Categorical values
- 🌟**pd .Categorical( < Column Name > )**: Changing Column type to Categorical 

- **.insert( < Location >, < Column Name >, < Column Value > )**: How to insert new column using insert method

- **pd .set_option ( ' display .max_columns ' , 500 )** : Set max column upto 500
- **pd .set_option ( ' display .max_rows ' , 500 )** : Set max rows upto 500
- **pd .set_option ( ' compute .use_bottleneck ' , False)** : Don't use bottleneck
- **pd .set_option ( ' compute .use_numexpr ' , False)** : don't use numexpr

### 📔 Examples

In [None]:
# Ignoring pandas warnings
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Reading multiple files
import glob
import os

files = glob.glob("file_*.csv")
result = pd.concat([pd.read_csv(f) for f in files], ignore_index=True)

In [None]:
# Comparision between Dataframes
df.gt(df2)

df.ne(df2)

In [None]:
# divmod function example
s = pd.Series(np.arange(10))

div, rem = divmod(s, 3)
print("div", '\n', div)
print("rem", '\n', rem)

div 
 0    0
1    0
2    0
3    1
4    1
5    1
6    2
7    2
8    2
9    3
dtype: int64
rem 
 0    0
1    1
2    2
3    0
4    1
5    2
6    0
7    1
8    2
9    0
dtype: int64


In [None]:
div, rem = divmod(s, 3)

In [None]:
# Using Boolean operators with dataframes
df1 & df2

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Creating MultiIndexed Frame
pd.DataFrame(np.arange(16).reshape(4,4),

                         index = [[1,1,2,2],['s1','s2','s1','s2']],

                         columns = [['apple','apple','banana','banana'], ['price','qty','price','qty']],

                         )


Unnamed: 0_level_0,Unnamed: 1_level_0,apple,apple,banana,banana
Unnamed: 0_level_1,Unnamed: 1_level_1,price,qty,price,qty
1,s1,0,1,2,3
1,s2,4,5,6,7
2,s1,8,9,10,11
2,s2,12,13,14,15


In [None]:
# Creating MultiIndexed Frame
pd.DataFrame(
    {
        ("a", "b"): {("A", "B"): 1, ("A", "C"): 2},
        ("a", "a"): {("A", "C"): 3, ("A", "B"): 4},
        ("a", "c"): {("A", "B"): 5, ("A", "C"): 6},
        ("b", "a"): {("A", "C"): 7, ("A", "B"): 8},
        ("b", "b"): {("A", "D"): 9, ("A", "B"): 10},
    }
)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


In [None]:
# Change ojbect column to Categorical Column
'''
Categorical Column consumes less data and performs much faster than plain text data
'''
df['BILL_NAME'] = pd.Categorical(df['BILL_NAME'])

In [None]:
# Group by Categorical column
df.groupby("grade").size()

In [None]:
# Rename categories
df['grade'].cat.categories = ['Top', "Middle", "Bottom"]

In [None]:
# Setting with Numpy Array
df.loc[:, "Column1"] = np.array([5] * len(df))

In [None]:
# Using iat
df.iat[1, 1]

0.17319709573267061

In [None]:
# Select by locations
df.iloc[[0,1,2,5], [0,1,3]]

Unnamed: 0,가,나,라
2021-01-01,0.431141,0.090399,0.228538
2021-01-02,0.752557,0.173197,0.943318
2021-01-03,0.989908,0.003252,0.8151
2021-01-06,0.982183,0.907697,0.027438


In [None]:
# Dataframe slicing by rows
df = pd.DataFrame(np.random.rand(6, 4), index=pd.date_range("20210101", periods=6), columns=list("가나다라"))
df[0:3], df['20210101':"20210104"]

(                   가         나         다         라
 2021-01-01  0.431141  0.090399  0.808965  0.228538
 2021-01-02  0.752557  0.173197  0.166219  0.943318
 2021-01-03  0.989908  0.003252  0.468438  0.815100,
                    가         나         다         라
 2021-01-01  0.431141  0.090399  0.808965  0.228538
 2021-01-02  0.752557  0.173197  0.166219  0.943318
 2021-01-03  0.989908  0.003252  0.468438  0.815100
 2021-01-04  0.294465  0.886099  0.652429  0.935328)

In [None]:
# Create column index with list
df = pd.DataFrame(np.random.rand(6, 4), index=pd.date_range("20210101", periods=6), columns=list("가나다라"))
df

Unnamed: 0,가,나,다,라
2021-01-01,0.834211,0.094163,0.683797,0.26567
2021-01-02,0.906947,0.640139,0.216136,0.567177
2021-01-03,0.29128,0.625926,0.864745,0.133311
2021-01-04,0.494852,0.650316,0.539068,0.69892
2021-01-05,0.178426,0.173516,0.915425,0.777598
2021-01-06,0.803201,0.995424,0.952416,0.511463


In [None]:
# Create Time Datarange
pd.date_range("20210101", periods=15)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10', '2021-01-11', '2021-01-12',
               '2021-01-13', '2021-01-14', '2021-01-15'],
              dtype='datetime64[ns]', freq='D')

In [None]:
# Creating Series data
pd.Series([6,1,5, np.nan, 11, 2])

## 🔎 Handle data by columns, rows, boolean

- **df [ [ ' ' , ' ' ] ]** : column 선택하기
- **df .loc [ [ ' ' , ' ' ] ]** : row 선택하기
- **df .loc [ [ ' ' ] , [ ' ' ] ]** : column/row 선택하기
- **df mul( , axis = )**: row에 각각 다른 값을 곱할 때
- **.sample ( frac = , random_state = )**: sample 뽑기
- **df [ ' column ' ]**: 원하는 column 보기
- **df [ ' column 이름 ' ] = np.nan** : 텅 빈 column 만들어주기
- **df [ ' new column ' ]**: column 추가하기
- **df [ [ 'column1' , 'column2' , 'column3' ] ]**: 원하는 column들 불러오기

- 🌟 **.pipe( )**: 함수를 연속해서 실행하고자 할 때

- **.set_index ( [ ' column ' ] )**: 해당 column을 index로 바꿔줌

  **.set_index ( [ ' index1 ' , ' index2 ' ] )**: index를 여러 개로 설정하기
- **.reset_index ( name = ' ' )**: 기존의 행 index를 제거하고 index를 데이터 열로 추가
- **.loc [ 'index', 'columns' ]**: loc은 Index가 가지고 있는 값을 반환. selection by label

  **.loc [ ' index1 ' , ' index2 ' ,  [ ' columns1 ' , ' columns2 ' ] ]**: 여러 개의 index를 가져오려면 이러로콤. index자리에 조건을 넣어줘도 됨
  
  **df.loc [ 'index' , ' column ' ] = 'value'**: 이렇게 해당 value를 바꿔줄 수도 있음

  **df .loc [ 조건, ' columns ' ] = value** : 이렇게 조건에 해당하는 값을 바꿀 수 있음
- **chain indexing**

  **df [ ' column ' ]  [ ' index ' ] = 'value'**: 이렇게 해당 value를 바꿔줄 수도 있음. 이 방법보다는 loc을 추천
  
- **df [ ' index1 ' : ' index2 ']**: 원하는 index들 slicing하기

- **.iloc [ ]**: iloc은 index의 위치 기준으로 동작합니다.(정수만 사용). selection by position
- **str .contain( '정규식', na = False )**: column에 str을 매칭시키는 느낌
- **.drop ( )**: 데이터 삭제

  **.drop ( index )**: 해당 row, index를 삭제. axis=0이 default임
  
  **.drop ( columns = [ ' column1 ' , ' column2 ' ] )**: 해당 column을 삭제
 
  🌟 **.drop ( [ <indexName> ] , axis = 0 )**: Delete rows
  
  **.drop ( [ <ColumnName> ] , axis = 1 )**: Delete columns

  **.drop ( ' column1 ' , axis = 1)**: 이렇게 column 삭제도 가능
- **.isnull ( ) .sum ( ) / len ( )**: null값 비율 구하기
- **.dropna ( axis = 0 )**: 결측값 있는 행을 삭제
  
  **.dropna ( axis = 1 )**: 결측값 있는 열을 삭제
 
  **.dropna ( how = ' all ' )**: 결측값 있는 모든 행과 열을 삭제

  **.dropna ( subset = [ 'column1' , 'column2' ] )** : 특정 column의 nan값이 있는 row를 날려주기
- **.unique ( )**: 해당 column, dataframe의 value들을 보여줌
- **.nunique ( )**: 서로 다른 value의 갯수를 반환
- **.value_counts( )**: value의 총 갯수를 반환. column 내 원하는 value의 수를 반환
- **del**: 삭제시킴
- **.repeat( )**: 가로 안에 들어가는 값만큼 반복함
- **.index = df [ ' column1e ' ]** : 해당 column을 index로 
 
  **.index = list ( range ( a , b ) )** : 이렇게 index를 설정할 수도 있음
- **.rename ( columns = { ' column name ' : ' new name ' } )** : column 이름 변경하기

  **.columns = [ ' 원하는 columns name 1 ' , ' 원하는 column name 2 ' , ... ]** : 이렇게 바꿔줄 수도 있음
- **.duplicated ( [ ' columns1' ] )** : boolean 형태로 중복값에 True를 반환
- **.drop_duplicates ( [ ' column1 ' , ' column2 ' ] )**: 중복값을 삭제 (나는 이 방법 비추천)
- **df = df [ [ ' my_order1 ' , 'my_oder2' , 'my_order3' , 'my_order4' ] ]**: column 순서 바꾸기
- **df.copy ( )**: df를 똑같이 복사함
- **.isnull( ).sum( )**: 결측치 개수를 반환
- **.notnull( ).sum( )**: 결측치가 아닌 값들 수를 반환
- **.add_prefix ( " prefix " )**: column 이름에 모두 접두사를 추가
- **.astype ( type )**: 입력한 type으로 변경해준다.
- **.isdigit( )**: 숫자인지 아닌지 판별해주는 메소드
- **get_dummies ( [ " column name " ] , prefix = " prefix ")**: 더미변수 생성
- **Boolean indexing**
 
 **df. column + 조건**: 조건을 넣어주면 됨. e.g.>, ==, !=, >=

 **df [ df .column + 조건 ]** 아니면 **df [ df [ ' column ' ] + 조건 ]**: 조건에 맞는 데이터 따로 빼기
- **. fillna ( )**: 결측치 채우기

  **.filnna( 조건 , inplace = True)**: 조건에 맞게 결측치를 채움
- **inplace = True** : 변수를 직접 변경한다는 뜻
- **df [ ' column ' ] . replace ( [ ' 기존 value ' ] , [ ' 바꾸고 싶은 value ' ] , inplace = True)**: 원하는 값으로 바꾸기

 **df [ ' column ' ] . replace ( { " 기존 value " : int, "기존 value" : "str" } , inplace = True)**: 이렇게 해도 됨
 
 **df [ ' column ' ] = df. column. map ( { " 기존 value1 " : 새 값 ( int ) , " 기존 value2 " : " 새 값 ( str ) " } )**: 원하는 값으로 바꾸는 다른 방법
 
- **apply, applymap** : 원하는 함수를 적용할 때 사용
- **df [ lambda x : x. column … ]**: 조건에 맞는 데이터만 뽑아 보기
- **df [ ( df .column1 + 조건) & ( df [ ' column2 '] + 조건 ) ]**: 조건에 맞는 데이터 뽑기
- **.isin( [ ' value1 ', ' value2 ' ] )**: value1이거나 value2인 값들을 반환
- **.str .startswith ( ' str ' )**: str로 시작하는 value들을 반환
- **.endswith ( ' str ' )**: str로 끝날 때
- **.str .contains ( ' str ' )**: str를 포함하는 value들을 반환
- **df .sort ( ' column ' )**: 순서대로 정렬
- **pd.cut(data, bins, labels= )**: 실수값을 다음처럼 카테고리 값으로 바꿀 수 있음!! bins 인수는 카테고리를 나누는 기준값이고 영역을 넘는 값은 NaN으로 처리된다.
- **.cut( 데이터, [ 범위 , 및 , 구간 ] , labels = [ 레이블 , 설정, 해주면 됨 ] )**: 원하는 구간별로 categoric 변수로 만들어 줄 수 있음
- **.contains ( ' str, int' , regex=False  )** : value에서 특정 문자 혹은 숫자를 포함 여부에 따라 Boolean으로 반환. regex=True이면 정규식으로 인식
- **.factorize()**: 카테고리를 다른 정숫값으로 매핑. Label encoding
- **.lower( )** : Change to lowercase


> Differnece btw map, apply methods
- Map: Can be used only with Series Type
- Apply: Can be also used with Dataframe Type


### 📔 Examples

In [None]:
# Using eval( ) 
%timeit df1 + df2 + df3 + df4

%timeit pd.eval("df1 + df2 + df3 + df4")

# eval( ) is 10 times faster than simple column computations

In [None]:
# Query example
for idx in df.query("법안내용.str.contains('전통시장') and 법안내용.str.contains('대규모') ", engine='python').index:
    print(idx, df.loc[idx]['법안명'])
    print(df.loc[idx]['법안내용'])
    print("*"*80)

In [None]:
# Display more than 2 dataframes at once
from IPython.display import display_html
def display_side_by_side(*args):
    """여러 데이터프레임 비교가 쉽게 옆쪽으로 표시한다"""
    html_str=''
    for df in args:
        html_str += df.to_html()
    display_html(html_str.replace('table','table style="display:inline"'), raw=True)

In [None]:
## How to use query methods
# Using variable name in query 1
num_age = 10
num_weight = 30
str_expr = "(age == @num_age) and (weight >= @num_weight)"
df_q = df.query(str_expr, inplace=True)     

# Using variable name in query 2
num_age = 10
num_weight = 30
str_expr = f"(age == {num_age}) and (weight >= {num_weight})"
df_q = df.query(str_expr) 

# Using function in query
def my_max(x, y):
    return max(x,y)
str_expr = "age >= @my_max(1,22)"
df_q = df.query(str_expr) 

# Filter by index
str_expr = "index >= 2" 
df_q = df.query(str_expr)  

# query in string contains
str_expr = "name.str.contains('tiger')" 
df_q = df.query(str_expr)  

# query in string startswith/endswith
str_expr = "name.str.startswith('Tiger')"
df_q = df.query(str_expr)            

str_expr = "name.str.endswith('tiger')" 
df_q = df.query(str_expr)

In [None]:
# Using query methods for filtering
df[(df['a'] < df['b']) & (df['b'] < df['c'])]
df.query('(a < b) & (b < c)')
df.query('a < b and b < c')

# Example 2
df[~df['a'].isin(df['b'])]
df.query('a not in b')

# Example 3
df[df['b'].isin(["a", "b", "c"])]
df.query('c == [1, 2]')

In [None]:
# Seleting by label
df.loc['c':]

# Selecting Rows and Columns
df.loc[['a', 'b', 'd'], :]

In [None]:
# Setting value by slicing
df[:5] = 0

In [None]:
# Slicing 2n rows
df[::2]

In [None]:
# Changing Column value by iloc and dictionary
df.iloc[1] = {'Column_A': 9, 'Column_B': 99}

In [None]:
# nlargest, nssmallest example
df = pd.DataFrame(
     {
         "a": [-2, -1, 1, 10, 8, 11, -1],
         "b": list("abdceff"),
         "c": [1.0, 2.0, 4.0, 3.2, np.nan, 3.0, 4.0],
     }
 )

In [None]:
df

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
2,1,d,4.0
3,10,c,3.2
4,8,e,
5,11,f,3.0
6,-1,f,4.0


In [None]:
df.nlargest(3, "a")

Unnamed: 0,a,b,c
5,11,f,3.0
3,10,c,3.2
4,8,e,


In [None]:
df.nlargest(5, ["a", "c"])

Unnamed: 0,a,b,c
5,11,f,3.0
3,10,c,3.2
4,8,e,
2,1,d,4.0
6,-1,f,4.0


In [None]:
df.nsmallest(3, "a")

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
6,-1,f,4.0


In [None]:
df.nsmallest(5, ["a", "c"])

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
6,-1,f,4.0
2,1,d,4.0
4,8,e,


In [None]:
# How to use .pipe()
df_p.pipe(extract_city_name).pipe(add_country_name, country_name="US")

In [None]:
# Add rows with list
for n in range(11, 150):
    pick = random.choice(list_user)
    df_sponsorSenators.loc[n] = list([n+1, np.random.randint(300), pick[0], pick[1], pick[2],
                                 random.choice(list_message),
                                 random.choice(list_money),
                                 random.choice(list_email),
                                 random.choice(list_view)])

In [None]:
# Load csv limiting number of rows
data = pd.read_csv('Directory/name.csv', nrows=10000)

In [None]:
# Filter dataframe by dataframe example
  keys = list(df1.columns.values)
  i1 = df2.set_index(keys).index
  i2 = df1.set_index(keys).index
  df_year_replied_first_sent = df2[i1.isin(i2)]

In [None]:
# Pandas contains ignore case example
temp_2020['re_counts'] = temp_2020['title'].str.findall('Re:', flags=re.I).str.len()
temp_2020['org_title'] = temp_2020['title'].str.replace(r'(Re:|Fwd:)', '',flags=re.I).str.strip()

In [None]:
# to_dict() without index
hr[['EP_ID', '조직코드']].to_dict('r')

In [None]:
# Using function with multiple attributes in df using numpy vectorize
def adding(x,y):
    return x + ' ' + y

mail_times['근무종료'] = np.vectorize(adding)(mail_times['근무종료'],mail_times['근무_종료시간'])

In [None]:
# use map method in pandas by index
df = pd.DataFrame({'one': {'A': 10, 'B': 20, 'C': 30, 'D': 40, 'E': 50}})
map_dict = {'A': 'every', 'B': 'good', 'C': 'boy', 'D': 'does', 'E': 'fine'}

df['two'] = df.index.to_series().map(map_dict)

In [None]:
# How to read csv with error_bad_lines
df = pd.read_csv(data, error_bad_lines=False)

In [None]:
# use diff method to caculate difference between two continuous values in a column
df_temp['차이'] = df_temp['하차총승객수'].diff().abs()

In [None]:
# count duplicated rows
df.groupby(df.columns.tolist()).size().reset_index().\
    rename(columns={0:'records'})

In [None]:
# pandas contains a list of values
df_temp = bills[bills['발의자'].str.contains('|'.join(senator_list))]

In [None]:
  # groupby applying multiple functions
  dict_groupby_data[i] = dict_data[i].groupby('일시').agg({'기온(°Cx

In [None]:
# row마다 코드를 실행시켜야 할 때 itertuples를 쓰자
# iterrows보다 itertuples가 성능이 좋다.
for row in df.itertuples():
    yield TaggedDocument(words=dict(row._asdict())['all_orders'].split(),tags=[dict(row._asdict())['user_id']])

for row in df.itertuples():
    row._asdict()

In [None]:
# How to use apply method in groupby
prior_orders.groupby("user_id").apply(lambda order: ' '.join(order['product_id'].tolist()))

In [None]:
# column.dropLevel(0)
feature_department.columns = feature_department.columns.droplevel(0)

In [None]:
# Making corpus using orders and products (Word2Vec 학습)
product_corpus = []     
sentence = []
new_order_id = order_product_list[0][0]
for (order_id, product_id) in tqdm(order_product_list):
    '''
    order_id가 같으면 계속 sentence에 넣고
    order_id가 달라지면 sentence를 비우고 새로 넣기
    즉, 같은 order에 있는 product들을 하나의 corpus로 만들어주는 작업이다.
    '''
    if new_order_id != order_id:
        product_corpus.append(sentence)
        sentence = []
        new_order_id = order_id
    sentence.append(str(product_id))


# 위처럼 헤매지 말고 이렇게 하자 (Doc2Vec 학습)
prior_orders.groupby("user_id").apply(lambda order: ' '.join(order['product_id'].tolist()))

In [None]:
# Sort values by multiple columns
# using ENTER in one code
 merge_order_product_ds\
    .sort_values(['user_id','order_id','add_to_cart_order'])

In [None]:
# saving in different excel sheet
with pd.ExcelWriter('approval ver4.0.xlsx') as writer:
    emply.to_excel(writer, sheet_name = 'Employee')
    approval.to_excel(writer, sheet_name = '결재') 

In [None]:
# list minus list not using list comprehension
outer_index = list(set(email_drop_dup.index) - set(inner.index))

In [None]:
# 데이터프레임에서 데이터프레임 빼기f
a = pd.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) 
b = pd.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})

common = a.merge(b,on=['col1','col2'])

a[(~a.col1.isin(common.col1))&(~a.col2.isin(common.col2))]

In [None]:
# column에 특정 string이 포함 안되어있는 애들만 뽑기
df[(~df["폴더명"].str.contains('스팸')) & 
   (~df["폴더명"].str.contains('차단')) &
   (~df["폴더명"].str.contains('악성')) &d
   (~df["폴더명"].str.contains('스팸신고'))]

In [None]:
# pandas profiling 쓰는 법 (simple ver)
# profile 만들기
profile = df.profile_report()
profile

# 저장하기
profile.to_file("profile.html")

In [None]:
# pandas profiling 쓰는 법
import tqdm
import pandas as pd
import pandas_profiling
############ 한글 폰트 지정하는 부분 #################
import matplotlib
from matplotlib import font_manager, rc
import platform

if platform.system() == 'Windows':
# 윈도우인 경우
    font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
else:    
# Mac 인 경우
    font_name = font_manager.FontProperties(fname="/Library/Fonts/NanumBarunGothic.ttf").get_name()
    rc('font', family='AppleGothic')
    
matplotlib.rcParams['axes.unicode_minus'] = False   
#그래프에서 마이너스 기호가 표시되도록 하는 설정입니다.

# profile 만들기
profile = 식당.profile_report()
profile

# 저장하기
profile.to_file("profile.html")

In [None]:
# replacing column value not using map method
df_temp.replace({"메뉴명": dict_menu})

In [None]:
# Dataframe to dictionary (for json)
T2_model.everytime_scheduler(T2_model.all_combinations())[0].fillna('0').T.to_dict()

In [None]:
# list에 있는 column value를 str으로 풀어주는 방법
df_without_nan['list2str'] = [' '.join(map(str, l)) for l in df_without_nan['proposed_senators']]

# 이렇게도 가능
def list2str(data):
    result = ' '.join(data)
    return result

df['BOW'] = (df['ingredient'] + df['taglst']).apply(list2str)

In [None]:
# changing value with loc in dataframe
df_final.loc[(df_final['x'] == df_final.iloc[41]['x']) & (df_final['y']==df_final.iloc[41]['y']), ['소속위원회']] ='과학기술정보방송통신위원회'
df_final.loc[(df_final['x'] == df_final.iloc[42]['x']) & (df_final['y']==df_final.iloc[42]['y']), ['소속위원회']] ='행정안전위원회'

In [None]:
# pandas progress_apply 함수 사용법
from tqdm import tqdm

tqdm.pandas()

bills['tokenized'] = bills['법안명_법안내용'].progress_apply(tokenized_mecab)

# lambda를 쓰는 법
bills['cleared'] = bills['tokenized'].progress_apply(lambda x: out_stopwords(x, list_stopwords = list_stopword))

In [None]:
# apply function with more than two arguments
def subtract_and_divide(x, sub, divide=1):
    return (x - sub) / divide

df.apply(subtract_and_divide, args=(5,), divide=3)

# Another example
def subtract(x, y, z):
    return x - y - z

df = df.apply(subtract, args=(1, 2))

# Another example
df['NewCol'] = df.apply(lambda x: \
                        functionName(x['TimeCol'], x['ResponseCol']), axis=1)


In [None]:
# dataframe에 2가지 넘는 argument 함수 적용하기
bills['cleared'] = bills.apply(lambda x: out_stopwords(bills['tokenized'].str, "/Users/junghyunwoo/혀누에-의한-혀누를-위한-혀누의/공부공부공부공부/대학 이후/대학 관련/연세대학교/2020-1 3학년 2학기/데이터마이닝이론및응용 (손소영)/팀 프로젝트/기말 프로젝트/1차_stopwords 추가/stopwords ver1.0.txt"), axis=1)

# progress_apply를 활용하면서
bills['cleared'] = bills['tokenized'].progress_apply(lambda x: out_stopwords(x, list_stopwords = list_stopword))

In [None]:
# ~ 예시
phar = phar[~phar['상호명'].str.contains('전자담배')]

In [None]:
# dataframe 전체에 for문 적용할 때
for index in df.index:
  cost = df.loc[index].columnName
  # 이런 식으로 index를 훑을 수 있다!

In [None]:
# multiple condition
temp[(temp['freq_sns1'] =='facebook') or (temp['freq_sns1'] =='instagram') or (temp['freq_sns1'] =='kakaostory')]

In [None]:
# drop_duplicates keep, subset 예시
products.drop_duplicates(inplace=True, subset='StockCode', keep="last")

In [None]:
# 원하는 시간대 가져오기
data[pd.Timestamp("2012-01-01 09:00"):pd.Timestamp("2012-01-01 19:00")]

data['2012-01-01 09:00':'2012-01-01 19:00']

In [None]:
# scatter_matrix 예시
from pandas.plotting import scatter_matrix

attributes = ["median_house_value", "median_income", "total_rooms",
              "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))
save_fig("scatter_matrix_plot")

In [None]:
# corr_matrix 예시
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

In [None]:
# 특정한 것을 포함하는 행들을 찾고 싶을 때 contains 함수 사용
df[df['Name'].str.contains('al')].head()

In [None]:
# startswith, str 예시
df[df['Name'].str.startswith('B')].head()

In [None]:
# isin 예시
df[df['Name'].isin(['Braund, Mr. Owen Harris','Heikkinen, Miss. Laina'])]

In [None]:
# column drop 하기
df = df.drop(columns=['index'])

In [None]:
# 특정 column을 기준으로 순서를 정렬하고 싶을 때
df.sort_values('Name',ascending=True)

In [None]:
# .loc 예시
df.loc[df['성별'] == 'male', '성별'] = 0 
df.loc[df['성별'] == 'female', '성별'] = 1

df.loc[df['관심사'] == '축구', '관심사'] = 0 
df.loc[df['관심사'] == '야구'', '관심사'] = 1

In [None]:
# dropna, subset, nan값이 있는 column의 row를 날리기, 
temp_dropna = temp_dropna.dropna(subset=['quota', 'participants'])

In [None]:
# str, contain, na
df_final.loc[df_final['Name'].str.contains('Mr\.', na=False), 'Name' ] = 0
df_final.loc[df_final['Name'].str.contains('Mrs\.', na=False), 'Name' ] = 1
df_final.loc[df_final['Name'].str.contains('Miss\.', na=False), 'Name' ] = 2
df_final.head()

In [None]:
# .cut()
## 예시1
kills = sample.copy()
kills['killsCategories'] = pd.cut(kills['kills'], 
                                  [-1, 0, 2, 5, 10, 60],
                                  labels=['0_kills','1-2_kills', '3-5_kills', '6-10_kills', '10+_kills'])

In [None]:
# contain 예시
cs_df = course_df.loc[course_df['id'].str.contains('CSI')]

In [None]:
# loc 예시
# temp(difference)가 -6보다 작은 데이터는 -6으로 통일시켜줍니다.
train.loc[train["temp(difference)"] < -6, "temp(difference)"] = -6

# 비슷하게, temp(difference)가 0보다 큰 데이터는 0으로 통일시켜줍니다.
train.loc[train["temp(difference)"] >  0, "temp(difference)"] = 0

In [None]:
# mul 예시
df.mul([1, 100], axis=0)

In [None]:
# boolean column 만들기
father_df['전화주문고객'] =  father_df['주문자ID'].str[:2] == 'pp'

In [None]:
# .quantile()
data = sample.copy()
data.loc[data['kills'] > data['kills'].quantile(0.99)] = '8+'
plt.figure(figsize=(15,10))
sns.countplot(data['kills'].astype('str').sort_values())d
plt.title("Kill Count",fontsize=15)
plt.show()

In [None]:
# 샘플 뽑기
sample = train.sample(frac=0.1, random_state=20191005)

In [None]:
# outlier 제거하는 방법
train_X = train_X[train_X['LotFrontage'] <= 300]
train_X = train_X[train_X['Evaluate_Garage'] <= 200000]
train_X = train_X[train_X['Evaluate_Bsmt'] <= 4000000]

In [None]:
# .corrwith()
corr_data = train_df[numerical_feature].corrwith(train_df['SalePrice']).sort_values(ascending=False)

In [None]:
# .index로 index 설정해주기
Big_df.index = range(len(Big_df))

In [None]:
# fillna()
X_train['Age']=X_train.Age.fillna(X_train.Age.mean())

In [None]:
# creating new column
gender = {'male':0, 'female':1}
df_train['Sex'] = [gender[item] for item in df_train.Sex]
df_test['Sex'] = [gender[item] for item in df_test.Sex]
df_train.head()

In [None]:
# pd.cut
bins = [0, 25, 50, 75, 100]
group_names = ['Low', 'Okay', 'Good', 'Great']
categories = pd.cut(df['postTestScore'], bins, labels=group_names)
categories

In [None]:
# value_counts()
df['categories'] = pd.cut(df['postTestScore'], bins, labels=group_names)
pd.value_counts(df['categories'])

In [None]:
# pandas matplotlib
fig = plt.figure()
fig.set_size_inches(10,5)
ax_1 = fig.add_subplot(1,2,1)
ax_2 = fig.add_subplot(1,2,2)
ax_1.plot(df_data["MEDV"])
ax_2.hist(df_data["MEDV"], bins=50)
ax_1.set_title("House price MEDV")
ax_2.set_title("Hous price MEDV")

In [None]:
# enumerate
for i,child in enumerate(file["features"]) :
    print(i,child["properties"]["SIG_KOR_NM"])

In [None]:
# .repeat
## 예제1
s = pd.Series(['a','b','c'])
s = pd.concat([s.repeat(2), s.repeat(3)])
s.head()
 
## 예제2
gangnam = pd.read_csv('data/gangnam_cctv.csv', encoding='cp949')
gangnam2 = gangnam[['위도','경도','카메라대수']]
gangnam2.shape
gangnam3 = (
    pd.concat([gangnam2["위도"].repeat(gangnam2["카메라대수"]), 
                           gangnam["경도"].repeat(gangnam["카메라대수"])], 
                           axis=1)
        .reset_index(drop = True))
gangnam3

In [None]:
# .factorize() ㅈ예시
housing_cat_encoded, housing_categories = housing_cat.factorize()
housing_cat_encoded[:10]

In [None]:
# .hist()
df['Age'].hist()

In [None]:
# set_index, reset_index
df = df.set)index(['A', 'B'])

result = df['C'].unstack()

df = result.stack().reset_index(name='C')

In [None]:
# .map과 dict을 사용해서 column 채우기
weight_dict = {3:"M", 4:"L", 5:"XL"}
edges["weight_sign"] = edges["weight"].map(weight_dict)
edges

In [None]:
# get_dummies()
df_dum = pd.get_dummies(df['pclass'])

df_train = pd.get_dummies(df_train, prefix = ['Cabin'], columns=['Cabin'])

df_dum = pd.get_dummies(df)

temp = pd.get_dummies(temp, columns = ['Age_cut'])

In [None]:
# DataFrame 만들기

## 예제1
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
        'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'],
        'age': [42, 52, 36, 24, 73],
        'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df


## 예제2
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_a


## 예제3
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
df_countries = pd.DataFrame(data)
df_countries
.pivot(index=, columns
       
       
## 예제4
df = pd.DataFrame({'Fare': [7.25, 71.2833, 51.8625, 30.0708, 7.8542, 13.0],
                   'Pclass': [3, 1, 1, 2, 3, 2],
                   'Sex': ['male', 'female', 'male', 'female', 'female', 'male'],
                   'Survived': [0, 1, 0, 1, 0, 1]})
       


Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boston


In [None]:
# del: 삭제하기
del df['city']
df

Unnamed: 0,first_name,last_name,age
0,Jason,Miller,42
1,Molly,Jacobson,52
2,Tina,Ali,36
3,Jake,Milner,24
4,Amy,Cooze,73


In [None]:
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
        'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'],
        'age': [42, 52, 36, 24, 73],
        'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boston


In [None]:
df.age > 40

0     True
1     True
2    False
3    False
4     True
Name: age, dtype: bool

In [None]:
df['debt'] = df.age > 40
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,True
1,Molly,Jacobson,52,Baltimore,True
2,Tina,Ali,36,Miami,False
3,Jake,Milner,24,Douglas,False
4,Amy,Cooze,73,Boston,True


In [None]:
df_train['Age_mean'] = df_train.Age_mean.fillna(df_train.Title.map({'Master':5, 'Miss':22, 'Mr':33, 'Mrs':36, 'Other':46}))

In [None]:
dict_data = {"a":1, "b":2, "c":3, "d":4, "e":5}
example_obj = Series(dict_data, dtype=np.float32, name="example_data")
example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

In [None]:
example_obj.to_dict()

In [None]:
example_obj.values

In [None]:
example_obj.index

In [None]:
example_obj.name = "number"
example_obj.index.name = "alphabet"
example_obj

In [None]:
s = pd.Series([0.1, 0.2, 0.3, 0.4])

In [None]:
# .index: Index 정보를 알려줌
s.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
# .values: Value 값들을 보여줌
s.values

array([0.1, 0.2, 0.3, 0.4])

In [None]:
# Indexing
s[0]

0.1

In [None]:
# Dict을 Series data로 만드는 방법
pop_dict = {'Germany': 81.3, 
            'Belgium': 11.3, 
            'France': 64.3, 
            'United Kingdom': 64.9, 
            'Netherlands': 16.9}
population = pd.Series(pop_dict)
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

In [None]:
population / 100

Germany           0.813
Belgium           0.113
France            0.643
United Kingdom    0.649
Netherlands       0.169
dtype: float64

In [None]:
# .mean(): 바로 연산을 해도 됨
population.mean()

47.739999999999995

In [None]:
# Dataframe 만들기
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

Unnamed: 0,country,population,area,capital
0,Belgium,11.3,30510,Brussels
1,France,64.3,671308,Paris
2,Germany,81.3,357050,Berlin
3,Netherlands,16.9,41526,Amsterdam
4,United Kingdom,64.9,244820,London


In [None]:
# .index: index를 보여줌
countries.index

Index(['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'], dtype='object', name='country')

In [None]:
# .columns: columns를 보여줌
countries.columns

Index(['population', 'area', 'capital'], dtype='object')

In [None]:
# .dtypes: Columns들의 type을 보여줌
countries.dtypes

population    float64
area            int64
capital        object
dtype: object

In [None]:
# .info(): index, columns 갯수, type 등을 보여줌
countries.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Belgium to United Kingdom
Data columns (total 3 columns):
population    5 non-null float64
area          5 non-null int64
capital       5 non-null object
dtypes: float64(1), int64(1), object(1)
memory usage: 320.0+ bytes


In [None]:
# .values: 각 index의 value 값들을 보여줌
countries.values

array([[11.3, 30510, 'Brussels'],
       [64.3, 671308, 'Paris'],
       [81.3, 357050, 'Berlin'],
       [16.9, 41526, 'Amsterdam'],
       [64.9, 244820, 'London']], dtype=object)

In [None]:
countries.columns

Index(['population', 'area', 'capital'], dtype='object')

In [None]:
# .set_index(' '): 해당 column을 index로 바꿔줌
countries = countries.set_index('country')
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


In [None]:
countries['area']

country
Belgium            30510
France            671308
Germany           357050
Netherlands        41526
United Kingdom    244820
Name: area, dtype: int64

In [None]:
countries['population'] / countries['area']

country
Belgium           0.000370
France            0.000096
Germany           0.000228
Netherlands       0.000407
United Kingdom    0.000265
dtype: float64

In [None]:
# 1개의 column을 뽑아서 min, max, mean, median 등의 연산도 가능
countries['area'].min()

30510

In [None]:
# .loc 예시
# redefining the example objects

# series
population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3, 
                        'United Kingdom': 64.9, 'Netherlands': 16.9})

# dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries = countries.set_index('country')
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


In [None]:
countries.loc['Germany', 'area']

357050

In [None]:
countries.loc[countries['density'] > 300, ['capital', 'population']]

Unnamed: 0_level_0,capital,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11.3
Netherlands,Amsterdam,16.9


In [None]:
countries.loc['France':'Germany', ['area', 'population']]

Unnamed: 0_level_0,area,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
France,671308,64.3
Germany,357050,81.3


In [None]:
# .iloc 예시
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


In [None]:
countries.iloc[0:2,1:3]

Unnamed: 0_level_0,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,30510,Brussels
France,671308,Paris


In [None]:
# 조건에 맞는 데이터 뽑기
## List the supporting roles (having n=2) played by Cary Grant in the 1940s, in order by year.
cast = cast[cast.name == 'Cary Grant']
cast = cast[cast.year // 10 == 194]
cast = cast[cast.n == 2]
cast = cast.sort('year')
cast

In [None]:
# 조건에 맞는 데이터 뽑기
df = df[df.line_race != 0]

In [None]:
df = pd.read_csv("data/titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
df_info = df[["Age","Fare"]]
df_info.head()

Unnamed: 0,Age,Fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [None]:
f = lambda x : x.max() - x.min()
df_info.apply(f)

Age      79.5800
Fare    512.3292
dtype: float64

In [None]:
df_info.apply(sum)

Age            NaN
Fare    28693.9493
dtype: float64

In [None]:
def f(x):
    return Series([x.min(), x.max(), x.mean()], 
                    index=["min", "max", "mean"])
df_info.apply(f)

Unnamed: 0,Age,Fare
min,0.42,0.0
max,80.0,512.3292
mean,29.699118,32.204208


In [None]:
f = lambda x : -x
df_info.applymap(f).head(5)

Unnamed: 0,Age,Fare
0,-22.0,-7.25
1,-38.0,-71.2833
2,-26.0,-7.925
3,-35.0,-53.1
4,-35.0,-8.05


In [None]:
f = lambda x : -x
df_info["Age"].apply(f).head(5)

0   -22.0
1   -38.0
2   -26.0
3   -35.0
4   -35.0
Name: Age, dtype: float64

In [None]:
users[lambda x: x.gender == 'F']

In [None]:
# isin
countries[lambda x: x.capital.isin(['Berlin', "London"])]

Unnamed: 0_level_0,population,area,capital,density
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Germany,81.3,357050,Berlin,227.699202
United Kingdom,64.9,244820,London,265.092721


In [None]:
#stratswith
countries['capital'].str.startswith('B')

country
Belgium            True
France            False
Germany            True
Netherlands       False
United Kingdom    False
Name: capital, dtype: bool

In [None]:
countries[countries['capital'].str.len() > 7]

Unnamed: 0_level_0,population,area,capital,density
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Belgium,11.3,30510,Brussels,370.37037
Netherlands,16.9,41526,Amsterdam,406.973944


In [None]:
countries[countries['capital'].str.contains('am')]

Unnamed: 0_level_0,population,area,capital,density
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Netherlands,16.9,41526,Amsterdam,406.973944


In [None]:
# sort
titles[titles.title == 'Treasure Island'].sort('year')

In [None]:
# sort
titles.sort('year').head(2)

In [None]:
# 조건에 맞는 데이터 groupby하기
df_phone[df_phone['item'] == 'call'].groupby('month')['duration'].sum()

In [None]:
# endswith
files = [file_name for file_name in os.listdir("./data") if file_name.endswith("xlsx")]
files.remove("excel-comp-data.xlsx")
files.remove('df_routes.xlsx')
files

In [None]:
# astype(), str 형태로 column 바꾸기
## 예제1
df[['A','C'].astype(str) 

## 예제2
int_but_object_data =['BsmtFullBath', 'BsmtHalfBath', 'MSSubClass']
for col in int_but_object_data:
    Big_df[col] = Big_df[col].astype('object')

In [None]:
# .isin
df = df[df["subclass"].isin(list("ABCEDFGHIJKLMNOPQRSTUVWXYZ"))]

In [None]:
# .tolist
dz_list = dizhi.values.tolist()

## 🔎 Save and Read files

- **pd. read_csv ( " 데이터 이름 및 주소 " , sep = ' 빈공간으로 지정 ' , header = ' ', index_col = , parse_dates=True, usecols = [ ' ' ] ,  na_values= " " )**: 파일 불러오기, parse_dates를 True로 놓으면 datetime으로 읽어온다. 아니면 parse_date=['칼럼 이름'] 이렇게 해도 된다.
<br>
na_values를 설정해주면 해당 값을 NaN으로 변환해서 불러온다.

  **pd. read_csv ( " index_col = [ 0 ] )** : 이렇게 하면 앞에 unnamed:0 column을 없앨 수 있음
- **.to_excel ( " 제목.xlsx " ,  sheet_name = ' 이름 ' )**: 엑셀로 저장하기
- **.to_csv ( " 제목.csv " , index = False , encoding = " euc-kr ")**: 엑셀로 저장하기. 뒤에 encoding 저렇게 하면 그냥 열었을 때 한글이 안 깨짐

<h2> Using Openpyxl </h2>

- **openpyx .Workbook()** : 새로운 excel workbook을 만들어냄
- **sheet .active**: 현재 활성화된 worksheet을 보여줌
- **sheet .append**: 리스트 형식으로 붙임
- **sheet .title**: sheet 이름을 변경
- **openpyxl .Workbook() .create_sheet ( " sheet 이름 " )**: 새로운 시트를 만들기
- **sheet [ ' cell location ' ] = str or int**: 특정 cell에 값을 넣어주고 싶을 때
 
  **sheet. cell ( row = , column = ) .value = str or int**: 이렇게 cell에 값을 넣어줄 수도 있음
- **openpyxl.Workbook().save('이름.형식')** : 저장하기

### 📔 Examples

In [None]:
# 예시 4
wb = openpyxl.Workbook()

# sheet1은 활성화되 있는 시트를 선택
sheet1 = wb.active
# sheet1의 시트이름 변경
sheet1.title = "1st sheet"

# 새로운 시트 만들고 sheet2에 저장
sheet2 = wb.create_sheet("2nd sheet")

# sheet1과 sheet2에 동시에 데이터 쓰기
for i in range(1, 10):
    sheet1.cell(row=i, column=1).value = i
    sheet2.cell(row=1, column=i).value = i

wb.save('test.xlsx')

In [None]:
# 예시 3
# openpyxl을 가져옵니다.
import openpyxl

# 워크북(엑셀파일)을 새로 만듭니다.
wb = openpyxl.Workbook()

# 현재 활성화된 시트를 선택합니다.
sheet = wb.active
# A1셀에 hello world!를 입력합니다.
sheet['A1'] = 'hello world!'

sheet.cell(row=3, column=3).value = "hello world"


# 워크북(엑셀파일)을 원하는 이름으로 저장합니다.
wb.save('test.xlsx')

In [None]:
# Openpyxl 예시 1
# 네이버 e북 데이터 수집 결과 파일로 저장하기
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(["책제목", "저자"])

for n in range(1, 6):
    raw = requests.get("https://series.naver.com/ebook/top100List.nhn?page="+str(n), 
                  headers={'User-Agent':'Mozilla/5.0'})
    html = BeautifulSoup(raw.text, "html.parser")
    container = html.select("div.lst_thum_wrap li")
    try:
        for cont in container:
            title = cont.select_one("a strong").text.strip()
            author = cont.select_one("span.writer").text.strip()
            sheet.append([title, author])
    except:
        continue

wb.save("week4_homework_1.xlsx")

In [None]:
# Openpyxl 예시 2
# 컨테이너, 제목, 기사요약
# 페이지 넘어가기
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(["기사", "내용"])

for n in range(1, 6):
    raw = requests.get("https://search.daum.net/search?w=news&q=코알라&p="+str(n))
    html = BeautifulSoup(raw.text, 'html.parser')
    container = html.select("div.wrap_cont")
    
    for cont in container:
        title = cont.select_one("a.f_link_b").text.strip()
        summary = cont.select_one("p.f_eb.desc").text.strip()
        sheet.append([title, summary])
wb.save("week4_homework_2.xlsx")

## 🔎 Simple Plotting & Styling

- **plt .figure ( ) .set_size_inches ( , )**: 그림이 그려질 사이즈를 정함
- **.add_supbplot ( )**: 그림이 어디에 위치할지 정해줌
- **.set_title ( " 제목 " )**: 제목을 달아줌
- **.scatter ( data1 , data2, color = ' ' , label = ' ' )**: scatter plot 그리기
- **.hist ( data, bins = )**: histogram을 그려줌, bins는 기둥의 갯수
- **.plot ( )**: 전체 데이터의 graph를 그려줌
 
  **.plot ( kind = ' ' , xlim = [ , ], ylim = [ , ] , figsize = ( , ) )**: 원하는 plot을 그려줌
  - kind: bar, pie, hist, kde, box, scatter, area
  - xlim: x축의 최소값~최대값을 설정
  - ylim: y축의 최소값~최대값을 설정
  - figsize: 크기를 결정
- **pd .scatter_matirx ( data, diagonal = " ", alpha = , figsize = ( , ))**: scatter matrix그리기!

### 📔 Examples

In [None]:
# Simple styling
def color_negative_red(val):
    """
    Takes a scalar and returns a string with
    the css property `'color: red'` for negative
    strings, black otherwise.
    """
    color = 'red' if val < 0 else 'black'
    return 'color: %s' % color

def highlight_max(s):
    '''
    highlight the maximum in a Series yellow.
    '''
    is_max = s == s.max()
    return ['background-color: yellow' if v else '' for v in is_max]

In [None]:
# Styling example 1
df.style.\
    applymap(color_negative_red).\
    apply(highlight_max)

Unnamed: 0,A,B,C,D,E
0,1.0,1.329212,,-0.31628,-0.99081
1,2.0,-1.070816,-1.438713,0.564417,0.295722
2,3.0,-1.626404,0.219565,0.678805,1.889273
3,4.0,0.961538,0.104011,,0.850229
4,5.0,1.453425,1.057737,0.165562,0.515018
5,6.0,-1.336936,0.562861,1.392855,-0.063328
6,7.0,0.121668,1.207603,-0.00204,1.627796
7,8.0,0.354493,1.037528,-0.385684,0.519818
8,9.0,1.686583,-1.325963,1.428984,-2.089354
9,10.0,-0.12982,0.631523,-0.586538,0.29072


In [None]:
# Styling example 2
df.style.apply(highlight_max, subset=['B', 'C', 'D'])

Unnamed: 0,A,B,C,D,E
0,1.0,1.329212,,-0.31628,-0.99081
1,2.0,-1.070816,-1.438713,0.564417,0.295722
2,3.0,-1.626404,0.219565,0.678805,1.889273
3,4.0,0.961538,0.104011,,0.850229
4,5.0,1.453425,1.057737,0.165562,0.515018
5,6.0,-1.336936,0.562861,1.392855,-0.063328
6,7.0,0.121668,1.207603,-0.00204,1.627796
7,8.0,0.354493,1.037528,-0.385684,0.519818
8,9.0,1.686583,-1.325963,1.428984,-2.089354
9,10.0,-0.12982,0.631523,-0.586538,0.29072


In [None]:
# Bar charts
df.style.bar(subset=['A', 'B'], color='#d65f5f')

Unnamed: 0,A,B,C,D,E
0,1.0,1.329212,,-0.31628,-0.99081
1,2.0,-1.070816,-1.438713,0.564417,0.295722
2,3.0,-1.626404,0.219565,0.678805,1.889273
3,4.0,0.961538,0.104011,,0.850229
4,5.0,1.453425,1.057737,0.165562,0.515018
5,6.0,-1.336936,0.562861,1.392855,-0.063328
6,7.0,0.121668,1.207603,-0.00204,1.627796
7,8.0,0.354493,1.037528,-0.385684,0.519818
8,9.0,1.686583,-1.325963,1.428984,-2.089354
9,10.0,-0.12982,0.631523,-0.586538,0.29072


In [None]:
df.style.bar(subset=['A', 'B'], align='mid', color=['#d65f5f', '#5fba7d'])

Unnamed: 0,A,B,C,D,E
0,1.0,1.329212,,-0.31628,-0.99081
1,2.0,-1.070816,-1.438713,0.564417,0.295722
2,3.0,-1.626404,0.219565,0.678805,1.889273
3,4.0,0.961538,0.104011,,0.850229
4,5.0,1.453425,1.057737,0.165562,0.515018
5,6.0,-1.336936,0.562861,1.392855,-0.063328
6,7.0,0.121668,1.207603,-0.00204,1.627796
7,8.0,0.354493,1.037528,-0.385684,0.519818
8,9.0,1.686583,-1.325963,1.428984,-2.089354
9,10.0,-0.12982,0.631523,-0.586538,0.29072


In [None]:
# Styling tables
from IPython.display import HTML

def hover(hover_color="#ffff99"):
    return dict(selector="tr:hover",
                props=[("background-color", "%s" % hover_color)])

styles = [
    hover(),
    dict(selector="th", props=[("font-size", "150%"),
                               ("text-align", "center")]),
    dict(selector="caption", props=[("caption-side", "bottom")])
]
df.style.set_table_styles(styles)\
          .set_caption("Hover to highlight.")

Unnamed: 0,A,B,C,D,E
0,1.0,1.329212,,-0.31628,-0.99081
1,2.0,-1.070816,-1.438713,0.564417,0.295722
2,3.0,-1.626404,0.219565,0.678805,1.889273
3,4.0,0.961538,0.104011,,0.850229
4,5.0,1.453425,1.057737,0.165562,0.515018
5,6.0,-1.336936,0.562861,1.392855,-0.063328
6,7.0,0.121668,1.207603,-0.00204,1.627796
7,8.0,0.354493,1.037528,-0.385684,0.519818
8,9.0,1.686583,-1.325963,1.428984,-2.089354
9,10.0,-0.12982,0.631523,-0.586538,0.29072


In [None]:
# Hiding index
df.style.hide_index()

A,B,C,D,E
1.0,1.329212,,-0.31628,-0.99081
2.0,-1.070816,-1.438713,0.564417,0.295722
3.0,-1.626404,0.219565,0.678805,1.889273
4.0,0.961538,0.104011,,0.850229
5.0,1.453425,1.057737,0.165562,0.515018
6.0,-1.336936,0.562861,1.392855,-0.063328
7.0,0.121668,1.207603,-0.00204,1.627796
8.0,0.354493,1.037528,-0.385684,0.519818
9.0,1.686583,-1.325963,1.428984,-2.089354
10.0,-0.12982,0.631523,-0.586538,0.29072


In [None]:
# exports to excel with style
df.style.\
    applymap(color_negative_red).\
    apply(highlight_max).\
    to_excel('styled.xlsx', engine='openpyxl')

In [None]:
# .plot
## 예제1
no2['BASCH'].plot(kind='hist', bins=50)

## 예제2
no2.plot(figsize=(20,6))

## 예제3
no2[-500:].plot(figsize=(12,6))        # 가장 최근 500개 데이터만 불러오기

## 예제4
df.plot(kind='box', ylim=[0,250])

## 예제5, 시계열, time series
data['1999':].resample('M').mena().plot(ylim=[0,120])

In [None]:
# 원하는 Data 뽑기
fig, ax = plt.subplots()
data.loc['2011':'2012', 'L06_347'].resample('M').mean().plot(ax=ax)
data.loc['2011':'2012', 'L06_347'].resample('M').median().plot(ax=ax)
ax.legend(["mean", "median"])

# 이렇게도 가능!
data.loc['2011':'2012', 'L06_347'].resample('M').agg(['mean', 'median']).plot()

In [None]:
# 원하는 data만 뽑아서 가로 bar plot 그리기
fig, ax = plt.subplots()
data['2013'].mean().plot(kind='barh', ax=ax)

## 🔎 Pandas with Regular Expression

[정규식은 여기 참조!](https://wikidocs.net/4308)
> 문자 클래스 [ ]
- [ ]사이의 문자들과 매치하라는 의미
- [ ]안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위를 의미함
- [a-zA-Z]: 알파벳 모두
- [0-9]: 숫자 모두

> .
- . 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치함을 의미

> *
- 정규표현식의 *은 * 바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있다는 의미

> +
- +는 최소 1번 이상 반복될 때 사용한다. 즉 *가 반복 횟수 0부터라면 +는 반복 횟수 1부터인 것이다.

> {m,n}
- m회에서 n회까지만 반복됨을 의미

> ?
- 반복이 될수도, 안될수도 있다는 의미. {0,1}과 같은 용도

> $
- 문자열의 마지막을 의미.

### 📔 Examples

In [None]:
# replace string with regex
df.str.replace(r"-\$", "-", regex=True)

In [None]:
# 종목번호에 K 또는 L이 들어간 주식을 찾고 싶다면
df[df['종목번호'].str.contains('[KL]', regex=True)]

In [None]:
# 코로 시작해서 피로 끝나는 것을 찾고 싶다면
df[df['시장구분'].str.contains('코.피', regex=True)]

In [None]:
# 케이하고 씨가 반복되는 것을 찾고 싶으면
df[df['종목명'].str.contains('케이씨*', regex=True)]

# 케이씨가 반복되는 것을 찾으려면
df[df['종목명'].str.contains('(케이씨)*', regex=True)]

In [None]:
# 종목 중에서 '케이'하고 '씨'가 1번 이상 반복되는 종목들
df[df['종목명'].str.contains('케이씨+', regex=True)]

In [None]:
# '케이' 뒤에 '씨'가 2번 반복하는 것을 찾기
df[df['종목명'].str.contains('케이씨{2}', regex=True)]

In [None]:
# '스'로 끝나는 종목을 찾기
df[df['종목명'].str.contains('스$', regex=True)]

In [None]:
# 종목 중에서 '우'로 끝나거나 '우' 뒤에 1글자가 더 붙을 때
df[df['종목명'].str.contains('우.?$', regex=True)]

## 🔎 Groupby, Pivot table, crosstab

> groupby란?  
- 사용자가 행 인덱스, 열 인덱스로 사용하여 해당하는 데이터 반환

- **.groupby ( key ) [ column ] .operation( )**: Groupby의 기본 문법
- **.groupby ( key , as_index = Falese ) [ column ] .operation( )**: 이러면 index 설정을 막을 수 있음
- **.groupby ( key ) [ [ column ] ] .operation( )**	Groupby 결과를 Dataframe으로 보기
- **.groupby ( ' key ' ) .aggregate ( )**: aggregate 안에 원하는 분석 메소드를 넣을 수 있음 e.g) np.sum
- **.groupby ( [ ' key1 ' , ' key2 ' ] ) .agg([oper1] )**: agg에 원하는 분석 메소드를 넣을 수 있음

  **.agg([oper1, oper2, oper3]**: operation을 많이 넣고 싶으면 이렇게 하면 됨!
- **.groupby ( [ ' value ' , ' value2 ' ] ) .agg ( { ' column1 ' : oper1, ' column2 ': oper2, ' column3 ' : oper3 } )**: 각각 다른 column에 func, operation을 다르게 하고 싶을 때

 **.groupby ( [ ' value1 ' , ' value2 ' ] ) .agg ( { ' column1 ' : oper1 , ' column2 ': oper2, ' column3 ' : [oper3, ' oper4 ', oper5] } )**: 여러 개 operation을 넣고 싶으면 이렇게 하면 됨!
 
 **.groupby ( ' key ' ) .agg ( { "column" :  [oper1 , oper2 ] } )**: 간단하게 정리하면 요로로콤!
 
- **.unstack( )**: dataframe으로 만들어줌
- **.stack( )**: dataframe을 부숨
- **.swaplevel()**: 순서대로 정리
- **.sort_values()**: value를 순서대로 정리

  **.sort_values(by=['column1', 'column2'], ascending=False)**: sort_value에서 column을 지정해줄 수 있고 ascending을 false로 해서 내림차순으로 정리가능
- **.sort_index()**: index 순서대로 정리
- **.transform(func)**: value를 func에 따라서 변환
- **.filter(func)**: func에 맞는 value만 반환
- **.droplevel ( level = )**: level을 drop한다.


> Pivot table, crosstab  
- 두 개의 열을 행 index, 열 index를 사용하여 표로 나타낸 것.

- **pivot_table ( data, index = None, columns = None, values = None, aggfunc = ' mean ', fill_value = None, margins = False, margins_name = ' All ')**
  - data: 분석할 데이터프레임 (메서드일 때는 필요하지 않음)
  - values: 분석할 데이터프레임에서 분석할 열
  - index: 행 인덱스로 들어갈 키 열 또는 키 열의 리스트
  - columns: 열 인덱스로 들어갈 키 열 또는 키 열의 리스트
  - aggfunc: 분석 메서드
  - fill_value: NaN 대체 값
  - margins: 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
  - margins_name: 마진 열(행)의 이름

- **.pivot_table ( [ 'Title' ], index = , columns = , aggfunc = ' ', fill_value = )**: pivot table 만들기

  **.pivot_table ( [ 'Title' ], index = , columns = , values = , aggfunc = ' ' )**: pivot table 만들기
- **pd .met ( )**: pivot table을 pivot하기 전 원래의 형태로 돌려준다.

- **pd.crosstab ( index, columns, values = , aggrunc = )**: crosstab 만드는 기본 공식




### 📔 Examples

In [None]:
# pd.melt
pd.melt(pivoted)

In [None]:
# groupby
users.groupby('gender')['age'].mean()

In [None]:
# groupby
df.groupby(["Student", "Active"]).size().unstack()

In [None]:
# groupby
df.groupby(['Pclass', 'Sex'])['Survived'].mean()

In [None]:
# groupby
users.groupby('gender')[['age']].mean()

In [None]:
# groupby
df.groupby('key').aggregate(np.sum)

In [None]:
# groupby, aggregate
def ratio(x):
 			       return x.sum() / x.count()
df.groupby('Sex')['Survived'].aggregate(ratio)

In [None]:
# groupby, agg
df.groupby('A').agg(['min', 'max'])

In [None]:
# groupby, agg
df.groupby('A').agg({'B': ['min', 'max'], 'C': 'sum'})

In [None]:
# groupby, agg
df_movie.groupby(["critic","title"]).agg({"rating":"first"}).unstack().fillna(0)

In [None]:
# groupby, agg
grouped = abalone.groupby(['sex', 'length_cat'])

function_list = ['size', 'mean', 'std']

groupby_result = grouped['whole_weight', 'shell_weight'].agg(function_list)

groupby_result

In [None]:
# transform
score = lambda x: (x - x.mean()) / x.std()
grouped.transform(score)

In [None]:
# filter
df.groupby('Team').filter(lambda x: len(x) >= 3)

In [None]:
# filter
df.groupby('Team').filter(lambda x: x["Points"].max() > 800)

In [None]:
# 여러 column과 그에 따른 다른 함수가 올 수 있게 하기
df_phone.groupby(['month', 'item']).agg({'duration':sum,      # find the sum of the durations for each group
                                     'network_type': "count", # find the number of network type entries
                                     'date': 'first'})    # get the first date per group

In [None]:
# 여러 개 column, operation 넣기
df_phone.groupby(['month', 'item']).agg({'duration': [min],      # find the min, max, and sum of the duration column
                                     'network_type': "count", # find the number of network type entries
                                     'date': [min, 'first', 'nunique']})    # get the min, first, and number of unique dates

In [None]:
# pivot table 만들기
df.pivot_table ( [ "title" ] ,
                index = [ df.column1, df.columns2 ] ,
                columns = df.column3, aggfunc = "sum", fill_value = 0)

In [None]:
# pivot example
## 예제1
df.pivot(index='Pclass', columns='Sex', values='Fare')

## 예제2
df.pivot_table(index='Sex', columns='Pclass', values='Fare', aggfunc='count')

## 예제3
df.pivot_table(index='Pclass', columns='Sex', values='Survived', aggfunc='mean')


In [None]:
# groupby, reset_index(), sort_values(by=), ascending=Flase
merge_df.groupby(["status","name_x"])["quantity","ext price"].sum().reset_index().sort_values(
    by=["status","quantity"], ascending=False)

## 🔎 Merge, Concat, Append

> Merge란?
- 위 그림은 여러가지 merge의 방법에 대해 나타낸 그림입니다. <br>
- 하나의 column을 기준으로 두 dataframe을 하나로 합칠 때
- <font color = '#d9544d'>한쪽에만 존재하는 데이터를 어떻게 처리할 것인가</font>에 따라 그 결과가 달라집니다. <br>
- <br>
- 예를 들어 scores와 years를 'name' column을 기준으로 합친다고 할 때, <br>
- scores나 years 중 한 데이터셋에만 존재하는 사람(지효, 쯔위)을 처리하는 방법에 따라 <br>
- merge의 종류가 정해집니다.<br>
- <br>
- 아래는 그 예시입니다. <br>
- how는 merge의 방법, on은 기준이 되는 column 이름을 나타냅니다. <br>
![join](https://letsdobigdata.files.wordpress.com/2016/03/joins.png)
 - pd.merge(df1, df2, on='고객명')
 
- **pd.merge ( df1 , df2 , on = ' column name ' )**: 가장 basic한 merge 공식
   
   **pd.merge ( df1 , df2 , on = ' column name ' , how = ' ' , sort = True, indicator = True )**: 여기서 how란?
     - left, right: 기준이 되는 dataframe(df1 or df2)를 정하는 것
     - outer: 두 dataframe 중 어느 한 곳에 존재하는 데이터 
     - inner: 두 dataframe에 모두 존재하는 데이터
     - sort: False로 두어야 성능이 높아진다.
     - indicator: merge한 뒤에 칼럼별로 어느 데이터프레임에 있는 애들인지 태그를 
 남김
 
 
 > Concat이란?
 - concatenate의 줄임말로 서로 다른 두개의 dataframe을 아래로 이어붙일 때 사용
 - append와 유사하다
 
 - **pd.concat ( [ df1 , df2 ] ) .reset_index ( )**: 이렇게 concat하면 됨
 
   **pd.concat ( [ df1 , df2 ] , axis = 1 )**: 이렇게 하면 열 옆으로 붙임. 뚱뚱해짐
 - **df1.append ( df2, ignore_index = True)**: 이렇게 append하면 됨


### 📔 Examples

In [None]:
# Compare Example 1
df.compare(df2, align_axis=0)

# Compare Example 2
df.compare(df2, keep_shape=True)

In [None]:
# Merge indicator examples
pd.merge(df1, df2, on="col1", how="outer", indicator="indicator_column")

In [None]:
# How to append dictionary to dataframe
dicts = [{"A": 1, "B": 2, "C": 3, "X": 4}, {"A": 5, "B": 6, "C": 7, "Y": 8}]

result = df1.append(dicts, ignore_index=True, sort=False)

![](https://pandas.pydata.org/docs/_images/merging_append_dits.png)

In [None]:
# crosstab
pd.crosstab(df_train['Title'], df_train['Sex']).T.style.background_gradient(cmap='summer_r')

In [None]:
# inner join - 두 데이터프레임에 모두 존재하는 데이터만
scores.merge(years, how='inner', on='name')

In [None]:
# left join - scores에 존재하는 데이터 기준
scores.merge(years, how='left', on='name')

In [None]:
# right join - years에 존재하는 데이터 기준
scores.merge(years, how='right', on='name')

In [None]:
# full join - 두 데이터프레임 중 어느 한 곳에 존재하는 
scores.merge(years, how='outer', on='name')

**Q. 두 dataframe의 key column명이 다른 경우는 어떻게 할까요?**

(key column은 기준이 되는 column을 말합니다.) <br>
예를 들어 years의 'name' column 이명을 바꿔 years1 로 저장해보겠습니다. <br>
이때 'on' 대신에 'left_on'과 'right_on'을 사용하면 됩니다.

In [None]:
years1 = years.rename(columns={'name':'이름'})
scores.merge(years1, left_on="name", right_on="이름", how="inner")

## 🔎 Dealing with Time series data


> 시간 순서가 있는 데이터들. 'datatime', 'dateutil' module을 사용한다.
  - datatime: 사용자가 형식 문자열을 제공해야 하지만
  - dateutil: 자동으로 형식 문자열을 찾아서 datetime.datetime 클래스 객체를 생성

- **datetime .datetime ( year = , month = , day = , hour = , minute = , seconde = , microsecond = )**: 시간 설정하기
- **.weekday ( )**: 요일 반환 (0:월, 1:화, 2:수, 3:목, 4:금, 5:토, 6:일)
- **.strftime()**: 문자열로 바꿔준다!
  - %Y:	연도 
  - %m:	월 
  - %d:	일 
  - %H:	시간 
  - %M:	분 
  - %S:	초 
  - %A:	요일
  - %B:	월 
- **df .column .apply ( dateutil .parser .parse, dayfirst = True )** : 시간 데이터로 변환해주기
 
  **pd.to_datetime(df.column)**: 이렇게 바꿔줄 수도 있음
- **df .groupby ( ' time ' ) [ ' columns ' ] .operation( )**: dateutil을 한 다음에는 이제 time에 date, month, year 등으로 groupby 가능
- **datetime.timedelta (days = , seconds = )**: 
  - .days: 일수
  - .seconds: 초
  - .microseconds: 마이크로초
  - .total_seconds(): 모든 속성을 초단위로 환산
- **pd.Timestamp()**: time stamp를 반환
- **pd .to_datetime ( " YYYY - MM - DD ", dayfist = True, formot = )**: datetime으로 바꿔줌, dayfirst를 true로 하면 제일 처음에 나오는 str를 day로 인식. format은 .strftime 형식에 맞추면 가능
- **.dt.hour**: 시간을 반환
- **.day**: 날짜를 반환
- **.dayofyear**: 1년 단위로 날짜를 반환
- **.year**: 연도를 반환
- **.dt.weekday**: 요일을 반환

  **.dt.day_name()**: 요일을 반환
- **pd .date_range ( start = "YYYY-MM-DD", periods = , freq = ' ' )**: 시간대를 만들어줄 수도 있음!!!

  **pd .date_range ( " YYYY-MM-DD " : " YYYY-MM-DD " )**: 이렇게 만들어줄 수도 있음!
- **df [ ' time_stamp1 ' : ' time_stamp2 ' ]**: time series data에서 data 골라오는 편한 방법! time data indexing
  
  **df [ ' 20xx ' ]**: 이게 더 편함
- **.between_time ( ' time1 ' , ' time2 ' )**: time1~time2까지의 데이터를 뽑아줌
- **resample()**: 지정해준 time frequency대로 데이터를 재배열한다.
  - 'D': 일 단위
  - 'W': 주 단위
  - 'M': 월 단위
  - 'Y', 'A': 연 단위
  - 'H': 시간 단위
  - 'T': 분 단위
  - 'S': 초 단위
  - '10T': 10분 단위

### 📔 Examples

In [None]:
srs

2021-01-01   -0.501085
2021-01-02    1.439763
2021-01-03    1.054725
2021-01-04    0.017595
2021-01-05    0.468109
                ...   
2021-03-17   -1.021388
2021-03-18    0.395117
2021-03-19   -0.545944
2021-03-20    0.994538
2021-03-21   -0.183844
Freq: D, Length: 80, dtype: float64

In [None]:
rng = pd.date_range('20210101', periods=80)
srs = pd.Series(np.random.randn(len(rng)), rng)
srs.to_period()

2021-01-01   -0.501085
2021-01-02    1.439763
2021-01-03    1.054725
2021-01-04    0.017595
2021-01-05    0.468109
                ...   
2021-03-17   -1.021388
2021-03-18    0.395117
2021-03-19   -0.545944
2021-03-20    0.994538
2021-03-21   -0.183844
Freq: D, Length: 80, dtype: float64

In [None]:
# day_name() 예시
train["datetime-dayofweek"] = train["datetime"].dt.day_name()

In [None]:
# datetime
dt = datetime.datetime(year=2016, month=12, day=19, hour=13, minute=30)
print(dt)

2016-12-19 13:30:00


In [None]:
# weekday
print(dt.weekday())

0


In [None]:
# strftime
print(dt.strftime("%d %B %Y"))

19 December 2016


In [None]:
print(dt.strftime("%d %B %Y"))

19 December 2016


In [None]:
df_phone['date'] = df_phone['date'].apply(dateutil.parser.parse, dayfirst=True)
df_phone.head()

In [None]:
# 조건에 맞는 데이터 groupby하기
df_phone[df_phone['item'] == 'call'].groupby('month')['duration'].sum()

In [None]:
# 원하는 형태로 groupby하기. date, count
df_phone.groupby(['month', 'item'])['date'].count().unstack()

In [None]:
# 
df_phone.groupby('month', as_index=False).agg({"duration": "sum"})

In [None]:
# 여러 column과 그에 따른 다른 함수가 올 수 있게 하기
df_phone.groupby(['month', 'item']).agg({'duration':sum,      # find the sum of the durations for each group
                                     'network_type': "count", # find the number of network type entries
                                     'date': 'first'})    # get the first date per group

In [None]:
# 여러 개 column, operation 넣기
df_phone.groupby(['month', 'item']).agg({'duration': [min],      # find the min, max, and sum of the duration column
                                     'network_type': "count", # find the number of network type entries
                                     'date': [min, 'first', 'nunique']})    # get the min, first, and number of unique dates

In [None]:
# parse
parse('2016-04-16')

datetime.datetime(2016, 4, 16, 0, 0)

In [None]:
# parse
parse("Apr 16, 2016 04:05:32 PM")

datetime.datetime(2016, 4, 16, 16, 5, 32)

In [None]:
# timedelta
dt1 = datetime.datetime(2016, 2, 19, 14)
dt2 = datetime.datetime(2016, 1, 2, 13)
td = dt1 - dt2

In [None]:
# timedelta
td.days, td.seconds, td.microseconds

(48, 3600, 0)

In [None]:
# timedelta
to_date

datetime.datetime(2018, 11, 30, 14, 0)

In [None]:
# Timestamp
ts = pd.Timestamp('2016-12-19')
print(ts.month)
print(ts + pd.Timedelta('5 days'))

12
2016-12-24 00:00:00


In [None]:
td.days

48

In [None]:
# .to_datetime
## 예제1
pd.to_datetime(df.col1)

## 예제2
pd.to_datetime("2016-12-09")

## 예제3
pd.to_datetime("09/12/2016", format="%d/%m/%Y")

## 예제4
data['Time'] = pd.to_datetime(data['Time'])

In [None]:
# pd.date_range
pd.Series(pd.date_range(start="2016-01-01", periods=10, freq='3H'))

0   2016-01-01 00:00:00
1   2016-01-01 03:00:00
2   2016-01-01 06:00:00
3   2016-01-01 09:00:00
4   2016-01-01 12:00:00
5   2016-01-01 15:00:00
6   2016-01-01 18:00:00
7   2016-01-01 21:00:00
8   2016-01-02 00:00:00
9   2016-01-02 03:00:00
dtype: datetime64[ns]

In [None]:
# pd.date_range
pd.date_range("2018-4-1", "2018-4-30")
pd.date_range(start="2018-4-1", periods=30)

In [None]:
# column을 datetime으로 변형하기
data = pd.read_csv("data/flowdata.csv")

In [None]:
# 1월 데이터만 불러오기
data[data.index.month == 1]

In [None]:
# 원하는 month 데이터만 불러오기  e.g 1,2,3월 / .isin
data['months'] = data.index.month
data[data['months'].isin([1, 2, 3])]

In [None]:
# resample
## 예제1
data.resample('D').mean().head()

## 예제2
data.resample('D').max().head()

## 🔎 Save and Read as Different Data Form

- 전반적으로 Feather가 데이터 용량, 저장속도, 로딩속도 등에서 performance가 제일 좋다. 
  (Among CSV, Feather, HDF, messagePack, Parquet, Pickle)
- String을 전부 Categorical로 바꾸면 성능이 더 좋다.

> Feather
- **.to_feather**: Save as Feather
- **.read_feather**: Read feather file

> SAS
- **.read_sas( )**: Read SAS file

### 📔 Examples

In [None]:
# Save as Feather
df.to_feather("df.ftr")

In [None]:
pd.read_feather("df.ftr", use_threads=True)

In [None]:
df = pd.read_sas("sas_data.sas7bdat")

## 🔎 Optimize speed and memory

<h3> Performance Comparision Table </h3>

![](https://miro.medium.com/max/1400/1*p4zjrqG97C4bFmOXU5UQog.png)

In [None]:
# Crude looping
def haversine_looping(df):
    distance_list = []
    for i in range(0, len(df)):
        d = haversine(40.671, -73.985, df.iloc[i]['latitude'], df.iloc[i]['longitude'])
        distance_list.append(d)
    return distance_list

df['distance'] = haversine_looping(df)

# Looping with  iterrows()
haversine_series = []
for index, row in df.iterrows():
    haversine_series.append(haversine(40.671, -73.985, row['latitude'], row['longitude']))
df['distance'] = haversine_series

# Looping with apply()
df['distance'] = df.apply(lambda row: haversine(40.671, -73.985, row['latitude'], row['longitude']), axis=1)
%lprun -f haversine df.apply(lambda row: haversine(40.671, -73.985, row['latitude'], row['longitude']), axis=1)

# Vectorization with Pandas series
df['distance'] = haversine(40.671, -73.985, df['latitude'], df['longitude'])

# Vectorization with NumPy arrays
df['distance'] = haversine(40.671, -73.985, df['latitude'].values, df['longitude'].values)

<h3> Memory Optimization</h3>

- Codes below are column optimizating code that can reduce memory.

In [None]:
import pandas as pd
from typing import List


def optimize_floats(df: pd.DataFrame) -> pd.DataFrame:
    floats = df.select_dtypes(include=['float64']).columns.tolist()
    df[floats] = df[floats].apply(pd.to_numeric, downcast='float')
    return df


def optimize_ints(df: pd.DataFrame) -> pd.DataFrame:
    ints = df.select_dtypes(include=['int64']).columns.tolist()
    df[ints] = df[ints].apply(pd.to_numeric, downcast='integer')
    return df


def optimize_objects(df: pd.DataFrame, datetime_features: List[str]) -> pd.DataFrame:
    for col in df.select_dtypes(include=['object']):
        if col not in datetime_features:
            num_unique_values = len(df[col].unique())
            num_total_values = len(df[col])
            if float(num_unique_values) / num_total_values < 0.5:
                df[col] = df[col].astype('category')
        else:
            df[col] = pd.to_datetime(df[col])
    return df



def optimize(df: pd.DataFrame, datetime_features: List[str] = []):
    return optimize_floats(optimize_ints(optimize_objects(df, datetime_features)))
view rawadvanced-pandas-memory-methods.py hosted with ❤ by GitHub

<h3> Merge or Lookup</h3>

- Since pandas has optimized operations based on indices, using index will improve speed in lookup or merging tables.  
- Set primary key as index and using .at methods for lookup performs best.

In [None]:
%%timeit
listings.merge(reviews, on='listing_id')
# 439 ms ± 24.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
reviews_ = reviews.set_index('listing_id')
listings_ = listings.set_index('listing_id')
listings_.merge(reviews_, left_index=True, right_index=True)
# 393 ms ± 17.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [None]:
listings = listings.set_index('listing_id', drop=False)

%%timeit
listings.loc[29844866, 'name']
# 10.1 µs ± 1.25 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%%timeit
listings.at[29844866, 'name']
# 5.34 µs ± 474 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

listings = listings.reset_index(drop=True)

%%timeit
listings.loc[listings['listing_id'] == 29844866, 'name']
# 593 µs ± 30 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%%timeit 
listings.iloc[22529]['name']
# 252 µs ± 45.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

<h3> Vectorize Operations</h3>

- `for` loops are costly for reading and writing operations.  
- Examples below compare operation time using .iloc[ ], .iterrows( ), .loc[ ], .map( ), .apply( ) 

In [None]:
# .iloc[]
%%timeit
norm_prices = np.zeros(len(listings,))
for i in range(len(listings)):
    norm_prices[i] = (listings.iloc[i]['price'] - min_price) / (max_price - min_price)
listings['norm_price'] = norm_prices
# 8.91 s ± 479 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# iterrows()
%%timeit
norm_prices = np.zeros(len(listings,))
for i, row in listings.iterrows():
    norm_prices[i] = (row['price'] - min_price) / (max_price - min_price)
listings['norm_price'] = norm_prices
# 3.99 s ± 346 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# .loc[]
%%timeit
norm_prices = np.zeros(len(listings,))
for i in range(len(norm_prices)):
    norm_prices[i] = (listings.loc[i, 'price'] - min_price) / (max_price - min_price)
listings['norm_price'] = norm_prices
# 408 ms ± 61.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# .map()
%%timeit 
listings['norm_price'] = listings['price'].map(lambda x: (x - min_price) / (max_price - min_price))
# 39.8 ms ± 2.33 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

# Vectorize
%%timeit
listings['norm_price'] = (listings['price'] - min_price) / (max_price - min_price)
# 1.76 ms ± 107 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
view rawadvanced-pandas-operations.py hosted with ❤ by GitHub

<h3> 📌 REMEMBER </h3>

Before doing something with dataframe

- Step 1) Normalize dataframes and optimize column types
- Step 2) Merge Dataframes if necessary (Don't forget to use index when merging)
- Step 3) When doing operations, try using Numpy vectorization as possible, if not use .at method or map( )

### 📔 Examples

- functionName(df.to_numpy()) is the fasttest!

In [None]:
# Custom function without numba
%timeit df["col1_doubled"] = df["a"].apply(double_every_value_nonumba)  # noqa E501
1000 loops, best of 3: 797 us per loop

# Standard implementation (faster than a custom function)
%timeit df["col1_doubled"] = df["a"] * 2
1000 loops, best of 3: 233 us per loop

# Custom function with numba
%timeit df["col1_doubled"] = double_every_value_withnumba(df["a"].to_numpy())
1000 loops, best of 3: 145 us per loop

# ✏️ Tips collection

- 데이터 타입, 인덱싱 등으로 최적화하는거 무조건 기억!
- apply는 numpy( )로 바꿔서 함수 속에 df 넣기
- at이 제일 접근속도가 빠르다.
- pipe( )를 써서 코드는 한줄로 깔끔히!
- Merge할 때는 .merge(sort = False)하면 성능이 향상된다.