# pandas function

### 1. apply

In [2]:
import pandas as pd
import seaborn as sns
import numpy as np

data = pd.DataFrame({'A': ['1', '2', '3'], 'B': ['4', '5', '6'], 'C': ['7', '8', '9']})
data[['A', 'B', 'C']] = data[['A', 'B', 'C']].apply(pd.to_numeric)  # apply: 함수를 매핑
print(data.info())

# 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df['ten'] = 10
print(df.head())
print('\n')

# 사용자 함수 정의
def add_10(n):  # 10을 더하는 함수
    return n + 10

def add_two_obj(a, b):  # 두 객체의 합
    return a + b

print(add_10(10))
print(add_two_obj(10, 10))
print('\n')

# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)  # n = df['age']의 모든 원소
print(sr1.head())
print('\n')

# 시리즈 객체와 숫자에 적용: 2개의 인수(시리즈+숫자)
sr2 = df['age'].apply(add_two_obj, b=10)    # a=df['age']의 모든 원소, b=10
print(sr2.head())
print('\n')

# 람다 함수 활용: 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x: add_10(x))  # x=df['age']
print(sr3.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
 2   C       3 non-null      int64
dtypes: int64(3)
memory usage: 200.0 bytes
None
    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


20
20


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


### 2. value_counts

In [2]:
# 예시 데이터 프레임 생성
data = pd.DataFrame({'A': [1, 2, 3, None], 'B': [4, None, 6, 7], 'C': [None, 8, 9, 10]})

# 결측값이 있는 행을 제거한 데이터 프레임
data_dropna = data.dropna()

# 결과 출력
print(data_dropna)

# -- coding: utf-8 --
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')
print(df.head())
print(df.info())

# deck 열의 NaN 개수 계산하기
nan_deck = df['deck'].value_counts(dropna=False)  # NaN의 개수도 함께 나옴
nan_deck = df['deck'].value_counts()  # NaN의 개수 제외하고 나옴
print(nan_deck)

# isnull() 메서드로 누락 데이터 찾기
print(df.head().isnull())

     A    B    C
2  3.0  6.0  9.0
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  ---

### 3. dropna

In [3]:
# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# for 반복문으로 각 열의 NaN 개수 계산하기
missing_df = df.isnull()
for col in missing_df.columns:
    missing_count = missing_df[col].value_counts()  # 각 열의 NaN 개수 파악

    try: 
        print(col, ': ', missing_count[True])  # NaN 값이 있으면 행 index가 True
    except:
        print(col, ': ', 0)  # NaN 값이 없으면 행 index가 False

# NaN 값이 500개 이상인 열을 모두 삭제 - deck 열(891개 중 688개의 NaN 값)
df_thresh = df.dropna(axis=1, thresh=500)
print(df_thresh.columns)

# age 열에 나이 데이터가 없는 모든 행을 삭제 - age 열(891개 중 177개의 NaN 값)
df_age = df.dropna(subset=['age'], how='any', axis=0)  # any: 하나라도 NaN, all: 모든 데이터가 NaN
print(len(df_age))

survived :  0
pclass :  0
sex :  0
age :  177
sibsp :  0
parch :  0
fare :  0
embarked :  2
class :  0
who :  0
adult_male :  0
deck :  688
embark_town :  2
alive :  0
alone :  0
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')
714


In [4]:
Series1 = pd.Series([10, 5, 8, 3], index=[True, False, True, True]) 
Series1[True]


True    10
True     8
True     3
dtype: int64

### 4. fillna

In [5]:
df = sns.load_dataset('titanic')

df_mean = df["age"].mean()  # 평균
print("age mean:", df_mean)
print()

df_mode = df['embark_town'].mode()  # 최빈값
print("embark_town mode:", df_mode.iloc[0])
print()

df_frequent = df["embark_town"].value_counts().idxmax()  # 최빈값
print("embark_town idxmax:", df_frequent)
print()

df_median = df["age"].median()  # 중앙값
print("age median:", df_median)

age mean: 29.69911764705882

embark_town mode: Southampton

embark_town idxmax: Southampton

age median: 28.0


In [3]:
data = pd.DataFrame({'A':[1, 2, 3, None], 'B':[4, None, 6, 7], 'C':[None, 8, 9, 10]})
data.fillna(method = 'ffill')  # 앞의 행 데이터로 채우기, backfill

Unnamed: 0,A,B,C
0,1.0,4.0,
1,2.0,4.0,8.0
2,3.0,6.0,9.0
3,3.0,7.0,10.0


### 5. duplicated

In [7]:
df[df.duplicated()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
47,1,3,female,,0,0,7.7500,Q,Third,woman,False,,Queenstown,yes,True
76,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True
77,0,3,male,,0,0,8.0500,S,Third,man,True,,Southampton,no,True
87,0,3,male,,0,0,8.0500,S,Third,man,True,,Southampton,no,True
95,0,3,male,,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
870,0,3,male,26.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True


### 6. index

In [5]:
df = pd.DataFrame({'date':['2019-01-03', '2021-11-22','2021-12-01','2023-01-05'],
'x1':[0.1,2.0,np.nan,1.2]})
df

Unnamed: 0,date,x1
0,2019-01-03,0.1
1,2021-11-22,2.0
2,2021-12-01,
3,2023-01-05,1.2


In [6]:
# set_index

df["date"] = pd.to_datetime(df["date"])
df.set_index("date", inplace=True)
df


Unnamed: 0_level_0,x1
date,Unnamed: 1_level_1
2019-01-03,0.1
2021-11-22,2.0
2021-12-01,
2023-01-05,1.2


In [17]:
# 동일한 코드

df.index = df["date"]
df.drop("date", axis=1, inplace=True)
df

Unnamed: 0_level_0,x1
date,Unnamed: 1_level_1
2019-01-03,0.1
2021-11-22,2.0
2021-12-01,
2023-01-05,1.2


In [18]:
# sort_index

df.sort_index(inplace=True)
df

Unnamed: 0_level_0,x1
date,Unnamed: 1_level_1
2019-01-03,0.1
2021-11-22,2.0
2021-12-01,
2023-01-05,1.2


In [27]:
# Series의 index 변경

df['x1'].reindex(["2021-11-22", "2023-01-05", "2021-12-01", "2019-01-03"])

date
2021-11-22    2.0
2023-01-05    1.2
2021-12-01    NaN
2019-01-03    0.1
Name: x1, dtype: float64

In [28]:
# Series의 index 변경 2


df["x1"][["2021-11-22", "2023-01-05", "2021-12-01", "2019-01-03"]] 

date
2021-11-22    2.0
2023-01-05    1.2
2021-12-01    NaN
2019-01-03    0.1
Name: x1, dtype: float64

### 7. interpolate

In [10]:
df=pd.DataFrame({'date':['2019-01-03', '2021-11-22','2021-12-01','2023-01-05'],
'x1':[0.1,2.0,np.nan,1.2]})

df['date']=pd.to_datetime(df.date, format='%Y-%m-%d')
df.set_index(keys=['date'],inplace=True)
print(df)
print()

df=df.interpolate()  # 보간법, 기본은 linear
print(df)

             x1
date           
2019-01-03  0.1
2021-11-22  2.0
2021-12-01  NaN
2023-01-05  1.2

             x1
date           
2019-01-03  0.1
2021-11-22  2.0
2021-12-01  1.6
2023-01-05  1.2


### 8. sort

In [34]:
df = df.sort_values(by=["x1"], ascending=False)[:2]  # 상위 2개 출력
df

Unnamed: 0_level_0,x1
date,Unnamed: 1_level_1
2021-11-22,2.0
2023-01-05,1.2


In [35]:
df.nlargest(2, "x1")  # 동일한 표현

Unnamed: 0_level_0,x1
date,Unnamed: 1_level_1
2021-11-22,2.0
2023-01-05,1.2


### 9. replace

In [None]:
# [^\w]는 문자열 내에서 영숫자 문자나 밑줄 (_)이 아닌 모든 문자를 찾아내는 정규 표현식 패턴
# ^: 반전, \w: 영숫자 문자

df= df.str.replace(pat=r'[^\w]',repl=r' ',regex=True)



### 10. isin

In [1]:
import pandas as pd

# 데이터프레임 생성 (예시)
data = {'Column1': [3, 5, 6, 5, 7, 8, 9, 6],
        'Column2': [2, 3, 5, 5, 7, 8, 9, 9]}
df = pd.DataFrame(data)

# Column1의 값에 대한 개수를 얻습니다.
value_counts = df['Column1'].value_counts()

# 5 이상의 값을 가진 행을 추출합니다.
result = df[df['Column1'].isin(value_counts[value_counts >= 2].index)]

result

Unnamed: 0,Column1,Column2
1,5,3
2,6,5
3,5,5
7,6,9


### 11. iterrows

In [2]:
for _, row in df.iterrows():  # _: index 건너뛰기 위해서
    print(row)

Column1    3
Column2    2
Name: 0, dtype: int64
Column1    5
Column2    3
Name: 1, dtype: int64
Column1    6
Column2    5
Name: 2, dtype: int64
Column1    5
Column2    5
Name: 3, dtype: int64
Column1    7
Column2    7
Name: 4, dtype: int64
Column1    8
Column2    8
Name: 5, dtype: int64
Column1    9
Column2    9
Name: 6, dtype: int64
Column1    6
Column2    9
Name: 7, dtype: int64


### 12. Series data

In [4]:
import pandas as pd

# 예시 데이터프레임 생성
data = {'A': [10, 20, 30, 40],
        'B': [15, 25, 35, 45],
        'C': [50, 60, 70, 80]}
df = pd.DataFrame(data)

# 데이터프레임에서 최대값을 가진 열을 찾기
max_values = df.max()
print(max_values)

# Series를 데이터프레임으로 변환하고 열과 행을 바꾸기
max_values_df = max_values.reset_index()
max_values_df = max_values_df.transpose()

# 열 이름 변경
max_values_df.columns = max_values_df.iloc[0]
max_values_df = max_values_df[1:]

# 결과 출력
print(max_values_df)

A    40
B    45
C    80
dtype: int64
index   A   B   C
0      40  45  80


### 13. Multi index loc

In [None]:
# multi index가 존재할 떄

df.loc[1, 27]  # 첫 번째 인덱스가 1, 두 번쨰 인덱스가 27인 데이터