# DataFrame
- 2차원 행렬(표)이자 Series를 묶어낸 자료형

In [2]:
import pandas as pd 
import numpy as np 

---

# DataFrame 생성

In [8]:
# 2차원 ndarray 활용
arr2d = np.random.randn(2, 3)
# df = pd.DataFrame(arr2d)

# df.index = ['ㄱ', 'ㄴ']
# df.columns = ['A', 'B', 'C']

df = pd.DataFrame(arr2d, index = ['ㄱ', 'ㄴ'], columns=['A', 'B', 'C'])

df

Unnamed: 0,A,B,C
ㄱ,0.665481,-0.317343,0.163245
ㄴ,-0.651588,0.753807,-2.883594


In [12]:
# dictionary - list 활용
# 딕셔너리 안에 값을 리스트로 가짐

data = {
    'one': [1, 2, 3, 4, 5],
    'two': ['가', '나', '다', '라', '마'],
    'three': [1.23, 2.34, 3.45, 4.56, 5.67],
    'four': True
}      # 키값 : 컬럼명, 키 값으로 묶어준 하나가 하나의 시리드로 반환   / 리스트 : 요소 값

df = pd.DataFrame(data)
df

Unnamed: 0,one,two,three,four
0,1,가,1.23,True
1,2,나,2.34,True
2,3,다,3.45,True
3,4,라,4.56,True
4,5,마,5.67,True


In [14]:
# list - dictionary 활용
data = [
    {'a':1, 'b':2, 'c':3},
    {'b':5, 'c':6},
    {'a':7, 'b':8, 'c':9}
]      # 딕셔너리 키 값을 컬럼으로 사용하며, 해당 키의 값이 없는 경우, nan(not a number) 처리. 

df = pd.DataFrame(data)   # nan이 들어간 경우, 해당 칼럼 자료형 기본 타입을 실수형으로 지정. 
df

Unnamed: 0,a,b,c
0,1.0,2,3
1,,5,6
2,7.0,8,9


In [18]:
df.index = ['다람쥐', '고릴라', '개구리']
df.columns = ['협동심', '성실도', '인내심']

print(df.index)
print(df.columns)

print(df)

Index(['다람쥐', '고릴라', '개구리'], dtype='object')
Index(['협동심', '성실도', '인내심'], dtype='object')
     협동심  성실도  인내심
다람쥐  1.0    2    3
고릴라  NaN    5    6
개구리  7.0    8    9


In [16]:
# 전치행렬 (행-열 변환)
df.T

Unnamed: 0,다람쥐,고릴라,개구리
협동심,1.0,,7.0
성실도,2.0,5.0,8.0
인내심,3.0,6.0,9.0


---

### DataFrame 속성

In [26]:
print(df.index)  # df의 index 모아서 출력
print(df.columns)  # df의 column 모아서 출력
print(df.values, type(df.values))  # df의 value 모아서 출력

Index(['다람쥐', '고릴라', '개구리'], dtype='object')
Index(['협동심', '성실도', '인내심'], dtype='object')
[[ 1.  2.  3.]
 [nan  5.  6.]
 [ 7.  8.  9.]] <class 'numpy.ndarray'>


In [22]:
print(df.T)  # df의 전치행렬 출력

     다람쥐  고릴라  개구리
협동심  1.0  NaN  7.0
성실도  2.0  5.0  8.0
인내심  3.0  6.0  9.0


In [25]:
print(df.shape)  # df의 형태 출력
print(df.size)  # df의 요소 개수 출력
print(df.ndim)  # df의 깊이 출력
print(df.dtypes)  # df의 요소의 자료형 출력    **dtype과 헷갈리지 말기 

(3, 3)
9
2
협동심    float64
성실도      int64
인내심      int64
dtype: object


---

### DataFrame 메서드

In [27]:
bank_client_df = pd.DataFrame({
    'Client ID': [1, 2, 3, 4],
    'Client Name': ['Aly', 'Steve', 'Nicole', 'Morris'],
    'Net worth [$]': [35000, 3000, 100000, 2000],
    'Years with bank': [4, 7, 10, 15]
})

bank_client_df

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
0,1,Aly,35000,4
1,2,Steve,3000,7
2,3,Nicole,100000,10
3,4,Morris,2000,15


In [33]:
bank_client_df.head(2)

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
0,1,Aly,35000,4
1,2,Steve,3000,7


In [32]:
bank_client_df.tail(2)

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
2,3,Nicole,100000,10
3,4,Morris,2000,15


In [30]:
bank_client_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Client ID        4 non-null      int64 
 1   Client Name      4 non-null      object
 2   Net worth [$]    4 non-null      int64 
 3   Years with bank  4 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 260.0+ bytes


In [31]:
bank_client_df.describe()      # object 타입의 경우, 반환하지 않음. 

Unnamed: 0,Client ID,Net worth [$],Years with bank
count,4.0,4.0,4.0
mean,2.5,35000.0,9.0
std,1.290994,45963.753836,4.690416
min,1.0,2000.0,4.0
25%,1.75,2750.0,6.25
50%,2.5,19000.0,8.5
75%,3.25,51250.0,11.25
max,4.0,100000.0,15.0


In [37]:
# 인덱싱 & 슬라이싱

# bank_client_df[0]  # keyerror, 인덱스 번호로 인덱싱 불가. 저 형태로 반환시 컬럼명이 '0'인 값을 찾음. 
bank_client_df['Client Name']  # 시리즈 형태로 반환. 컬럼명 기준으로 인덱싱 해주기 때문에 인덱스 넘버로는 불가능

# iloc 인덱스로 - 행/열 순서로 조회
# loc  라벨로 - 행/열 순서로 조회

print(bank_client_df.iloc[0])        
print(bank_client_df.iloc[0].index)   # Index(['Client ID', 'Client Name', 'Net worth [$]', 'Years with bank'], dtype='object')
print(bank_client_df.iloc[0].name)    # 0
print(type(bank_client_df.iloc[0]))   # 시리즈 형태로 반환. (컬럼명을 인덱스로, 인덱스를 이름으로 반환.)


Client ID              1
Client Name          Aly
Net worth [$]      35000
Years with bank        4
Name: 0, dtype: object
Index(['Client ID', 'Client Name', 'Net worth [$]', 'Years with bank'], dtype='object')
0
<class 'pandas.core.series.Series'>


In [40]:
# 슬라이싱과 fancy indexing 비교
print(bank_client_df.iloc[:2])             # 슬라이싱
print(type(bank_client_df.iloc[:2]))

print(bank_client_df.iloc[[0,1]])
print(type(bank_client_df.iloc[[0,1]]))    # fancy 인덱싱. ndarray에서는 타입이 달라졌지만, df에서는 타입이 동일함. 

   Client ID Client Name  Net worth [$]  Years with bank
0          1         Aly          35000                4
1          2       Steve           3000                7
<class 'pandas.core.frame.DataFrame'>
   Client ID Client Name  Net worth [$]  Years with bank
0          1         Aly          35000                4
1          2       Steve           3000                7
<class 'pandas.core.frame.DataFrame'>


In [42]:
# fancy indexing을 통한 조회는 '결과가 한개여도' DataFrame 타입으로 반환
# -> Series를 반환한다는 것은 차원을 축소(제거)하는 것    == indexing
# -> DataFrame을 반환한다는 것은 차원을 유지하는 것      == fancy indexing
print(bank_client_df.iloc[2])
print(bank_client_df.iloc[2].shape)       # (4, )
print(type(bank_client_df.iloc[2]))       # series type
print(bank_client_df.iloc[[2]].shape)     # 정수 배열로 인덱싱(fancy indexing)     # (1, 4)
print(type(bank_client_df.iloc[[2]]))     # dataframe type

Client ID               3
Client Name        Nicole
Net worth [$]      100000
Years with bank        10
Name: 2, dtype: object
(4,)
<class 'pandas.core.series.Series'>
(1, 4)
<class 'pandas.core.frame.DataFrame'>


In [44]:
# 2차원에 대한 indexing / slicing
bank_client_df.iloc[0, 1]      # 대괄호를 두번 쓰게되면 fancy indexing이 되어벌임(주의)

'Aly'

In [47]:
bank_client_df.iloc[:2, 1]
# print(type(bank_client_df.iloc[:2, 1]))    # series 형태로 반환

0      Aly
1    Steve
Name: Client Name, dtype: object

In [49]:
print(bank_client_df.iloc[:2, 2:])
print(type(bank_client_df.iloc[:2, 2:]))    # 슬라이싱 : 타입 변화 없음. 

   Net worth [$]  Years with bank
0          35000                4
1           3000                7
<class 'pandas.core.frame.DataFrame'>


In [53]:
bank_client_df.index = ['client1', 'client2', 'client3', 'client4']   # loc를 사용하기 위해 인덱스 변경
bank_client_df.index

Index(['client1', 'client2', 'client3', 'client4'], dtype='object')

In [55]:
# loc를 이용한 인덱싱
bank_client_df.loc['client1']   # 라벨 사용. loc를 사용해서 인덱싱을 했을 시 시리즈 형태로 반환

Client ID              1
Client Name          Aly
Net worth [$]      35000
Years with bank        4
Name: client1, dtype: object

In [57]:
# loc를 이용한 슬라이싱
bank_client_df.loc['client2':'client4':2]    # 슬라이싱. loc 슬라이싱의 경우, 뒤에 값까지 포함.    # df

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client2,2,Steve,3000,7
client4,4,Morris,2000,15


In [67]:
# 2차원 데이터에 대한 loc를 이용한 인덱싱 ****** 녹화 확인 필요
bank_client_df.loc['client2':'client4':2, 'Client Name']
# print(type(bank_client_df.loc['client2':'client4':2, 'Client Name']))   # series

client2     Steve
client4    Morris
Name: Client Name, dtype: object

In [64]:
# 2차원 데이터에 대한 loc를 이용한 fancy indecing
bank_client_df.loc['client2':'client4':2, ['Client Name', 'Years with bank']]   # fancy indecing    # df

Unnamed: 0,Client Name,Years with bank
client2,Steve,7
client4,Morris,15


In [65]:
# loc를 이용한 슬라이싱
bank_client_df.loc['client2':'client4':2, 'Client Name':'Years with bank']   # df

Unnamed: 0,Client Name,Net worth [$],Years with bank
client2,Steve,3000,7
client4,Morris,2000,15


In [84]:
# ---실습
# 이름이 steve인 고객 정보 출력
# print[bank_client_df.loc[bank_client_df['Client Name'] == 'Steve']]
bank_client_df[bank_client_df['Client Name'] == 'Steve']

# Client Name만 출력
bank_client_df['Client Name']

# Client Name과 Net worth [$] 출력
bank_client_df.loc[:, ['Client Name', 'Net worth [$]']]
bank_client_df[['Client Name', 'Net worth [$]']]

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client2,2,Steve,3000,7


In [79]:
# filter()
bank_client_df.filter(items=['Client Name', 'Net worth [$]'])  

Unnamed: 0,Client Name,Net worth [$]
client1,Aly,35000
client2,Steve,3000
client3,Nicole,100000
client4,Morris,2000


In [81]:
bank_client_df.filter(like='$', axis=1)   # 열을 기준, 컬럼명을 기준으로 컬럼명에 $를 포함한 것 뽑기

Unnamed: 0,Net worth [$]
client1,35000
client2,3000
client3,100000
client4,2000


In [82]:
bank_client_df.filter(like='4', axis=0)  # 행을 기준, 인덱스 이름에 like 가 포함된 것을 뽑음. 

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client4,4,Morris,2000,15


--- 실습
1. ID가 3인 고객 조회
2. 순자산(예치 금액)이 5000달러가 넘는 고객 조회
3. 거래기간이 5년 이상인 고객 조회
4. 이름이 s로 시작하는 고객 조회
5. 거래 기간이 5년 이상이면서 이름이 s로 시작하는 고객 조회 (힌트: and(&), or(|), not(~))

In [87]:
#1. 
bank_client_df[bank_client_df['Client ID'] == 3]

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client3,3,Nicole,100000,10


In [92]:
#2. 
bank_client_df[bank_client_df['Net worth [$]'] >= 5000 ]

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client1,1,Aly,35000,4
client3,3,Nicole,100000,10


In [93]:
#3. 
bank_client_df[bank_client_df['Years with bank'] >= 5 ]

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client2,2,Steve,3000,7
client3,3,Nicole,100000,10
client4,4,Morris,2000,15


In [109]:
#4. 
bank_client_df[bank_client_df['Client Name'].str.contains('S')]

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client2,2,Steve,3000,7


In [114]:
#5.
bank_client_df[(bank_client_df['Years with bank'] >= 5) & (bank_client_df['Client Name'].str.contains('S'))]

Unnamed: 0,Client ID,Client Name,Net worth [$],Years with bank
client2,2,Steve,3000,7


---

# 행 추가 및 삭제

In [111]:
students = [
    {'name': '호랑이', 'midterm': 95, 'final': 85},
    {'name': '늑대', 'midterm': 93, 'final': 90},
    {'name': '양', 'midterm': 100, 'final': 10}
]

df = pd.DataFrame(students)
df

Unnamed: 0,name,midterm,final
0,호랑이,95,85
1,늑대,93,90
2,양,100,10


In [None]:
# 행 추가 1. loc 이용
df.loc[3] = ['다람쥐', 100, 100]    # 빈 공간 인덱싱하고, 값 넣기
df.loc[len(df)] = ['다람쥐', 100, 100]    # 덮어씌워지기 때문에 len 값 반환 (df의 행 갯수)
df

Unnamed: 0,name,midterm,final
0,호랑이,95,85
1,늑대,93,90
2,양,100,10
3,다람쥐,100,100


In [117]:
# 행 추가 2. pd.concat() : DataFrame 병합 함수

add_student_df = pd.DataFrame(
    [['곰', 99, 24]],                            # 차원을 맞춰주기 위해 2차원 배열 생성
    columns=['name', 'midterm', 'final']
)

df = pd.concat([df, add_student_df], ignore_index=True)  # 괄호 안에 병합할 두개의 df을 넣어줘야함(시퀀스 형태) / ignore_index = 인덱스를 새로 부여 조건
df 

Unnamed: 0,name,midterm,final
0,호랑이,95,85
1,늑대,93,90
2,양,100,10
3,다람쥐,100,100
4,곰,99,24
5,곰,99,24


In [None]:
# 행 삭제. drop 이용 (index)
# df = df.drop(df.index[[0]])       # 괄호 안에 드랍할 대상    # 원본에 적용 x, just 반환만. 원본에 덮어씌워줘야함.   # drop 용법 공부하기 
df.drop(df.index[[4]], inplace=True)   # inplace 파라미터 조건 부여해서 원본 데이터에 반영 가능.   
df                                     # 5번이 사라짐. 왜?!? 인덱스가 4번인 값이 아니라 4번째 위치의 인덱스를 반환받아서 지운거임.(위치값으로)

Unnamed: 0,name,midterm,final
1,늑대,93,90
2,양,100,10
3,다람쥐,100,100
4,곰,99,24


----

# 컬럼 추가 및 삭제

In [122]:
df = pd.DataFrame({
    '이름': ['다람쥐', '판다', '코알라'],
    '위치': ['독산', '종로', '하남'],
    '성별': ['M', 'F', 'F'],
    '키': [179, 165, 157],
    '체중': [50.1, 48.2, 51.3]
})

df

Unnamed: 0,이름,위치,성별,키,체중
0,다람쥐,독산,M,179,50.1
1,판다,종로,F,165,48.2
2,코알라,하남,F,157,51.3


In [None]:
# 컬럼 추가 1. 기본값 이용
df['취미'] = '인공지능 공부'      # 없는 값에 추가. 값에 시리즈 형태로 넣어도 가능
df

Unnamed: 0,이름,위치,성별,키,체중,취미
0,다람쥐,독산,M,179,50.1,인공지능 공부
1,판다,종로,F,165,48.2,인공지능 공부
2,코알라,하남,F,157,51.3,인공지능 공부


In [130]:
# 컬럼 추가 2. np.where() 함수 -> ndarray 이용
np.where(df['성별'] == 'M')  # 해당 값 포함 부분 인덱스 반환
np.where(df['성별']=='M', '남성', '여성')  # 조건, True일 때 값, Fales일 때 값
df['성별(한글)'] = np.where(df['성별']=='M', '남성', '여성')
df

Unnamed: 0,이름,위치,성별,키,체중,취미,성별(한글)
0,다람쥐,독산,M,179,50.1,인공지능 공부,남성
1,판다,종로,F,165,48.2,인공지능 공부,여성
2,코알라,하남,F,157,51.3,인공지능 공부,여성


In [None]:
#컬럼추가 3. 기존컬럼 연산 이용 => Serice 이용       
# bmi = kg / m^2  
df['BMI'] = df['체중'] / (df['키'] * 0.01) ** 2
df

Unnamed: 0,이름,위치,성별,키,체중,취미,성별(한글),BMI
0,다람쥐,독산,M,179,50.1,인공지능 공부,남성,15.636216
1,판다,종로,F,165,48.2,인공지능 공부,여성,17.704316
2,코알라,하남,F,157,51.3,인공지능 공부,여성,20.812203


In [None]:
# 컬럼 추가 4. apply() 이용   # 고차 함수 
def get_type(value):
    return '저체중' if value < 18 else '표준' 

df['BMI type'] = df['BMI'].apply(get_type)    # apply ; 고차함수 / get_type : 콜백함수(괄호붙여서 호출 xx)
df

Unnamed: 0,이름,위치,성별,키,체중,취미,성별(한글),BMI,BMI type
0,다람쥐,독산,M,179,50.1,인공지능 공부,남성,15.636216,저체중
1,판다,종로,F,165,48.2,인공지능 공부,여성,17.704316,저체중
2,코알라,하남,F,157,51.3,인공지능 공부,여성,20.812203,표준


In [144]:
# 컬럼 삭제. drop 이용
df.drop('BMI type', axis=1, inplace=True)
df

Unnamed: 0,이름,위치,성별,키,체중,취미,성별(한글),BMI
0,다람쥐,독산,M,179,50.1,인공지능 공부,남성,15.636216
1,판다,종로,F,165,48.2,인공지능 공부,여성,17.704316
2,코알라,하남,F,157,51.3,인공지능 공부,여성,20.812203


---

### 정렬

In [146]:
df = pd.read_csv('./data/bank_client_information.csv')
df.head()

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22


In [None]:
df.sort_values('Net Worth', ascending=True)   # 괄호 안에 대상 지정 필요(컬럼). 오름차순정렬

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank
8,Joseph,Patton,daafeja@boh.jm,M6U 5U7,2629.13,1
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22
9,Noah,Moran,guutodi@bigwoc.kw,K2D 4M9,8626.96,13
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10
7,Laila,Ahmed,Laila.a@hotmail.com,J8Y 3M0,20000.0,3
6,Heba,Ismail,heba.ismail@hotmail.com,K8Y 3M8,50000.0,11
5,Samer,Mo,samer@gmail.com,J7H 3HY,100000.0,26


In [None]:
# 실습
# 오래된 고객순으로 출력
df.sort_values('Years with Bank', ascending = False)

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank
5,Samer,Mo,samer@gmail.com,J7H 3HY,100000.0,26
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22
9,Noah,Moran,guutodi@bigwoc.kw,K2D 4M9,8626.96,13
6,Heba,Ismail,heba.ismail@hotmail.com,K8Y 3M8,50000.0,11
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5
7,Laila,Ahmed,Laila.a@hotmail.com,J8Y 3M0,20000.0,3
8,Joseph,Patton,daafeja@boh.jm,M6U 5U7,2629.13,1


In [None]:
# 실습
# 순자산이 많고 오래된 고객순으로 출력
df.sort_values(['Net Worth', 'Years with Bank'], ascending = [False, False])

# 정렬 기준으로 n개의 컬럼을 사용할 수 있으며, 
# 이때 ascending 속성 역시 짝을 맞추어 n개를 전달해야함. 

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank
5,Samer,Mo,samer@gmail.com,J7H 3HY,100000.0,26
6,Heba,Ismail,heba.ismail@hotmail.com,K8Y 3M8,50000.0,11
7,Laila,Ahmed,Laila.a@hotmail.com,J8Y 3M0,20000.0,3
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7
9,Noah,Moran,guutodi@bigwoc.kw,K2D 4M9,8626.96,13
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5
8,Joseph,Patton,daafeja@boh.jm,M6U 5U7,2629.13,1


In [173]:
# 순위 반환
df['Rank'] = df['Net Worth'].rank(ascending=False).astype(int)   # 동률이 있을 시 소수점으로 표현 / astype으로 시리즈 형식에서 숫자형으로 변경
df.sort_values('Rank')

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank,Rank
5,Samer,Mo,samer@gmail.com,J7H 3HY,100000.0,26,1
6,Heba,Ismail,heba.ismail@hotmail.com,K8Y 3M8,50000.0,11,2
7,Laila,Ahmed,Laila.a@hotmail.com,J8Y 3M0,20000.0,3,3
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10,4
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6,5
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7,6
9,Noah,Moran,guutodi@bigwoc.kw,K2D 4M9,8626.96,13,7
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5,8
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22,8
8,Joseph,Patton,daafeja@boh.jm,M6U 5U7,2629.13,1,10


---

# 기본 실습

In [175]:
df = pd.DataFrame({
    'Name':['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age' : [25, 30, 35, 40, 28],
    'City' : ['New York', 'Los Angeles', 'Chicago', 'Houston', 'San Francisco'],
    'Salary' : [70000, 80000, 120000, 90000, 75000]
})
df

Unnamed: 0,Name,Age,City,Salary
0,Alice,25,New York,70000
1,Bob,30,Los Angeles,80000
2,Charlie,35,Chicago,120000
3,David,40,Houston,90000
4,Eva,28,San Francisco,75000


2. **열과 행 선택**
    - `Name`과 `City` 열을 선택하여 출력하세요.
    - 나이가 30 이상인 행을 선택하여 출력하세요.

In [184]:
df[['Name','City']]

Unnamed: 0,Name,City
0,Alice,New York
1,Bob,Los Angeles
2,Charlie,Chicago
3,David,Houston
4,Eva,San Francisco


In [185]:
df[df['Age'] >= 30]

Unnamed: 0,Name,Age,City,Salary
1,Bob,30,Los Angeles,80000
2,Charlie,35,Chicago,120000
3,David,40,Houston,90000


3. **행과 열 추가**
    - `Country` 열을 추가하고, 모두 'USA'로 설정하세요.
    - 새로운 행을 추가하세요. (Name: Frank, Age: 33, City: Seattle, Salary: 85000)

In [187]:
df['Country'] = 'USA'
df

Unnamed: 0,Name,Age,City,Salary,Country
0,Alice,25,New York,70000,USA
1,Bob,30,Los Angeles,80000,USA
2,Charlie,35,Chicago,120000,USA
3,David,40,Houston,90000,USA
4,Eva,28,San Francisco,75000,USA


In [190]:
df.loc[len(df)] = ['Frank', 33, 'Seattle', 85000, 'USA']
df

Unnamed: 0,Name,Age,City,Salary,Country
0,Alice,25,New York,70000,USA
1,Bob,30,Los Angeles,80000,USA
2,Charlie,35,Chicago,120000,USA
3,David,40,Houston,90000,USA
4,Eva,28,San Francisco,75000,USA
5,Frank,33,Seattle,85000,USA
6,Frank,33,Seattle,85000,USA


4. **데이터 삭제**
    - `Salary` 열을 삭제하세요.
    - 'David'가 있는 행을 삭제하세요.

In [192]:
df.drop('Salary', axis=1)

Unnamed: 0,Name,Age,City,Country
0,Alice,25,New York,USA
1,Bob,30,Los Angeles,USA
2,Charlie,35,Chicago,USA
3,David,40,Houston,USA
4,Eva,28,San Francisco,USA
5,Frank,33,Seattle,USA
6,Frank,33,Seattle,USA


In [194]:
df.drop(df.index[df['Name']=='David'], axis=0)

Unnamed: 0,Name,Age,City,Salary,Country
0,Alice,25,New York,70000,USA
1,Bob,30,Los Angeles,80000,USA
2,Charlie,35,Chicago,120000,USA
4,Eva,28,San Francisco,75000,USA
5,Frank,33,Seattle,85000,USA
6,Frank,33,Seattle,85000,USA


5. **데이터 수정**
    - `Age`가 35 이상인 사람들의 `Salary`를 5% 증가시키세요.
    - 'Alice'의 `City`를 'Boston'으로 수정하세요.

In [None]:
df['Age'] >= 35

i = 0

for i in range(len(df)) :
    if df['Age'][i] >= 35 :
        df.loc[[i, 'Salary']] = df.loc[[i, 'Salary'] * 1.05
        i == i + 1

print(df)

      Name  Age           City     Salary Country
0    Alice   25       New York   70000.00     USA
1      Bob   30    Los Angeles   80000.00     USA
2  Charlie   35        Chicago  138915.00     USA
3    David   40        Houston  104186.25     USA
4      Eva   28  San Francisco   75000.00     USA
5    Frank   33        Seattle   85000.00     USA
6    Frank   33        Seattle   85000.00     USA


  df.loc[i, 'Salary'] = df.loc[i, 'Salary'] * 1.05


In [198]:
df.index[df['Name']=='Alice']

Index([0], dtype='int64')

6. **데이터 타입 변환**
    - `Age`와 `Salary`의 데이터 타입을 float로 변환하세요.

In [202]:
df['Age'].astype(float)
print(type(df['Age']))

<class 'pandas.core.series.Series'>


---