## 1) 컬럼 추가, 수정, 삭제

In [17]:
import pandas as pd

data = {
    "Name": ["Jacky", "Steven", "George"],
    "Age": [38, 25, 23],
    "Driver": [True, False, True]
}
df = pd.DataFrame(data)
df.index = ["a", "b", "c"]
df.index.name = "index"

df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True


In [18]:
# 새로운 row를 DataFrame 형태로 만들기
data = {
    "Name": ["Harry"],
    "Age": [10],
    "Driver": [True]
}

new_df = pd.DataFrame(data, index=["d"])
new_df

Unnamed: 0,Name,Age,Driver
d,Harry,10,True


In [19]:
# 새로운 데이터를 추가하여 DataFrame 만들기
df = pd.concat([df, new_df])
df

Unnamed: 0,Name,Age,Driver
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


In [12]:
# 새로운 컬럼 데이터 추가하기
df["Location"] = ["Area 1", "Area 2", "Area 3"]
df

Unnamed: 0_level_0,Name,Age,Driver,Location
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,Jacky,38,True,Area 1
b,Steven,25,False,Area 2
c,George,23,True,Area 3


In [13]:
# 컬럼 이름 변경하기
df = df.rename(columns={"Name": "Person"})
df

Unnamed: 0_level_0,Person,Age,Driver,Location
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,Jacky,38,True,Area 1
b,Steven,25,False,Area 2
c,George,23,True,Area 3


In [14]:
# 컬럼 삭제하기
df = df.drop(columns=["Location"])
df

Unnamed: 0_level_0,Person,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True


In [22]:
data = {
    "Name": ["Jacky", "Steven", "George", "Harry"],
    "Age": [38, 25, 23, 10],
    "Driver": [True, False, True, True]
}
df = pd.DataFrame(data)
df.index = ["a", "b", "c", "d"]
df.index.name = "index"

df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


1. `[]`(괄호) 인덱싱:
    - 특정 열을 선택할 때 사용합니다. 예: `df['column_name']`
    - 슬라이싱을 사용하여 행을 선택할 수 있습니다. 예: `df[1:5]`



In [23]:
# 1) 특정 열 선택
df["Name"]

index
a     Jacky
b    Steven
c    George
d     Harry
Name: Name, dtype: object

In [24]:
df[["Name", "Driver"]]

Unnamed: 0_level_0,Name,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1
a,Jacky,True
b,Steven,False
c,George,True
d,Harry,True


In [25]:
# 2) 여러 행 데이터 선택
df[0:2]

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False


2. `.loc[]` 인덱서:
    - 레이블 기반의 인덱싱을 제공합니다.
    - .loc[행 레이블, 열 레이블] 형식으로 사용합니다.


In [26]:
df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


In [27]:
# 2) .loc를 사용하여 index가 'a'인 행 접근하기
df.loc["a"]

Name      Jacky
Age          38
Driver     True
Name: a, dtype: object

In [29]:
# 3) .loc를 사용하여 index가 'a'인 행에서 'Name' 데이터 접근하기
print(df.loc["a", "Name"])
print(df.loc["a"]["Name"])

Jacky
Jacky


3. `.iloc()` 인덱서:
    - 정수 기반의 인덱싱을 제공합니다.
    - `.iloc[행 위치, 열 위치]` 형식으로 사용합니다.
    - 위치(순서)를 기반으로 특정 행이나 열을 선택할 때 사용합니다.

In [31]:
df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


In [32]:
# 3) .iloc를 사용하여 2번째 행의 데이터에 접근하기
df.iloc[1]

Name      Steven
Age           25
Driver     False
Name: b, dtype: object

In [34]:
# 3) .iloc를 사용하여 2번째 행의 'Age' 데이터에 접근하기
print(df.iloc[1]["Age"])
print(df.iloc[1, 1])

25
25


4. 불리언(Boolean) 인덱싱:
    - 특정 조건을 충족하는 행을 선택할 때 사용합니다.
    - 예: `df[df['column_name'] > 10`

In [35]:
df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


In [40]:
# 4) Boolean 인덱싱은 데이터를 필터링 할 때 많이 사용됨
df["Age"] >= 25

index
a     True
b     True
c    False
d    False
Name: Age, dtype: bool

In [48]:
df[df["Age"] >= 25]

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False


5. `.at[]` 및 `.iat[]` 인덱서:
    - 단일 스칼라 값을 빠르게 접근할 때 사용합니다.(하나의 Cell에 접근할 때 사용)
    - .at [행 레이블, 열 레이블]와 .iat[행 위치, 열 위치] 형식으로 사용합니다.

In [49]:
df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


In [50]:
# 5) .at은 index 레이블, column 레이블로 접근함
df.at["a", "Driver"]

np.True_

In [51]:
# 5) .iat는 인덱스, 컬럼 모두 순서(정수 숫자)로 접근함
# df.at["a", "Driver"]의 같은 데이터를 iat로 접근하기
df.iat[0, 2]

np.True_

#(4) pandas로 데이터 읽고 쓰기
-  CSV 파일은 아래와 같이 Pandas로 읽어 들일 수 있다.
- `import pandas as pd`
- # input_file은 불러오려는 CSV의 파일의 경로
- data_frame = pd.read_scv(input_file)


In [53]:
# 데이터 읽기
data = pd.read_csv("../dataset/yfinance_aapl.csv", index_col=0)
data.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-07-19,193.100006,198.229996,192.649994,195.100006,194.069351,80507300
1,2023-07-20,195.089996,196.470001,192.5,193.130005,192.109756,59581200
2,2023-07-21,194.100006,194.970001,191.229996,191.940002,190.926041,71917800


In [54]:
# 데이터 csv로 저장
data.to_csv("test.csv")

In [60]:
# excel 데이터 읽기
# !pip install openpyxl

data = pd.read_excel("../dataset/yfinance_aapl.xlsx", sheet_name="aapl", engine="openpyxl", index_col=0)
data.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-07-19,193.100006,198.229996,192.649994,195.100006,194.069351,80507300
1,2023-07-20,195.089996,196.470001,192.5,193.130005,192.109772,59581200
2,2023-07-21,194.100006,194.970001,191.229996,191.940002,190.926041,71917800


In [61]:
# 데이터를 excel로 저장
data.to_excel("test.xlsx", sheet_name="aapl", engine="openpyxl")