# 1. pandas란?

## (1) pandas
- Pandas는 Open source project로써, Python 데이터 분석을 돕기 위한 library이다.
- 행과 열로 구성된 2차원 데이터 구조인 **DataFrame**을 사용하며, 대용량 데이터를 처리하는데 매우 편리하다.
- 커뮤니티 및 관련 정보는 아래 사이트에서 확인 가능하다.
    - Homepage : https://pandas.pydata.org
    - Github : https://github.com/pydata/pandas



## (2) 설치 및 import
- Pandas는 Anaconda prompt에 아래 명령어를 입력하여 설치할 수 있다.
```bash
    pip3 install pandas
    pip install pandas
```



In [114]:
# !는 jupyter magic keyword로 pip install 등의 커맨드를 실행할 때 사용된다.
!pip install pandas



- 보편적으로 Pandas는 pd로 줄여 쓰므로, 아래와 같이 import하는 경우가 많다.

```python
    import pandas as pd
```


In [115]:
import pandas as pd

---

# 2. pandas 기초

## (1) DataFrame 만들기

### 1) DataFrame 생성
- Pandas의 DataFrame은 CSV, EXCEL에서 불러오기 뿐만 아니라, 직접 생성도 가능하다. 
- 리스트, 딕셔너리 등을 통해 DataFrame을 생성할 수 있다

In [116]:
# DataFrame 만드는 방법

import pandas as pd

df = pd.DataFrame()
df["Name"] = ["Jacky", "Steven", "George"]
df["Age"] = [38, 25, 23]
df["Driver"] = [True, False, True]


df

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False
2,George,23,True


In [117]:
# python dictionary를 사용하여 DataFrame 만드는 방법

data = {
    "Name":["Jacky", "Steven", "George"],
    "Age":[38, 25, 23],
    "Driver":[True, False, True]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False
2,George,23,True


### 2) DataFrame 구성요소

#### 1. **DataFrame**: 
   - DataFrame은 엑셀 스프레드시트나 SQL 테이블과 유사한 2차원 데이터 구조입니다.
   - 행과 열로 구성되어 있으며, 각 열은 서로 다른 데이터 타입(숫자, 문자열, 불리언 등)을 가질 수 있습니다.
   - 각 행과 열에는 고유한 라벨이 할당될 수 있으며, 이를 인덱스(Index)라고 합니다.
#### 2. **Series**: 
   - Series는 1차원 형태의 데이터 구조입니다.
       - DataFrame의 각 열(column)은 Series 객체로 구성되어 있음
   - Series에도 인덱스가 있으며, 이를 통해 각각의 데이터에 접근할 수 있습니다.
#### 3. **Index**:
   - DataFrame 및 Series 객체의 행 레이블을 나타냅니다. 각 행 또는 열에 대한 고유한 식별자 역할을 합니다.

In [118]:
df = pd.DataFrame()
df["Name"] = ["Jacky", "Steven", "George"]
df["Age"] = [38, 25, 23]
df["Driver"] = [True, False, True]


df

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False
2,George,23,True


In [119]:
# 각 Series는 index를 포함하고 있음
df["Age"]

0    38
1    25
2    23
Name: Age, dtype: int64

In [120]:
print( type(df) ) 
print( type(df["Age"]) )

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [121]:
# dataframe index에 접근하기
df.index

RangeIndex(start=0, stop=3, step=1)

In [122]:
# index 이름 설정하기
df.index.name = "index"

In [123]:
df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Jacky,38,True
1,Steven,25,False
2,George,23,True


In [124]:
# index 재설정
# 원래 있었던 index열이 새로운 column으로 들어오고, 새로운 index열이 생김

df.reset_index()

Unnamed: 0,index,Name,Age,Driver
0,0,Jacky,38,True
1,1,Steven,25,False
2,2,George,23,True


## (2) DataFrame 데이터 다루기
### 1) column 추가, 수정, 삭제


In [125]:
data = {
    "Name":["Jacky", "Steven", "George"],
    "Age":[38, 25, 23],
    "Driver":[True, False, True]
}
df = pd.DataFrame(data)
df.index = ["a", "b", "c"]
df.index.name = "index"

df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True


In [126]:
# 새로운 column 데이터 추가하기
df["Location"] = ["Area 1", "Area 2", "Area 3"]
df

Unnamed: 0_level_0,Name,Age,Driver,Location
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,Jacky,38,True,Area 1
b,Steven,25,False,Area 2
c,George,23,True,Area 3


In [127]:
# column 이름 변경하기
df = df.rename(columns={"Name":"Person"})
df

Unnamed: 0_level_0,Person,Age,Driver,Location
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,Jacky,38,True,Area 1
b,Steven,25,False,Area 2
c,George,23,True,Area 3


In [128]:
# column 삭제하기
df = df.drop(columns="Location")
df

Unnamed: 0_level_0,Person,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True


### 2) row 데이터 추가

In [129]:
data = {
    "Name":["Jacky", "Steven", "George"],
    "Age":[38, 25, 23],
    "Driver":[True, False, True]
}
df = pd.DataFrame(data)
df.index = ["a", "b", "c"]
df.index.name = "index"

df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True


In [130]:
# 새로운 row를 DataFrame 형태로 만들기

data = {
    "Name":["Harry"],
    "Age":[10],
    "Driver":[True]
}

new_df = pd.DataFrame(data, index=["d"])
new_df

Unnamed: 0,Name,Age,Driver
d,Harry,10,True


In [131]:
# 새로운 데이터를 추가하여 DataFrame 만들기
df = pd.concat([df, new_df])

df

Unnamed: 0,Name,Age,Driver
a,Jacky,38,True
b,Steven,25,False
c,George,23,True
d,Harry,10,True


## (3) DataFrame 인덱싱
- 자료구조(데이터)에서 하나의 값에 접근하는 것을 인덱싱(indexing)이라고 함
Pandas에서 데이터를 선택하고 조작하기 위한 인덱싱은 다양한 방법을 제공합니다:

In [132]:
data = {
    "Name":["Jacky", "Steven", "George"],
    "Age":[38, 25, 23],
    "Driver":[True, False, True]
}
df = pd.DataFrame(data)
df.index = ["a", "b", "c"]
df.index.name = "index"

df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False
c,George,23,True


1. `[]` (괄호) 인덱싱:
   - 특정 열을 선택할 때 사용합니다. 예: `df['column_name']`
   - 슬라이싱을 사용하여 행을 선택할 수 있습니다. 예: `df[1:5]`

In [133]:
# 1) 특정 열 선택
df["Name"]

index
a     Jacky
b    Steven
c    George
Name: Name, dtype: object

In [134]:
df[["Name", "Driver"]]

Unnamed: 0_level_0,Name,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1
a,Jacky,True
b,Steven,False
c,George,True


In [135]:
# 2) 여러 행 데이터 선택
df[0:2]

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False


2. `.loc[]` 인덱서:
   - 레이블 기반의 인덱싱을 제공합니다.
   - `.loc[행 레이블, 열 레이블]` 형식으로 사용합니다.

In [136]:
# 2) .loc을 사용하여 index가 'a'인 행 접근하기
df.loc["a"]

Name      Jacky
Age          38
Driver     True
Name: a, dtype: object

In [137]:
# 2) .loc을 사용하여 index가 'a'인 행에서 'Name' 데이터 접근하기
print( df.loc["a", "Name"] )
print( df.loc["a"]["Name"] )

Jacky
Jacky


3. `.iloc[]` 인덱서:
   - 정수 기반의 인덱싱을 제공합니다.
   - `.iloc[행 위치, 열 위치]` 형식으로 사용합니다.
   - 위치(순서)를 기반으로 특정 행이나 열을 선택할 때 사용합니다.

In [138]:
# 3) .iloc을 사용하여 2번째 행의 데이터에 접근하기
df.iloc[1]

Name      Steven
Age           25
Driver     False
Name: b, dtype: object

In [139]:
# 3) .iloc을 사용하여 2번째 행의 'Age' 데이터에 접근하기
print(df.iloc[1]["Age"])
print(df.iloc[1, 1])

25
25


4. 불리언(Boolean) 인덱싱:
   - 특정 조건을 충족하는 행을 선택할 때 사용합니다.
   - 예: `df[df['column_name'] > 10]`

In [140]:
# 4) Boolean 인덱싱은 데이터를 필터링 할 때 많이 사용됨
df["Age"]>=25

index
a     True
b     True
c    False
Name: Age, dtype: bool

In [141]:
df[df["Age"]>=25]

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,True
b,Steven,25,False


5. `.at[]` 및 `.iat[]` 인덱서:
   - 단일 스칼라 값을 빠르게 접근할 때 사용합니다.(하나의 Cell에 접근할 때 사용)
   - `.at[행 레이블, 열 레이블]`와 `.iat[행 위치, 열 위치]` 형식으로 사용합니다.

In [142]:
# 5) .at은 index 레이블, column 레이블로 접근함
df.at["a", "Driver"]

np.True_

In [143]:
# 5) .iat은 index, column 모두 순서(정수 숫자)로 접근함
# df.at["a", "Driver"]의 같은 데이터를 iat으로 접근하기
df.iat[0, 2]

np.True_

In [144]:
# 5) .at, .iat은 특정 cell의 값을 변경할 때 사용됨
df.at["a", "Driver"] = False
df

Unnamed: 0_level_0,Name,Age,Driver
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,Jacky,38,False
b,Steven,25,False
c,George,23,True


## (4) pandas로 데이터 읽고 쓰기

- CSV 파일은 아래와 같이 Pandas로 읽어 들일 수 있다.

```python
    import pandas as pd
  
    # input_file은 불러오려는 CSV 파일의 경로
    data_frame = pd.read_csv(input_file)
```

In [145]:
# import yfinance as yf
# data = yf.download("AAPL", period="36mo").reset_index()
# data.to_csv("../dataset/yfinance_aapl_3year.csv")

In [146]:
# 데이터 읽기

data = pd.read_csv("../dataset/yfinance_aapl.csv", index_col=0)
data.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-07-19,193.100006,198.229996,192.649994,195.100006,194.069351,80507300
1,2023-07-20,195.089996,196.470001,192.5,193.130005,192.109756,59581200
2,2023-07-21,194.100006,194.970001,191.229996,191.940002,190.926041,71917800


In [147]:
# 데이터 csv로 저장
data.to_csv("test.csv")


In [148]:
# excel 데이터 읽기
!pip install openpyxl
data = pd.read_excel("../dataset/yfinance_aapl.xlsx", sheet_name="aapl", engine="openpyxl", index_col=0)

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl

   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openp

In [149]:
# 데이터를 excel로 저장
data.to_excel("../dataset/yfinance_aapl.xlsx", sheet_name="aapl", engine="openpyxl")