# pd.DataFrame 실습

## 0. 실습 준비

### 라이브러리 설치

In [None]:
%pip install pandas numpy matplotlib seaborn

#### import 

In [2]:
import pandas as pd
import numpy as np

## 1. Pandas.DataFrame
- 표(테이블) 형태의 데이터를 다루기 위한 Pandas의 2차원 자료구조
- 행(row)과 열(column)로 구성되어 있으며, 각 열마다 서로 다른 데이터 타입(숫자, 문자열 등)을 가질 수 있음
- 레이블(라벨) 지원: 각 행과 열에 인덱스(이름 또는 번호)를 붙일 수 있어 데이터 접근과 조작이 편리함 (dict-like)
- 다양한 생성 방법: list, dict, Numpy.NDArray, 다른 DataFrame 등 다양한 형태의 데이터를 이용해 생성 가능
- 다양한 데이터 타입: 각 열마다 서로 다른 타입의 데이터를 저장할 수 있음
- 데이터 조작 및 분석 기능: 필터링, 정렬, 집계, 결측치 처리, 파일 입출력 등 다양한 데이터 처리 메서드를 제공
- 확장성: 크기가 자유롭게 변할 수 있으며, 새로운 행/열 추가 및 삭제가 쉬움
### 1. DataFrame 생성

In [4]:
# 리스트를 활용한 DataFrame 생성
df_list = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['A', 'B', 'C'])
df_list

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


In [6]:
# 딕셔너리를 활용한 DataFrame 생성
df_dict = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30], 'Score': [88.5, 92.3]})
df_dict

Unnamed: 0,Name,Age,Score
0,Alice,25,88.5
1,Bob,30,92.3


In [21]:
# Numpy 배열을 활용한 DataFrame 생성
arr = np.array([[10, 20], [30, 40]])
df_np = pd.DataFrame(arr)
print(df_np[0])  

arr = np.array([[10, 20], [30, 40]])
df_np = pd.DataFrame(arr, columns=['X', 'Y'])
print(df_np['X'])  

0    10
1    30
Name: 0, dtype: int32
0    10
1    30
Name: X, dtype: int32


In [None]:
# 다른 DataFrame을 복사(clone)하여 DataFrame 생성
df_copy = pd.DataFrame(df_dict)
print(df_copy)
df_copy['Age'] = df_copy['Age'] + 1  # Age 컬럼을 1 증가시킴
print(df_copy)  # 복사된 DataFrame은 원본과 독립적임
print(df_dict)  # 원본 DataFrame은 변경되지 않음

    Name  Age  Score
0  Alice   25   88.5
1    Bob   30   92.3
    Name  Age  Score
0  Alice   26   88.5
1    Bob   31   92.3
    Name  Age  Score
0  Alice   25   88.5
1    Bob   30   92.3


In [12]:
# url을 통해 CSV 파일을 읽어 DataFrame 생성
url = "https://storage.googleapis.com/tensorflow/tf-keras-datasets/jena_climate_2009_2016.csv.zip"

df = pd.read_csv(url, compression='zip')
df.head(10) # 처음 10개 행을 출력

Unnamed: 0,Date Time,p (mbar),T (degC),Tpot (K),Tdew (degC),rh (%),VPmax (mbar),VPact (mbar),VPdef (mbar),sh (g/kg),H2OC (mmol/mol),rho (g/m**3),wv (m/s),max. wv (m/s),wd (deg)
0,01.01.2009 00:10:00,996.52,-8.02,265.4,-8.9,93.3,3.33,3.11,0.22,1.94,3.12,1307.75,1.03,1.75,152.3
1,01.01.2009 00:20:00,996.57,-8.41,265.01,-9.28,93.4,3.23,3.02,0.21,1.89,3.03,1309.8,0.72,1.5,136.1
2,01.01.2009 00:30:00,996.53,-8.51,264.91,-9.31,93.9,3.21,3.01,0.2,1.88,3.02,1310.24,0.19,0.63,171.6
3,01.01.2009 00:40:00,996.51,-8.31,265.12,-9.07,94.2,3.26,3.07,0.19,1.92,3.08,1309.19,0.34,0.5,198.0
4,01.01.2009 00:50:00,996.51,-8.27,265.15,-9.04,94.1,3.27,3.08,0.19,1.92,3.09,1309.0,0.32,0.63,214.3
5,01.01.2009 01:00:00,996.5,-8.05,265.38,-8.78,94.4,3.33,3.14,0.19,1.96,3.15,1307.86,0.21,0.63,192.7
6,01.01.2009 01:10:00,996.5,-7.62,265.81,-8.3,94.8,3.44,3.26,0.18,2.04,3.27,1305.68,0.18,0.63,166.5
7,01.01.2009 01:20:00,996.5,-7.62,265.81,-8.36,94.4,3.44,3.25,0.19,2.03,3.26,1305.69,0.19,0.5,118.6
8,01.01.2009 01:30:00,996.5,-7.91,265.52,-8.73,93.8,3.36,3.15,0.21,1.97,3.16,1307.17,0.28,0.75,188.5
9,01.01.2009 01:40:00,996.53,-8.43,264.99,-9.34,93.1,3.23,3.0,0.22,1.88,3.02,1309.85,0.59,0.88,185.0


### 2. 다양한 데이터 타입

In [15]:
df_types = pd.DataFrame({
    'Integer': [1, 2, 3],
    'Float': [1.1, 2.2, 3.3],
    'String': ['a', 'b', 'c'],
    'Boolean': [True, False, True],
    'Date': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03'])
})
print(df_types.dtypes)  # 각 컬럼의 데이터 타입 확인
df_types

Integer             int64
Float             float64
String             object
Boolean              bool
Date       datetime64[ns]
dtype: object


Unnamed: 0,Integer,Float,String,Boolean,Date
0,1,1.1,a,True,2023-01-01
1,2,2.2,b,False,2023-01-02
2,3,3.3,c,True,2023-01-03


### 3. 레이블(라벨) 지원

In [8]:
df_labels = pd.DataFrame(
    data=[[10, 20], [30, 40]],
    index=['row1', 'row2'],
    columns=['col1', 'col2']
)
print(df_labels)
print(df_labels.index)  # 인덱스 확인
print(df_labels.columns)  # 컬럼 확인   
print(df_labels.loc['row1'])  # 특정 행 선택
print(df_labels['col1'])  # 특정 열 선택
print(df_labels.iloc[0])  # 첫 번째 행 선택
print(df_labels.iloc[:, 0])  # 첫 번째 열 선택

      col1  col2
row1    10    20
row2    30    40
Index(['row1', 'row2'], dtype='object')
Index(['col1', 'col2'], dtype='object')
col1    10
col2    20
Name: row1, dtype: int64
row1    10
row2    30
Name: col1, dtype: int64
col1    10
col2    20
Name: row1, dtype: int64
row1    10
row2    30
Name: col1, dtype: int64


### 4. 데이터 조작 및 분석 기능

In [30]:
# 필터링
filtered = df_dict[df_dict['Age'] > 25]
print(df_dict)
print(filtered)  # Age가 25보다 큰 행만 출력

filtered = df_dict[(df_dict['Age'] > 25) & (df_dict['Score'] > 90)]
print(filtered)  # Age가 25보다 크고 Score가 90보다 큰 행만 출력

    Name  Age  Score
0  Alice   25   88.5
1    Bob   30   92.3
  Name  Age  Score
1  Bob   30   92.3
  Name  Age  Score
1  Bob   30   92.3


#### 인덱싱 - loc(), iloc()

In [10]:
# loc, iloc 사용법
# loc: 라벨 기반 인덱싱
# iloc: 정수 기반 인덱싱
import pandas as pd

# 예제 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}, index=['row1', 'row2', 'row3'])
print(df)

# 특정 행 선택 (라벨 기반)
print(df.loc['row1'])  # row1 행 선택

# 특정 열 선택
print(df.loc[:, 'A'])  # A 열 선택

# 특정 행과 열 선택
print(df.loc['row1', 'A'])  # row1 행의 A 열 선택

# 슬라이싱
print(df.loc['row1':'row2', 'A':'B'])  # row1~row2, A~B 열 선택

      A  B  C
row1  1  4  7
row2  2  5  8
row3  3  6  9
A    1
B    4
C    7
Name: row1, dtype: int64
row1    1
row2    2
row3    3
Name: A, dtype: int64
1
      A  B
row1  1  4
row2  2  5


In [15]:
print(df)

# 특정 행 선택 (정수 인덱스 기반)
print(df.iloc[0])  # 첫 번째 행 선택
print(df.iloc[0].shape)

# 특정 열 선택
print(df.iloc[:, 0])  # 첫 번째 열 선택
print(df.iloc[:, 0].shape)

# 특정 행과 열 선택
print(df.iloc[0, 0])  # 첫 번째 행의 첫 번째 열 선택
print(df.iloc[0, 0].shape)
# 슬라이싱
print(df.iloc[0:2, 0:2])  # 0~1번째 행, 0~1번째 열 선택
print(df.iloc[0:2, 0:2].shape) 

      A  B  C
row1  1  4  7
row2  2  5  8
row3  3  6  9
A    1
B    4
C    7
Name: row1, dtype: int64
(3,)
row1    1
row2    2
row3    3
Name: A, dtype: int64
(3,)
1
()
      A  B
row1  1  4
row2  2  5
(2, 2)


#### 조건부 필터링

In [33]:
# 정렬
sorted_df = df_dict.sort_values(by='Score', ascending=False)
print(sorted_df)  # Score를 기준으로 내림차순 정렬된 DataFrame 출력

sorted_df = df_dict.sort_values(by=['Score', 'Age'], ascending=[False, True])
print(sorted_df)  # Score를 기준으로 내림차순, Age를 기준으로 오름차순 정렬된 DataFrame 출력

# 인덱스 초기화
sorted_df = sorted_df.reset_index(drop=True)  # drop=True는 기존 인덱스를 삭제
print(sorted_df)  # 인덱스 초기화된 DataFrame 출력

    Name  Age  Score
1    Bob   30   92.3
0  Alice   25   88.5
    Name  Age  Score
1    Bob   30   92.3
0  Alice   25   88.5
    Name  Age  Score
0    Bob   30   92.3
1  Alice   25   88.5


#### 통계

In [34]:
# 집계
agg_df = df_dict.groupby('Name').agg({'Age': 'mean', 'Score': 'sum'})
agg_df

Unnamed: 0_level_0,Age,Score
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,25.0,88.5
Bob,30.0,92.3


In [36]:
# 단일 통계
df_stats = df_dict.describe()  # 기본 통계량 계산
print(df_stats)  # 기본 통계량 출력

mean_age = df_dict['Age'].mean() # 단일 컬럼 계산
print(mean_age)  # 평균 나이 출력

             Age      Score
count   2.000000   2.000000
mean   27.500000  90.400000
std     3.535534   2.687006
min    25.000000  88.500000
25%    26.250000  89.450000
50%    27.500000  90.400000
75%    28.750000  91.350000
max    30.000000  92.300000
27.5


#### 결측치 처리

In [37]:
# 결측치 처리
df_missing = pd.DataFrame({'A': [1, None, 3], 'B': [4, 5, None]})
df_missing_filled = df_missing.fillna(0)
df_missing_filled

Unnamed: 0,A,B
0,1.0,4.0
1,0.0,5.0
2,3.0,0.0


In [42]:
# 결측치 보간
df_missing_interpolated = df_missing.interpolate(method='linear')
print(df_missing_interpolated)

filled_ffill = df_missing.ffill()  
print(filled_ffill)  # 앞의 값으로 결측치 채우기

filled_bfill = df_missing.bfill() 
print(filled_bfill)  # 뒤의 값으로 결측치 채우기

# 결측치 삭제
df_missing_dropped = df_missing.dropna()    
print(df_missing_dropped) 

     A    B
0  1.0  4.0
1  2.0  5.0
2  3.0  5.0
     A    B
0  1.0  4.0
1  1.0  5.0
2  3.0  5.0
     A    B
0  1.0  4.0
1  3.0  5.0
2  3.0  NaN
     A    B
0  1.0  4.0


#### 파일 입출력

In [None]:
# 파일 입출력
df_dict.to_csv('sample.csv', index=False)

### 5. 확장성 (행/열 추가 및 삭제)

- **행 추가**
  ```python
  new_row = {'Name': 'Charlie', 'Age': 28, 'Score': 85.0}
  df_expanded = df_dict.append(new_row, ignore_index=True)
  ```

- **열 추가**
  ```python
  df_expanded['Passed'] = df_expanded['Score'] > 90
  ```

- **행 삭제**
  ```python
  df_expanded_dropped = df_expanded.drop(0)  # 첫 번째 행 삭제
  ```

- **열 삭제**
  ```python
  df_expanded_dropped = df_expanded_dropped.drop('Passed', axis=1)
  ```

#### 실습 데이터: Jena 기후 데이터
- 특징: 온도, 기압, 습도 등 14개 센서 데이터 (10분 간격, 2009-2016년)
- 용량: 약 420,000행 (CSV 135MB)
- 적합성: 다변량 분석에 최적화된 구조

In [None]:
url = "https://storage.googleapis.com/tensorflow/tf-keras-datasets/jena_climate_2009_2016.csv.zip"

df = pd.read_csv(url, compression='zip')
# df = df[5::6]  # 10분→1시간 단위 변환
df['Date Time'] = pd.to_datetime(df['Date Time'], format='%d.%m.%Y %H:%M:%S')

# To-do 
# 1. read한 원본 DataFrame을 확인합니다.
# 2. df의 컬럼을 확인하고, 필요한 컬럼만 선택하여 새로운 DataFrame을 생성합니다.
# 3. 선택한 DataFrame에서 결측치를 처리합니다.
# 4. 선택한 DataFrame에서 특정 컬럼의 통계량을 계산합니다.
# 5. 선택한 DataFrame을 기간별 CSV 파일로 저장합니다. 
#   - 최신순 10분 단위 200개 컬럼
#   - 최신순 1시간 단위 200개 컬럼
#   - 최신순 1일 단위 200개 컬럼