# dataframe
**Author**: inryeol
**Date**: 2024-08-04

# 데이터프레임

-   데이터프레임 = R언어에서 가장 중요한 자료구조

    -   리스트 + 행렬

-   one observation per row

-   ‘[ ]’ 기호나 ‘$’ 기호를 사용해서 접근한다.

    `data1$ID = datat1[, 1]`

## 예시 데이터 : chicago

-   공기오염과 온도에 대한 데이터셋
-   RDS 형식의 파일로 되어있다.

In [None]:
import pandas as pd
import numpy as np
import rpy2.robjects as robjects
from rpy2.robjects import pandas2ri

In [None]:
# R의 데이터를 pandas DataFrame으로 변환 가능하도록 활성화
pandas2ri.activate()

# RDS 파일을 읽어오기
rds_file_path = "../../dataset/chicago.rds"
readRDS = robjects.r['readRDS']
chicago = readRDS(rds_file_path)

# R DataFrame을 pandas DataFrame으로 변환
chicago_df = pandas2ri.rpy2py(chicago)

# 데이터 확인
print(chicago_df.head())

# 데이터프레임 다루기 - 1

-   dplyr 패키지 없이 자체적인 실력을 기르는 것을 목표로 한다.
-   익숙해질 때까지 반복!

## 1. 훓어보기

### dim()과 str()

In [None]:
# 데이터프레임의 차원과 구조 확인
chicago = pd.DataFrame()  # 예시를 위한 빈 데이터프레임 생성
print(chicago.shape)  # dim() 대신 shape 사용
print(chicago.info())  # str() 대신 info() 사용

```{r}
# head()와 tail()
head(chicago, 3) # 앞에만 보기
tail(chicago, 5) # 뒤에만 보기
```

In [None]:
# head()와 tail()로 데이터 일부 확인
print(chicago.head(3))  # head() 사용
print(chicago.tail(5))  # tail() 사용

## 2. 변수 고르기

chicago 데이터로 다음 두 결과를 만들어보자.

In [None]:
# 우선 순서대로 변수 이름을 본다.
print(chicago.columns)

# subset()과 select()를 응용해 뽑는다.
print(chicago.iloc[:, 0:3].head(6))

In [None]:
# 첫 번째 결과
print(chicago.iloc[:, 3:].head(6))

# 두 번째 결과
print(chicago.drop(chicago.columns[0:3], axis=1).head(6))

## 3. 필터링 & 순서 맞추기

### 1번) 2로 끝나는 변수들만 보기.

In [None]:
# 2로 끝나는 변수들만 필터링
print(chicago.filter(regex='2$').head())

### 2번) d로 시작하는 변수들만 보기

In [None]:
# d로 시작하는 변수들만 필터링
print(chicago.filter(regex='^d').head())

### 3번) 숫자가 포함된 변수들 보기 (자체)

In [None]:
# 숫자가 포함된 변수들만 필터링
print(chicago.filter(regex='[1-9]').head())

### 4번) 대문자가 포함된 변수들 보기 (자체)

In [None]:
# 대문자가 포함된 변수들만 필터링
print(chicago.filter(regex='[A-Z]').head())

## **필터링**: 조건에 맞는 변수 고르기

### **문제1** : 변수 PM2.5가 30보다 큰 chicago의 row 뽑고, summary 내기

In [None]:
# 조건에 넣을 이름 찾기
print(chicago.columns)

# 조건을 건다. 조건 자체는 열 데이터.
chic_f = chicago[(chicago['pm25'] < 100) & (chicago['pm25'].notna())]

# summary
print(chic_f['pm25tmean2'].describe())

### **문제2** : 변수 PM2.5가 30보다 크고, 변수 tmpd가 80보다 큰 chicago의 row 뽑기

In [None]:
# 조건을 2개 걸기 = 괄호 2개 사이에 & 기호를 넣는다.
filtered_data = chicago[(chicago['pm25tmean2'] > 30) & (chicago['tmpd'] > 80)]
print(filtered_data)

## **순서 맞추기** : 오름차순/내림차순

### 문제 ****: 날짜 순서에 따라 데이터 맞추기. 힌트: `order()`

In [None]:
# 날짜 데이터의 순서 맞추기 : order() 함수 사용
chic_o3 = chicago.sort_values('date', ascending=False)
print(chic_o3[['date', 'pm25tmean2']].head())