In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

## DataFrame 생성하기
1. 리스트: 간단한 데이터 구조로 데이터프레임 생성
2. <u>딕셔너리: 열 기반 데이터를 생성할 때 유용</u>
3. Numpy 배열: 고속의 다차원 배열의 데이터를 `pandas`로 변환
4. 빈 DataFrame: 초기화 후 데이터 추가 기능
5. 정해진 인덱스: 특정 인덱스를 지정하여 DataFrame 생성
6. CSV 파일:  파일 데이터를 읽어와 DataFrame 생성
7. <u>MultiIndex: 다중 인덱스를 가진 DataFrame 생성</u>

### 리스트: 간단한 데이터 구조로 데이터 프레임 생성

In [7]:
# 하나의 리스트가 row로 들어감
data = [[1, 'John', 28], [2, 'Anna', 24], [3, 'Peter', 35]]
df = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
df

Unnamed: 0,ID,Name,Age
0,1,John,28
1,2,Anna,24
2,3,Peter,35


### 딕셔너리를 이용한 DataFrame 생성

In [8]:
data = {
    'Name': ['John', 'Anna', 'Peter'],
    'Age': [28, 24, 35],
    'City': ['New York', 'Paris', 'Berlin']
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,24,Paris
2,Peter,35,Berlin


### Numpy 배열로 DataFrame 생성

In [9]:
data = np.array([[1, 'John', 28], [2, 'Anna', 24], [3, 'Peter', 35]])
df = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
df

Unnamed: 0,ID,Name,Age
0,1,John,28
1,2,Anna,24
2,3,Peter,35


### 빈 DataFrame 생성

In [10]:
df = pd.DataFrame(columns=['ID', 'Name', 'Age'])
print(df)

# 데이터 추가
df.loc[0] = [1, 'John', 28]
df.loc[1] = [2, 'Anna', 24]
df


Empty DataFrame
Columns: [ID, Name, Age]
Index: []


Unnamed: 0,ID,Name,Age
0,1,John,28
1,2,Anna,24


### 인덱스 지정하여 DataFrame 생성

In [11]:
data = {
    'Name': ['John', 'Anna', 'Peter'],
    'Age': [28, 24, 35],
    'City': ['New York', 'Paris', 'Berlin']
}
df = pd.DataFrame(data, index=['Person1', 'Person2', 'Person3'])
df


Unnamed: 0,Name,Age,City
Person1,John,28,New York
Person2,Anna,24,Paris
Person3,Peter,35,Berlin


### CSV 파일로부터 DataFrame 생성

```
df = pd.read_csv('data.csv')
print(df)
```

In [12]:
# 데이터 리스트와 인덱스/컬럼 이름 지정정
data = [[1, 28, 'New York'], [2, 24, 'Paris'], [3, 35, 'Berlin']]
df = pd.DataFrame(data, columns=['ID', 'Age', 'City'], index=['A', 'B', 'C'])
df

Unnamed: 0,ID,Age,City
A,1,28,New York
B,2,24,Paris
C,3,35,Berlin


### MULTI INDEX
from_tuples(), from_arrays(), from_product() 로 생성, 이 중에 from_tuples()가 유용

#### **튜플로부터 MultiIndex 생성**

In [18]:
tuples = [('A', 'One'), ('A', 'Two'), ('B', 'One'), ('B', 'Two')]
index = pd.MultiIndex.from_tuples(tuples, names=('Group', 'Number'))

# 데이터프레임 생성
df = pd.DataFrame({'Value': [10, 20, 30, 40]}, index=index)
df


Unnamed: 0_level_0,Unnamed: 1_level_0,Value
Group,Number,Unnamed: 2_level_1
A,One,10
A,Two,20
B,One,30
B,Two,40


#### 배열 리스트로부터 MultiIndex 생성

In [15]:
arrays = [['A', 'B', 'B', 'A'], ['One', 'Two', 'One', 'Two']]
index = pd.MultiIndex.from_arrays(arrays, names=('Group', 'Number')) # 인덱스도 이름 붙이기 가능
data = [[10, 20], [30, 40], [50, 60], [70, 80]]
df = pd.DataFrame(data, index=index, columns=['Value1', 'Value2'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Value1,Value2
Group,Number,Unnamed: 2_level_1,Unnamed: 3_level_1
A,One,10,20
B,Two,30,40
B,One,50,60
A,Two,70,80


#### 데카르트 곱으로 MultiIndex 생성

In [19]:
index = pd.MultiIndex.from_product([['A', 'B'], ['One', 'Two']], names=['Group', 'Number'])

# 데이터프레임 생성
df = pd.DataFrame({'Value': [10, 20, 30, 40]}, index=index)
df


Unnamed: 0_level_0,Unnamed: 1_level_0,Value
Group,Number,Unnamed: 2_level_1
A,One,10
A,Two,20
B,One,30
B,Two,40


In [20]:
df.loc['A']

Unnamed: 0_level_0,Value
Number,Unnamed: 1_level_1
One,10
Two,20


In [21]:
df.loc['B']

Unnamed: 0_level_0,Value
Number,Unnamed: 1_level_1
One,30
Two,40


In [22]:
# 단일 레벨 인덱스 xs 사용
print(df.xs('A', level='Group'))

        Value
Number       
One        10
Two        20


In [23]:
# 'Group' 레벨에서 각 그룹의 합계 계산
print(df.groupby(level='Group').sum())

       Value
Group       
A         30
B         70


### MultiIndex에서 인덱스 추가/삭제

In [24]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Value
Group,Number,Unnamed: 2_level_1
A,One,10
A,Two,20
B,One,30
B,Two,40


In [25]:
# 인덱스 수준 추가
df['Number2'] = [1, 2, 1, 2]
df.set_index('Number2', append=True, inplace=True)
print(df)

                      Value
Group Number Number2       
A     One    1           10
      Two    2           20
B     One    1           30
      Two    2           40


In [26]:
# 인덱스 수준 제거
df_reset = df.reset_index(level='Number2')
df_reset

Unnamed: 0_level_0,Unnamed: 1_level_0,Number2,Value
Group,Number,Unnamed: 2_level_1,Unnamed: 3_level_1
A,One,1,10
A,Two,2,20
B,One,1,30
B,Two,2,40
