In [1]:
# Pandas Data Frame

import pandas as pd

In [8]:
# 리스트를 이용한 데이터 프레임 생성
data_list = [['John', 25, 'New York'],
             ['Emma', 28, 'Paris'],
             ['Peter', 30, 'London'],
             ['Lisa', 27, 'Sydney']]

In [9]:
df = pd.DataFrame(data, columns = ['Name', 'Age', 'City']) 
# DataFrame Class의 DataFrame 생성자 호출 / Data, 열 이름 지정

df
# list, tuple, numpy array 등등 다양한 형태  


Unnamed: 0,Name,Age,City
0,John,25,New York
1,Emma,28,Paris
2,Peter,30,London
3,Lisa,27,Sydney


In [12]:
# NumPy Array를 이용한 데이터 프레임 생성
import numpy as np
data_array = np.array([['John', 25, 'New York'],
                       ['Emma', 28, 'Paris'],
                       ['Peter', 30, 'London'],
                       ['Lisa', 27, 'Sydney']])
type(data_array)

numpy.ndarray

In [15]:
df = pd.DataFrame(data_array, columns = ['Name', 'Age', 'City'])

df

Unnamed: 0,Name,Age,City
0,John,25,New York
1,Emma,28,Paris
2,Peter,30,London
3,Lisa,27,Sydney


In [16]:
# dictionary를 이용한 데이터 프레임 생성

data_dict = {'Name' : ['John', 'Emma', 'Peter', 'Lisa'],
             'Age' : [25, 28, 30, 27],
             'City' : ['New York', 'Paris', 'London', 'Sydney']}

In [18]:
df = pd.DataFrame(data_dict) # 키값이 열 이름이 된다.

df

Unnamed: 0,Name,Age,City
0,John,25,New York
1,Emma,28,Paris
2,Peter,30,London
3,Lisa,27,Sydney


In [28]:
# 중첩 딕셔너리 Nested dictionary를 이용한 데이터 프레임 생성
# 외부 키값은 열이 되고, 내부 키값은 index가 된다.

data_nested_dict = {'Name' : {'a' : 'John', 'b' : 'Emma', 'c' : 'Peter', 'd' : 'Lisa'},
                    'Age' : {'a' : 25, 'b' : 28, 'c' : 30, 'd' : 27},
                    'City' : {'a' : 'New York', 'b' : 'Paris', 'c' : 'London', 'd' : 'Sydney'}}

In [27]:
df = pd.DataFrame(data_nested_dict)

df

Unnamed: 0,Name,Age,City
a,John,25,New York
b,Emma,28,Paris
c,Peter,30,London
d,Lisa,27,Sydney


In [32]:
# 시리즈를 이용한 데이터 프레임 생성
name = pd.Series(['John', 'Emma', 'Peter', 'Lisa'])
age = pd.Series([25, 28, 30, 27])
city = pd.Series(['New York', 'Paris', 'London', 'Sydney'])

In [34]:
df = pd.DataFrame({'Name': name, 'Age' : age, 'City' : city})
df

Unnamed: 0,Name,Age,City
0,John,25,New York
1,Emma,28,Paris
2,Peter,30,London
3,Lisa,27,Sydney


In [35]:
# 예외적인 사용
sr_01 = pd.Series([1, 2, 3, 4, 5], name = 'sr_01')
sr_02 = pd.Series(['a', 'b', 'c', 'd', 'e'], name = 'sr_02')

In [38]:
df = pd.DataFrame([sr_01, sr_02])
df

Unnamed: 0,0,1,2,3,4
sr_01,1,2,3,4,5
sr_02,a,b,c,d,e


In [39]:
# 시리즈를 concatnence하여 데이터 프레임 생성
sr_01 = pd.Series([1, 2, 3], name = 'sr_01')
sr_02 = pd.Series([4, 5, 6], name = 'sr_02')
sr_03 = pd.Series([7, 8, 9], name = 'sr_03')

In [44]:
df = pd.concat([sr_01, sr_02, sr_03], axis = 1) # 열 기준으로 3개의 1차원 시리즈 합치기
print(type(df), df.shape)
df

<class 'pandas.core.frame.DataFrame'> (3, 3)


Unnamed: 0,sr_01,sr_02,sr_03
0,1,4,7
1,2,5,8
2,3,6,9


In [48]:
# index 매개변수 사용 
data_dict = {'Name' : ['John', 'Emma', 'Peter', 'Lisa'],
             'Age' : [25, 28, 30, 27],
             'City' : ['New York', 'Paris', 'London', 'Sydney']}

In [49]:
df = pd.DataFrame(data_dict, index = ['A', 'B', 'C', 'D']) # index 추가
df

Unnamed: 0,Name,Age,City
A,John,25,New York
B,Emma,28,Paris
C,Peter,30,London
D,Lisa,27,Sydney


In [55]:
# df = pd.DataFrame(data_dict, index = ['A', 'B', 'C', 'D'], columns = ['이름', '나이', '도시']) 
# 딕셔너리의 key로 지정된 후 데이터 프레임을 만들 때 columns 변경하면 안된다.

df = pd.DataFrame(data_dict, index = ['A', 'B', 'C', 'D'])
df.columns = ['이름', '나이', '도시'] # Data Frame을 만든 후에 열 변경이 가능하다
df

Unnamed: 0,이름,나이,도시
A,John,25,New York
B,Emma,28,Paris
C,Peter,30,London
D,Lisa,27,Sydney


In [71]:
# 데이터 프레임의 속성
df = pd.DataFrame({'A' : [1, 2, 3], 'B' : [4, 5, 6]})
print(df.shape)
print(df.ndim)
print(df.values)
print(df.columns)
print(df.index) # df.index가 함수 형태로 나온다.
print(df.size) # df.size 데이터 개수
print(df.dtypes) # df.dtypes 데이터의 타입
  
df

(3, 2)
2
[[1 4]
 [2 5]
 [3 6]]
Index(['A', 'B'], dtype='object')
RangeIndex(start=0, stop=3, step=1)
6
A    int64
B    int64
dtype: object


Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
