In [1]:
import pandas as pd

### 시리즈 생성

#### 배열을 이용한 시리즈 생성

In [2]:
s1 = pd.Series([1,2,3], index = ["A", "B", "C"])
display(s1)

A    1
B    2
C    3
dtype: int64

In [3]:
s1 = s1.astype(float)
display(s1)

A    1.0
B    2.0
C    3.0
dtype: float64

In [4]:
s2 = pd.Series([10, 20, 30])
display(s2)

0    10
1    20
2    30
dtype: int64

#### 딕셔너리를 이용한 시리즈 생성

In [5]:
s3 = pd.Series({"A":1, "B":2, "C":3, "D":4})
display(s3)

A    1
B    2
C    3
D    4
dtype: int64

### 시리즈 속성

In [6]:
display(s3.values)
display(s3.index)

array([1, 2, 3, 4], dtype=int64)

Index(['A', 'B', 'C', 'D'], dtype='object')

In [7]:
print(type(s3.index))

<class 'pandas.core.indexes.base.Index'>


In [8]:
print(s1.index.intersection(s3.index)) # s1 | s3
print(s1.index.union(s3.index)) # s1 & s3
print(s3.index.difference(s1.index)) # s3 - s1

Index(['A', 'B', 'C'], dtype='object')
Index(['A', 'B', 'C', 'D'], dtype='object')
Index(['D'], dtype='object')


### 데이터프레임 생성

#### 중첩 배열을 이용한 데이터프레임 생성

In [9]:
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=["A", "B"], index=["x", "y"])
display(df1)

Unnamed: 0,A,B
x,1,2
y,3,4


In [10]:
df2 = pd.DataFrame([[1, 2], [3, 4]])
display(df2)

Unnamed: 0,0,1
0,1,2
1,3,4


#### 딕셔너리를 이용한 데이터프레임 생성

In [11]:
df3 = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]}, index=["x", "y", "z"])
display(df3)

Unnamed: 0,A,B
x,1,4
y,2,5
z,3,6


### 데이터프레임 속성

In [12]:
display(df1.values) # 데이터
display(df1.index) # 인덱스
display(df1.columns) # 컬럼

array([[1, 2],
       [3, 4]], dtype=int64)

Index(['x', 'y'], dtype='object')

Index(['A', 'B'], dtype='object')

In [13]:
print(type(df1.loc["x"])) # 인덱스가 x인 행의 자료형 출력
print(type(df1.loc[:, "A"])) # 컬럼명이 Y인 열의 자료형 출력

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [14]:
print(type(df1.loc["x"])) # 인덱스가 x인 행의 자료형 출력
print(type(df1.loc[:, "A"])) # 컬럼명이 Y인 열의 자료형 출력

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


### 현실적인 데이터프레임 생성 방법

In [15]:
msg_list = ["numpy", "pandas", "matplotlib"]
data = []
for msg in msg_list:
    record = [msg] # 행 정의
    for x in ["a", "p", "n"]:
        record.append(msg.count(x)) # 행에 요소 추가
    data.append(record) # 행 추가
data = pd.DataFrame(data, columns = ["message", "a", "p", "n"])
display(data)

Unnamed: 0,message,a,p,n
0,numpy,0,1,1
1,pandas,2,1,1
2,matplotlib,1,1,0
