In [142]:
import numpy as np
import pandas as pd

In [143]:
# From dict of Series or dicts
d = {
    'one': pd.Series([1, 2, 3], index = ['a', 'b', 'c']),
    'two': pd.Series([1.0, 2.0, 3.0, 4.0], index = ['a', 'b', 'c', 'd'])
}

pd.DataFrame(d)

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [144]:
pd.DataFrame(d, index=['d', 'b', 'a'])
# 이미 d를 정의 할 때 index를 포함하였기에 DataFrame에서 그에 준한다.   🔰

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [145]:
pd.DataFrame(d, index=['d','b','a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


In [146]:
# From dict of ndarrays / lists

# DataFrame을 정의 할 때는 column 별로 정의할 때
d = {
    'one': [1.0, 2.0, 3.0, 4.0],
    'two': [4.0, 3.0, 2.0, 1.0]
}

df = pd.DataFrame(d, index=['a', 'b', 'c', 'd'])
df[['one']]
# DataFrame[[column1, column2]]: DataFrame에서 column을 추출하는 방법      💢
# DataFrame[boolean indexing]: DataFrame에서 Row를 추출하는 방법           💢
# df.loc[] df.iloc[]: Row를 추출하는 방법

Unnamed: 0,one
a,1.0
b,2.0
c,3.0
d,4.0


In [147]:
d = {"a": 1,  "b": 2, "c": 3}
# 같은 dictionary라도 DataFrame을 정의 하느냐, Series를 정의하느냐에 따라 전개 방향이 달라진다.
s = pd.Series(d)
# s[[0, 2]]
# Series[[index1, index2]]: Series에서 Row를 추출하는 방법
# Series[Boolean indexing]: Series에서 Row를 추출하는 방법
s

a    1
b    2
c    3
dtype: int64

In [148]:
# Series is dic-like : get/set with index label

# Series에 값을 추가 하는 방법
s["d"] = 4
# s
# s.append({'e': 5})   
# s.append( 5 )   
# Series에 append method는 쓸 수 없다
# Series는 단일 dtype으로 정의 된다.

s.get('f')   
# 'f' 값이 지정되지 않은 경우는 None을 return한다고 하는 데, 이른 아무것도 return하지 않는 다는 의미
s.get('f', np.nan)
# s.set('f', 2)  Series에 set method는 없다.

nan

In [149]:
# Vectorized operations and label alignment with Series
# https://chat.openai.com/share/24cd782a-fdbd-468a-9662-b9520e3602ed : Scalar VS Vectorize
# Series의 개별 값들은 scalar라고 불리고, 연산을 할 때 개별 scalar가 아닌 한 Series를 대상으로 연산하는 것을 vectorize(?)라 한다.

s + s
np.exp(s)

a     2.718282
b     7.389056
c    20.085537
d    54.598150
dtype: float64

In [150]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
    # index에 대한 control을 갖고자 한다면 list대신 pd.Series를 사용한다.
}
# pd.DataFrame(d)
# pd.DataFrame(d, index=["d", "b", "a"])
a = pd.DataFrame(d, index=["d", "b", "a"], columns=["one", "two"])
# a['two']
a['Three'] = pd.Series([2, 3, 4], index=list('abc'))
# a['three'] = [2, 3, 4]
# list로 dataFrame에 새로운 column을 set하는 할 수 있지만, index에 대한 control이 없다.
a


Unnamed: 0,one,two,Three
d,,4.0,
b,2.0,2.0,3.0
a,1.0,1.0,2.0


In [151]:
# From structured or record array

data = [(1, 2.0, 'Hello'), (2, 3.0, 'World')]
pd.DataFrame(data)

Unnamed: 0,0,1,2
0,1,2.0,Hello
1,2,3.0,World


In [152]:
# From structured or record array

data1 = np.zeros((3,), dtype=[('A','i4'), ('B','f4'), ('C', 'a10'), ('D', 'a10')])
# shape(3, )은 row가 3, dtype의 tuple수는 column수가 된다.
# structured array는 dtype으로 정의된다. 이렇게 dtype을 정의함으로써 정의되지 않은 데이터의 유입을 차단할 수 있다.
data1[:] = [(1, 2.0, 'Hello', ''), (2, 3.0, 'World', ''), (3, 4.0, 'World', '')]
pd.DataFrame(data1)

Unnamed: 0,A,B,C,D
0,1,2.0,b'Hello',b''
1,2,3.0,b'World',b''
2,3,4.0,b'World',b''


In [153]:
np.zeros((5,))
# 1 row, 5 columns
# 어하튼 array이니까 [...]안에 표시되고, element는 tuple로 표시된다.

array([0., 0., 0., 0., 0.])

In [154]:
np.zeros((2, 1))
# 1rows 1 column :: 표기법이 일관성이 없네...💢


array([[0.],
       [0.]])

In [155]:
# From a list of dicts
# 1 dic -> 1 row

# data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
# data2 = [{'a': 1, 'b': 2}]
# Series에서 dictionary라면 a, b는 index가 되었겠지만 이것이 list안에 있음으로 해서
data2 = [[1, 2, 3], [2, 3, 4]]
# pd.DataFrame(data2)
# data2.append({'a': 11, 'b': 21})
pd.Series(data2)

0    [1, 2, 3]
1    [2, 3, 4]
dtype: object

In [156]:
# From a dict of tuples
pd.DataFrame(
    {
        ("a", "b"): {("A", "B"): 1, ("A", "C"): 2},
        ("a", "a"): {("A", "C"): 3, ("A", "B"): 4},
        ("a", "c"): {("A", "B"): 5, ("A", "C"): 6},
        ("b", "a"): {("A", "C"): 7, ("A", "B"): 8},
        ("b", "b"): {("A", "D"): 9, ("A", "B"): 10},
    }
)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


In [157]:
# From a list of namedtuples
from collections import namedtuple

Point = namedtuple("Point", "x y")
# named tuple을 정의 할 때 column명을 지정한다.
# named tuple은 데이타의 dtype을 정의 하지 않기에 오류를 일으킬 수 있다
# np의 structured array를 사용하면 dtype을 정의하여 오류의 입을 차단 할 수 있다.
data11 = [Point(0, 0), ("a", 3), (2, 3)]

pd.DataFrame()
data11.append(Point(2, 4))
pd.DataFrame(data11)

Unnamed: 0,x,y
0,0,0
1,a,3
2,2,3
3,2,4


In [158]:
Point3D = namedtuple("Point3D", "x y z")
pd.DataFrame([Point3D(0, 0, 0), Point3D(0, 3, 5), Point(2, 3)])

Unnamed: 0,x,y,z
0,0,0,0.0
1,0,3,5.0
2,2,3,


In [159]:
from dataclasses import make_dataclass
import pandas as pd

Point = make_dataclass("Point", [('x', int), ('y', int)])
a = pd. DataFrame([Point(0,0),Point(0,3), Point(2,3)])
b = pd. DataFrame([Point(1,0),Point(1,3), Point(2,3)])
c = pd.concat([a, b], ignore_index=True)
c

Unnamed: 0,x,y
0,0,0
1,0,3
2,2,3
3,1,0
4,1,3
5,2,3


In [160]:
# Alternate constructors: DataFrame.from_dict
pd.DataFrame.from_dict(dict([("A", [1, 2, 3]), ("B", [4, 5, 6])]))

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [161]:
pd.DataFrame.from_dict({'A': [1, 2, 3], 'B': [4, 5, 6]})

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [162]:
pd.DataFrame.from_dict(
    dict([("A", [1, 2, 3]), ("B", [4, 5, 6])]),
    orient="index",
    columns=["one", "two", "three"],
)

Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


In [164]:
data1

array([(1, 2., b'Hello', b''), (2, 3., b'World', b''),
       (3, 4., b'World', b'')],
      dtype=[('A', '<i4'), ('B', '<f4'), ('C', 'S10'), ('D', 'S10')])

In [165]:
pd.DataFrame.from_records(data1)

Unnamed: 0,A,B,C,D
0,1,2.0,b'Hello',b''
1,2,3.0,b'World',b''
2,3,4.0,b'World',b''


In [174]:
# Column selection, addition, deletion

df = pd.DataFrame({'one':[1.0, 2.0, 3.0, np.nan], 'two':[1.0, 2.0, 3.0, 4.0]}, index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [175]:
df['three'] = df['one'] * df['two']
df['flag'] = df['one'] > 2
df

Unnamed: 0,one,two,three,flag
a,1.0,1.0,1.0,False
b,2.0,2.0,4.0,False
c,3.0,3.0,9.0,True
d,,4.0,,False


In [176]:
del df['two']
df

Unnamed: 0,one,three,flag
a,1.0,1.0,False
b,2.0,4.0,False
c,3.0,9.0,True
d,,,False


In [177]:
three = df.pop('three')
three

a    1.0
b    4.0
c    9.0
d    NaN
Name: three, dtype: float64

In [178]:
df

Unnamed: 0,one,flag
a,1.0,False
b,2.0,False
c,3.0,True
d,,False


In [179]:
df['bar'] = 'foo'
# When inserting a scalar value, it will naturally be propagated to fill the column:
df

Unnamed: 0,one,flag,bar
a,1.0,False,foo
b,2.0,False,foo
c,3.0,True,foo
d,,False,foo


In [180]:
df['one_trunc'] = df['one'][1:3]

In [181]:
df['one_trunc']

a    NaN
b    2.0
c    3.0
d    NaN
Name: one_trunc, dtype: float64

In [182]:
df

Unnamed: 0,one,flag,bar,one_trunc
a,1.0,False,foo,
b,2.0,False,foo,2.0
c,3.0,True,foo,3.0
d,,False,foo,
