In [3]:
import numpy as np
import pandas as pd
population_dict = {'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135}
population = pd.Series(population_dict)
area_dict = {'California': 423967,
            'Texas': 695662,
            'New York': 141297,
            'Florida': 170312,
            'Illinois': 149995}
area = pd.Series(area_dict)

In [4]:
states = pd.DataFrame({'population': population, 'area': area})

In [5]:
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [6]:
states.loc['Texas':'New York']['area']

Texas       695662
New York    141297
Name: area, dtype: int64

In [7]:
states.iloc[0:2][['population','area']]

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662


In [8]:
data = [{'a': i, 'b': 2*i}
       for i in range(3)]
d = pd.DataFrame(data)

In [9]:
print(d)

   a  b
0  0  0
1  1  2
2  2  4


In [10]:
# ในกรณีบางคอลัมน์ไม่ได้กำหนดค่า Pandas จะเติม NaN ให้เช่น
abc = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])
print(abc)
# แถวแรก ค่าในคอลัมน์ c หายไป
# แถวที่สอง ค่าในคอลัมน์ a หายไป

     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0


In [13]:
# เราสามารถตรวจสอบว่ามี nan ใน dataframe ของเราหรือไม่ด้วย isna() เช่น
print(abc['c'][0])
print(type(abc['c'][0]))
np.isnan(abc['c'][0])

abc.isna()

nan
<class 'numpy.float64'>


Unnamed: 0,a,b,c
0,False,False,True
1,True,False,False


In [14]:
# ทดลองใส่ค่า 0 แทน nan
f = lambda x: 0 if np.isnan(x) else x
abcN = abc.applymap(f)

In [16]:
abcN

Unnamed: 0,a,b,c
0,1.0,2,0.0
1,0.0,3,4.0


In [18]:
for c in abc.columns:
    print(abc[c])

0    1.0
1    NaN
Name: a, dtype: float64
0    2
1    3
Name: b, dtype: int64
0    NaN
1    4.0
Name: c, dtype: float64


In [25]:
for c in abc.columns:
    print(abc[c].size)
    cols = abc[c].size;
    for j in range(cols):
        print(abc[c][j])

2
1.0
nan
2
2
3
2
nan
4.0


In [26]:
for c in abc.columns:
    cols = abc[c].size;
    for j in range(cols):
        abc[c][j] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [27]:
pd.DataFrame(np.random.rand(3,2), columns = ['colA', 'colB'],
            index = ['a', 'b', 'c'])

Unnamed: 0,colA,colB
a,0.77561,0.281147
b,0.739188,0.536032
c,0.606784,0.200182


In [34]:
pd.DataFrame(columns = ['school', 'id', 'Name', 'score'],
            index = ['ขอนแก่นวิทย์', 'ขอนแก่นวิทย์', 'แก่นนครวิทย์', 'สาธิต', 'สาธิต'])

Unnamed: 0,school,id,Name,score
ขอนแก่นวิทย์,,,,
ขอนแก่นวิทย์,,,,
แก่นนครวิทย์,,,,
สาธิต,,,,
สาธิต,,,,


In [40]:
id = pd.Index([1,2,3,4,6,8,9])
# id เป็น index object ซึ่งการกระทำใดๆ กับ index object ทำได้ทำนองเดียวกับ array
# index object มีทั้งแบบ immutable, mutable

In [41]:
print(id)

Int64Index([1, 2, 3, 4, 6, 8, 9], dtype='int64')


In [42]:
id[0:5:2]
# เริ่มต้นที่ 0 ถึง 4 ไม่รวมตำแหน่งที่ 5 นับเพิ่มที่ละ 2

Int64Index([1, 3, 6], dtype='int64')

In [43]:
id[::2]

Int64Index([1, 3, 6, 9], dtype='int64')

In [44]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,4,5,7,6])
intersecAB = indA & indB
unionAB = indA|indB
diffAB = indA ^ indB  # ไม่เอาตัวที่ซ้ำ
print(intersecAB)
print(unionAB)
print(diffAB)

Int64Index([5, 7], dtype='int64')
Int64Index([1, 2, 3, 4, 5, 6, 7, 9], dtype='int64')
Int64Index([1, 2, 3, 4, 6, 9], dtype='int64')


In [46]:
# เราสามารถใช้สมาชิกในการเลือก Series
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index = ['a', 'b', 'c', 'd'])
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [48]:
# เซตของค่าคีย์
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [49]:
# เมื่อเกิด Nan ตัวดำเนินการ Ufuncs มีตัวเลือกให้เราจัดการกับค่า nan เช่น
A = pd.Series([2,4,6], index = [0,1,2])
B = pd.Series([1,3,5], index = [1,2,3])
print(A)
print(B)
# เราจะสังเกตว่า index ของ A และ B ไม่สอดคล้องกัน
# เช่น index 0 ใน A มี แต่ใน B ไม่มี
# เช่น index 3 ใน B มี แต่ใน A ไม่มี

0    2
1    4
2    6
dtype: int64
1    1
2    3
3    5
dtype: int64


In [50]:
C = A + B
print(C)

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64


In [51]:
# สมาชิกที่เป็น Nan ของ A หรือ B จะถูกแทนที่ด้วย 0 ก่อนบวก
D = A.add(B,fill_value=0)
print(D)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64


In [55]:
# การจัด index เราสามารถกำหนดคอลัมน์ในลิสต์ได้
# ให้ A มีคอลัมน์ A,B
import numpy.random as rng
A = pd.DataFrame(rng.randint(0, 20, (2,2)),
                columns = list('AB'))
A

Unnamed: 0,A,B
0,15,7
1,7,9


In [56]:
B = pd.DataFrame(rng.randint(0, 10, (3,3)),
                columns = list('BAC'))
B

Unnamed: 0,B,A,C
0,6,2,0
1,5,9,4
2,4,4,8


In [57]:
A + B

Unnamed: 0,A,B,C
0,17.0,13.0,
1,16.0,14.0,
2,,,


In [58]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [59]:
# dype = object แสดงว่าเราสามารถใช้ตัวดำเนินการเพื่อเข้าถึงหรือจัดการเนื้อหาของ array ในลักษณะเชิงวัตถุ 
total = 0
for e in vals1:
    if(pd.isna(e) == False ):
        total = total + e
print(total)

8


In [60]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

In [61]:
print(vals2)

[ 1. nan  3.  4.]


In [62]:
one = np.ones(4)
print(one)
vals2 + one

[1. 1. 1. 1.]


array([ 2., nan,  4.,  5.])

In [66]:
print(np.nansum(vals2))
print(np.nanmean(vals2))
print(np.nanstd(vals2))
print(np.nanmin(vals2))
print(np.nanmax(vals2))

8.0
2.6666666666666665
1.247219128924647
1.0
4.0


In [67]:
x = pd.Series(range(3) , dtype = int)
x

0    0
1    1
2    2
dtype: int32

In [68]:
data.isnull()

a    False
b    False
c    False
d    False
dtype: bool

In [69]:
data[data.notnull()]
# ใช้ตรวจสอบว่าเป็น np.nan หรือ None ถ้าไม่ใช้ให้แสดงเฉพาะรายการที่ไม่ใช้ค่า np.nan หรือ None

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [70]:
d = data.dropna()

In [71]:
# ให้ใส่ค่า 0 แทนในค่าที่มี isnull() เป็นจริง
dfilled = data.fillna(0)

In [73]:
df = pd.DataFrame([[1, np.nan, 2],
                  [2, 3, 5],
                  [np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [76]:
print('☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺')
print('☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻')
print('♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥')

☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺☺
☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻☻
♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥
