In [1]:
import pandas as pd 
import numpy as np

In [2]:
df = pd.DataFrame({"a": np.arange(1,5),
                   "b": np.arange(5,9)
                  })

In [3]:
df2 =  pd.DataFrame({"a": np.arange(9,12),
                   "b": np.arange(12,15)
                  }); df2

Unnamed: 0,a,b
0,9,12
1,10,13
2,11,14


In [4]:
df.append(df2)

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8
0,9,12
1,10,13
2,11,14


In [5]:
df.append(df2, ignore_index=True)

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8
4,9,12
5,10,13
6,11,14


In [6]:
# dataframeに渡すデータは配列じゃないとエラー
# もしscalar value ならばindex もつけて渡す

In [7]:
my_new_entry = dict(a=['hello'], b=['world'])
my_new_entry

{'a': ['hello'], 'b': ['world']}

In [8]:
or_usual_way_to_define = {'a':'hello', 'b':'world'}
or_usual_way_to_define

{'a': 'hello', 'b': 'world'}

In [9]:
my_new_item = pd.DataFrame(or_usual_way_to_define, index = [0])
my_new_item

Unnamed: 0,a,b
0,hello,world


In [10]:
my_new_entry = pd.Series(dict(a='hello', b='world'), name= 5)

In [11]:
df = df.astype('object')
dff = df.append(my_new_entry)

In [12]:
dff.dtypes

a    object
b    object
dtype: object

In [13]:
# hello をdtype int64 にしようとするとエラー
# ValueError: invalid literal for int() with base 10: 'hello'

In [14]:
# dff.astype('int64')

In [15]:
# これで取得できるのは、numpy.int64 objectなので値を変更することはできない

In [16]:
df.a.xs(0)

1

In [17]:
# int object

In [18]:
df.loc[:, ['a']].iloc[0]

a    1
Name: 0, dtype: object

In [19]:
# 以下のようにindexingする

In [20]:
df.a[0] = 10; df

Unnamed: 0,a,b
0,10,5
1,2,6
2,3,7
3,4,8


In [21]:
# 多分loc, ilocのslicing系の処理を連続して使用すると、
# 二つ目の処理の前にdeepcopyされる-> 値を変えられない

In [22]:
my_desired_column_name = 'a'
iter_number = 0
df.loc[:, [my_desired_column_name]].iloc[iter_number] = 10; df

Unnamed: 0,a,b
0,10,5
1,2,6
2,3,7
3,4,8


In [23]:
# 簡単な方法として、at がある.
# コラム名とindexを同時に使えて、代入まで可能.

In [24]:
df.at[iter_number, my_desired_column_name] = 10; df

Unnamed: 0,a,b
0,10,5
1,2,6
2,3,7
3,4,8


In [25]:
# それか先に「行」を出して、その後に普通のコラム名でindexingする

In [26]:
df.iloc[iter_number][my_desired_column_name] = 20; df

Unnamed: 0,a,b
0,20,5
1,2,6
2,3,7
3,4,8


In [27]:
# locでもat みたいなことができる

In [28]:
df.loc[iter_number, my_desired_column_name] = 40 ; df

Unnamed: 0,a,b
0,40,5
1,2,6
2,3,7
3,4,8


In [29]:
# 初期化の際にはコラムだけ指定しておけば良い

In [30]:
temp_df = pd.DataFrame(columns = ['a', 'b']) ; temp_df

Unnamed: 0,a,b


In [31]:
# appendする際には、元の変数に再格納するのを忘れない.

In [32]:
for i, v in enumerate(np.arange(10, 20)):
    newone = pd.DataFrame(dict(a=[i], b=[v]), index = [i+1])
    temp_df = temp_df.append(newone)

In [33]:
temp_df

Unnamed: 0,a,b
1,0,10
2,1,11
3,2,12
4,3,13
5,4,14
6,5,15
7,6,16
8,7,17
9,8,18
10,9,19


In [34]:
new_b = list(map(lambda num: num + 1, temp_df.b)); new_b

[11, 12, 13, 14, 15, 16, 17, 18, 19, 20]

In [35]:
new_b_df = pd.DataFrame({'b':new_b}); new_b_df

Unnamed: 0,b
0,11
1,12
2,13
3,14
4,15
5,16
6,17
7,18
8,19
9,20


In [36]:
# updateするdf のvalue = np.nan の場合、
# updateされるdf は更新されない.

In [37]:
temp_df.update(new_b_df)
temp_df

Unnamed: 0,a,b
1,0,12
2,1,13
3,2,14
4,3,15
5,4,16
6,5,17
7,6,18
8,7,19
9,8,20
10,9,19


In [38]:
 df.dtypes

a    int64
b    int64
dtype: object

In [39]:
df.astype('int64').dtypes

a    int64
b    int64
dtype: object

In [40]:
bools = [True, False]*5
temp_df.b[bools]

1    12
3    14
5    16
7    18
9    20
Name: b, dtype: object

In [41]:
sr = pd.Series(['New York', 'Chicago', 'Toronto', None, 'Rio']) 
index_ = ['City 1', 'City 2', 'City 3', 'City 4', 'City 5'] 

In [42]:
sr.index = index_ 
sr

City 1    New York
City 2     Chicago
City 3     Toronto
City 4        None
City 5         Rio
dtype: object

In [43]:
#  get で取得した値は can't assign to function call

In [44]:
sr.get('City 1')

'New York'

In [45]:
sr['City 1'] = 'Tokyo'
sr

City 1      Tokyo
City 2    Chicago
City 3    Toronto
City 4       None
City 5        Rio
dtype: object

In [46]:
# 欠損値を保管　interporate

In [47]:
s = pd.Series([0, 1, np.nan, 3])
s

0    0.0
1    1.0
2    NaN
3    3.0
dtype: float64

In [48]:
s.interpolate()

0    0.0
1    1.0
2    2.0
3    3.0
dtype: float64

In [49]:
purchase_1 = pd.Series({'Name': 'JJ',
                        'Item': 'A',
                        'Cost': 22.00})
purchase_2 = pd.Series({'Name': 'KK',
                        'Item': 'B',
                        'Cost': 22.50})

dfn = pd.DataFrame([purchase_1, purchase_2], index=['Store X', 'Store Y'])

dfn = dfn.append(pd.Series(data={'Cost': 30.00, 'Item': 'C','Name': 'TT'}, name='Store Y'))
dfn

Unnamed: 0,Name,Item,Cost
Store X,JJ,A,22.0
Store Y,KK,B,22.5
Store Y,TT,C,30.0
