In [24]:
# DataFrameの生成
# DataFrameは、Seriesを複数束ねたような2次元のデータ構造をしている
import pandas as pd

index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']        # インデックスを指定
data1 = [10, 5, 8, 12, 3]                   # 値を指定
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)     # Series配列を作成
series2 = pd.Series(data2, index=index)

df = pd.DataFrame([series1, series2])       # DataFrameテーブルを作成
print(df)

   apple  orange  banana  strawberry  kiwifruit
0     10       5       8          12          3
1     30      25      12          10          8


In [26]:
# インデックスとカラムの設定
# DataFrameでは、行の名前をインデックス、列の名前をカラムと呼ぶ
import pandas as pd

index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)
df = pd.DataFrame([series1, series2])

df.index = [1, 2]       # DataFrameテーブルのインデックス番号を配列で指定
# df.index = range(1, 3)
print(df)

   apple  orange  banana  strawberry  kiwifruit
1     10       5       8          12          3
5     30      25      12          10          8


In [28]:
# 行を追加する
import pandas as pd

index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
data3 = [30, 12, 10, 8, 25, 3]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

index.append('pineapple')                   # インデックス番号を追加
series3 = pd.Series(data3, index=index)     # 追加する行を作成

df = pd.DataFrame([series1, series2])

df = df.append(series3, ignore_index=True)  # DataFrameテーブルに行を追加
print(df)

   apple  orange  banana  strawberry  kiwifruit  pineapple
0     10       5       8          12          3        NaN
1     30      25      12          10          8        NaN
2     30      12      10           8         25        3.0


In [5]:
# 列を追加する
import pandas as pd

index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

new_column = pd.Series([15, 7], index=[0, 1])   # 追加する列の値とインデックス番号を指定

df = pd.DataFrame([series1, series2])

df['mango'] = new_column                        # 新しいインデックスを指定し、追加する配列を代入
print(df)

   apple  orange  banana  strawberry  kiwifruit  mango
0     10       5       8          12          3     15
1     30      25      12          10          8      7


In [12]:
# 名前による参照
import numpy as np
import pandas as pd

np.random.seed(0)       # 乱数を調整
columns = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)
print(df)
print()

# loc[]を使用し、2から5行目でインデックスがbananaとkiwifruitの部分のみ取得する
df = df.loc[range(2, 6), ['banana', 'kiwifruit']]
print(df)

    apple  orange  banana  strawberry  kiwifruit
1       6       8       6           3         10
2       1       7      10           4         10
3       4       9       9           9          1
4       4       9      10           2          5
5       8       2       5           4          8
6      10       7       4           4          4
7       4       8       1           4          3
8       6       8       4           8          8
9       3       9       6           1          3
10      5       2       1           2          1

   banana  kiwifruit
2      10         10
3       9          1
4      10          5
5       5          8


In [29]:
# 番号による参照
import numpy as np
import pandas as pd

np.random.seed(0)
columns = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)
print(df)
print()

# iloc[]を使用し、2から5行目で番号を使ってインデックスがbananaとkiwifruitの部分のみ取得する
df = df.iloc[range(1, 5), [2, 4]]
# df = df.iloc[1:5, [2, 4]]
print(df)

    apple  orange  banana  strawberry  kiwifruit
1       6       8       6           3         10
2       1       7      10           4         10
3       4       9       9           9          1
4       4       9      10           2          5
5       8       2       5           4          8
6      10       7       4           4          4
7       4       8       1           4          3
8       6       8       4           8          8
9       3       9       6           1          3
10      5       2       1           2          1

   banana  kiwifruit
2      10         10
3       9          1
4      10          5
5       5          8
range(1, 11)


In [19]:
# 行または列の消去
import numpy as np
import pandas as pd

np.random.seed(0)
columns = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)
print(df)
print()

# drop()を用いてdfの奇数のインデックスがついている行のみを残してdfに代入
df = df.drop(np.arange(2, 11, 2))   # drop()にはインデックスでも番号のどちらでも代入可能
print(df)
print()

# drop()を用いてdfの列strawberryを消去してdfに代入
df = df.drop('strawberry', axis=1)
print(df)

    apple  orange  banana  strawberry  kiwifruit
1       6       8       6           3         10
2       1       7      10           4         10
3       4       9       9           9          1
4       4       9      10           2          5
5       8       2       5           4          8
6      10       7       4           4          4
7       4       8       1           4          3
8       6       8       4           8          8
9       3       9       6           1          3
10      5       2       1           2          1

   apple  orange  banana  strawberry  kiwifruit
1      6       8       6           3         10
3      4       9       9           9          1
5      8       2       5           4          8
7      4       8       1           4          3
9      3       9       6           1          3

   apple  orange  banana  kiwifruit
1      6       8       6         10
3      4       9       9          1
5      8       2       5          8
7      4       8       1   

In [30]:
# ソート
import numpy as np
import pandas as pd

np.random.seed(0)
columns = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)
print(df)
print()

# dfをapple, orange, banana, strawberry, kiwifruitの優先度の順番に昇順にソート
df = df.sort_values(by=columns, ascending=True)     # Trueにすると昇順、Falseにすると降順
print(df)

    apple  orange  banana  strawberry  kiwifruit
1       6       8       6           3         10
2       1       7      10           4         10
3       4       9       9           9          1
4       4       9      10           2          5
5       8       2       5           4          8
6      10       7       4           4          4
7       4       8       1           4          3
8       6       8       4           8          8
9       3       9       6           1          3
10      5       2       1           2          1

    apple  orange  banana  strawberry  kiwifruit
6      10       7       4           4          4
5       8       2       5           4          8
1       6       8       6           3         10
8       6       8       4           8          8
10      5       2       1           2          1
4       4       9      10           2          5
3       4       9       9           9          1
7       4       8       1           4          3
9       3       9  

In [22]:
# フィルタリング
import numpy as np
import pandas as pd

np.random.seed(0)
columns = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)
print(df)
print()

# フィルタリングを用いて、dfのapple列が5以上勝つkiwifruit列が5以上の値を持つ行を含むDataFrameをdfに代入
df = df.loc[5 <= df['apple']][5 <= df['kiwifruit']]
print(df)

    apple  orange  banana  strawberry  kiwifruit
1       6       8       6           3         10
2       1       7      10           4         10
3       4       9       9           9          1
4       4       9      10           2          5
5       8       2       5           4          8
6      10       7       4           4          4
7       4       8       1           4          3
8       6       8       4           8          8
9       3       9       6           1          3
10      5       2       1           2          1

   apple  orange  banana  strawberry  kiwifruit
1      6       8       6           3         10
5      8       2       5           4          8
8      6       8       4           8          8
  df = df.loc[5 <= df['apple']][5 <= df['kiwifruit']]
