# Pandasをインポート

In [1]:
import pandas as pd

# ピッツバーグブリッジのデータセットをインポート

In [2]:
pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl.metadata (5.5 kB)
Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [3]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
pittsburgh_bridges = fetch_ucirepo(id=18)

# data (as pandas dataframes)
X = pittsburgh_bridges.data.features
y = pittsburgh_bridges.data.targets

# metadata
print(pittsburgh_bridges.metadata)

# variable information
print(pittsburgh_bridges.variables)

{'uci_id': 18, 'name': 'Pittsburgh Bridges', 'repository_url': 'https://archive.ics.uci.edu/dataset/18/pittsburgh+bridges', 'data_url': 'https://archive.ics.uci.edu/static/public/18/data.csv', 'abstract': 'Bridges database that has original and numeric-discretized datasets', 'area': 'Other', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 108, 'num_features': 12, 'feature_types': ['Categorical', 'Integer'], 'demographics': [], 'target_col': None, 'index_col': ['IDENTIF'], 'has_missing_values': 'yes', 'missing_values_symbol': 'NaN', 'year_of_dataset_creation': 1989, 'last_updated': 'Thu Mar 21 2024', 'dataset_doi': '10.24432/C5RP5H', 'creators': ['Yoram Reich', 'Steven Fenves'], 'intro_paper': None, 'additional_info': {'summary': "There are two versions to the database: \r\n    -  V1 contains the original examples and \r\n     - V2 contains descriptions after discretizing numeric properties.\r\n\r\nThere are no ``classes'' in the domain. Rather this is

# データを確認

In [4]:
display(X.head())

Unnamed: 0,RIVER,LOCATION,ERECTED,PURPOSE,LENGTH,LANES,CLEAR-G,T-OR-D,MATERIAL,SPAN,REL-L,TYPE
0,M,3.0,CRAFTS,HIGHWAY,,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
1,A,25.0,CRAFTS,HIGHWAY,MEDIUM,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
2,A,39.0,CRAFTS,AQUEDUCT,,1.0,N,THROUGH,WOOD,,S,WOOD
3,A,29.0,CRAFTS,HIGHWAY,MEDIUM,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
4,M,23.0,CRAFTS,HIGHWAY,,2.0,N,THROUGH,WOOD,,S,WOOD


# Pandasに読み込む

In [5]:
df = pd.DataFrame(X)

# CSVとして出力

In [6]:
df.to_csv('pittsburgh_bridges.csv', index=False)

# Excelとして出力

In [7]:
df.to_excel('pittsburgh_bridges.xlsx', index=False)

# 列名を変更する

In [9]:
cols_jp = [
    '川コード', '位置', '施工年', '目的', '長さ', '車線数', '垂直クリアランス', '道路位置', '建築資材', '長さ区分', '相対長', '橋種別'
]

df2 = df.copy()

df2.columns = cols_jp

display(df2.head())

Unnamed: 0,川コード,位置,施工年,目的,長さ,車線数,垂直クリアランス,道路位置,建築資材,長さ区分,相対長,橋種別
0,M,3.0,CRAFTS,HIGHWAY,,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
1,A,25.0,CRAFTS,HIGHWAY,MEDIUM,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
2,A,39.0,CRAFTS,AQUEDUCT,,1.0,N,THROUGH,WOOD,,S,WOOD
3,A,29.0,CRAFTS,HIGHWAY,MEDIUM,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
4,M,23.0,CRAFTS,HIGHWAY,,2.0,N,THROUGH,WOOD,,S,WOOD


# 欠損値を確認する

In [10]:
df2.isnull()

Unnamed: 0,川コード,位置,施工年,目的,長さ,車線数,垂直クリアランス,道路位置,建築資材,長さ区分,相対長,橋種別
0,False,False,False,False,True,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,True,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,True,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
103,False,False,False,False,False,False,False,False,False,False,False,False
104,False,False,False,False,False,False,False,False,False,False,False,False
105,False,False,False,False,False,False,False,False,False,False,False,False
106,False,False,False,False,True,True,False,True,True,True,False,True


In [11]:
df2.isnull().sum()

Unnamed: 0,0
川コード,0
位置,1
施工年,0
目的,0
長さ,27
車線数,16
垂直クリアランス,2
道路位置,6
建築資材,2
長さ区分,16


# 欠損値を除去する方法

In [12]:
df3 = df2.copy()
df3 = df3.dropna(subset=['位置'])
df3.isnull().sum()

Unnamed: 0,0
川コード,0
位置,0
施工年,0
目的,0
長さ,27
車線数,15
垂直クリアランス,2
道路位置,5
建築資材,2
長さ区分,16


# dropna関数とは？
dropna関数は、PandasのDataFrameから欠損値（NaN値）を含む行や列を削除するための関数

# dropna関数の主要なパラメータ

* subset：指定した列の欠損値のみを対象にする
* axis：0（行を削除、デフォルト）または1（列を削除）
* how：'any'（1つでも欠損値があれば削除、デフォルト）または'all'（すべて欠損値の場合のみ削除）
* inplace：元のDataFrameを直接変更するか（True）、新しいDataFrameを返すか（False、デフォルト）