# **前処理に向けたデータ理解**

2.1 wordの読み込みのコード

In [None]:
!pip install python-docx



In [None]:
from docx import Document

# 読み込むWordファイルのパス
file_path = 'sample.docx'

# Wordファイルを開く
doc = Document(file_path)

# 各段落のテキストを表示
for paragraph in doc.paragraphs:
    print(paragraph.text)

データサイエンスと女性活躍の可能性を探る「WiDS HIROSHIMA シンポジウム」を運営いたします
イベント


株式会社Rejouiは、広島県主催の「WiDS HIROSHIMA（ウィズひろしま）」を運営します。2025年3月7日(金) のシンポジウムでは、スポーツをはじめとする広島を支える分野を中心に、データ活用の可能性を紐解きます。広島市内の会場およびオンライン配信によるハイブリッド開催です。参加費は無料で、現地にて懇親会も実施します。世代やジェンダーを問わず、データサイエンスやデータ活用に関心がある皆さまのご参加をお待ちしております。
イベントサイト 
https://wids.hiroshima.jp/
お申込み 
https://form.run/@wids-symposium2025
詳しくはプレスリリースをご覧ください。
https://prtimes.jp/main/html/rd/p/000000010.000119999.html


WiDS ( ウィズ／Women in Data Science ) とは

次世代データサイエンティストを育て活躍のフィールドを創ることを目的とした米国スタンフォード大学発の世界的なシンポジウムです。WiDS worldwide conference  は、世界中の 200 以上の地域で開催されており、世界中どこからでも、性別を問わずに誰もが参加できます。

WiDS の日本地域イベントとして位置づけられる WiDS HIROSHIMA ( ウィズひろしま ) は、アンバサダーの菅 由紀子と主催者（広島県・広島大学/他）によって、2021年から継続し毎年開催しています。産官学のデータサイエンス分野で活躍する女性データサイエンティスト達を中心に、広島県から次世代のデータサイエンティストを輩出することを目的に活動しています。


**データの取り込みと文字コードの指定**

2.2 pandasの呼び出しとサンプルデータの読み込み

In [None]:
# pandas をインポート. as pd は, pandasパッケージをこれ以降はpdという名前で呼び出しますという宣言です
import pandas as pd

In [None]:
# Google Colab で実行する場合
# Colab の仮想マシンには /content/sample_data/ フォルダが最初から用意されており、その中に«california_housing_train.csv» が置かれています。
# これはカリフォルニアの住宅価格のデータセットで、scikit-learn という機械学習のパッケージに用意されているものです。
df = pd.read_csv('sample_data/california_housing_train.csv')

In [None]:
#読み込んだデータを表示させてみましょう。
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


In [None]:
# Colab 以外の環境（ローカルに構築したJupyter Notebookなど）で同じデータを表示したい場合は
# scikit-learn 側の公式関数でダウンロードしpandas DataFrame に読み込みます。
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing(as_frame=True)
df = housing.frame

In [None]:
df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


2.3 顧客マスタmaster_customer.csvの読み込みとデータの確認

In [None]:
#df2というデータフレームにmaster_customer.csvファイルを読み込み、最初の列を行見出しとして扱う(index_colで指定)
df2 = pd.read_csv('master_customer.csv',index_col=0)

In [None]:
df2

Unnamed: 0_level_0,registration_date,zip,region,gender,birthday,surname,firstname,surname_alpha,firstname_alpha,first_purchase_trigger
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
23085.0,2018/2/28,543-9190,東京都,0.0,1996/11/7,大西,奏太,Onishi,Souta,4.0
15469.0,2019/6/9,363-1372,北海道,0.0,1992/9/16,三浦,拓也,Miura,Takuya,
15482.0,2020/9/5,706-1755,大阪府,1.0,1959/2/17,中島,優衣,Nakajima,Yui,8.0
17107.0,2016/1/1,277-3282,愛知県,0.0,1977/11/11,原,陸,Hara,Riku,2.0
24156.0,2011/9/24,485-6282,福岡県,0.0,1991/1/6,今井,翼,Imai,Tsubasa,7.0
...,...,...,...,...,...,...,...,...,...,...
9996.0,2022/2/14,038-1879,愛媛県,0.0,1992/6/20,西村,昌,Nishimura,Sho,2.0
9997.0,2015/6/8,495-1602,大阪府,0.0,1958/7/29,千葉,潔,Chiba,Kiyoshi,5.0
9998.0,2010/3/26,685-2641,東京都,1.0,1965/10/24,石川,良,Ishikawa,Ryo,4.0
9999.0,2010/11/17,513-3788,奈良県,1.0,1970/9/14,服部,みちる,Hattori,Michiru,4.0


2.4 文字コードを指定した読み込み（Shift_JIS）

In [None]:
#Shift_JISを指定して読み込み

df3 = pd.read_csv('master_customer_Sjis.csv',index_col=0,encoding='Shift_jis')

In [None]:
df3

Unnamed: 0_level_0,registration_date,zip,region,gender,birthday,surname,firstname,surname_alpha,firstname_alpha,first_purchase_trigger
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
23085.0,2018/2/28,543-9190,東京都,0.0,1996/11/7,大西,奏太,Onishi,Souta,4.0
15469.0,2019/6/9,363-1372,北海道,0.0,1992/9/16,三浦,拓也,Miura,Takuya,
15482.0,2020/9/5,706-1755,大阪府,1.0,1959/2/17,中島,優衣,Nakajima,Yui,8.0
17107.0,2016/1/1,277-3282,愛知県,0.0,1977/11/11,原,陸,Hara,Riku,2.0
24156.0,2011/9/24,485-6282,福岡県,0.0,1991/1/6,今井,翼,Imai,Tsubasa,7.0
...,...,...,...,...,...,...,...,...,...,...
9996.0,2022/2/14,038-1879,愛媛県,0.0,1992/6/20,西村,昌,Nishimura,Sho,2.0
9997.0,2015/6/8,495-1602,大阪府,0.0,1958/7/29,千葉,潔,Chiba,Kiyoshi,5.0
9998.0,2010/3/26,685-2641,東京都,1.0,1965/10/24,石川,良,Ishikawa,Ryo,4.0
9999.0,2010/11/17,513-3788,奈良県,1.0,1970/9/14,服部,みちる,Hattori,Michiru,4.0
