<a href="https://colab.research.google.com/github/kooll/25t2/blob/main/book/ch00_lines_as_cells.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# はじめに

データサイエンスはコードで行われます。機械学習システムを構築する場合でも、データを初めて探索する場合でも、データの分布を視覚化する場合でも、統計分析を実行する場合でも、あなたのコーディングと計算のスキルがそれを実現します。プロダクションコードに取り組んでいる場合、これらのスキルは成功し、保守可能なコードを書くために不可欠です。たとえプロダクションソフトウェアチームで作業していなくても、他のデータサイエンティストが簡単に使用できる、より堅牢で再現性のあるコードを書くことは有益です。そして、もしあなたが一人で作業している場合でも、良いプラクティスはコーディングを加速し、休憩後にコードを再開するのに役立ちます。

私は常に優れたエンジニアリングの価値を理解していたわけではありません。データサイエンスのキャリアの初期に、データサイエンティストが私しかいないチームに参加しました。チームメイトはソフトウェアエンジニアとデザイナーで、他のデータサイエンティストから学ぶことができない中でスキルを向上させるのは難しいのではないかと心配していました。その懸念を同僚の開発者に伝えたところ、彼は「より良いコードを書くことを学べば、もっと多くのデータサイエンスができるようになる」と言いました。この言葉は心に残り、それ以来、ソフトウェアエンジニアリングのスキルを向上させることがデータサイエンスを行う上で非常に有益であると感じています。それにより、同僚が使いやすいコードを書けるようになり、数か月後に戻ってきたときでも簡単に変更できるコードを書くことができるようになりました。

この本の目的は、あなたがより良いデータサイエンスコードを書くための旅を導くことです。テスト、エラーハンドリング、ログ記録を含む一般的なタスクにおけるベストプラクティスを説明します。プロジェクトが成長しても保守しやすく、堅牢なコードを書く方法を説明します。また、他の人が簡単に利用できるようにコードを作る方法を示します。この本を終える頃には、あなたのデータサイエンスコードをより大規模なコードベースに統合できるようになります。

生成的AIの時代において、ソフトウェアエンジニアリングのスキルがあまり役に立たないと思うかもしれません。ChatGPTがコードを書いてくれるのではありませんか？とはいえ、この本の内容は、今でも依然として有用だと私は主張します。

AIアシスタントを使ってコーディングを加速しましょう。この本を通じて示すように、書くべきすべての関数に対して多くの選択肢が存在し、どのコード行を選ぶべきかを理解するための原則を知ることは非常に役立ちます。AIアシスタントが出力する結果を評価し、現在取り組んでいる問題に対して良い選択をしているかどうかを確認する必要があります。この本はその手助けをします。

## この本は誰のためのものですか？

この本はデータサイエンティストを対象としていますが、データアナリスト、機械学習（ML）エンジニア、データエンジニアなど、関連する分野で働く人々にも役立つ内容です。私は、コードを書くすべての人にとって有用な確立されたソフトウェアエンジニアリングの原則を説明しますが、これらの原則を説明するために使用する例は、データサイエンティストにとって最も馴染み深いものになるでしょう。

この本は、比較的新しくこの分野に入ったデータサイエンティストにとって理解しやすい内容にしています。おそらく、あなたはデータサイエンスの学位を取ったばかりか、業界での初めての仕事を始めたところかもしれません。この本では、入門的なデータサイエンスのコースでは必ずしも取り上げられない実践的なソフトウェアエンジニアリングのスキルを取り扱います。また、正式なデータサイエンスコースを受講していない場合もあるでしょう。独学で学んだり、数学や他の科学分野からデータサイエンスに移行する場合もあるでしょう。どのような経路でデータサイエンスに入るとしても、この本はあなたのためのものです。

より経験豊富なデータサイエンティストも多くを学ぶことができるでしょう。この本はソフトウェア開発者と頻繁に関わる仕事をしている場合に特に役立つと感じるでしょう。大規模なコードベースで効果的に作業するためのスキルや、プロダクションで効率的に動作するPythonコードを記述する方法を学ぶことができます。

データサイエンスの基礎、すなわちデータ探索、データ可視化、データ整形、基本的な機械学習、それに関連する数学のスキルを既にご存知であると仮定します。また、Pythonでのコーディングの基本、つまり関数の書き方や制御フロー文の書き方、NumPy、Matplotlib、pandas、scikit-learnといったモジュールの基本的な使い方も既にご存知であると仮定します。これらが新しいものである場合は、以下の書籍をお勧めします。

ジェイク・ヴァンダープラスによる「Pythonデータサイエンスハンドブック」（オライリー、2023年）

『ゼロから作るデータサイエンス』ジョエル・グラス著（オライリー・ジャパン、2019年）

サム・ラウ、ジョセフ・ゴンザレス、デボラ・ノーラン著『ラーニング・データサイエンス』（オライリー, 2023）

これは、データサイエンスや機械学習のスキルを習得しようとしているソフトウェア開発者向けの本ではありません。このような状況であれば、私はLaurence Moroneyによる「AI and Machine Learning for Coders」（オライリー、2020年）をお勧めします。

ソフトウェア工学 対 データサイエンス

この時点で、データサイエンスとソフトウェア工学のマインドセットの違いについて定義することは有益です。データサイエンティストは一般的に、探求、発見、仮説検証といった科学的プロセスを重視する背景から来ています。プロジェクトの最終結果は初めから分かっているわけではありません。それに対して、ソフトウェア工学は、何を作るかの計画を立て、それを作る最善の方法を設計し、計画されたものを構築するためのコードを書くことに焦点を当てたプロセスです。プロジェクトの期待される成果はプロジェクト開始時にわかっています。ソフトウェア工学の実践は標準化と自動化を強調します。データサイエンティストは、エンジニアリングのマインドセットの側面を利用してコードの品質を向上させることができ、その詳細については後で詳しく述べます。

## なぜPythonを選ぶのか？

この本のすべてのコード例はPythonで書かれており、多くの章ではPython特有のツールについて説明しています。近年、Pythonはデータサイエンスのための最も人気のあるプログラミング言語となっています。以下はAnacondaによって行われた3,000人以上のデータサイエンティストによる調査からの引用です。

「回答者の63%が常に、または頻繁にPythonを使用すると答え、これにより今年の調査で最も人気のある言語となりました。さらに、教育者の71%がPythonを教えており、88%の学生がデータサイエンス/機械学習分野へ進む準備としてPythonを教わっていると報告しました。」

Pythonは、データサイエンスのための非常に堅実なオープンソースライブラリのセットを持っており、強力な支援と健全なメンテナコミュニティが存在します。大手のトレンドセッティング企業は、主要な機械学習フレームワークとしてPythonを選択しています。例えば、TensorFlow（Google）やPyTorch（Meta）があります。このため、Pythonは特にプロダクションの機械学習コードに取り組むデータサイエンティストの間で人気があります。そこで求められる良好なコーディングスキルが特に重要です。

私の経験では、Pythonコミュニティはフレンドリーで歓迎的であり、スキル向上に役立つ素晴らしいイベントがたくさんあります。私にとってPythonは好みのプログラミング言語なので、この本にとっても自然な選択でした。

## この本に書かれていないこと

「この本は誰のためのものか」で述べたように、これはデータサイエンスの入門書やプログラミングの入門書ではありません。さらに、次のようなトピックは本書には登場しません。

Pythonのインストール: あなたがすでに最近のバージョンのPython (3.9以降) をインストールしており、VS CodeやPyCharmのようなコードを書くための何らかのIDE (統合開発環境) を持っていると仮定します。Pythonのインストール方法については説明しませんが、仮想環境のセットアップ方法について説明します。

他のプログラミング言語: 本書では「なぜPythonなのか？」で述べた理由からPythonのみに焦点を当てています。R、Julia、SQL、MATLAB、その他の言語の例は含まれていません。

コマンドラインスクリプト：コマンドラインやシェルスクリプトは、ファイルやテキストを操作するための強力な方法です。ここでは詳細に取り上げませんが、Jeroen Janssens による『Data Science at the Command Line』（オライリー、2021年）など、他の資料で詳しく解説されています。

高度なPython: この本の例には比較的シンプルなコードが含まれています。より高度なPythonコーディングに関しては、Patrick Viaforeによる『Robust Python』（オライリー、2021年）をお勧めします。

この本のガイド

この本では、個々の関数を書くレベルでの良いプラクティスを手始めに、その詳細を通してコーディングの改善方法を説明します。後半の章では、そのコードを他の人が使いやすいようにする方法や、デプロイメントの一般的な技術、そしてソフトウェアで作業する際の最良のプラクティスについて説明します。

この本は14章に分かれています。その内容の概要は次のとおりです。

第１章　良いコードとは

シンプルでモジュール化されており、読みやすく、効率的で頑健なコードを書くための基本を紹介します。

第２章　コードのパフォーマンス分析

コードのパフォーマンスを測定する方法について説明し、データサイエンスのコードをより効率的に実行するためのいくつかのオプションについて論じます。

第３章　データ構造の効率性

使用するデータ構造を選ぶ際に関わるトレードオフについて説明します。選択するデータ構造は、コードの効率に大きな違いをもたらすことがあります。

第４章　オプジェクト指向と関数プログラミング

これらのプログラミングスタイルの基本を説明します。正しく使用すれば、構造が良く効率的なコードを書くのに役立ちます。

第５章　エラー、ログ、デバッグ

コードが壊れたときに何をすべきか、役立つエラーの発見方法、そしてそのエラーがどこからきているのかを特定するための戦略を示します。

第６章　コードの整形、チェック

コードを自動化されたプロセスで標準化するためのツールの使い方を説明します。

第７章　コードテスト

コードをテストすることで、入力の変化に対してコードを強化する方法について説明します。これは、保守が容易なコードを書くための重要なステップです。

第８章　設計とリファクタリング

プロジェクトを標準化し、一貫した方法で構築する方法や、ノートブックからスクリプトへ移行する方法について説明します。

第９章　ドキュメンテーション

あなたのコードを他の人が読みやすくする方法を示します。コードの命名やコメントに関するベストプラクティスを含みます。

第１０章　コードの共有

Gitを使用したバージョン管理の基本と、仮想環境でプロジェクトの依存関係を管理する方法を紹介します。また、スクリプトをPythonパッケージに変換する手順も示します。

第１１章　API

APIの概念を紹介し、それをどのように使用できるかを示し、FastAPIの基本的なな例を含みます。

第１２章　自動化とデプロイ


コードのデプロイの基本、CI/CD（継続的インテグレーション/継続的デプロイまたは継続的デリバリー）とGitHub Actionsを使用してコードデプロイを自動化する方法、およびDockerコンテナでクラウド環境にコードをデプロイする方法について説明します。

第１３章　セキュリティ


一般的なセキュリティリスク、それらのリスクをどのように軽減できるか、そして機械学習に特有のセキュリティ脅威について議論します。

第１４章　チームで働く

ソフトウェア開発チームにおける一般的な実践を紹介し、アジャイルな働き方を含む、ソフトウェアチームでの一般的な役割について説明し、より広いコミュニティを紹介します。

第１５章　将来

将来的にコーディングがどのように変化するかについての考えや、次にできることのいくつかの提案で締めくくります。

##   各章を読む順序

この本の章は必ずしも順番に読む必要はありませんが、まず最初にこの章を読むことをお勧めします。この章では、良いコードを書くための基本を説明し、後の章でより詳しく扱うトピックを紹介します。また、本全体で使用するいくつかのコード例も紹介します。

以下に示すように、多くの章は個別に読むことができますが、次の例外があります。

第１章は最初に読むべきです。

第３章の前に、第２章を読んでください。

第１２章の前に、6, 7, 10, 11 章を読んでください。


いくつかの章には、機械学習のトピックをより深く掘り下げたセクションが含まれています。これらのセクションには必ずセクション名に「ML」が含まれており、もしあなたの仕事がMLに関わらないのであれば、これらのセクションを飛ばしても、その章の残りを理解するために必要な情報を見逃すことはありません。

##  この本で使用される表記法

(この本では次のような書式上の慣例が使用されています。)
詳しくは、英語版を読みましょう。

新しい用語、URL、メールアドレス、ファイル名、ファイル拡張子を示します。

プログラムのリストや、変数名、関数名、データベース、データ型、環境変数、ステートメント、キーワードなどのプログラム要素を参照するために、段落内でも使用されます。

ユーザーが文字通り入力すべきコマンドやテキストを表示します。

ユーザー指定の値または文脈によって決定される値で置き換えるべきテキストを表示します。

この要素は、ヒントや提案を示します。

この要素は一般的な注釈を示します。

この要素は警告または注意を示します。

コード例の使用方法

補足資料（コード例、演習問題など）は、でダウンロードできます。

この本はあなたの仕事をサポートするためにあります。一般的に、この本に掲載されているサンプルコードは、あなたのプログラムやドキュメントに自由に使用することができます。コードの大部分を再現するのでない限り、許可を求めるために私たちに連絡する必要はありません。例えば、この本からいくつかのコードを使用するプログラムを作成する場合、許可は必要ありません。O'Reillyの書籍からの例を販売または配布するには、許可が必要です。この本を引用して質問に答えたり、サンプルコードを引用したりする際には、許可は必要ありません。しかし、この本のサンプルコードを大量に自分の製品のドキュメンテーションに組み込む場合は、許可が必要です。

帰属を感謝しますが、一般的に必要とはしません。帰属には通常、タイトル、著者、出版社、ISBNが含まれます。例えば、「データサイエンティストのためのソフトウェア工学」著者: キャサリン・ネルソン (オライリー)、©2024 キャサリン・ネルソン、978-1-098-13620-8。

コード例の使用がフェアユースや上記の許可の範囲を超えると感じた場合は、お気軽に私たちに連絡してください。

O'Reilly オンラインラーニング

40年以上にわたり、企業が成功するためのテクノロジーやビジネストレーニング、知識、洞察を提供しています。

私たちの独自のエキスパートや革新者のネットワークは、書籍や記事、オンライン学習プラットフォームを通じて知識と専門性を共有しています。O'Reillyのオンライン学習プラットフォームでは、ライブトレーニングコース、詳細な学習パス、インタラクティブなコーディング環境、O'Reillyと200以上の他の出版社からの膨大なテキストとビデオコレクションにオンデマンドでアクセスできます。詳細については、こちらをご覧ください。

お問い合わせ方法

コメントや質問は次の宛先にお願いします。

または出版社へ:

オライリー・メディア株式会社

グラーベンシュタイン・ハイウェイ北1005番地、セバストポール、カリフォルニア州 95472

米国またはカナダ：800-889-8969

国際またはローカル：707-827-7019

707-829-0104（ファックス）

この本のためのウェブページがあり、そこには誤記、例、その他の追加情報を掲載しています。このページには でアクセスできます。

私たちの書籍や講座に関するニュースや情報については、こちらをご覧ください。

LinkedInで私たちを見つけてください。

YouTubeで私たちを観てください:

謝辞

この本の作成においてお手伝いしてくれた皆さんに心から感謝します！皆さんのコメント、フィードバック、ディスカッション、サポートは本当に貴重なものでした。

O'Reillyのチームと一緒に仕事ができて、本当に嬉しかったです。素晴らしいサポートをしてくれた編集者のバージニア・ウィルソンに感謝します。一緒に仕事ができて、本当に楽しかったです。書籍提案のプロセスで貴重な全体的指導とサポートをしてくれたニコール・バターフィールドに感謝します。いくつかの章を徹底的にレビューしてくれたジェフ・ブライエルに感謝し、生産プロセスをスムーズに進めてくれたクリス・フォーシェに感謝します。

技術レビュアーのウィリアム・ジャミール・シルヴァ、ガネッシュ・ハルケ、ジョ・スティッチバリー、アントニー・ミルン、ジェス・メイルズ、スウェサ・コムリに心から感謝いたします。皆様のフィードバックは非常に建設的で、最終的な本を大幅に改善することができました。細部まで丁寧に目を通し、有益な提案をしていただき、本当に感謝しています。また、執筆プロセス全体を通じて素晴らしいフィードバックと考え深い議論を提供してくれたロブ・マッソンにも感謝いたします。

キャロル・ウィリング、リカルド・マルティン・ブルアラ、クリス・トルドー、ミシェル・リウ、マリアム・エサニ、シバニ・パテル、ジョン・スイート、アンディ・ロス、アビゲイル・メスリニャメ・ドグベの皆さん、貴重な技術的な討論と洞察に満ちた会話をありがとうございました。また、PythonおよびPyLadiesのコミュニティの一員であることから多大な恩恵を受けています。時間を割いて活動してくださっているすべてのボランティアの皆さんに感謝します。

最後に、素晴らしい友人や家族の皆さん、サポートしてくれて本当にありがとう。ロブ、ママ、リチャード、リナ、サロメ、リカルド、クリス、キアナ、そしてケイティ—皆さんに心から感謝しています。