Skip to content

waidonchan/Data-Analysis-and-Machine-Learning_python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

Pythonによる機械学習

目次

  1. 概要
  2. 使用したデータ
  3. 実装内容
  4. 結果
  5. 必要な環境
  6. 実行方法
  7. 開発者情報

概要

Kaggleで提供されているデータセットを使用して、機械学習モデルを構築・評価しました。Notebookでは、データの前処理、探索的データ分析 (EDA)、特徴量エンジニアリング、モデルの訓練と評価を行っています。主にPythonを使用して、以下のライブラリを活用しました

  • Pandas
  • NumPy
  • Matplotlib
  • Seaborn
  • Scikit-learn

(トップへ)

使用したデータ

(トップへ)

実装内容

  1. データの読み込みと概要確認

    • Pandasを使用してデータを読み込み、欠損値や異常値をチェック。
    • データ型や分布を分析。
  2. 探索的データ分析 (EDA)

    • SeabornとMatplotlibを使用して、データの可視化を実施。
    • 相関ヒートマップや特徴量分布のプロット。
  3. データ前処理

    • 欠損値の補完、外れ値の処理。
    • 数値型とカテゴリ型の特徴量を適切にエンコード。
  4. 特徴量エンジニアリング

    • 新しい特徴量の生成。
    • 必要に応じて次元削減を適用。
  5. モデルの構築と評価

    • Scikit-learnを使用して複数のモデルを構築(例: ランダムフォレスト、線形回帰、SVM)。
    • クロスバリデーションでモデルの汎化性能を評価。
  6. 結果の分析

    • 最適なモデルの選定。
    • モデル性能を可視化。

(トップへ)

結果

Notebook内では、モデルの精度、再現率、F1スコアなどの評価指標を使用して、モデルの性能を比較しました。さらに、予測結果の解釈を行い、ビジネスや研究への応用可能性を議論しました。

(トップへ)

必要な環境

  • Python 3.8以上
  • Kaggleアカウント(データセットへのアクセス用)
  • 主要ライブラリ:
    • pandas
    • numpy
    • matplotlib
    • seaborn
    • scikit-learn

(トップへ)

実行方法

  1. 必要なライブラリをインストールします:

    pip install pandas numpy matplotlib seaborn scikit-learn
  2. Kaggleからデータセットをダウンロードし、Notebookファイルと同じディレクトリに配置します。

  3. Notebookを開き、セルを順に実行してください。

(トップへ)


開発者情報

  • 名前: 高﨑仁美
  • 大学: 福井県立大学
  • スキル:
    • プログラミング:Python, Google Apps Script
    • イラスト
    • デザイン
    • 動画編集
  • 実績:
    • アクアスターイラストコンテスト受賞
    • 100program(東京大学が主催する開発コンペ) 優秀VR・AR賞受賞
    • GCI (東京大学が主催するpythonデータサイエンス講座) 修了
    • 大規模言語モデル講座(東京大学松尾研究室が主催するpythonLLM講座) 修了

(トップへ)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published