データサイエンス100本ノック（構造化データ加工編） - C # 
--

## はじめに
- 初めに以下のセルを実行してください
- 必要なライブラリのインポートとCSVファイルからのデータ読み込みを行います
- 利用が想定されるライブラリは以下セルでインポートしています
- その他利用したいライブラリがあれば適宜インストールしてください（"#r "nuget:ライブラリ名" で nuget パッケージがインストール可能）
- 処理は複数回に分けても構いません
- 名前、住所等はダミーデータであり、実在するものではありません

In [112]:
#!about

0,1
,.NET Interactive© 2020 Microsoft CorporationVersion: 1.0.456201+e5dc02dbdc933d895d722e69bfa98d580dcda8d9Library version: 1.0.0-beta.23562.1+e5dc02dbdc933d895d722e69bfa98d580dcda8d9Build date: 2023-11-29T14:04:54.2696190Zhttps://github.com/dotnet/interactive


In [231]:
#!pwsh
cd df_ext
dotnet build
cd ..

MSBuild のバージョン 17.8.3+195e7f5a3 (.NET)
  復元対象のプロジェクトを決定しています...
  復元対象のすべてのプロジェクトは最新です。
  df_ext -> D:\work\2023-11-29-jupyter\100knocks-data-scientist-cs\work\df_ext\bin\Debug\net7.0\df_ext.dll

ビルドに成功しました。
    0 個の警告
    0 エラー

経過時間 00:00:00.97


In [115]:
// 必要なライブラリを nuget パッケージからインストールします。
#r "nuget:Microsoft.Data.Analysis"
#r "nuget:XPlot.Plotly.Interactive, 4.0.7"


using Microsoft.Data.Analysis;


In [116]:
// ローカルにあるライブラリを参照します。
#r "df_ext/bin/Debug/net7.0/df_ext.dll"


using df_ext;

In [117]:
// using 設定
using System.Text.RegularExpressions;
using Microsoft.DotNet.Interactive.Formatting;
using static Microsoft.DotNet.Interactive.Formatting.PocketViewTags;
using Microsoft.AspNetCore.Html;

// 日付表示のキレイ化
Formatter.Register<DateTime>((date, writer) => 
{
    if (date.Hour == 0 && date.Minute == 0 && date.Second == 0) {
        writer.Write(span(date.ToString("yyyy-MM-dd")));
    } else {
        writer.Write(span(date.ToString("yyyy-MM-dd HH:mm:ss")));
    }
}, "text/html");

In [118]:
// データを CSV ファイルから取得する定義＆読み込み



public class Customer
{
    public string customer_id { get; set; }
    public string customer_name { get; set; }
    public string gender_cd { get; set; }
    public string gender { get; set; }
    public DateTime? birth_day { get; set; }
    public int? age { get; set; }
    public string postal_cd { get; set; }
    public string address { get; set; }
    public string application_store_cd { get; set; }
    public string application_date { get; set; }
    public string status_cd { get; set; }
}
var df_customer = DataFrame.LoadCsv("./customer.csv",
    columnNames: new string[] {"customer_id","customer_name","gender_cd","gender","birth_day","age","postal_cd","address","application_store_cd","application_date","status_cd"}, 
    dataTypes: new Type[] {typeof(string), typeof(string), typeof(string), typeof(string), typeof(DateTime), typeof(int), typeof(string), typeof(string), typeof(string), typeof(string), typeof(string)});
    
public class Category
{
    public string category_major_cd { get; set; }
    public string category_major_name { get; set; }
    public string category_medium_cd { get; set; }
    public string category_medium_name { get; set; }
    public string category_small_cd { get; set; }
    public string category_small_name { get; set; }
}

var df_category = DataFrame.LoadCsv("./category.csv",
    columnNames: new string[] {"category_major_cd","category_major_name","category_medium_cd","category_medium_name","category_small_cd","category_small_name"},
    dataTypes: new Type[] {typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(string)}
);

public class Product
{
    public string product_cd { get; set; }
    public string category_major_cd { get; set; }
    public string category_medium_cd { get; set; }
    public string category_small_cd { get; set; }
    public int? unit_price { get; set; }
    public int? unit_cost { get; set; }
}


var df_product = DataFrame.LoadCsv("./product.csv",
    columnNames: new string[] {"product_cd","category_major_cd","category_medium_cd","category_small_cd","unit_price","unit_cost"},
    dataTypes: new Type[] {typeof(string), typeof(string), typeof(string), typeof(string), typeof(int), typeof(int)});


public class Receipt
{
    public string sales_ymd { get; set; }
    public int? sales_epoch { get; set; }
    public string store_cd { get; set; }
    public short receipt_no { get; set; }
    public short receipt_sub_no { get; set; }
    public string customer_id { get; set; }
    public string product_cd { get; set; }
    public int? quantity { get; set; }
    public int? amount { get; set; }
}


var df_receipt = DataFrame.LoadCsv("./receipt.csv",
    columnNames: new string[] {"sales_ymd","sales_epoch","store_cd","receipt_no","receipt_sub_no","customer_id","product_cd","quantity","amount"},
    dataTypes: new Type[] {typeof(string), typeof(int), typeof(string), typeof(short), typeof(short), typeof(string), typeof(string), typeof(int), typeof(int)});

public class Store
{
    public string store_cd { get; set; }
    public string store_name { get; set; }
    public string prefecture_cd { get; set; }
    public string prefecture { get; set; }
    public string address { get; set; }
    public string address_kana { get; set; }
    public string tel_no { get; set; }
    public decimal ?longitude { get; set; }
    public decimal ?latitude { get; set; }
    public decimal ?floor_area { get; set; }
}

var df_store = DataFrame.LoadCsv("./store.csv",
    columnNames: new string[] {"store_cd","store_name","prefecture_cd","prefecture","address","address_kana","tel_no","longitude","latitude","floor_area"},
    dataTypes: new Type[] {typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(decimal), typeof(decimal), typeof(decimal)});

public class Geocode
{
    public string postal_cd { get; set; }
    public string prefecture { get; set; }
    public string city { get; set; }
    public string town { get; set; }
    public string street { get; set; }
    public string address { get; set; }
    public string full_address { get; set; }
    public decimal? longitude { get; set; }
    public decimal? latitude { get; set; }
}
var df_geocode = DataFrame.LoadCsv("./geocode.csv",
    columnNames: new string[] {"postal_cd","prefecture","city","town","street","address","full_address","longitude","latitude"},
    dataTypes: new Type[] {typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(string), typeof(decimal), typeof(decimal)});


# 演習問題

---
> P-001: レシート明細のデータフレーム（df_receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [119]:
df_receipt.Head(5)


index,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90


---
> P-002: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [121]:
df_receipt.SelectWithColumn("sales_ymd", "customer_id", "product_cd", "amount").Head(10).Display();

index,sales_ymd,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-003: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [122]:

df_receipt.SelectWithColumn("sales_ymd", "customer_id", "product_cd", "amount")
    .ChangeColumnName("sales_ymd", "sales_date")
    .Head(10).Display();


index,sales_date,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-004: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [123]:
/*
df_receipt.Select(r => new {r.sales_ymd, r.customer_id, r.product_cd, r.amount})
    .Where(r => r.customer_id == "CS018205000001").DisplayTable()   
*/
df_receipt.Filter(df_receipt["customer_id"].ElementwiseEquals("CS018205000001"))
    .SelectWithColumn("sales_ymd", "customer_id", "product_cd", "amount")

index,sales_ymd,customer_id,product_cd,amount
0,20180911,CS018205000001,P071401012,2200
1,20180414,CS018205000001,P060104007,600
2,20170614,CS018205000001,P050206001,990
3,20170614,CS018205000001,P060702015,108
4,20190216,CS018205000001,P071005024,102
5,20180414,CS018205000001,P071101002,278
6,20190226,CS018205000001,P070902035,168
7,20190924,CS018205000001,P060805001,495
8,20190226,CS018205000001,P071401020,2200
9,20180911,CS018205000001,P071401005,1100


---
> P-005: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

# 以下はまだ未実装

In [124]:
df_receipt.Select(r => new {r.sales_ymd, r.customer_id, r.product_cd, r.amount})
    .Where(r => r.customer_id == "CS018205000001" && r.amount >= 1000)
    .DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-006: レシート明細データフレーム「df_receipt」から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [125]:
df_receipt.Select(r => new {r.sales_ymd, r.customer_id, r.product_cd, r.amount, r.quantity})
    .Where(r => r.customer_id == "CS018205000001" && (r.amount >= 1000 || r.quantity >= 5))
    .DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-007: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [126]:
df_receipt.Select(r => new {r.sales_ymd, r.customer_id, r.product_cd, r.amount})
    .Where(r => r.customer_id == "CS018205000001" && (1000 <= r.amount && r.amount <= 2000))
    .DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-008: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [127]:
df_receipt.Select(r => new {r.sales_ymd, r.customer_id, r.product_cd, r.amount})
    .Where(r => r.customer_id == "CS018205000001" && r.product_cd != "P071401019")
    .DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`df_store.Where( r => !(r.prefecture_cd == "13" || r.floor_area > 900))`

In [128]:
df_store.Where( r => r.prefecture_cd != "13" && r.floor_area <= 900)
.DisplayTable()

Error: (1,10): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-010: 店舗データフレーム（df_store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [129]:
df_store.Where(r => r.store_cd.StartsWith("S14")).Take(10).DisplayTable()

Error: (1,10): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-011: 顧客データフレーム（df_customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。

In [130]:
df_customer.Where(r => r.customer_id.EndsWith("1")).Take(10).DisplayTable()

Error: (1,13): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-012: 店舗データフレーム（df_store）から横浜市の店舗だけ全項目表示せよ。

In [131]:
df_store.Where(r => r.address.Contains("横浜市")).DisplayTable()

Error: (1,10): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-013: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [132]:
df_customer.Where(r => Regex.IsMatch(r.status_cd, "^[A-F]")).Take(10).DisplayTable()

Error: (1,13): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-014: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [133]:
df_customer.Where(r => Regex.IsMatch(r.status_cd, "[1-9]$")).Take(10).DisplayTable()

Error: (1,13): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-015: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [134]:
df_customer.Where(r => Regex.IsMatch(r.status_cd, "^[A-F].*[1-9]$")).Take(10).DisplayTable()

Error: (1,13): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-016: 店舗データフレーム（df_store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [135]:

Formatter.ListExpansionLimit = int.MaxValue; // 全データを表示するために制限解除

df_store.Where(r => Regex.IsMatch(r.tel_no, "^[0-9]{3}-[0-9]{3}-[0-9]{4}$")).DisplayTable();
    
Formatter.ListExpansionLimit = 20; // データ表示件数の制限


Error: (4,10): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-17: 顧客データフレーム（df_customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [136]:
df_customer.OrderBy(r => r.birth_day).Take(10).DisplayTable()

Error: (1,21): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-18: 顧客データフレーム（df_customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [137]:
df_customer.OrderByDescending(r => r.birth_day).Take(10).DisplayTable()

Error: (1,31): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-19: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [138]:
// 小さい順に並び替えたランキングを計算。同じ値の場合は同じランキングにする
var amount_rank = df_receipt.OrderByDescending(r => r.amount ?? 0)
                .Select((r, index) => new { rank = index + 1, amount = r.amount ?? 0 })
                .GroupBy(r => r.amount, r => r.rank,
                    (amount, rankList) => new { amount = amount, rank = rankList.Min()})
                .ToDictionary(r => r.amount);

// 上記で計算した amount -> ranking の 値を参照する
df_receipt.Select( r => new { r.customer_id, r.amount, ranking = amount_rank[r.amount ?? 0].rank})
    .OrderBy(r => r.ranking).Take(10).DisplayTable()

Error: (2,48): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(9,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-020: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [139]:
df_receipt.OrderByDescending(r => r.amount)
    .Select((r,index) => new { r.customer_id, r.amount, ranking = index + 1})
    .Take(10).DisplayTable()

Error: (1,30): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-021: レシート明細データフレーム（df_receipt）に対し、件数をカウントせよ。

In [140]:
df_receipt.Count

Error: (1,12): error CS8917: デリゲート型を推論できませんでした。

---
> P-022: レシート明細データフレーム（df_receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [141]:
df_receipt.Select(r => r.customer_id).Distinct().Count()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-023: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [142]:
//df_receipt.groupby('store_cd').agg({'amount':'sum', 'quantity':'sum'}).reset_index()
df_receipt.GroupBy(r => r.store_cd)
    .Select(r => new {
        store_cd = r.Key,
        sum_amount = r.Sum(t => t.amount ?? 0),
        sum_quantity = r.Sum(t => t.quantity)
    }).OrderBy(r => r.store_cd).DisplayTable()

Error: (2,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-024: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [143]:
df_receipt.GroupBy(r => r.customer_id).Select(r => new {customer_id = r.Key, sales_ymd = r.Max(t => t.sales_ymd)})
    .OrderBy(r => r.customer_id).Take(10).DisplayTable()

Error: (1,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-025: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [144]:
df_receipt.GroupBy(r => r.customer_id).Select(r => new {customer_id = r.Key, sales_ymd = r.Min(t => t.sales_ymd)})
    .OrderBy(r => r.customer_id).Take(10).DisplayTable()

Error: (1,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-026: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [145]:
df_receipt.GroupBy(r => r.customer_id).Select(r => new {customer_id = r.Key, max_sales_ymd = r.Max(t => t.sales_ymd), min_sales_ymd = r.Min(t => t.sales_ymd) })
    .Where(r => r.max_sales_ymd != r.min_sales_ymd)
    .OrderBy(r => r.customer_id).Take(10).DisplayTable()

Error: (1,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-027: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [146]:
df_receipt.GroupBy(r => r.store_cd).Select(r => new {
    store_cd = r.Key,
    avg_amount = r.Average(r => r.amount)
}).OrderByDescending(r => r.avg_amount).Take(5).DisplayTable()

Error: (1,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-028: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [147]:
using MathNet.Numerics.Statistics;

df_receipt.GroupBy(r => r.store_cd).Select(r => new {
    store_cd = r.Key,
    median_amount = r.Select(t => (double) t.amount).Median()
}).OrderByDescending(r => r.median_amount).ThenBy(r => r.store_cd).Take(5).DisplayTable()

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-029: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求めよ。

In [148]:
// store_cd product_cd をキーに データ件数をカウント
var count_list = df_receipt
.GroupBy(r => new { r.store_cd, r.product_cd })
.Select(t => new { store_cd = t.Key.store_cd, product_cd = t.Key.product_cd, count = t.Count() });

// store_cd 単位で 件数の多い最初の1件を抽出
var store_top_count_item = count_list
.GroupBy(r => r.store_cd)
.Select(r => new { store_cd = r.Key, maxItem = r.OrderByDescending(r => r.count).First() });

// 結果取得
store_top_count_item.Select(r => new { r.store_cd, r.maxItem.product_cd, r.maxItem.count }).OrderBy(r => r.store_cd)
.DisplayTable()

Error: (3,10): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-030: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順でTOP5を表示せよ。

In [149]:
using MathNet.Numerics.Statistics;

df_receipt.GroupBy(r => r.store_cd).Select(r => new {
    store_cd = r.Key,
    variance_amount = r.Select(t => (double) t.amount).PopulationVariance()
}).OrderByDescending(r => r.variance_amount).ThenBy(r => r.store_cd).Take(5).DisplayTable()

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-031: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順でTOP5を表示せよ。

```
var_sample <- function(x){ var(x)*(length(x)-1)/length(x) }
std_sample <- function(x){ sqrt(var_sample(x)) }
```

In [150]:
using MathNet.Numerics.Statistics;

df_receipt.GroupBy(r => r.store_cd)
    .Select(r => new {key = r.Key, std_amount = Math.Sqrt(r.Select(t => (double) t.amount).PopulationVariance())})
    .OrderByDescending(r => r.std_amount)
    .Take(5).DisplayTable()

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-032: レシート明細データフレーム（df_receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [151]:
using MathNet.Numerics.Statistics;

// 売上金額のリスト
var amountList = df_receipt.Select(r => (double) r.amount).ToList();

// 結果
new { 
    amount_25per = amountList.Percentile(25),
    amount_50per = amountList.Percentile(50),
    amount_75per = amountList.Percentile(75),
    amount_100per = amountList.Percentile(100),
}

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,29): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-033: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [152]:
df_receipt.GroupBy(r => r.store_cd)
    .Select(r => new { store_code = r.Key, avg_amount = r.Average(t => t.amount) })
    .Where(r => r.avg_amount >= 330).OrderBy(r => r.store_code).DisplayTable()

Error: (1,20): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-034: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [153]:
df_receipt
    .Where(r => !r.customer_id.StartsWith("Z"))
    .GroupBy(r => r.customer_id)
    .Select(r => new { sum_amount = r.Sum(r => r.amount)})
    .Average(r => r.sum_amount)

Error: (2,6): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-035: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [154]:
var cust_amount = df_receipt
    .Where(r => !r.customer_id.StartsWith("Z"))
    .GroupBy(r => r.customer_id)
    .Select(r => new { customer_id = r.Key, sum_amount = r.Sum(r => r.amount)});
var avg_amount = cust_amount.Average(r => r.sum_amount);

cust_amount.Where(r => r.sum_amount >= avg_amount).OrderBy(r => r.customer_id).Take(10).DisplayTable()

Error: (2,6): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-036: レシート明細データフレーム（df_receipt）と店舗データフレーム（df_store）を内部結合し、レシート明細データフレームの全項目と店舗データフレームの店舗名（store_name）を10件表示させよ。

In [155]:
df_receipt.Join(df_store,
    receipt => receipt.store_cd,
    store => store.store_cd,
    (receipt, store) =>
    new
    {
        receipt.sales_ymd,
        receipt.sales_epoch,
        receipt.store_cd,
        receipt.receipt_no,
        receipt.receipt_sub_no,
        receipt.customer_id,
        receipt.product_cd,
        receipt.quantity,
        receipt.amount,
        store_name = store.store_name,
    }).Take(10).DisplayTable()

Error: (2,5): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(3,5): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(4,5): error CS1660: ラムダ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません

---
> P-037: 商品データフレーム（df_product）とカテゴリデータフレーム（df_category）を内部結合し、商品データフレームの全項目とカテゴリデータフレームの小区分名（category_small_name）を10件表示させよ。

In [156]:
df_product.Join(df_category,
    product => product.category_small_cd,
    category => category.category_small_cd,
    (product, cateogory) => new {
        product.product_cd ,
        product.category_major_cd ,
        product.category_medium_cd ,
        product.category_small_cd ,
        product.unit_price ,
        product.unit_cost ,
        cateogory.category_small_name
    }).Take(10).DisplayTable()

Error: (2,5): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(3,5): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(4,5): error CS1660: ラムダ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません

---
> P-038: 顧客データフレーム（df_customer）とレシート明細データフレーム（df_receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、買い物の実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [157]:
// 顧客毎の売り上げ金額
var customer_amount_sum = df_receipt.GroupBy(r => r.customer_id).Select(r => new {customer_id = r.Key, sum_amount = r.Sum(t => t.amount ?? 0)})
    .ToDictionary(r => r.customer_id);

// 対象顧客
var customer_id_list = df_customer.Where(r => r.gender_cd == "1" && !r.customer_id.StartsWith("Z"));

// 顧客単位に表示
customer_id_list.Select(r => new {
    r.customer_id,
    sum_amount = customer_amount_sum.GetValueOrDefault(r.customer_id)?.sum_amount ?? 0,
}).Take(10).DisplayTable()

Error: (2,46): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(6,36): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-039: レシート明細データフレーム（df_receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが'Z'から始まるもの）は除外すること。

In [158]:
// 売上金額の多い顧客 TOP 20
var df_sum = df_receipt.GroupBy(r => r.customer_id).Select(r => new { customer_id = r.Key, sum_amount = r.Sum(t => t.amount)}).ToList();
df_sum = df_sum.Where(r => ! r.customer_id.StartsWith("Z")).ToList();
df_sum = df_sum.OrderByDescending(r => r.sum_amount).Take(20).ToList();

// 売上日数の多い顧客
var df_cnt = df_receipt.GroupBy(r => r.customer_id).Select(r => new {
    customer_id = r.Key, 
    sales_ymd_count = r.Select(t => t.sales_ymd).Distinct().Count()});
// 対象外を取り除く
df_cnt = df_cnt.Where(r => !r.customer_id.StartsWith("Z"))
    .OrderByDescending(r => r.sales_ymd_count).Take(20).ToList();
// 顧客一覧
var customer_id_list = df_sum.Select(r => new {r.customer_id} ).Union(df_cnt.Select(r => new {r.customer_id})).Distinct().ToList();

// LEFT JOIN 形式のクエリーを書くのは この形式が書きやすい
var query = from customer_id_list in customer_id_list
        join df_cnt in df_cnt on customer_id_list.customer_id equals df_cnt.customer_id into df_cnt_grouping
        from pp_cnt in df_cnt_grouping.DefaultIfEmpty()
        join df_sum in df_sum on customer_id_list.customer_id equals df_sum.customer_id into df_sum_grouping
        from PP_sum in df_sum_grouping.DefaultIfEmpty()
        select new { 
            customer_id_list.customer_id, 
            PP_sum?.sum_amount, 
            come_days = pp_cnt?.sales_ymd_count,
        };

query.Take(20).ToList().DisplayTable()

Error: (2,33): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(7,33): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（df_store）と商品（df_product）を直積した件数を計算せよ。

In [159]:
int n_store = df_store.Count();
int n_product = df_product.Count();

n_store * n_product

Error: (1,24): error CS1061: 'DataFrame' に 'Count' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Count' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(2,28): error CS1061: 'DataFrame' に 'Count' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Count' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-041: レシート明細データフレーム（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [160]:
// 日付毎の売り上げ額
var day_sales_amount = df_receipt.GroupBy(r => r.sales_ymd)
    .Select(r => new {sales_ymd = r.Key, sum_amount = r.Sum(t => t.amount?? 0)})
    .ToDictionary(r => r.sales_ymd);
// 日付計算
string yyyymmdd_add_day(String yyyymmdd, int add_days) {
    DateTime tm = DateTime.Parse(yyyymmdd.Substring(0,4) + "/" + yyyymmdd.Substring(4,2) + "/" + yyyymmdd.Substring(6));
    tm = tm.AddDays(add_days);
    return tm.ToString("yyyyMMdd");
}

var date_list = df_receipt.Select(r => r.sales_ymd).Distinct().OrderBy(r => r).ToList();
date_list.Select(yyyymmdd => new {
    sale_ymd = yyyymmdd,
    amount = day_sales_amount.GetValueOrDefault(yyyymmdd)?.sum_amount ?? 0,
    befor_ymd = yyyymmdd_add_day(yyyymmdd , -1),
}).Select(r => new {
    r.sale_ymd,
    r.amount,
    r.befor_ymd,
    befor_amount = day_sales_amount.GetValueOrDefault(r.befor_ymd)?.sum_amount,
    diff_amount = r.amount - day_sales_amount.GetValueOrDefault(r.befor_ymd)?.sum_amount ?? 0,
}).Take(10).DisplayTable()

Error: (2,43): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(12,28): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-042: レシート明細データフレーム（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

In [161]:
// 日付毎に集計して 売上金額の 合計を計算
var sales_ymd_to_amount = df_receipt.GroupBy(r => r.sales_ymd).Select(r => new {
    sales_ymd = r.Key,
    amount = r.Sum(t => t.amount),
}).ToDictionary(r => r.sales_ymd); // 日付をキーに検索できるように Dictionary 変換
//display(sales_ymd_to_amount);

// 日付加減算処理
string yyyymmdd_add_day(String yyyymmdd, int add_days) {
    DateTime tm = DateTime.Parse(yyyymmdd.Substring(0,4) + "/" + yyyymmdd.Substring(4,2) + "/" + yyyymmdd.Substring(6));
    tm = tm.AddDays(add_days);
    return tm.ToString("yyyyMMdd");
}

sales_ymd_to_amount.Values
.OrderBy(r => r.sales_ymd)    // データを日付順に並び替え
.Select(r => new {
    // 1日前、2日前、3日前の計算
    sales_ymd = r.sales_ymd,
    amount = r.amount,
    lag_ymd_1 = yyyymmdd_add_day(r.sales_ymd, -1),
    lag_ymd_2 = yyyymmdd_add_day(r.sales_ymd, -2),
    lag_ymd_3 = yyyymmdd_add_day(r.sales_ymd, -3),
}).Select(r => new {
    // 指定の日の 売上金額 設定
    sales_ymd = r.sales_ymd,
    amount = r.amount,
    lag_ymd_1 = r.lag_ymd_1,
    lag_amount_1 = sales_ymd_to_amount.GetValueOrDefault(r.lag_ymd_1)?.amount,
    lag_ymd_2 = r.lag_ymd_2,
    lag_amount_2 = sales_ymd_to_amount.GetValueOrDefault(r.lag_ymd_2)?.amount,
    lag_ymd_3 = r.lag_ymd_3,
    lag_amount_3 = sales_ymd_to_amount.GetValueOrDefault(r.lag_ymd_3)?.amount,
}).DisplayTable()

Error: (2,46): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-043： レシート明細データフレーム（df_receipt）と顧客データフレーム（df_customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータフレーム（df_sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [162]:
string gender_cd_to_name(string gender_cd) {
    switch(gender_cd) {
        case "0": return "男性";
        case "1": return "女性";
        case "9": return "不明";
        default: return null;
    }
}
var list = from df_receipt in df_receipt
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id into df_receipt_cusomer
    from df_data in df_receipt_cusomer
    select new {
        df_receipt_customer_id = df_receipt.customer_id,
        df_receipt.amount,
        df_data?.customer_id,
        df_data?.age,
        gender_cd = df_data?.gender_cd,
        era = (df_data?.age ?? 0) / 10 * 10,
    };

var list_sum = list
    .GroupBy(r => r.era) // 世代でグループ化
    .Select(r => new {
        era = r.Key,
        male = r.Where(t => t.gender_cd == "0").Sum(r => r.amount),
        female = r.Where(t => t.gender_cd == "1").Sum(r => r.amount),
        unknown = r.Where(t => t.gender_cd == "9").Sum(r => r.amount),
        null_data = r.Where(t => t.gender_cd == null).Sum(r => r.amount),
    }).OrderBy(r => r.era).ToList();

list_sum.DisplayTable();

Error: (9,31): error CS1936: ソース型 'DataFrame' のクエリ パターンの実装が見つかりませんでした。'GroupJoin' が見つかりません。

---
> P-044： 前設問で作成した売上サマリデータフレーム（df_sales_summary）は性別の売上を横持ちさせたものであった。このデータフレームから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を'00'、女性を'01'、不明を'99'とする。

In [163]:
string gender_cd_convert(string gender_cd) {
        switch(gender_cd) {
            case "0": return "00";
            case "1": return "01";
            case "9": return "99";
            default: return null;
        }
    }

var list = from df_receipt in df_receipt
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id into df_receipt_cusomer
    from df_data in df_receipt_cusomer
    select new {
        df_receipt.amount,
        gender_cd = gender_cd_convert(df_data?.gender_cd),
        era = (df_data?.age ?? 0) / 10 * 10,
    };

list.GroupBy(r => new { r.era, r.gender_cd})
    .Select(r => new { era = r.Key.era, gender_cd = r.Key.gender_cd, sum_amount = r.Sum(t => t.amount)})
    .OrderBy(r => r.gender_cd).ThenBy(r => r.era).DisplayTable()

Error: (10,31): error CS1936: ソース型 'DataFrame' のクエリ パターンの実装が見つかりませんでした。'GroupJoin' が見つかりません。

---
> P-045: 顧客データフレーム（df_customer）の生年月日（birth_day）は日付型（Date）でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [164]:
df_customer.Select(r => new {
    r.customer_id,
    birth_day = r.birth_day?.ToString("yyyyMMdd"),
}).Take(10).DisplayTable()

Error: (1,13): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-046: 顧客データフレーム（df_customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型（dateやdatetime）に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [165]:

DateTime ?yyyymmdd_to_date(string yyyymmdd) {
    if (yyyymmdd == null) return null;
    return DateTime.Parse(yyyymmdd.Substring(0,4) + "/" + yyyymmdd.Substring(4,2) + "/" + yyyymmdd.Substring(4,2));
}
df_customer.Select(r => new {
    r.customer_id,
    application_date = yyyymmdd_to_date(r.application_date),
}).Take(5).DisplayTable()

Error: (6,13): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-047: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [166]:
DateTime ?yyyymmdd_to_date(string yyyymmdd) {
    if (yyyymmdd == null) return null;
    return DateTime.Parse(yyyymmdd.Substring(0,4) + "/" + yyyymmdd.Substring(4,2) + "/" + yyyymmdd.Substring(6));
}

df_receipt.Select(r => new {
    r.receipt_no,
    r.receipt_sub_no,
    sales_ymd = yyyymmdd_to_date(r.sales_ymd),
}).Take(10).DisplayTable()

Error: (6,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-048: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [167]:
// df_receipt.Where(r => r.sales_epoch == null).Count()
// null は 0 件
DateTime epoch_to_date(int? epoch) {
    return DateTime.UnixEpoch.AddSeconds(epoch ?? 0);
}

df_receipt.Select(r => new {
    r.receipt_no,
    r.receipt_sub_no,
    sales_ymd = epoch_to_date(r.sales_epoch),
}).Take(10).DisplayTable()

Error: (7,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-049: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"年"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [168]:
df_receipt.Select(r => new {
    r.receipt_no,
    r.receipt_sub_no,
    sales_year = epoch_to_date(r.sales_epoch).Year,
}).Take(10).DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-050: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"月"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"月"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [169]:
df_receipt.Select(r => new {
    r.receipt_no,
    r.receipt_sub_no,
    sales_month = epoch_to_date(r.sales_epoch).Month.ToString("D2"),
}).Take(10).DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-051: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"日"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"日"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [170]:
df_receipt.Select(r => new {
    r.receipt_no,
    r.receipt_sub_no,
    sales_month = epoch_to_date(r.sales_epoch).Day.ToString("D2"),
}).Take(10).DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-052: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2000円以下を0、2000円超を1に2値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [171]:
df_receipt
    .Where(r => !r.customer_id.StartsWith("Z")) // 顧客ID が Z から始まるデータは除外
    .GroupBy(r => r.customer_id)
    .Select(r => new {
        cusomer_id = r.Key,
        sum_amount = r.Sum(t => t.amount)
    })
    .Select(r => new {
        r.cusomer_id,
        r.sum_amount,
        bit_amount = r.sum_amount <= 2000 ? 0 : 1,
    })
    .OrderBy(r => r.cusomer_id).Take(10).DisplayTable()

Error: (2,6): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-053: 顧客データフレーム（df_customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細データフレーム（df_receipt）と結合し、全期間において買い物実績のある顧客数を、作成した2値ごとにカウントせよ。

In [172]:
// 郵便番号先頭3桁を 分類
string bit_postal_cd(string postal_cd) {
    if (postal_cd.Length < 3) return "0";
    string postal_3 = postal_cd.Substring(0,3);
    int posCode;
    if (int.TryParse(postal_3, out posCode)) {
        if (100 <= posCode && posCode <= 209) {
            return "1";
        }
    }
    return "0";
}

// カスタマーID 毎に 住所コードからフラグ判定
var postal_flg_dic = df_customer.Select(r => new {
    postal_flg = bit_postal_cd(r.postal_cd),
    r.customer_id,
}).ToDictionary(r => r.customer_id);

df_receipt.Select(r => r.customer_id).Distinct()
    .Select(cusomer_id => new {
        cusomer_id = cusomer_id,
        postal_flg = postal_flg_dic.GetValueOrDefault(cusomer_id)?.postal_flg,
    })
    .GroupBy(r => r.postal_flg)
    .Select(r => new {
        postal_flg = r.Key,
        sum_customer_id = r.Count()
    }).DisplayTable()

Error: (15,34): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(20,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-054: 顧客データデータフレーム（df_customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [173]:
//pd.concat([df_customer[['customer_id', 'address']], df_customer['address'].str[0:3].map({'埼玉県': '11',
//                                                                           '千葉県':'12', 
//                                                                           '東京都':'13', 
//                                                                           '神奈川':'14'})], axis=1).head(10)
string addressToCode(string address) {
    if (address.StartsWith("埼玉県")) return "11";
    if (address.StartsWith("千葉県")) return "12";
    if (address.StartsWith("東京都")) return "13";
    if (address.StartsWith("神奈川県")) return "14";
    else return "";
}

df_customer.Select(r => new {
    r.customer_id,
    r.address,
    address_code = addressToCode(r.address),
}).Take(10).DisplayTable()

Error: (13,13): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-055: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額と合計ともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [174]:
using MathNet.Numerics.Statistics;

// 顧客ID 毎の 売上金額合計
var df_sum = df_receipt.GroupBy(r => r.customer_id)
    .Select(r => new { customer_id = r.Key, sum_amount = (double) r.Sum(t => t.amount)});

// 分位点を求める
var pct = new {
    pct25 = Statistics.Quantile(df_sum.Select(r => r.sum_amount), 0.25),
    pct50 = Statistics.Quantile(df_sum.Select(r => r.sum_amount), 0.5),
    pct75 = Statistics.Quantile(df_sum.Select(r => r.sum_amount), 0.75),
};
display(pct);
// 分位点のカテゴリ計算
int amountCategory(double amount) {
    if (amount < pct.pct25) return 1;
    if (amount < pct.pct50) return 2;
    if (amount < pct.pct75) return 3;
    return 4;
}
// 集計
df_sum.Select(r => new {
    r.customer_id,
    r.sum_amount,
    amount_category = amountCategory(r.sum_amount),
}).OrderBy(r => r.customer_id).Take(10).DisplayTable()

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,33): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(9,13): error CS0103: 現在のコンテキストに 'Statistics' という名前は存在しません
(10,13): error CS0103: 現在のコンテキストに 'Statistics' という名前は存在しません
(11,13): error CS0103: 現在のコンテキストに 'Statistics' という名前は存在しません

---
> P-056: 顧客データフレーム（df_customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [175]:
int? ageCategory(int? age) {
    if (age == null) return null;
    if (age >= 60) return 60;
    return ((int) age / 10) * 10;
}

df_customer.Select(r => new {
    r.customer_id,
    r.birth_day,
    era = ageCategory(r.age),
}).Take(10).DisplayTable()

Error: (7,13): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [176]:
int? ageCategory(int? age) {
    if (age == null) return null;
    if (age >= 60) return 60;
    return ((int) age / 10) * 10;
}

df_customer.Select(r => new {
    r.customer_id,
    r.birth_day,
    r.gender_cd,
    age = ageCategory(r.age),
}).Select(r => new {
    r.customer_id,
    r.birth_day,
    r.age,
    gender_era_cd = r.gender_cd + "_" + r.age ,
}).Take(10).DisplayTable()

Error: (7,13): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-058: 顧客データフレーム（df_customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [177]:
df_customer.Select(r => new {
    r.customer_id,
    gender_cd_0 = r.gender_cd == "0" ? "1" : "0",
    gender_cd_1 = r.gender_cd == "1" ? "1" : "0",
    gender_cd_9 = r.gender_cd == "9" ? "1" : "0",
}).Take(10).DisplayTable()

Error: (1,13): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-059: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [178]:
using MathNet.Numerics.Statistics;

var df_sum = df_receipt.Where(r => ! r.customer_id.StartsWith("Z"))
    .GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount),
    }).ToList();

// 平均と 標準偏差を求める
var def = new {
    avg = df_sum.Select(r => (double) r.sum_amount).Average(),
    st_dev = df_sum.Select(r => (double) r.sum_amount).StandardDeviation(),
};

var df_sum2 = df_sum.Select(r => new {
    r.customer_id,
    // 平均0、標準偏差1に標準化するために 計算
    normalized_amount = (r.sum_amount - def.avg ) / def.st_dev 
});

df_sum2.OrderBy(r => r.customer_id).Take(10).DisplayTable()


Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,25): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-060: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [179]:
using MathNet.Numerics.Statistics;

var df_sum = df_receipt.Where(r => ! r.customer_id.StartsWith("Z"))
    .GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount),
    }).ToList();

// 最大と最小を求める
var def = new {
    max = df_sum.Select(r => (double) r.sum_amount).Max(),
    min = df_sum.Select(r => (double) r.sum_amount).Min(),
};

var df_sum2 = df_sum.Select(r => new {
    r.customer_id,
    // 最小値0、最大値1に正規化
    normalized_amount = (r.sum_amount - def.min ) / ( def.max - def.min) ,
});

df_sum2.OrderBy(r => r.customer_id).Take(10).DisplayTable()

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,25): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-061: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [180]:
df_receipt
    .Where(r => !r.customer_id.StartsWith("Z")) // 対象外を除外
    .GroupBy(r => r.customer_id) // 顧客ID で集計
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount) // 売上金額を合計
    })
    .Select(r => new {
        r.customer_id,
        r.sum_amount,
        amount_log10 = Math.Log10((double)r.sum_amount), // Log （底 = 10) の計算
    }).OrderBy(r => r.customer_id).Take(10).DisplayTable() // 結果を10件表示

Error: (2,6): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-062: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [181]:
df_receipt
    .Where(r => !r.customer_id.StartsWith("Z")) // 対象外を除外
    .GroupBy(r => r.customer_id) // 顧客ID で集計
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount) // 売上金額を合計
    })
    .Select(r => new {
        r.customer_id,
        r.sum_amount,
        amount_log10 = Math.Log((double)r.sum_amount), // Log （底 = e) の計算
    }).OrderBy(r => r.customer_id).Take(10).DisplayTable() // 結果を10件表示

    // 回答例では 対数計算の時に +1 していた。 Log(0) は マイナス無限大になることの回避だと思うが・・ あまり良いアイデアだとは思わない。

Error: (2,6): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-063: 商品データフレーム（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [182]:
df_product.Select(r => new {
    r.product_cd,
    r.category_major_cd,
    r.category_medium_cd,
    r.category_small_cd,
    r.unit_price,
    r.unit_cost,
    unit_profit = r.unit_price - r.unit_cost,
}).Take(10).DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-064: 商品データフレーム（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。
ただし、単価と原価にはNULLが存在することに注意せよ。

In [183]:
df_product
.Where(r => r.unit_cost != null && r.unit_price != null)
.Select(r => new {
    r.product_cd,
    unit_profit_rate = (double) (r.unit_price - r.unit_cost) / r.unit_price,
})
.Average(r => r.unit_profit_rate)

Error: (2,2): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-065: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [184]:
var new_df = 
df_product
.Where(r => r.unit_cost != null)
.Select(r => new {
    r.product_cd,
    r.unit_cost,
    new_price = Math.Floor((r.unit_cost ?? 0) / 0.7) // 小数点以下切り捨て
});

new_df
.Select(r => new {
    r.product_cd,
    r.new_price,
    r.unit_cost,
    unit_profit_rate = (double) (r.new_price - r.unit_cost) / r.new_price,
}).Take(10).DisplayTable()

Error: (3,2): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-066: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を四捨五入すること（0.5については偶数方向の丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [185]:
var new_df = 
df_product
.Where(r => r.unit_cost != null)
.Select(r => new {
    r.product_cd,
    r.unit_cost,
    new_price = Math.Round((r.unit_cost ?? 0) / 0.7 ) // 1円未満を四捨五入 ( 明示的に指定しない場合は 偶数丸め )
    // https://docs.microsoft.com/ja-jp/dotnet/api/system.math.round?view=net-5.0#System_Math_Round_System_Decimal_
});

new_df
.Select(r => new {
    r.product_cd,
    r.new_price,
    r.unit_cost,
    unit_profit_rate = (double) (r.new_price - r.unit_cost) / r.new_price,
}).Take(10).DisplayTable()

Error: (3,2): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-067: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [186]:
var new_df = 
df_product
.Where(r => r.unit_cost != null)
.Select(r => new {
    r.product_cd,
    r.unit_cost,
    new_price = Math.Ceiling((r.unit_cost ?? 0) / 0.7 ) // 1円未満を切り上げ( 正の大きい方へ 丸め )
    // https://docs.microsoft.com/ja-jp/dotnet/api/system.math.ceiling?view=net-5.0#System_Math_Ceiling_System_Double_
});

new_df
.Select(r => new {
    r.product_cd,
    r.new_price,
    r.unit_cost,
    unit_profit_rate = (double) (r.new_price - r.unit_cost) / r.new_price,
}).Take(10).DisplayTable()

Error: (3,2): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-068: 商品データフレーム（df_product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [187]:
df_product.Select(r => new {
    r.product_cd,
    r.unit_price,
    price_tax = ( r.unit_price != null ? Math.Floor(r.unit_price.Value * 1.1 ) : (double?) null) 
}).Take(10).DisplayTable()

Error: (1,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-069: レシート明細データフレーム（df_receipt）と商品データフレーム（df_product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の購入実績がある顧客のみとし、結果は10件表示させればよい。

In [188]:
// 顧客毎の全商品の売上金額合計
var df_cust_amount = df_receipt.GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount)
    }).ToDictionary(r => r.customer_id);

// 顧客毎の カテゴリ大分類７ の 売上金額合計
var df_cat7_receipt = from df_receipt in df_receipt 
    join df_product in df_product on df_receipt.product_cd equals df_product.product_cd
    where df_product.category_major_cd == "07"
    select new {
        df_receipt.customer_id,
        df_receipt.amount
    };
var df_cat7_amount = df_cat7_receipt.GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount)
    }).ToDictionary(r => r.customer_id);

// 抽出対象顧客一覧
var custno_list = df_cat7_amount.Keys.OrderBy(r => r).ToList();

// 結果出力
custno_list.Select(customer_id => new {
    customer_id = customer_id,
    amount_all = df_cust_amount.GetValueOrDefault(customer_id)?.sum_amount,
    amount_cat_7 = df_cat7_amount.GetValueOrDefault(customer_id)?.sum_amount,
}).Select(r => new {
    r.customer_id,
    r.amount_all,
    r.amount_cat_7,
    amount_rate = (double) r.amount_cat_7 / r.amount_all,
}).Take(10).DisplayTable()

Error: (2,41): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(10,38): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(10,67): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(10,5): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません

---
> P-070: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [189]:
// YYYYMMDD 形式の日付を DateTime 型に変換する
DateTime ?YYYYMMDDToDateTime(string yyyymmdd) {
    if (yyyymmdd != null && yyyymmdd.Length == 8) {
        return new DateTime(
            int.Parse(yyyymmdd.Substring(0,4)),
            int.Parse(yyyymmdd.Substring(4,2)),
            int.Parse(yyyymmdd.Substring(6)));
    } else {
        return null;
    }
}
// ２つの日付の差の日を計算
int? DiffDate(string yyyymmdd1 , string yyyymmdd2) {
    DateTime ?t1 = YYYYMMDDToDateTime(yyyymmdd1);
    DateTime ?t2 = YYYYMMDDToDateTime(yyyymmdd2);
    if (t1 != null && t2 != null) {
        int diffDay = (int) t2.Value.Subtract(t1.Value).TotalDays;
        return Math.Abs(diffDay);
    } else {
        return null;
    }
}

// レシート明細 join 顧客 
var query = from df_receipt in df_receipt
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id
    select new {
        df_receipt.customer_id,
        df_receipt.sales_ymd,
        df_customer.application_date,
        // 経過した日を求める
        elapsed_date = DiffDate(df_receipt.sales_ymd, df_customer.application_date),
    };

// 結果の表示
query.Take(10).DisplayTable()

Error: (26,40): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(26,70): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(27,12): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません
(36,7): error CS1061: 'DataFrame' に 'Take' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Take' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-071: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [190]:
DateTime ?YYYYMMDDToDateTime(string yyyymmdd) {
    if (yyyymmdd != null && yyyymmdd.Length == 8) {
        return new DateTime(
            int.Parse(yyyymmdd.Substring(0,4)),
            int.Parse(yyyymmdd.Substring(4,2)),
            int.Parse(yyyymmdd.Substring(6)));
    } else {
        return null;
    }
}
// ２つの日付の差の月を計算
int? DiffMonth(string yyyymmdd1 , string yyyymmdd2) {
    DateTime ?t1 = YYYYMMDDToDateTime(yyyymmdd1);
    DateTime ?t2 = YYYYMMDDToDateTime(yyyymmdd2);
    if (t1 != null && t2 != null) {
        if (t1.Value > t2.Value) {
            (t1,t2) = (t2,t1); // 値の入れ替え
        }
        int diff_month = 0;
#if false
        // 29日30日31日 の扱いを工夫
        while (t1.Value.AddMonths(1) <= t2.Value) {
            t1 = t1.Value.AddMonths(1);
            diff_month++;
        }
#else
        // ２つの日付の月の差
        int month1 = t1.Value.Year * 12 + t1.Value.Month;
        int month2 = t2.Value.Year * 12 + t2.Value.Month;
        diff_month = month2 - month1;
        // 日数の大小関係を見て 月を減らす
        if (t1.Value.Day > t2.Value.Day) {
            diff_month --;
        }
#endif
        return diff_month;
    } else {
        return null;
    }
}

// レシート明細 join 顧客 
var query = from df_receipt in df_receipt
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id
    select new {
        df_receipt.customer_id,
        df_receipt.sales_ymd,
        df_customer.application_date,
        // 経過した日を求める
        elapsed_month = DiffMonth(df_receipt.sales_ymd, df_customer.application_date),
    };

query.Take(10).DisplayTable()
// 考察：２つの日付の 月の差 を計算する場合、月末の扱いが 多少異なる

Error: (44,40): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(44,70): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(45,12): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません
(53,7): error CS1061: 'DataFrame' に 'Take' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Take' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-072: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い。（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [191]:
DateTime ?YYYYMMDDToDateTime(string yyyymmdd) {
    if (yyyymmdd != null && yyyymmdd.Length == 8) {
        return new DateTime(
            int.Parse(yyyymmdd.Substring(0,4)),
            int.Parse(yyyymmdd.Substring(4,2)),
            int.Parse(yyyymmdd.Substring(6)));
    } else {
        return null;
    }
}
// ２つの日付の差の月を計算
int? DiffYear(string yyyymmdd1 , string yyyymmdd2) {
    DateTime ?t1 = YYYYMMDDToDateTime(yyyymmdd1);
    DateTime ?t2 = YYYYMMDDToDateTime(yyyymmdd2);
    if (t1 != null && t2 != null) {
        if (t1.Value > t2.Value) {
            (t1,t2) = (t2,t1); // 値の入れ替え
        }
        int diff_year = t2.Value.Year - t1.Value.Year;
        // ２つの日付の月の差
        int mmdd1 = t1.Value.Month * 100 + t1.Value.Day;
        int mmdd2 = t2.Value.Month * 100 + t2.Value.Day;
        // 1年未満の場合：１減らす
        if (mmdd1> mmdd2) {
            diff_year --;
        }
        return diff_year;
    } else {
        return null;
    }
}

// レシート明細 join 顧客 
var query = from df_receipt in df_receipt
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id
    select new {
        df_receipt.customer_id,
        df_receipt.sales_ymd,
        df_customer.application_date,
        // 経過した年を求める：1年未満は切り捨て
        elapsed_year = DiffYear(df_receipt.sales_ymd, df_customer.application_date),
    };

query.Take(10).DisplayTable()

Error: (35,40): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(35,70): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(36,12): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません
(44,7): error CS1061: 'DataFrame' に 'Take' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Take' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-073: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [192]:
DateTime ?YYYYMMDDToDateTime(string yyyymmdd) {
    if (yyyymmdd != null && yyyymmdd.Length == 8) {
        return new DateTime(
            int.Parse(yyyymmdd.Substring(0,4)),
            int.Parse(yyyymmdd.Substring(4,2)),
            int.Parse(yyyymmdd.Substring(6)));
    } else {
        return null;
    }
}
// ２つの日付の差の秒を計算
double? DiffSeconds(string yyyymmdd1 , string yyyymmdd2) {
    DateTime ?t1 = YYYYMMDDToDateTime(yyyymmdd1);
    DateTime ?t2 = YYYYMMDDToDateTime(yyyymmdd2);
    if (t1 != null && t2 != null) {
        if (t1.Value > t2.Value) {
            (t1,t2) = (t2,t1); // 値の入れ替え
        }
        double diffSeconds = t2.Value.Subtract(t1.Value).TotalSeconds;
        return diffSeconds;
    } else {
        return null;
    }
}

// レシート明細 join 顧客 
var query = from df_receipt in df_receipt
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id
    select new {
        df_receipt.customer_id,
        df_receipt.sales_ymd,
        df_customer.application_date,
        // 経過した秒を求める
        elapsed_seconds = DiffSeconds(df_receipt.sales_ymd, df_customer.application_date),
    };

query.Take(10).DisplayTable()

Error: (28,40): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(28,70): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(29,12): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません
(37,7): error CS1061: 'DataFrame' に 'Take' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Take' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-074: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [193]:
// 該当週の月曜日 と その日からの経過日数を求める
static (DateTime, int) DiffMonday(this DateTime tm) {
    // 曜日によって 月曜日の日付と 月曜日からの経過日数を求める
    var diff = tm.DayOfWeek switch {
        // 月曜日(1)の場合0
        DayOfWeek.Monday => (tm , 0),
        // 日曜日(0)の場合は 6日前の日 、 1日 経過
        DayOfWeek.Sunday => (tm.AddDays(-6) , 1),
        // 火曜(2) の場合は 月曜は 1日前 (DayOfWeek - 1) , 経過日数は dayOfWeek - 1
        // 水(3) ～土(6) も同様の計算となる
        _ => ( tm.AddDays(- ((int) tm.DayOfWeek - 1)), (int) tm.DayOfWeek - 1)
    };

    return diff;
}
DateTime ?YYYYMMDDToDateTime(string yyyymmdd) {
    if (yyyymmdd != null && yyyymmdd.Length == 8) {
        return new DateTime(
            int.Parse(yyyymmdd.Substring(0,4)),
            int.Parse(yyyymmdd.Substring(4,2)),
            int.Parse(yyyymmdd.Substring(6)));
    } else {
        return null;
    }
}

df_receipt.Select(r => new {
    r.customer_id,
    r.sales_ymd,
    diff_monday = YYYYMMDDToDateTime(r.sales_ymd)?.DiffMonday(),
}).Select(r => new {
    r.customer_id,
    r.sales_ymd,
    monday = r.diff_monday?.Item1,
    elapsed_weekday = r.diff_monday?.Item2 + " days",
}).Take(10).DisplayTable()

Error: (27,12): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-075: 顧客データフレーム（df_customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。

In [194]:
static IEnumerable<T> GetRandumItems<T>(this IEnumerable<T> items, double getRate) {
    // 全要素の中から ランダムにデータをピックアップして 
    // 指定のデータ件数を取得する
    int count = items.Count();
    // 最大データ取得件数：合計 * 取得データ率 : 1.0 ですべて 0.1 で 10％ 
    int get_count = (int)(getRate * count);
    Random r = new Random();
    for(int i=0;i<get_count;i++) {
        int rand_i = r.Next(count);
        T item = items.ElementAt(rand_i);
        yield return item;
    }
}

df_customer.GetRandumItems(0.01).Take(10).DisplayTable()

Error: (15,13): error CS1061: 'DataFrame' に 'GetRandumItems' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'GetRandumItems' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-076: 顧客データフレーム（df_customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出データし、性別ごとに件数を集計せよ。

In [195]:
// 取得件数を指定して ランダムにデータ抽出
static IEnumerable<T> GetRandumItemsByNum<T>(this IList<T> items, int getCount) {
    // 全要素の中から ランダムにデータをピックアップして 
    // 指定のデータ件数を取得する
    int count = items.Count();
    Random r = new Random();
    // 指定の件数だけ取得する
    for(int i=0;i<getCount;i++) {
        int rand_i = r.Next(count);
        T item = items[rand_i];
        yield return item;
    }
}

// 性別 毎の 数と 率を表示
int dataNum = df_customer.Count();
var df_gender_rate = df_customer.GroupBy(r => r.gender_cd).Select(r => new {
    gender_cd = r.Key,
    gender_count = r.Count(),
    gender_rate = (double) r.Count() / dataNum,
    get_count = (int) (r.Count() * 0.1 )
}).ToDictionary(r => r.gender_cd);
display(df_gender_rate);
// 指定の比率で ランダムにデータ抽出
var df_customer_sample_gender_0 = df_customer.Where(r => r.gender_cd == "0").ToList().GetRandumItemsByNum(df_gender_rate["0"].get_count).ToList();
var df_customer_sample_gender_1 = df_customer.Where(r => r.gender_cd == "1").ToList().GetRandumItemsByNum(df_gender_rate["1"].get_count).ToList();
var df_customer_sample_gender_9 = df_customer.Where(r => r.gender_cd == "9").ToList().GetRandumItemsByNum(df_gender_rate["9"].get_count).ToList();
// ※ ToList しないと リストの内容を確認するときにランダムの値を取得しようとして処理速度

display(new {
    count_0 = df_customer_sample_gender_0.Count(),
    count_1 = df_customer_sample_gender_1.Count(),
    count_9 = df_customer_sample_gender_9.Count(),
});

// 重複なくデータ連結するのは Union を利用
// Union の場合 重複していると判断されたデータが削除される
var df_customer_sample_gender = df_customer_sample_gender_0
    .Concat(df_customer_sample_gender_1)
    .Concat(df_customer_sample_gender_9);

// Union は重複データを削除してしまう。
var df_customer_sample_gender2 = df_customer_sample_gender_0
    .Union(df_customer_sample_gender_1)
    .Union(df_customer_sample_gender_9);

display(df_customer_sample_gender2.Count());
display(df_customer_sample_gender.Count());

display(html(b("ランダムに抽出しているため 同じデータを2回取得する場合がある")));
display(new {
    gender_0_データ件数 = df_customer_sample_gender_0.Count(),
    gender_0_重複なし_データ件数 = df_customer_sample_gender_0.Distinct().Count(),
})

Error: (17,42): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(25,47): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(26,47): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(27,47): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(16,27): error CS1061: 'DataFrame' に 'Count' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Count' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

In [196]:
using XPlot.Plotly;
using System.Linq;

display(Chart.Plot(
    new Box()
    {
        y = df_customer_sample_gender_0.Select(r => r.age).ToList(),
        boxpoints = "all",
        jitter = 0.3,
        pointpos = -1.8
    }
));
display(Chart.Plot(
    new Box()
    {
        y = df_customer_sample_gender_1.Select(r => r.age).ToList(),
        boxpoints = "all",
        jitter = 0.3,
        pointpos = -1.8
    }
));

Error: (7,13): error CS0103: 現在のコンテキストに 'df_customer_sample_gender_0' という名前は存在しません
(16,13): error CS0103: 現在のコンテキストに 'df_customer_sample_gender_1' という名前は存在しません

上記のグラフが実行された結果 このような画像が表示されます。

![画像](./p-076.png)

![画像](./p-076-2.png)

---
> P-077: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [197]:
//# skleanのpreprocessing.scaleを利用するため、標本標準偏差で計算されている
//df_sales_amount = df_receipt.query('not customer_id.str.startswith("Z")', engine='python'). \
//    groupby('customer_id').agg({'amount':'sum'}).reset_index()
//df_sales_amount['amount_ss'] = preprocessing.scale(df_sales_amount['amount'])
//df_sales_amount.query('abs(amount_ss) >= 3').head(10)
var df_tmp = df_receipt.Where(r => ! r.customer_id.StartsWith("Z"))
    .GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = r.Sum(t => t.amount),
    }).ToList();
var dataList = df_tmp
    .Select(r => (double) r.sum_amount).ToList();

// 3σ（サン・シグマ） : 標準正規分布の 99.7％ 信頼区間 の間から 外れている値を抽出する。
var average = dataList.Median();
var stdDev = dataList.StandardDeviation(); // 標準偏差
var diffArea = new {
    average,
    stdDev, // 標準偏差
    min = average - stdDev ,
    max = average + stdDev ,
    min_3 = average - stdDev  * 3, // 3σ の 下限値
    max_3 = average + stdDev  * 3, // 3σ の 上限値
};
// 値の表示
display(diffArea);

// 散布状態の表示
display(Chart.Plot(
    new Box()
    {
        y = dataList,
        boxpoints = "all",
        jitter = 0.3,
        pointpos = -1.8
    }  
));

df_tmp.Where(r => r.sum_amount < diffArea.min_3 || diffArea.max_3 < r.sum_amount)
    .Take(10).DisplayTable()
// 結果 

Error: (6,25): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(30,9): error CS0103: 現在のコンテキストに 'Chart' という名前は存在しません
(31,9): error CS0246: 型または名前空間の名前 'Box' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)

![P-077](p-077.png)

---
> P-078: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [198]:
var df_sales_amount = df_receipt.Where(r => !r.customer_id.StartsWith("Z"))
    .GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount = (double) r.Sum(t => t.amount),
    });

// https://numerics.mathdotnet.com/api/MathNet.Numerics.Statistics/Statistics.htm#Percentile
double pct25 = df_sales_amount.Select(r => r.sum_amount).Percentile(25);
double pct75 = df_sales_amount.Select(r => r.sum_amount).Percentile(75);
double iqr = pct75 - pct25;
double amount_low = pct25 - (iqr * 1.5);
double amount_hight = pct75 + (iqr * 1.5);

// 結果表示
df_sales_amount
    .Where(r => r.sum_amount < amount_low || amount_hight < r.sum_amount)
    .Take(10).DisplayTable()

Error: (1,34): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-079: 商品データフレーム（df_product）の各項目に対し、欠損数を確認せよ。

In [199]:
var nullCount = new {
    product_cd_null = df_product.Where(r => r.product_cd == null).Count(),
    category_major_cd = df_product.Where(r => r.category_major_cd == null).Count(),
    category_medium_cd = df_product.Where(r => r.category_medium_cd == null).Count(),
    category_small_cd = df_product.Where(r => r.category_small_cd == null).Count(),
    unit_price = df_product.Where(r => r.unit_price == null).Count(),
    unit_cost = df_product.Where(r => r.unit_cost == null).Count(),
};

nullCount

Error: (2,34): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(3,36): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(4,37): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(5,36): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(6,29): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(7,28): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-080: 商品データフレーム（df_product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなdf_product_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [200]:
// いずれかの値が null の場合に true を返す
bool AnyIsNull(Product c) {
    if (c.product_cd == null) return true;
    if (c.category_major_cd == null) return true;
    if (c.category_medium_cd == null) return true;
    if (c.category_small_cd == null) return true;
    if (c.unit_cost == null) return true;
    if (c.unit_price == null) return true;
    return false;
}

// 欠損の無い物を注sh津
var df_product_1 = df_product.Where(r => ! AnyIsNull(r)).ToList();

new {
    count_削除前 = df_product.Count(),
    count_削除後 = df_product_1.Count(),
}

Error: (13,31): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(16,28): error CS1061: 'DataFrame' に 'Count' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Count' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

In [201]:
// いずれかの値が null の場合に true を返す
bool AnyIsNull(Product c) {
    if (c.product_cd == null) return true;
    if (c.category_major_cd == null) return true;
    if (c.category_medium_cd == null) return true;
    if (c.category_small_cd == null) return true;
    if (c.unit_cost == null) return true;
    if (c.unit_price == null) return true;
    return false;
}

// null となっているデータを確認のため表示： 7件の null は 同じレコードで発生
df_product.Where(r => AnyIsNull(r)).ToList().DisplayTable()

Error: (13,12): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなdf_product_2を作成せよ。なお、平均値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [202]:
// いずれかの値が null の場合に true を返す
bool AnyIsNull(Product c) {
    if (c.product_cd == null) return true;
    if (c.category_major_cd == null) return true;
    if (c.category_medium_cd == null) return true;
    if (c.category_small_cd == null) return true;
    if (c.unit_cost == null) return true;
    if (c.unit_price == null) return true;
    return false;
}

// https://docs.microsoft.com/ja-jp/dotnet/api/system.math.round?view=net-5.0 
// Math.Round : 偶数丸め
var fix_unit_price = (int) Math.Round(df_product.Where(r => r.unit_price != null).Average(r => r.unit_price.Value));
var fix_unit_cost = (int) Math.Round(df_product.Where(r => r.unit_cost != null).Average(r => r.unit_cost.Value));

var df_product_2 = df_product.Select(r => new Product() {
    product_cd = r.product_cd,
    category_major_cd = r.category_major_cd,
    category_medium_cd = r.category_medium_cd,
    category_small_cd = r.category_small_cd,
    unit_price = r.unit_price ?? fix_unit_price,
    unit_cost = r.unit_cost ?? fix_unit_cost,
});

// null が存在しない事の確認
df_product_2.Where(r => AnyIsNull(r)).Count()


Error: (14,50): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(15,49): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(17,31): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなdf_product_3を作成せよ。なお、中央値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [203]:
// 中央値 : Median 
//https://numerics.mathdotnet.com/api/MathNet.Numerics.Statistics/Statistics.htm#Median
using MathNet.Numerics.Statistics;

// https://docs.microsoft.com/ja-jp/dotnet/api/system.math.round?view=net-5.0 
// Math.Round : 偶数丸め

var fix_unit_price = (int) Math.Round(df_product.Where(r => r.unit_price != null).Select(r => (double) r.unit_price).Median());
var fix_unit_cost = (int) Math.Round(df_product.Where(r => r.unit_cost != null).Select(r => (double) r.unit_cost).Median());

var df_product_2 = df_product.Select(r => new Product() { // AnyIsNull で判定するため 厳密な型に合わせる
    product_cd = r.product_cd,
    category_major_cd = r.category_major_cd,
    category_medium_cd = r.category_medium_cd,
    category_small_cd = r.category_small_cd,
    unit_price = r.unit_price ?? fix_unit_price,
    unit_cost = r.unit_cost ?? fix_unit_cost,
});

// いずれかの値が null の場合に true を返す
bool AnyIsNull(Product c) {
    if (c.product_cd == null) return true;
    if (c.category_major_cd == null) return true;
    if (c.category_medium_cd == null) return true;
    if (c.category_small_cd == null) return true;
    if (c.unit_cost == null) return true;
    if (c.unit_price == null) return true;
    return false;
}

// null が存在しない事の確認
df_product_2.Where(r => AnyIsNull(r)).Count()

Error: (3,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(8,50): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(9,49): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(11,31): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなdf_product_4を作成せよ。なお、中央値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [204]:
using MathNet.Numerics.Statistics;

var median_tmp = df_product.GroupBy(r => r.category_small_cd)
    .Select(r => new {
        category_small_cd = r.Key,
        median_unit_price = r.Where(t => t.unit_price != null).Select(t => (double) t.unit_price).Median(),
        median_unit_cost = r.Where(t => t.unit_cost != null).Select(t => (double) t.unit_cost).Median(),
    })
    .ToDictionary(r => r.category_small_cd);

display("category_small_cd 毎の中央値");
median_tmp.Take(20).DisplayTable();

var df_product4 = df_product.Select(r => new Product() {
    product_cd = r.product_cd,
    category_major_cd = r.category_major_cd,
    category_medium_cd = r.category_medium_cd,
    category_small_cd = r.category_small_cd,
    unit_price = r.unit_price ?? (int) Math.Round(median_tmp[r.category_small_cd].median_unit_price),
    unit_cost = r.unit_cost ?? (int) Math.Round(median_tmp[r.category_small_cd].median_unit_cost),
});

display("df_product4 の 表示");
df_product4.Take(20).DisplayTable();

// いずれかの値が null の場合に true を返す
bool AnyIsNull(Product c) {
    if (c.product_cd == null) return true;
    if (c.category_major_cd == null) return true;
    if (c.category_medium_cd == null) return true;
    if (c.category_small_cd == null) return true;
    if (c.unit_cost == null) return true;
    if (c.unit_price == null) return true;
    return false;
}

display($"いずれか null の データ件数 { df_product4.Where(r => AnyIsNull(r)).Count() }");

Error: (1,7): error CS0246: 型または名前空間の名前 'MathNet' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,37): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(14,30): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-084: 顧客データフレーム（df_customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、販売実績のない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。また、作成したデータにNAやNANが存在しないことを確認せよ。

In [205]:
// 顧客データフレーム（df_customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。
// ただし、販売実績のない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 
// 結果は10件表示させれば良い。また、作成したデータにNAやNANが存在しないことを確認せよ。

// 対象となる顧客は 2019年度に売上のある顧客
var df_tmp_1 = df_receipt.Where(r => r.sales_ymd.Substring(0,4) == "2019")
    .GroupBy(r => r.customer_id)
    .Select(r => new {
        customer_id = r.Key,
        sum_amount_2019 = r.Sum(t => t.amount),
    });
// 全期間の顧客毎の売り上げ
var df_sum_amount_dic = df_receipt
.GroupBy(r => r.customer_id)
.Select(r => new {
    customer_id = r.Key,
    sum_amount = r.Sum(t => t.amount ?? 0),
}).ToDictionary(r => r.customer_id);

// 割合を計算する
var df_ans = df_tmp_1
    .Where(r => r.sum_amount_2019 > 0)  // 2019年に0以上の売り上げがある人
    .Select(r => new {
    r.customer_id,
    r.sum_amount_2019,
    rate_amount = (double) r.sum_amount_2019 / df_sum_amount_dic[r.customer_id].sum_amount,
}).OrderBy(r => r.customer_id).ToList();

// NA や NAN が無い事を確認する
var null_count = df_ans.Where(r => r.sum_amount_2019 == null).Count();

df_ans.Take(10).DisplayTable();
display($"Null の件数 { null_count }")

Error: (6,27): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(14,10): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません

---
> P-085: 顧客データフレーム（df_customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用データフレーム（df_geocode）を紐付け、新たなdf_customer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

In [206]:
// 郵便番号と それに紐づく 経度（longitude）、緯度（latitude） の平均の値 : 郵便番号をキーに検索できる Dictionary 型データ
var df_geocode_avg_dic = df_geocode.GroupBy(r => r.postal_cd)
    .Select(r => new {
        postal_cd = r.Key,
        m_longitude = r.Average(t => t.longitude),
        m_latitude = r.Average(t => t.latitude),
    })
    .ToDictionary(r => r.postal_cd);

var df_customer_1 = df_customer.Select(r => new {
    r.customer_id,
    r.customer_name,
    r.gender_cd,
    r.gender,
    r.birth_day,
    r.age,
    r.postal_cd,
    r.address,
    r.application_store_cd,
    r.application_date,
    r.status_cd,
    m_longitude = df_geocode_avg_dic[r.postal_cd].m_longitude,
    m_latitude = df_geocode_avg_dic[r.postal_cd].m_latitude,
}).ToList();

df_customer_1.DisplayTable();

// customer_id	customer_name	gender_cd	gender	birth_day	age	postal_cd	address	application_store_cd	application_date	status_cd	age_group	m_longitude	m_latitude

Error: (2,45): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(10,33): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-086: 前設問で作成した緯度経度つき顧客データフレーム（df_customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗データフレーム（df_store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

```
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
```

In [207]:
var df_store_dic = df_store.ToDictionary(r => r.store_cd);

//def calc_distance(x1, y1, x2, y2):
//    x1_r = np.radians(x1)
//    x2_r = np.radians(x2)
//    y1_r = np.radians(y1)
//    y2_r = np.radians(y2)
//    return 6371 * np.arccos(np.sin(y1_r) * np.sin(y2_r) 
//                            + np.cos(y1_r) * np.cos(y2_r) 
//                            * np.cos(x1_r - x2_r))
//    return distance
double DegreeToRadian(double deg) {
    return Math.PI * deg / 180.0;
}
double CalcDistance(double x1, double y1, double x2, double y2) {
    double x1_r = DegreeToRadian(x1);
    double x2_r = DegreeToRadian(x2);
    double y1_r = DegreeToRadian(y1);
    double y2_r = DegreeToRadian(y2);

    return 6371 * Math.Acos(Math.Sin(y1_r) * Math.Sin(y2_r) 
                    + Math.Cos(y1_r) * Math.Cos(y2_r) 
                        * Math.Cos(x1_r - x2_r));
}

df_customer_1.Select(r => new {
    r.customer_id,
    r.address,
    store_address = df_store_dic[r.application_store_cd].address,
    //r.m_latitude,
    //r.m_longitude,
    //application_store_latitude = df_store_dic[r.application_store_cd].latitude,
    //application_store_longitude = df_store_dic[r.application_store_cd].longitude,
    distance = CalcDistance((double) r.m_longitude, (double) r.m_latitude, (double) df_store_dic[r.application_store_cd].longitude, (double) df_store_dic[r.application_store_cd].latitude),
}).Take(10).DisplayTable()

Error: (1,29): error CS1061: 'DataFrame' に 'ToDictionary' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'ToDictionary' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(26,1): error CS0103: 現在のコンテキストに 'df_customer_1' という名前は存在しません

---
> P-087:  顧客データフレーム（df_customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客データフレーム（df_customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績の無い顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [208]:
//df_tmp = df_receipt.groupby('customer_id').agg({'amount':sum}).reset_index()
//df_customer_u = pd.merge(df_customer, df_tmp, how='left', on='customer_id').sort_values(['amount', 'customer_id']
//                                                                                        , ascending=[False, True])
//df_customer_u.drop_duplicates(subset=['customer_name', 'postal_cd'], keep='first', inplace=True)
//
//print('減少数: ', len(df_customer) - len(df_customer_u))
// 顧客ID 毎の売上金額の計算
var df_amount_dic = df_receipt.GroupBy(r => r.customer_id).Select(r => new {
    customer_id = r.Key,
    sum_amount = r.Sum(t => t.amount),
}).ToDictionary(r => r.customer_id);

var df_customer_u = df_customer
    .Select(r => new {
        r.customer_id,
        nayose_key = r.customer_name + "\t" + r.postal_cd,
        sum_amount = df_amount_dic.GetValueOrDefault(r.customer_id)?.sum_amount ?? 0,
    })
    .GroupBy(r => r.nayose_key)
    .Select(r => new {
        nayose_key = r.Key,
        customer_id = r.OrderByDescending(t => t.sum_amount).FirstOrDefault()?.customer_id,
    })
    .ToList();

// 現象数をカウント
df_customer.Count() - df_customer_u.Count()

Error: (8,40): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(14,6): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(27,13): error CS1061: 'DataFrame' に 'Count' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Count' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-088: 前設問で作成したデータを元に、顧客データフレームに統合名寄IDを付与したデータフレーム（df_customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [209]:
//df_customer_n = pd.merge(df_customer, df_customer_u[['customer_name', 'postal_cd', 'customer_id']],
//                        how='inner', on =['customer_name', 'postal_cd'])
//df_customer_n.rename(columns={'customer_id_x':'customer_id', 'customer_id_y':'integration_id'}, inplace=True)
//
//print('ID数の差', len(df_customer_n['customer_id'].unique()) - len(df_customer_n['integration_id'].unique()))
var nayose_customer_id_dic = df_customer_u.ToDictionary(r => r.nayose_key);

var df_customer_n = df_customer.Select(r => new {
    customer_id = nayose_customer_id_dic[r.customer_name + "\t" + r.postal_cd].customer_id,
    r.customer_name,
    r.gender_cd, r.gender,
    r.postal_cd,r.address,
    r.age,
    r.application_date,
    r.application_store_cd,
    r.birth_day,
    r.status_cd,
});

df_customer_n.Take(10).DisplayTable()

Error: (6,30): error CS0103: 現在のコンテキストに 'df_customer_u' という名前は存在しません
(8,33): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-089: 売上実績のある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [210]:
// df_tmp = pd.merge(df_customer, df_receipt['customer_id'], how='inner', on='customer_id')
// df_train, df_test = train_test_split(df_tmp, test_size=0.2, random_state=71)
// print('学習データ割合: ', len(df_train) / len(df_tmp))
// print('テストデータ割合: ', len(df_test) / len(df_tmp))


// 指定の件数になるまでデータを抽出する
static HashSet<string> GetListRandum(List<string> items, int getSize) {
    // 全要素の中から ランダムにデータをピックアップして 
    // 指定のデータ件数になるまで繰り返す
    Random r = new Random();
    int count = items.Count();
    if (count < getSize) {
        getSize = count;
    }
    HashSet<string> ansSet = new HashSet<string>();
    while(ansSet.Count < getSize) {
        var ix = r.Next(count);
        string id = items[ix];
        ansSet.Add(id);
    }

    return ansSet;
}

// 売上実績のある顧客の抽出
var query_cust = from df_receipt in df_receipt 
    join df_customer in df_customer on df_receipt.customer_id equals df_customer.customer_id
    select df_customer.customer_id;

// 対象となる顧客
var targetCustmerList = query_cust.Distinct().ToList();
int pct20 = (int) (targetCustmerList.Count() * 0.2);
// 20％ に含まれる人
var df_cusomer_20 = GetListRandum(targetCustmerList, pct20);
// 残りの 80% 
var df_cusomer_80 = targetCustmerList.Except(df_cusomer_20).ToHashSet();

//print(nrow(df_customer_train))
//print(nrow(df_customer_test))
// 80% の人が含まれている
var df_customer_train = df_customer.Where(r => df_cusomer_80.Contains(r.customer_id)).ToList();
// 20% の人が含まれている
var df_customer_test = df_customer.Where(r => df_cusomer_20.Contains(r.customer_id)).ToList();

new {
    train_size = df_customer_train.Count(),
    test_size = df_customer_test.Count(),
}

Error: (28,40): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(28,70): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(29,12): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません
(32,36): error CS1061: 'DataFrame' に 'Distinct' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Distinct' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(42,37): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(44,36): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-090: レシート明細データフレーム（df_receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。

In [211]:
//df_tmp = df_receipt[['sales_ymd', 'amount']].copy()
//df_tmp['sales_ym'] = df_tmp['sales_ymd'].astype('str').str[0:6]
//df_tmp = df_tmp.groupby('sales_ym').agg({'amount':'sum'}).reset_index()

//# 関数化することで長期間データに対する多数のデータセットもループなどで処理できるようにする
//def split_data(df, train_size, test_size, slide_window, start_point):
//    train_start = start_point * slide_window
//    test_start = train_start + train_size
//    return df[train_start : test_start], df[test_start : test_start + test_size]

//df_train_1, df_test_1 = split_data(df_tmp, train_size=12, test_size=6, slide_window=6, start_point=0)
//df_train_2, df_test_2 = split_data(df_tmp, train_size=12, test_size=6, slide_window=6, start_point=1)
//df_train_3, df_test_3 = split_data(df_tmp, train_size=12, test_size=6, slide_window=6, start_point=2)

new {
    max = df_receipt.Max(r => r.sales_ymd),
    min = df_receipt.Min(r => r.sales_ymd),
}

Error: (16,22): error CS1061: 'DataFrame' に 'Max' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Max' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(17,22): error CS1061: 'DataFrame' に 'Min' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Min' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-091: 顧客データフレーム（df_customer）の各顧客に対し、売上実績のある顧客数と売上実績のない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [212]:
// 顧客単位の売り上げを計算
var cus_amount = df_receipt.GroupBy(r => r.customer_id).Select(r => new {
    customer_id = r.Key,
    sum_amount = r.Sum(t => t.amount),
}).ToDictionary(r => r.customer_id);

// 売上実績のある顧客
var amount_customer = df_receipt.Where(r => r.amount > 0).Select(r => r.customer_id).Distinct().ToHashSet();
// 売上実績のない顧客
var no_amount_customer = df_customer.Where(r => ! amount_customer.Contains(r.customer_id)).Select(r => r.customer_id).ToHashSet();

display(amount_customer.Count());

int get_n = Math.Min(amount_customer.Count(), no_amount_customer.Count());
// 条件を指定してランダムにデータ件数抽出

// 指定の件数になるまでデータを抽出する
static HashSet<string> GetListRandumOrAll(HashSet<string> items, int getSize) {
    // 求める件数より多い場合はすべてを返す
    if (getSize >= items.Count) {
        return items;
    }
    // 全要素の中から ランダムにデータをピックアップして 
    // 指定のデータ件数になるまで繰り返す
    Random r = new Random();
    int count = items.Count();
    if (count < getSize) {
        getSize = count;
    }
    HashSet<string> ansSet = new HashSet<string>();
    var list = items.ToList();
    while(ansSet.Count < getSize) {
        var ix = r.Next(count);
        string id = list[ix];
        ansSet.Add(id);
    }

    return ansSet;
}

var sample_amount_cust_id = GetListRandumOrAll(amount_customer, get_n);
var sample_no_amount_cust_id = GetListRandumOrAll(no_amount_customer, get_n);

display(new {
    売上実績のある顧客_件数 = sample_amount_cust_id.Count(),
    売上実績のない顧客_件数 = sample_no_amount_cust_id.Count()
});

Error: (2,37): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(8,34): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください
(10,38): error CS1061: 'DataFrame' に 'Where' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Where' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-092: 顧客データフレーム（df_customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [213]:
public record Gender {
    public string gender_cd {get; init;}
    public string gender {get;init;}
}

public class CustomerS
{
    public string customer_id { get; init; }
    public string customer_name { get; init; }
    public DateTime? birth_day { get; init; }
    public int? age { get; init; }
    public string postal_cd { get; init; }
    public string address { get; init; }
    public string application_store_cd { get; init; }
    public string application_date { get; init; }
    public string status_cd { get; init; }

    public Gender gender {get;init;}
}

var df_gender = df_customer.GroupBy(r => r.gender_cd)
    .Select(r => new Gender() {
        gender_cd = r.Key,
        gender = r.Select(t => t.gender).FirstOrDefault(),
    })
    .ToDictionary(r => r.gender_cd);

var df_customer_s = df_customer.Select(r => new CustomerS() {
    customer_id = r.customer_id,
    customer_name = r.customer_name,
    birth_day = r.birth_day,
    age = r.age,
    address = r.address,
    postal_cd = r.postal_cd,
    application_store_cd = r.application_store_cd,
    application_date = r.application_date,
    status_cd = r.status_cd,
    gender = df_gender.GetValueOrDefault(r.gender_cd),
}).ToList();

df_customer_s.DisplayTable()

Error: (21,37): error CS1660: ラムダ式 はデリゲート型ではないため、'string' 型に変換できません
(28,33): error CS1061: 'DataFrame' に 'Select' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'Select' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-093: 商品データフレーム（df_product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータフレーム（df_category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データフレームを作成せよ。

In [214]:
/// Prodoct と Category の 項目を 持つクラス
public class ProductFull
{
    public string product_cd { get; set; }
    public string category_major_cd { get; set; }
    public string category_major_name { get; set; }
    public string category_medium_cd { get; set; }
    public string category_medium_name { get; set; }
    public string category_small_cd { get; set; }
    public string category_small_name { get; set; }
    public int? unit_price { get; set; }
    public int? unit_cost { get; set; }
}

// category_small_cd で Join した結合データを作成
var query = from df_category in df_category 
            join df_product in df_product 
            on df_category.category_small_cd equals df_product.category_small_cd
            select new ProductFull() {
                product_cd = df_product.product_cd,
                category_major_cd = df_product.category_major_cd,
                category_medium_cd = df_product.category_medium_cd,
                category_small_cd = df_product.category_small_cd,
                unit_price = df_product.unit_price,
                unit_cost = df_product.unit_cost,
                category_major_name = df_category.category_major_name,
                category_medium_name = df_category.category_medium_name,
                category_small_name = df_category.category_small_name,
            };

var df_product_full = query.ToList();

df_product_full.DisplayTable();

Error: (18,16): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(18,53): error CS1660: クエリ式 はデリゲート型ではないため、'string' 型に変換できません
(19,20): error CS1660: クエリ式 はデリゲート型ではないため、'JoinAlgorithm' 型に変換できません
(31,29): error CS1061: 'DataFrame' に 'ToList' の定義が含まれておらず、型 'DataFrame' の最初の引数を受け付けるアクセス可能な拡張メソッド 'ToList' が見つかりませんでした。using ディレクティブまたはアセンブリ参照が不足していないことを確認してください

---
> P-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [215]:
using System.IO;

using (StreamWriter sw = new StreamWriter(@"P_df_product_full_UTF-8_header.csv"))
using (CsvWriter csv = new CsvWriter(sw, CultureInfo.InvariantCulture))
{
    csv.WriteRecords(df_product_full);
}

Error: (4,8): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,28): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,42): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(6,22): error CS0103: 現在のコンテキストに 'df_product_full' という名前は存在しません

---
> P-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはCP932

In [216]:
#r "nuget:System.Text.Encoding.CodePages"

using System.Text;
Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);

In [217]:
using System.IO;
using System.Text;

using (StreamWriter sw = new StreamWriter(@"P_df_product_full_CP932_header.csv", false, Encoding.GetEncoding("Shift_JIS")))
using (CsvWriter csv = new CsvWriter(sw, CultureInfo.InvariantCulture))
{
    csv.Configuration.HasHeaderRecord = true;
    csv.WriteRecords(df_product_full);
}

Error: (5,8): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(5,28): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(5,42): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(8,22): error CS0103: 現在のコンテキストに 'df_product_full' という名前は存在しません

---
> P-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [218]:
using System.IO;

using (StreamWriter sw = new StreamWriter(@"P_df_product_full_UTF-8_noh.csv"))
using (CsvWriter csv = new CsvWriter(sw, CultureInfo.InvariantCulture))
{
    csv.Configuration.HasHeaderRecord = false;
    csv.WriteRecords(df_product_full);
}

Error: (4,8): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,28): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,42): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(7,22): error CS0103: 現在のコンテキストに 'df_product_full' という名前は存在しません

---
> P-097: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [219]:
var fileName = "P_df_product_full_UTF-8_header.csv";
List<ProductFull> ans097;
using (var reader = new StreamReader(fileName))
    using (var csv = new CsvReader(reader, CultureInfo.InvariantCulture))
    {
        csv.Configuration.HasHeaderRecord = true;
        var records = csv.GetRecords<ProductFull>();
        ans097 = records.ToList();
    }

ans097.Take(10).DisplayTable()

Error: (2,6): error CS0246: 型または名前空間の名前 'ProductFull' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,25): error CS0246: 型または名前空間の名前 'StreamReader' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,26): error CS0246: 型または名前空間の名前 'CsvReader' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,44): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(7,38): error CS0246: 型または名前空間の名前 'ProductFull' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)

---
> P-098: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [220]:
var fileName = "P_df_product_full_UTF-8_noh.csv";
List<ProductFull> ans098;
using (var reader = new StreamReader(fileName))
    using (var csv = new CsvReader(reader, CultureInfo.InvariantCulture))
    {
        csv.Configuration.HasHeaderRecord = false;
        var records = csv.GetRecords<ProductFull>();
        ans098 = records.ToList();
    }

ans098.Take(10).DisplayTable()

Error: (2,6): error CS0246: 型または名前空間の名前 'ProductFull' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(3,25): error CS0246: 型または名前空間の名前 'StreamReader' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,26): error CS0246: 型または名前空間の名前 'CsvReader' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(4,44): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(7,38): error CS0246: 型または名前空間の名前 'ProductFull' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)

---
> P-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [221]:
//df_product_full.to_csv('../data/P_df_product_full_UTF-8_header.tsv', sep='\t', encoding='UTF-8', index=False)

using System.IO;
using CsvHelper.Configuration;

// CSV 出力定義（タブ区切り）
CsvConfiguration conf = new CsvConfiguration(CultureInfo.InvariantCulture)
{
    Delimiter = "\t"
};

using (StreamWriter sw = new StreamWriter(@"P_df_product_full_UTF-8_header.tsv"))
using (CsvWriter csv = new CsvWriter(sw, conf))
{
    csv.WriteRecords(df_product_full);
}

Error: (4,7): error CS0246: 型または名前空間の名前 'CsvHelper' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(7,1): error CS0246: 型または名前空間の名前 'CsvConfiguration' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(7,29): error CS0246: 型または名前空間の名前 'CsvConfiguration' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(7,46): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(13,8): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(13,28): error CS0246: 型または名前空間の名前 'CsvWriter' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(15,22): error CS0103: 現在のコンテキストに 'df_product_full' という名前は存在しません

---
> P-100: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [222]:
using System.IO;
using CsvHelper.Configuration;

//df_tmp = pd.read_table('../data/P_df_product_full_UTF-8_header.tsv', encoding='UTF-8')
var fileName = "P_df_product_full_UTF-8_header.tsv";

// CSV 読み込み定義
CsvConfiguration conf = new CsvConfiguration(CultureInfo.InvariantCulture)
{
    Delimiter = "\t"
};

List<ProductFull> ans100;
using (var reader = new StreamReader(fileName))
    using (var csv = new CsvReader(reader, conf))
    {
        var records = csv.GetRecords<ProductFull>();
        ans100 = records.ToList();
    }

ans100.Take(10).DisplayTable()

Error: (2,7): error CS0246: 型または名前空間の名前 'CsvHelper' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(8,1): error CS0246: 型または名前空間の名前 'CsvConfiguration' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(13,6): error CS0246: 型または名前空間の名前 'ProductFull' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(8,29): error CS0246: 型または名前空間の名前 'CsvConfiguration' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(8,46): error CS0103: 現在のコンテキストに 'CultureInfo' という名前は存在しません
(15,26): error CS0246: 型または名前空間の名前 'CsvReader' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)
(17,38): error CS0246: 型または名前空間の名前 'ProductFull' が見つかりませんでした (using ディレクティブまたはアセンブリ参照が指定されていることを確認してください)

# これで１００本終わりです。おつかれさまでした！