# 統計処理練習ようのデータセット

ライブラリ組み込み済みのデータセットなので、データソースが突然なくなるリスクが無い（低い）もの。

In [3]:
!pip install statsmodels


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


## skylearn

| データセット名 | 用途 |
|--------------|------|
| `datasets.load_iris()` | 多クラス分類（花の特徴データ）|
| `datasets.load_diabetes()` | 回帰分析（糖尿病患者データ） |
| `datasets.load_wine()` | 多クラス分類（ワインの成分データ） |
| `datasets.load_digits()` | 画像データ（手書き数字認識） |


In [None]:
import pandas as pd
from sklearn import datasets

# データセットのリスト
sklearn_datasets = {
    "iris": datasets.load_iris(),
    "diabetes": datasets.load_diabetes(),
    "wine": datasets.load_wine(),
    "digits": datasets.load_digits()
}

# データセットの内容を表示する関数
def display_dataset(name, df):
    print(f"\n===== {name} Dataset =====")
    print(df.head(5))

# Scikit-learn データセットの表示
for name, dataset in sklearn_datasets.items():
    df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
    if "target" in dataset:
        df["target"] = dataset.target
    display_dataset(name, df)



===== iris Dataset =====
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  

===== diabetes Dataset =====
        age       sex       bmi        bp        s1        s2        s3  \
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4  0.005383 -0.044642 

## Seaborn

| データセット名 | 用途 |
|--------------|------|
| `sns.load_dataset('tips')` | チップの支払いデータ（回帰、統計検定）|
| `sns.load_dataset('penguins')` | ペンギンの種類分類（クラス分類）|
| `sns.load_dataset('titanic')` | タイタニック生存者データ（生存分析、ロジスティック回帰） |

In [7]:
import pandas as pd
import seaborn as sns

seaborn_datasets = ["tips", "penguins", "titanic"]

# データセットの内容を表示する関数
def display_dataset(name, df):
    print(f"\n===== {name} Dataset =====")
    print(df.head(5))


# Seaborn データセットの表示
for name in seaborn_datasets:
    df = sns.load_dataset(name)
    display_dataset(name, df)





===== tips Dataset =====
   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

===== penguins Dataset =====
  species     island  bill_length_mm  bill_depth_mm  flipper_length_mm  \
0  Adelie  Torgersen            39.1           18.7              181.0   
1  Adelie  Torgersen            39.5           17.4              186.0   
2  Adelie  Torgersen            40.3           18.0              195.0   
3  Adelie  Torgersen             NaN            NaN                NaN   
4  Adelie  Torgersen            36.7           19.3              193.0   

   body_mass_g     sex  
0       3750.0    Male  
1       3800.0  Female  
2       3250.0  Female  
3          NaN     NaN  
4       3450.0  Female  

===== titanic Dataset ==

## Statsmodels

| データセット名 | 用途 |
|--------------|------|
| `sm.datasets.get_rdataset("mtcars")` | 車の性能データ（回帰分析） |
| `sm.datasets.get_rdataset("airquality")` | 大気汚染データ（時系列分析） |
| `sm.datasets.get_rdataset("iris")` | アイリスデータ（分類） |

In [6]:
import statsmodels.api as sm

statsmodels_datasets = ["mtcars", "airquality", "iris"]

# データセットの内容を表示する関数
def display_dataset(name, df):
    print(f"\n===== {name} Dataset =====")
    print(df.head(5))


# Statsmodels データセットの表示
for name in statsmodels_datasets:
    dataset = sm.datasets.get_rdataset(name)
    df = dataset.data
    display_dataset(name, df)



===== mtcars Dataset =====
                    mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
rownames                                                                     
Mazda RX4          21.0    6  160.0  110  3.90  2.620  16.46   0   1     4   
Mazda RX4 Wag      21.0    6  160.0  110  3.90  2.875  17.02   0   1     4   
Datsun 710         22.8    4  108.0   93  3.85  2.320  18.61   1   1     4   
Hornet 4 Drive     21.4    6  258.0  110  3.08  3.215  19.44   1   0     3   
Hornet Sportabout  18.7    8  360.0  175  3.15  3.440  17.02   0   0     3   

                   carb  
rownames                 
Mazda RX4             4  
Mazda RX4 Wag         4  
Datsun 710            1  
Hornet 4 Drive        1  
Hornet Sportabout     2  

===== airquality Dataset =====
   Ozone  Solar.R  Wind  Temp  Month  Day
0   41.0    190.0   7.4    67      5    1
1   36.0    118.0   8.0    72      5    2
2   12.0    149.0  12.6    74      5    3
3   18.0    313.0  11.5    62      5    4
4