<a href="https://colab.research.google.com/github/betsyvies/dry-beans/blob/main/dry_bean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn import set_config
set_config(display='diagram')

## Primera opción: Dry Bean

**1. Fuente de datos**

Los datos se almacenaron debido a la necesidad importante de clasificar las semillas para la comercialización y la producción de variedades de semillas uniformes. Este conjunto de datos lo encontre en el UCI Machine Learning Repository.

**2. Breve descripción de datos**

El conjunto de datos Dry Bean contiene características de imágenes obtenidas a partir de granos secos (habas). Cada registro en el conjunto de datos corresponde a un grano individual y contiene diversas características extraídas mediante análisis de imagen. Las características incluyen aspectos geométricos y de textura que ayudan a diferenciar entre diferentes tipos de granos.

**3. ¿Cuál es el objetivo?**

El objetivo del conjunto de datos es clasificar los granos secos en una de las siete clases posibles basadas en sus características físicas y de textura. Las clases representan diferentes tipos de granos, como Barbos, Bombay, Cali, Dermason, Horoz, Sira y Sel.

**4. ¿Este es un problema de clasificación o regresión?**

Este es un problema de clasificación (multiclase). El objetivo es asignar cada grano a una de las siete clases posibles basadas en sus características.

**5. ¿Cuántas características hay?**

El conjunto de datos tiene 16 características (features), excluyendo el target (tipo de grano). Estas incluyen varias medidas geométricas y de textura derivadas del análisis de imagen.

**6. ¿Cuántas filas de datos hay?**

El conjunto de datos consta de 13611 filas de datos, cada una representando un grano individual con sus respectivas características y la clase a la que pertenece.

In [7]:
path = '/content/drive/MyDrive/Data science/Projects/Project 2/Dry_Bean_Dataset.xlsx'
df = pd.read_excel(path)
df.head()

Unnamed: 0,Area,Perimeter,MajorAxisLength,MinorAxisLength,AspectRation,Eccentricity,ConvexArea,EquivDiameter,Extent,Solidity,roundness,Compactness,ShapeFactor1,ShapeFactor2,ShapeFactor3,ShapeFactor4,Class
0,28395,610.291,208.178117,173.888747,1.197191,0.549812,28715,190.141097,0.763923,0.988856,0.958027,0.913358,0.007332,0.003147,0.834222,0.998724,SEKER
1,28734,638.018,200.524796,182.734419,1.097356,0.411785,29172,191.27275,0.783968,0.984986,0.887034,0.953861,0.006979,0.003564,0.909851,0.99843,SEKER
2,29380,624.11,212.82613,175.931143,1.209713,0.562727,29690,193.410904,0.778113,0.989559,0.947849,0.908774,0.007244,0.003048,0.825871,0.999066,SEKER
3,30008,645.884,210.557999,182.516516,1.153638,0.498616,30724,195.467062,0.782681,0.976696,0.903936,0.928329,0.007017,0.003215,0.861794,0.994199,SEKER
4,30140,620.134,201.847882,190.279279,1.060798,0.33368,30417,195.896503,0.773098,0.990893,0.984877,0.970516,0.006697,0.003665,0.9419,0.999166,SEKER


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13611 entries, 0 to 13610
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Area             13611 non-null  int64  
 1   Perimeter        13611 non-null  float64
 2   MajorAxisLength  13611 non-null  float64
 3   MinorAxisLength  13611 non-null  float64
 4   AspectRation     13611 non-null  float64
 5   Eccentricity     13611 non-null  float64
 6   ConvexArea       13611 non-null  int64  
 7   EquivDiameter    13611 non-null  float64
 8   Extent           13611 non-null  float64
 9   Solidity         13611 non-null  float64
 10  roundness        13611 non-null  float64
 11  Compactness      13611 non-null  float64
 12  ShapeFactor1     13611 non-null  float64
 13  ShapeFactor2     13611 non-null  float64
 14  ShapeFactor3     13611 non-null  float64
 15  ShapeFactor4     13611 non-null  float64
 16  Class            13611 non-null  object 
dtypes: float64(1

## Segunda opción: Banana Quality

**1. Fuente de datos**

La fuente de datos para este conjunto de datos de predicción de la calidad del platano proviene de Kaggle.

**2. Breve descripción de datos**

El conjunto de datos de predicción de la calidad del platano contiene información como tamaño, peso, dulzor, suavidad, época de cosecha, madurez, acidez, calidad del platano. Estos datos pueden haber sido recopilados de evaluaciones sensoriales realizadas por expertos o mediante la medición de características físicas de los platanos.

**3. ¿Cuál es el objetivo?**

El objetivo del análisis de este conjunto de datos es predecir la calidad de los platanos en función de sus características.

**4. ¿Este es un problema de clasificación o regresión?**

Este es un problema de clasificación. Se intenta predecir la calidad del platano (Buena o Mala).

**5. ¿Cuántas características hay?**

El conjunto de datos tiene 7 características (features), excluyendo el target (quality). Estas características incluyen variables como el tamaño, peso, dulzor, suavidad, época de cosecha, madurez y acidez.

**6. ¿Cuántas filas de datos hay?**

El conjunto de datos contiene 8000 filas de datos, cada una representando un caso diferente de oobservaciones recopiladas.

In [5]:
path = '/content/drive/MyDrive/Data science/Projects/Project 2/banana_quality.csv'

# Read the input CSV file with space as a delimiter
df = pd.read_csv(path)
df.head()

Unnamed: 0,Size,Weight,Sweetness,Softness,HarvestTime,Ripeness,Acidity,Quality
0,-1.924968,0.468078,3.077832,-1.472177,0.294799,2.43557,0.27129,Good
1,-2.409751,0.48687,0.346921,-2.495099,-0.892213,2.067549,0.307325,Good
2,-0.357607,1.483176,1.568452,-2.645145,-0.647267,3.090643,1.427322,Good
3,-0.868524,1.566201,1.889605,-1.273761,-1.006278,1.873001,0.477862,Good
4,0.651825,1.319199,-0.022459,-1.209709,-1.430692,1.078345,2.812442,Good


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Size         8000 non-null   float64
 1   Weight       8000 non-null   float64
 2   Sweetness    8000 non-null   float64
 3   Softness     8000 non-null   float64
 4   HarvestTime  8000 non-null   float64
 5   Ripeness     8000 non-null   float64
 6   Acidity      8000 non-null   float64
 7   Quality      8000 non-null   object 
dtypes: float64(7), object(1)
memory usage: 500.1+ KB
