# Operaciones de Aprendizaje Automático

## Proyecto: Secondary Mushroom Dataset

## Integrantes del Equipo 14:

- Rubén Díaz García A01371849
- Jorge Chávez Badillo A01749448
- José Manuel García Ogarrio A01795147
- Paúl Andrés Yungán Pinduisaca A01795702
- Ana Gabriela Fuentes Hernández A01383717
- David Emmanuel Villanueva Martínez A01638389

## Librerías Necesarias


In [None]:
!pip install ucimlrepo
from ucimlrepo import fetch_ucirepo
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder



## 1. Manipulación y preparación de datos

In [None]:
# fetch dataset
secondary_mushroom = fetch_ucirepo(id=848)

# features and Labels
X = secondary_mushroom.data.features
y = secondary_mushroom.data.targets

# Complete dataset
print(secondary_mushroom.metadata,  "\n")
print(secondary_mushroom.variables, "\n")

# variable information
print(secondary_mushroom.variables)

{'uci_id': 848, 'name': 'Secondary Mushroom', 'repository_url': 'https://archive.ics.uci.edu/dataset/848/secondary+mushroom+dataset', 'data_url': 'https://archive.ics.uci.edu/static/public/848/data.csv', 'abstract': 'Dataset of simulated mushrooms for binary classification into edible and poisonous.', 'area': 'Biology', 'tasks': ['Classification'], 'characteristics': ['Tabular'], 'num_instances': 61068, 'num_features': 20, 'feature_types': ['Real'], 'demographics': [], 'target_col': ['class'], 'index_col': None, 'has_missing_values': 'yes', 'missing_values_symbol': 'NaN', 'year_of_dataset_creation': 2021, 'last_updated': 'Wed Apr 10 2024', 'dataset_doi': '10.24432/C5FP5Q', 'creators': ['Dennis Wagner', 'D. Heider', 'Georges Hattab'], 'intro_paper': {'ID': 259, 'type': 'NATIVE', 'title': 'Mushroom data creation, curation, and simulation to support classification tasks', 'authors': 'Dennis Wagner, D. Heider, Georges Hattab', 'venue': 'Scientific Reports', 'year': 2021, 'journal': None, '

In [None]:
# Convertir X y y en un DataFrame completo
data = pd.concat([X, y], axis=1)

In [None]:
data.describe()

Unnamed: 0,cap-diameter,stem-height,stem-width
count,61069.0,61069.0,61069.0
mean,6.733854,6.581538,12.14941
std,5.264845,3.370017,10.035955
min,0.38,0.0,0.0
25%,3.48,4.64,5.21
50%,5.86,5.95,10.19
75%,8.54,7.74,16.57
max,62.34,33.92,103.91


In [None]:
data.describe(include='object')

Unnamed: 0,cap-shape,cap-surface,cap-color,does-bruise-or-bleed,gill-attachment,gill-spacing,gill-color,stem-root,stem-surface,stem-color,veil-type,veil-color,has-ring,ring-type,spore-print-color,habitat,season,class
count,61069,46949,61069,61069,51185,36006,61069,9531,22945,61069,3177,7413,61069,58598,6354,61069,61069,61069
unique,7,11,12,2,7,3,12,5,8,13,1,6,2,8,7,8,4,2
top,x,t,n,f,a,c,w,s,s,w,u,w,f,f,k,d,a,p
freq,26934,8196,24218,50479,12698,24710,18521,3177,6025,22926,3177,5474,45890,48361,2118,44209,30177,33888


In [None]:
data.shape

(61069, 21)

In [None]:
# Verificar valores nulos en el DataFrame original
print("Valores nulos en el DataFrame original:")
print(data.isnull().sum()/len(data)*100)

Valores nulos en el DataFrame original:
cap-diameter             0.000000
cap-shape                0.000000
cap-surface             23.121387
cap-color                0.000000
does-bruise-or-bleed     0.000000
gill-attachment         16.184971
gill-spacing            41.040462
gill-color               0.000000
stem-height              0.000000
stem-width               0.000000
stem-root               84.393064
stem-surface            62.427746
stem-color               0.000000
veil-type               94.797688
veil-color              87.861272
has-ring                 0.000000
ring-type                4.046243
spore-print-color       89.595376
habitat                  0.000000
season                   0.000000
class                    0.000000
dtype: float64


In [None]:
# Se eliminaron las columnas con más del 20% de valores nulos para evitar sesgos en el análisis
# y modelos de aprendizaje automático. La presencia de una gran cantidad de valores nulos en una columna puede afectar la precisión del modelo

# Calcular el porcentaje de valores nulos para cada columna
null_percentage = data.isnull().sum() / len(data) * 100

# Identificar las columnas con más del 20% de valores nulos
columns_to_drop = null_percentage[null_percentage > 20].index.tolist()

columns_to_drop

['cap-surface',
 'gill-spacing',
 'stem-root',
 'stem-surface',
 'veil-type',
 'veil-color',
 'spore-print-color']

In [None]:
data_cleaned = data.drop(columns=columns_to_drop)

print("Columnas dropeadas:")
for column in columns_to_drop:
  print(f"- {column}: Más del 20% de valores nulos.")

Columnas dropeadas:
- cap-surface: Más del 20% de valores nulos.
- gill-spacing: Más del 20% de valores nulos.
- stem-root: Más del 20% de valores nulos.
- stem-surface: Más del 20% de valores nulos.
- veil-type: Más del 20% de valores nulos.
- veil-color: Más del 20% de valores nulos.
- spore-print-color: Más del 20% de valores nulos.
