# Proyecto de curso: Analisis y visualización a la base de datos de hongos

Santiago Florian Bustamante - *santiflo17@gmail.com* - Universidad Nacional de Colombia

## Introducción
El siguiente notbook tiene objetivos el realizar el analisis y visualización sobre la base de datos de hongos. Con el fin de seguir la metodologia **CRISP-DM** propuesta en el curso y que sea de facil entendimiento del documento, el archivo se divde según la metodologia propuesta. 

## Entendimiento del negocio

## Entendimiento de los datos

El conjunto de datos fue obtenido mediante la pagina web https://archive.ics.uci.edu/ que tiene multiples bases de datos libres con las cuales trabajar para el aprendizaje de IA y ML. Los registros de los hongos fueron obtenidos de multiples fuentes como lo son la guía de campo del norte de la Sociedad Audubon de los estados unidos tomada el 27 de abril de 1987. El conjunto de datos incluye descripciones de muestras hipoteticas correspondientes a 23 especies de hongos con branquias de las familias Agaricus y Lepiota. Cada especie se identifica como definitivamente comenstible, defifinitivamente venenosa o de comestibilidad desconocida y no recomendada. Esta ultima clase se combinó con la venenosa. La Guía establece claramente que no existe una regla sencilla para determinar la comestibilidad de un hongo.

In [22]:
# import
import pandas as pd

In [23]:
# Variable definition
names = ['classes','cap-shape', 'cap-surface', 'cap-color', 'bruises?', 'odor', 'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color', 'stalk-shape', 'stalk-root', 'stalk-surface-above-ring', 'stalk-surface-below-ring', 'stalk-color-above-ring', 'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number', 'ring-type', 'spore-print-color', 'population', 'habitat']
mushroom_ds = pd.read_csv('data/agaricus-lepiota.data', names = names, na_values='?')


### Atributos
El conjunto de datos cuenta con **8124** registros y **23 atributos de tipo nominal** incluyendo su clasificación. A continuación se explicara cada uno de sus atributos.

In [24]:
mushroom_ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8124 entries, 0 to 8123
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   classes                   8124 non-null   object
 1   cap-shape                 8124 non-null   object
 2   cap-surface               8124 non-null   object
 3   cap-color                 8124 non-null   object
 4   bruises?                  8124 non-null   object
 5   odor                      8124 non-null   object
 6   gill-attachment           8124 non-null   object
 7   gill-spacing              8124 non-null   object
 8   gill-size                 8124 non-null   object
 9   gill-color                8124 non-null   object
 10  stalk-shape               8124 non-null   object
 11  stalk-root                5644 non-null   object
 12  stalk-surface-above-ring  8124 non-null   object
 13  stalk-surface-below-ring  8124 non-null   object
 14  stalk-color-above-ring  

 - **1. classes**: Clasificación del hongo. comestible=e y venenoso=p.
 - **2. cap-shape**: Forma del pileo del hongo. campana=b, conico=c, convexo=x, plano=f, nudoso=k y hundido=s.
 - **3. cap-surface**: Superficie del pileo del hongo. fibroso=f, surcos=g, escamoso=y y liso=s.
 - **4. cap-color**: Color del pileo. café=n, beige=b, canela=c, gris=g, verde=r, rosa=p, purpura=u, rojo=e, blanco=w, amarillo=y.
 - **5. bruises?**: Moretones o coloración azulada al ser arrancado o golpeado. moretones=t, no=f.
 - **6. odor**: Olor. almendra=a, anís=l, cresota=c, pescado=y, asqueroso=f, mohoso=m, ninguno=n, penetrante=p, picante=s.
 - **7. gill-attachment**: Accesorio del himenio. adjunto=a, descendente=d, libre=f, con muescas=n.
 - **8. gill-spacing**: Espaciado del himenio. cerrado=c, apiñado=w, distante=d.
 - **9. gill-size**: Tamaño del himenio. Amplio=b, corto=n.
 - **10. gill-color**: Color del himenio. negro=k, cafe=n, beige=b, chocolate=h, gris=g, verde=r, naranja=o, rosa=p, purpura=u, rojo=e, blanco=w, amarillo=y
 - **11. stalk-shape**: Forma del estipe. agrandando=e, dusminuyendo=t
 - **12. stalk-root**: Raiz del estipe. bulboso=b, club=c, copa=u, igual=e, rizomorfos=z, enraizado=r, faltante=?.
 - **13. stalk-surface-above-ring**: Superficie del estipe sobre el anillo. fibroso=f, escamoso=y, sedoso=k, liso=s.
 - **14. stalk-surface-below-ring**: Superficie del estipe bajo el anillo. fibroso=f, escamoso=y, sedoso=k, liso=s.
 - **15. stalk-color-above-ring**: Color del estipe sobre el anillo. café=n, beige=b, canela=c, gris=g, naranja=o, rosa=p, rojo=e, blanco=w, amarillo=y.
 - **16. stalk-color-below-ring** :Color del estipe bajo el anillo. café=n, beige=b, canela=c, gris=g, naranja=o, rosa=p, rojo=e, blanco=w, amarillo=y.
 - **17. veil-type**: Tipo de velo. parcial=p, universal=u
 - **18. veil-color**: Color del velo. cafe=n, naranja=o, blanco=w, amarillo=y.
 - **19. ring-number**: Numero de anillos. ninguno=n, uno=o, dos=t.
 - **20. ring-type**: Tipo de anillo. telaraña=c, evanescente=e, llameante=f, grande=l, ninguno=n, colgante=p, revestimiento=s, zona=z.
 - **21. spore-print-color**: Color de esporas. negro=k, cafe=n, beige=b, chocolate=h, verde=r, orange=o, purpura=u, blanco=w, amarillo=y.
 - **22. population**: Población. abundante=a, encapsulado=c, numeroso=n, dispersos=s, varios=v, solitario=y.
 - **23. habitad**: Habitad. pasto=g, hojas=l, prados=m, caminos=p, urabo=u, desperdicios=w, bosque=d.

### Distribución
El conjunto de datos se encuentra clasificado en dos clases e y p, que significa, comestible y venenosa respectivamente:
 - Comestible con 4208 registros, equivalentemente al 51.8% de la muestra.
 - Venenoso con 3916 registros, equivalentemente al 48.2% de la muestra.

In [62]:
e,p = mushroom_ds['classes'].value_counts()
print(f'Se cuenta con {e} registros, que equivalen al {100*e/(mushroom_ds.shape[0]):.2f}% de la muestra es comestible')
print(f'Se cuenta con {p} registros, que quivalen al {100*p/(mushroom_ds.shape[0]):.2f}% de la muestra es venenosa')

Se cuenta con 4208 registros, que equivalen al 51.80% de la muestra es comestible
Se cuenta con 3916 registros, que quivalen al 48.20% de la muestra es venenosa


Se puede identificar que las clases estan ligeramente desbalanceadas brindando un poco mas de información para los hongos comestibles

### Valores nulos
El conjunto de datos cuenta con *2480* valores nulos para el atributo **12 stalk-root** identificado con el valor de *?*

In [79]:
nan_e, nan_p = mushroom_ds[mushroom_ds['stalk-root'].isna()]['classes'].value_counts()
print(f'La clase comestible tiene {nan_e} registros con valores faltanes, lo que equivale al {100*nan_e/(mushroom_ds.shape[0]):.2f}% de la muestra')
print(f'La clase venenosa tiene {nan_p} registros con valores faltanes, lo que equivale al {100*nan_p/(mushroom_ds.shape[0]):.2f}% de la muestra')
print(f'Para un total de {nan_e+nan_p} registros con valores nulos')

La clase comestible tiene 1760 registros con valores faltanes, lo que equivale al 21.66% de la muestra
La clase venenosa tiene 720 registros con valores faltanes, lo que equivale al 8.86% de la muestra
Para un total de 2480 registros con valores nulos


Al eliminar los registros que cuentan datos faltantes se crea una nueva muesta con un total de 5644, aumentando su desvalanceo favoreciendo mas a la clase comestible

In [74]:
new_mushroom_ds = mushroom_ds[mushroom_ds['stalk-root'].notna()]
new_mushroom_ds.shape[0]

5644

In [78]:
new_e, new_p = new_mushroom_ds['classes'].value_counts()
print(f'Se cuenta con {new_e} registros para la clase comestible despues de eliminar los valores faltantes, lo que equivale al {100*new_e/(new_mushroom_ds.shape[0]):.2f}% de la nueva muestra')
print(f'Se cuenta con {new_p} registros para la clase venenosa despues de eliminar los valores faltantes, lo que equivale al {100*new_p/(new_mushroom_ds.shape[0]):.2f}% de la nueva muestra')

Se cuenta con 3488 registros para la clase comestible despues de eliminar los valores faltantes, lo que equivale al 61.80% de la nueva muestra
Se cuenta con 2156 registros para la clase venenosa despues de eliminar los valores faltantes, lo que equivale al 38.20% de la nueva muestra
