# Entrega 1

El conjunto de datos sobre abalones proviene de un estudio realizado en Tasmania, Australia, y su objetivo es predecir la edad de los abalones (un tipo de molusco) a partir de mediciones físicas. Tradicionalmente, la edad de los abalones se determina cortando la concha, tiñéndola y contando los anillos bajo un microscopio, lo que resulta en un proceso tedioso. En lugar de esto, el dataset utiliza mediciones como la longitud, diámetro, altura, y varios pesos para predecir el número de anillos, que corresponde a la edad del abulón. Los datos fueron recopilados por Warwick J. Nash y otros investigadores en un estudio sobre la biología poblacional de los abalones. El conjunto de datos original fue ajustado para su uso en técnicas de machine learning eliminando valores faltantes y escalando los valores continuos.

Los datos fueron extraidos de: https://archive.ics.uci.edu/dataset/1/abalone y se pueden encontrar en el repositorio de github: https://github.com/bautistaturri/EntregaIAA/

Primero importamos las librerias necesarias para el trabajo

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.tree import export_graphviz
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

### Analisis Introductorio

In [2]:
df = pd.read_csv("C:/Users/M/Desktop/ia/tp/abalone.csv")
df.head(5)

Unnamed: 0,Sex,Length,Diameter,Height,Whole weight,Shucked weight,Viscera weight,Shell weight,Rings
0,M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
1,M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7
2,F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
3,M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
4,I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7


### Descripción de los atributos:

- **Sex**: Variable nominal con tres posibles valores: M (macho), F (hembra) e I (infante). Esta variable indica el sexo del abalone.
- **Length**: Variable continua que mide la longitud del caparazón del abalone en milímetros.
- **Diameter**: Variable continua que mide el diámetro, perpendicular a la longitud, también en milímetros.
- **Height**: Variable continua que mide la altura del caparazón del abalone con la carne aún dentro, en milímetros.
- **Whole weight**: Variable continua que mide el peso total del abalone en gramos.
- **Shucked weight**: Variable continua que mide el peso de la carne del abalone en gramos, una vez que se ha quitado la concha.
- **Viscera weight**: Variable continua que mide el peso del intestino después de haber sido drenado de sangre, en gramos.
- **Shell weight**: Variable continua que mide el peso de la concha seca después de haber sido removida del abalone, en gramos.
- **Rings**: Variable entera, que indica el número de anillos en el caparazón del abalone. Este es el valor objetivo en el problema, y se suma 1.5 a los anillos para obtener la edad aproximada del abalone en años.


In [3]:
df.shape

(4177, 9)

**Contiene 4177 filas y 9 columnas.**

 **Se utilizara el "Sexo" como target para poder predecir la edad de los anillos**

In [4]:
df.columns


Index(['Sex', 'Length', 'Diameter', 'Height', 'Whole weight', 'Shucked weight',
       'Viscera weight', 'Shell weight', 'Rings'],
      dtype='object')

Veamos si hay valores faltantes (cabe aclarar que en la informacion de los datos ya indica que hay valores faltantes)

In [5]:
df.isnull().sum()

Sex               0
Length            0
Diameter          0
Height            0
Whole weight      0
Shucked weight    0
Viscera weight    0
Shell weight      0
Rings             0
dtype: int64

In [6]:
df.describe()

Unnamed: 0,Length,Diameter,Height,Whole weight,Shucked weight,Viscera weight,Shell weight,Rings
count,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0
mean,0.523992,0.407881,0.139516,0.828742,0.359367,0.180594,0.238831,9.933684
std,0.120093,0.09924,0.041827,0.490389,0.221963,0.109614,0.139203,3.224169
min,0.075,0.055,0.0,0.002,0.001,0.0005,0.0015,1.0
25%,0.45,0.35,0.115,0.4415,0.186,0.0935,0.13,8.0
50%,0.545,0.425,0.14,0.7995,0.336,0.171,0.234,9.0
75%,0.615,0.48,0.165,1.153,0.502,0.253,0.329,11.0
max,0.815,0.65,1.13,2.8255,1.488,0.76,1.005,29.0
