# Análisis Descriptivo del Iris Dataset

**Nombre:** Edison Forero 
**Materia:** Ciencia de Datos  
**Salón:** TS7A

En este informe, se realiza un análisis descriptivo del **Iris Dataset**. El objetivo es calcular y examinar las estadísticas descriptivas básicas para entender mejor las características de las flores Iris. Este análisis incluye el cálculo de la **media**, **mediana** y **desviación estándar** de las características principales del dataset.


In [1]:
import numpy as np
from ucimlrepo import fetch_ucirepo

# Cargar el dataset de Iris desde ucimlrepo
iris = fetch_ucirepo(id=53)

# Datos (como DataFrames de pandas)
X = iris.data.features
y = iris.data.targets

# Mostrar las primeras filas de los datos
print("Características (X):")
print(X.head())

print("\nObjetivo (y):")
print(y.head())


Características (X):
   sepal length  sepal width  petal length  petal width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0          3.6           1.4          0.2

Objetivo (y):
         class
0  Iris-setosa
1  Iris-setosa
2  Iris-setosa
3  Iris-setosa
4  Iris-setosa


## Descripción del Dataset

El **Iris Dataset** es un conjunto de datos clásico en el análisis de datos y aprendizaje automático. Contiene información sobre tres especies de flores Iris: Setosa, Versicolor, y Virginica. Cada observación en el dataset incluye medidas de cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo.

En este análisis, nos enfocamos en calcular estadísticas descriptivas para estas características para entender su distribución y variabilidad.


In [2]:
# Calcular estadísticas descriptivas para las características
print("\nEstadísticas Descriptivas de las Características:")
print("Media:")
print(X.mean())  # Media

print("\nMediana:")
print(X.median())  # Mediana

print("\nDesviación Estándar:")
print(X.std())  # Desviación estándar



Estadísticas Descriptivas de las Características:
Media:
sepal length    5.843333
sepal width     3.054000
petal length    3.758667
petal width     1.198667
dtype: float64

Mediana:
sepal length    5.80
sepal width     3.00
petal length    4.35
petal width     1.30
dtype: float64

Desviación Estándar:
sepal length    0.828066
sepal width     0.433594
petal length    1.764420
petal width     0.763161
dtype: float64


## Interpretación de las Estadísticas Descriptivas

- **Media:** La media de cada característica proporciona un valor central para los datos. Nos da una idea del valor promedio para cada medida de las flores Iris.
- **Mediana:** La mediana ofrece una medida de tendencia central que no se ve afectada por valores extremos, ayudando a entender la distribución de los datos.
- **Desviación Estándar:** La desviación estándar indica la variabilidad o dispersión de las características. Un valor alto sugiere que los datos están más dispersos alrededor de la media.

Estas estadísticas ayudan a obtener una visión general de la distribución de las características en el dataset y son útiles para la preparación de datos antes de aplicar técnicas de análisis más complejas.


In [3]:
# Metadatos
print("\nMetadatos:")
print(iris.metadata)

# Información de variables
print("\nInformación de variables:")
print(iris.variables)



Metadatos:
{'uci_id': 53, 'name': 'Iris', 'repository_url': 'https://archive.ics.uci.edu/dataset/53/iris', 'data_url': 'https://archive.ics.uci.edu/static/public/53/data.csv', 'abstract': 'A small classic dataset from Fisher, 1936. One of the earliest known datasets used for evaluating classification methods.\n', 'area': 'Biology', 'tasks': ['Classification'], 'characteristics': ['Tabular'], 'num_instances': 150, 'num_features': 4, 'feature_types': ['Real'], 'demographics': [], 'target_col': ['class'], 'index_col': None, 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_of_dataset_creation': 1936, 'last_updated': 'Tue Sep 12 2023', 'dataset_doi': '10.24432/C56C76', 'creators': ['R. A. Fisher'], 'intro_paper': {'title': 'The Iris data set: In search of the source of virginica', 'authors': 'A. Unwin, K. Kleinman', 'published_in': 'Significance, 2021', 'year': 2021, 'url': 'https://www.semanticscholar.org/paper/4599862ea877863669a6a8e63a3c707a787d5d7e', 'doi': '1740-9713.0

## Metadatos e Información de Variables

El conjunto de datos incluye metadatos que proporcionan información sobre la fuente, el propósito y las características del dataset. Además, la información de las variables describe cada característica medida en el dataset, facilitando una mejor comprensión del contenido y la estructura de los datos.

Estos detalles son importantes para la interpretación correcta de los resultados y para asegurar que se utilizan los datos de manera adecuada en el análisis.


## Informe del Análisis del Conjunto de Datos Iris

Introducción
Este informe presenta un análisis sencillo del Iris Dataset, un conjunto de datos muy popular en la ciencia de datos y el aprendizaje automático. El dataset contiene información sobre tres tipos de flores Iris: Setosa, Versicolor y Virginica, y cada una de ellas está descrita por cuatro características principales: longitud y ancho del sépalo, y longitud y ancho del pétalo.

El objetivo de este análisis es calcular algunas estadísticas básicas, como la media y la desviación estándar, para entender mejor las características de estas flores y las diferencias entre las tres especies.

## Resultados
Después de analizar los datos, obtuvimos los siguientes resultados para cada una de las características:

## Longitud del sépalo:
Media: 5.84 cm
Desviación estándar: 0.83 cm

A## ncho del sépalo:
Media: 3.05 cm
Desviación estándar: 0.43 cm

## Longitud del pétalo:
Media: 3.76 cm

## Desviación estándar: 1.77 cm

## Ancho del pétalo:
Media: 1.20 cm

## Desviación estándar: 0.76 cm




Lo más interesante de los resultados es que las tres especies de Iris tienen diferencias claras en algunas de sus características, especialmente en los pétalos. Por ejemplo, la especie Setosa tiene pétalos más cortos, mientras que Virginica tiene los pétalos más largos y anchos.

## Interpretación

Estos resultados nos dicen que algunas de las características físicas de las flores, como el tamaño de los sépalos, son bastante similares entre las diferentes especies, ya que tienen una baja desviación estándar (es decir, no varían tanto entre flores). Sin embargo, las características relacionadas con los pétalos muestran más variabilidad, lo que puede ser útil para distinguir entre las tres especies.

En pocas palabras, las diferencias en el tamaño de los pétalos juegan un papel importante a la hora de identificar las especies de Iris. Por ejemplo, si observamos una flor con pétalos pequeños, es probable que sea una Iris Setosa, mientras que si los pétalos son grandes, es más probable que sea una Iris Virginica.

## Conclusión
Este análisis nos ayuda a entender cómo las características de las flores Iris pueden ser útiles para clasificarlas en diferentes especies. Aunque las medidas de los sépalos son bastante consistentes, los pétalos muestran más diferencias entre las especies, lo que podría facilitar la clasificación de las flores usando estas características en estudios o modelos de aprendizaje automático.
