## Ejercicio 1: Análisis del Dataset Iris

**Objetivo**: Realizar un análisis exhaustivo del dataset Iris utilizando las técnicas vistas.

### Instrucciones:
1. **Medidas de Frecuencia**:
   - Calcula la frecuencia de cada especie en el dataset Iris.
   - Calcula las frecuencias porcentuales.

2. **Medidas de Tendencia Central**:
   - Calcula la media, mediana y moda de las variables `sepal length (cm)` y `petal length (cm)`.

3. **Medidas de Dispersión**:
   - Calcula la desviación estándar, varianza, rango y rango intercuartil (IQR) de las variables `sepal width (cm)` y `petal width (cm)`.

4. **Percentiles y Cuartiles**:
   - Calcula los percentiles 25, 50 (mediana) y 75 para `sepal length (cm)`.

5. **Resumen Estadístico**:
   - Realiza un resumen estadístico de todo el DataFrame.
   - Realiza un resumen estadístico separado para cada especie considerando las cuatro variables del DataFrame.

6. **Covarianza y Correlación**:
   - Calcula la covarianza entre `sepal length (cm)` y `petal length (cm)`.
   - Calcula la correlación entre `sepal length (cm)` y `petal length (cm)`.

In [9]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris

In [10]:
iris = load_iris()

In [11]:
df = pd.DataFrame(data = iris.data, columns=iris.feature_names)

In [12]:
#agregación de las etiquetas
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

In [13]:
#Visualizar etiquetas
df['species']

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: category
Categories (3, object): ['setosa', 'versicolor', 'virginica']

## Ejercicio 1

In [14]:
#Calcula la frecuencia de cada especie en el dataset Iris.
contar_frec = df["species"].value_counts()
contar_frec

species
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64

In [15]:
#Calcula las frecuencias porcentuales
contar_porc = df["species"].value_counts(normalize=True) *100
contar_porc

species
setosa        33.333333
versicolor    33.333333
virginica     33.333333
Name: proportion, dtype: float64

## Ejercicio 2

In [16]:
#Calcula la media, mediana y moda de las variables sepal length (cm) y petal length (cm).
media_sepal = df["sepal length (cm)"].mean()
mediana_sepal = df["sepal length (cm)"].median()
mode_sepal = df["sepal length (cm)"].mode()
print(f"La media de 'sepal length (cm)' es de {media_sepal}")
print(f"La mediana de 'sepal length (cm)' es de {mediana_sepal}")
print(f"La media de 'sepal length (cm)' es de {mode_sepal}")


La media de 'sepal length (cm)' es de 5.843333333333334
La mediana de 'sepal length (cm)' es de 5.8
La media de 'sepal length (cm)' es de 0    5.0
Name: sepal length (cm), dtype: float64


## Ejercicio 3
Calcula la desviación estándar, varianza, rango y rango intercuartil (IQR) de las variables sepal width (cm) y petal width (cm).

In [17]:
#calculo de las desviaciones estandares
std_pw = df["petal width (cm)"].std()
std_sw = df['sepal width (cm)'].std()
print(f"la desviación estandar de petal width (cm) es de {std_pw} y la de sepal width (cm) es de {std_sw}")

la desviación estandar de petal width (cm) es de 0.7622376689603465 y la de sepal width (cm) es de 0.435866284936698


In [18]:
#calculo de las varianzas
var_pw = df["petal width (cm)"].var()
var_sw = df['sepal width (cm)'].var()
var_sw
print(f"la varianza de petal width (cm) es de {var_pw} y la de sepal width (cm) es de {var_sw}")

la varianza de petal width (cm) es de 0.5810062639821029 y la de sepal width (cm) es de 0.1899794183445188


In [19]:
#calculo de los rangos
rango_pw= df['petal width (cm)'].max() - df['petal width (cm)'].min()
rango_sw= df['sepal width (cm)'].max() - df['sepal width (cm)'].min()
print(f"el rango de la variable petal width (cm) es de {rango_pw} y el rango de sepal width (cm) es de {rango_sw}")

el rango de la variable petal width (cm) es de 2.4 y el rango de sepal width (cm) es de 2.4000000000000004


In [20]:
#calculo de los rangos intercuartil
Q1_pw = df['petal width (cm)'].quantile(0.25)
Q3_pw = df['petal width (cm)'].quantile(0.75)
IQR_pw = Q3_pw - Q1_pw
Q1_sw = df['sepal width (cm)'].quantile(0.25)
Q3_sw = df['sepal width (cm)'].quantile(0.75)
IQR_sw = Q3_sw - Q1_sw
print(f"el rango intercuartilo de petal width (cm) es{IQR_pw} y el rango intercuartil de separl width (cm) es {IQR_sw}")

el rango intercuartilo de petal width (cm) es1.5 y el rango intercuartil de separl width (cm) es 0.5


## Ejercicio 4
Calcula los percentiles 25, 50 (mediana) y 75 para sepal length (cm).

In [21]:
# Calculo los percentiles 25%, 50%, 75%
percentiles = df['sepal length (cm)'].quantile([0.25, 0.5, 0.75])
print("Percentiles 25%, 50%, 75%: ")
print(percentiles)

Percentiles 25%, 50%, 75%: 
0.25    5.1
0.50    5.8
0.75    6.4
Name: sepal length (cm), dtype: float64


## Ejercicion 5
Realiza un resumen estadístico de todo el DataFrame.
Realiza un resumen estadístico separado para cada especie considerando las cuatro variables del DataFrame.

In [22]:
#Resumen estadistico de todo el dataframe
df.describe(include = 'all')

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,setosa
freq,,,,,50
mean,5.843333,3.057333,3.758,1.199333,
std,0.828066,0.435866,1.765298,0.762238,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


In [23]:
resum_sl = df.groupby('species', observed=False)['sepal length (cm)'].describe()
resum_sl

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9


In [25]:
resum_sw = df.groupby('species', observed=False)['sepal width (cm)'].describe()
resum_sw

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
setosa,50.0,3.428,0.379064,2.3,3.2,3.4,3.675,4.4
versicolor,50.0,2.77,0.313798,2.0,2.525,2.8,3.0,3.4
virginica,50.0,2.974,0.322497,2.2,2.8,3.0,3.175,3.8


In [26]:
resum_pl = df.groupby('species', observed=False)['petal length (cm)'].describe()
resum_pl

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
setosa,50.0,1.462,0.173664,1.0,1.4,1.5,1.575,1.9
versicolor,50.0,4.26,0.469911,3.0,4.0,4.35,4.6,5.1
virginica,50.0,5.552,0.551895,4.5,5.1,5.55,5.875,6.9


In [27]:
resum_pw = df.groupby('species', observed=False)['petal width (cm)'].describe()
resum_pw

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
setosa,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


## Ejercicio 6
Calcula la covarianza entre sepal length (cm) y petal length (cm).
Calcula la correlación entre sepal length (cm) y petal length (cm).

In [23]:
#Con numpy
covarianza_np = np.cov(df['sepal length (cm)'], df['petal length (cm)'])
covarianza_np

array([[0.68569351, 1.27431544],
       [1.27431544, 3.11627785]])

In [24]:
#Con pandas
covarianza_pd = df['sepal length (cm)'].cov(df['petal length (cm)'])
covarianza_pd

1.2743154362416111