# Estadística descriptiva con Python

#### Vamos a leer un conjunto de datos

In [None]:
import pandas as pd

In [None]:
iris = pd.read_csv('iris_data.txt', sep=",")

Cabecera de la tabla para hacernos una idea de cómo es:

In [None]:
iris.head()

#### Tipos de datos en Python:
    

In [None]:
iris.dtypes

Más información acerca de mi tabla:

In [None]:
iris.info()

### Tabla de frecuencias:

Vamos a generarla para la variable petal_width

Vemos antes de nada cómo es esta variable:

In [None]:
iris['petal_width'].describe()

Esta variable la vamos a categorizar convirtiéndola en una con tres categorías:
    - que el valor sea <=1
    - que el valor esté entre 1 y 2
    - que el valor sea >= 2
sabiendo que el mínimo es 1 y el máximo 2.5.

In [None]:
iris['nueva_variable'] = 'sin categoria'
iris.loc[(iris.petal_width<=1),'nueva_variable'] = '1. <= 1' 
iris.loc[(iris.petal_width>1) & (iris.petal_width<2),'nueva_variable'] = '2. 1-2' 
iris.loc[(iris.petal_width>=2),'nueva_variable'] = '3. >= 2' 

Vemos cómo queda ahora el dataframe con la nueva variable:

In [None]:
iris.head()

Ahora voy a crear la tabla de frecuencias. 
En particular, calculo las frecuencias absolutas:

In [None]:
frecuencias = pd.crosstab(index=iris["nueva_variable"],columns="frec_abs")

#frecuencias = iris.groupby("nueva_variable").size().reset_index(name='frec_abs')
#frecuencias = pd.value_counts(iris['nueva_variable'])

print(frecuencias)

Añado las frecuencias relativas:

In [None]:
frecuencias["frec_rel"] = iris["nueva_variable"].value_counts() / len(iris["nueva_variable"])

Añado las frecuencias porcentuales:

In [None]:
frecuencias["frec_por"] = 100* frecuencias["frec_rel"]
print(frecuencias)

In [None]:
frecuencias_acum = frecuencias[["frec_abs","frec_rel"]].cumsum().rename(columns={"frec_abs":"frec_abs_acum","frec_rel":"frec_rel_acum"})
print(frecuencias_acum)
#Esto sería haciendo también el acumulado de frec_por
#frecuencias_acum = frecuencias.cumsum().rename(columns={"frec_abs":"frec_abs_acum","frec_rel":"frec_rel_acum", "frec_por":"frec_por_acum"})

In [None]:
tabla_frecuencias = pd.concat([frecuencias, frecuencias_acum], axis=1)
print(tabla_frecuencias)

### $\color{red}{\text{Ejercicio 1: Calcular las tablas de frecuencias para el resto de variables del dataframe.}}$

### $\color{red}{\text{Ejercicio 2: Calcular frecuencias absolutas y relativas combinadas de dos variables.}}$

In [None]:
##consultar vbles declaradas
#dir()
#
##borrar
#%reset -f
#del(vble)

### Medidas de posición centrales:

Vamos a calcular la media y la mediana de la variable "sepal_length" y la moda de la variable "species"

In [None]:
iris[["sepal_length"]].mean()

In [None]:
iris[["sepal_length"]].median()

Parece que los valores de la media y la mediana son muy próximos.

In [None]:
iris[["species"]].mode()

¿Qué está pasando?

Vamos a sacarnos una tabla con el número de registros de cada clase para ver por qué no me está sacando el que más se repite:

In [None]:
pd.value_counts(iris['species'])

Es una variable trimodal (tiene 3 modas)

Veamos cuál es la moda de la variable que creamos para categorizar nuestra vble original "petal_width"

In [None]:
iris[["nueva_variable"]].mode()

Esta variable sí que tiene una única moda.

### Medidas de posición no centrales:

Veamos los cuartiles:

In [None]:
iris.describe()

Donde: 
- cuartil 1 se corresponde con el 25%, 
- cuartil 2 con el 50%, que a su vez es la mediana, 
- cuartil 3 con el 75% y 
- cuartil 4 con el max

Vemos por tanto que de esta forma, además de los cuartiles, también obtenemos la media (mean) y la mediana (50%) de forma directa.

Calculemos los percentiles:

In [None]:
iris.quantile(0.50)

### $\color{red}{\text{Ejercicio 3: Calcular el Rango Intercuartílico de cada variable.}}$

### Medidas de dispersión:

Calculamos el rango de la variable 'sepal_length':

In [None]:
iris[['sepal_length']].max() - iris[['sepal_length']].min()

Calculamos la varianza de la variable 'sepal_length':

In [None]:
iris[['sepal_length']].var()

Calculamos la desviación típica de la variable 'sepal_length':

In [None]:
iris[['sepal_length']].std()

Podemos además representar las variables gráficamente utilizando un boxplot, para tener una visión de cómo de dispersas están nuestras variables.

In [None]:
boxplot = iris.boxplot(column=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])

### $\color{red}{\text{Ejercicio 4: Calcular rango, varianza y desviación típica de cada variable.}}$

### $\color{red}{\text{Ejercicio 5: Calcular el coeficiente de variación de Pearson de cada variable para concluir cuál es la que presenta menor variación con respecto a las demás.}}$

### Medidas de forma:

Vamos a calcular el coeficiente de asimetría de cada una de las variables mediante la función 'skew':

In [None]:
iris.skew()

Vamos a calcular la curtosis de cada variable con el método .kurt(). 
<br>Este método resta 3 automáticamente, de manera que la comparación la hacemos con 0 o le podemos sumar 3 y comparar como habíamos especificado antes con 3.

In [None]:
iris.kurt()

### $\color{red}{\text{Ejercicio 6: Representar gráficamente las distribuciones de estas variables marcando dónde están su media y su mediana.}}$

### Correlación entre variables:

In [None]:
iris.corr()

Representemos visualmente la correlación existente entre sepal_length y sepal_width con un gráfico de dispersión.
<br> Para ello vamos a cargar la libreria matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots()
ax.scatter(iris.sepal_length, iris.sepal_width)
plt.show()

Ni a través del coeficiente ni gráficamente se aprecia relación entre estas dos variables. 
<br> Intentemos representarlo de nuevo pero distinguiendo según la especie.

In [None]:
# Creamos el vector de colores, para que, en función de la vble class pinte los puntos de un color u otro
colores = {"setosa":"RoyalBlue", "versicolor":"Crimson","virginica":"DarkGreen"}
class_colores = iris['species'].map(colores)

In [None]:
fig, ax = plt.subplots()
ax.scatter(iris.sepal_length, iris.sepal_width, color=class_colores)
plt.show()

Vamos a añadirle la leyenda para saber de qué especie o clase estamos hablando en cada caso:

In [None]:
fig, ax = plt.subplots()
for species in set(iris['species']):
    ax.scatter(
        iris.sepal_length[iris.species == species],
        iris.sepal_width[iris.species == species],
        s = 30,
        c = colores[species],
        label = species)
plt.legend()
plt.show()

In [None]:
iris[iris.species == "setosa"].corr()