# Estadística Descriptiva
La estadística descriptiva es una rama de la estadística que se encarga de recolectar, analizar y caracterizar un conjunto de datos con el objetivo de describir características y comportamientos por medio de medidas de resumen, tablas o gráficos

## Variable estadística: 
Característica propia del individuo objeto del estudio estadístico
Estas pueden ser:
* Cualitativa ó Categorica: Pueden tomar valores de cualidades o categorias. Por ejemplo: 
    * Género: Masculino, Femenino
    * Ciudad de Residencia: Bogotá, Medellín, Barranquilla , ...
* Cuantitativa ó numérica: Son variables estadísticas que toman valores numéricos, pueden ser continuas o discretas: 
    * Cuantitativa continua: Puede tomar cualquier valor en un rango, por ejemplo 
        * Edad: 1.5 años, 56.23423 años
        * Temperatura: 15.234 ºC
    * Cuantitativa discreta: Son variables numéricas que solo pueden tomar ciertos valores en un rango, por ejemplo
        * Cantidad de hijos: 1, 4
        * Cantidad de vahículos: 1, 2

In [None]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

# df_curso = pd.read_csv("data/curso.csv") Entorno local
df_curso = pd.read_csv("https://raw.githubusercontent.com/javiercocu/intro-datascience/master/data/curso.csv")

In [None]:
# Visualizar primeros registros del DataSet
df_curso.head()

In [None]:
# Columnas del DataFrame
df_curso.keys()

Al analizar este dataset, por favor describa que tipo de variable estadística tiene cada columna:

* Estudiante:
* Promedio:
* Edad:
* Genero:
* Creditos cursados:

In [None]:
#Forma del DataFrame
df_curso.shape

In [None]:
#Tipo de dato asumido por Pandas en cada columna
df_curso.dtypes

In [None]:
#Resumen del DataFrame
df_curso.info()

## Gráficos Estadísticos

### Gráfico de Barras
Se utiliza básicamente para mostrar y comparar frecuencias de variables cuantitativas o comportamientos  en el tiempo, cuando el número de ítems es reducido.

In [None]:
import matplotlib.pyplot as plt   # Matplotlib es una librería para gráficos en Python

In [None]:
df_curso_est = df_curso.set_index("Estudiante")
df_curso_est

In [None]:
barplot1 = df_curso_est["Nota"].plot.bar()
barplot1.set_ylabel("Nota")

In [None]:
barplot2 = df_curso_est["Edad"].plot.bar()
barplot2.set_ylabel("Edad")

### Gráfico de Sectores Circulares
Es un gráfico en forma característica de una circunferencia dividida en sectores, por medio de radios que dan la sensación de una torta partida en porciones.
Se usa para representar variables cualitativas en porcentajes o cifras absolutas

In [None]:
resumen_genero = df_curso["Genero"].value_counts()
resumen_genero

In [None]:
resumen_genero.plot.pie()

### Histograma
El histograma es un diagrama en forma de columna, muy parecido a los gráficos de barras. Se define como un conjunto de rectángulos paralelos, en el que la base representa la clase de la distribución y su altura la magnitud que alcanza la frecuencia de la clase correspondiente.

In [None]:
hist = df_curso["Creditos cursados"].hist()
hist.set_xlabel("Creditos Cursados")
hist.set_ylabel("Frecuencia")

In [None]:
hist2 = df_curso.hist()

## Media, Mediana y Moda
* La media $\mu$, promedio o media aritmética es resultado de la suma de todas las observaciones dividido por el número total de datos
* La mediana es el elemento de un conjunto de datos ordenados (X1,X2,…,XN) que deja a izquierda y derecha la mitad de valores.
* La moda es el valor más repetido del conjunto de datos, es decir, el valor cuya frecuencia relativa es mayor. En un conjunto puede haber más de una moda.

<img align = "left" src="files/imagenes/media_mediana_moda.png" height="100" width="200">

In [None]:
df_curso_est["Nota"].sort_values()

In [None]:
df_curso["Nota"].hist(grid = False, bins=20)

In [None]:
# Cálculo de la Media
df_curso["Nota"].mean()

In [None]:
# Cálculo de la Mediana
df_curso["Nota"].median()

In [None]:
# Cálculo de la Mediana
df_curso["Nota"].mode()

## Cuantiles, Cuartiles

* Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes;

* Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3.

<img align = "left" src="files/imagenes/cuartiles.jpg" height="200" width="400">

In [None]:
df_curso["Nota"].sort_values()

In [None]:
q1 = df_curso["Nota"].quantile(.25)
q2 = df_curso["Nota"].quantile(.5)
q3 = df_curso["Nota"].quantile(.75)
print ("Cuartil 1 Q1\n:", q1, "\n\nCuartil 2 Q2\n:", q2, "\n\nCuartil 3 Q3\n:", q3)

## Características de disperción

### Rango
Valor máximo menos el valor mínimo

In [None]:
df_curso["Nota"].sort_values()

In [None]:
rango_promedio = df_curso["Nota"].max() - df_curso["Nota"].min()
rango_promedio

### Recorrido intercuartílico
Valor de Q3 menos Q1

In [None]:
rec_intercuar_promedio = df_curso["Nota"].quantile(.75) - df_curso["Nota"].quantile(.25)
rec_intercuar_promedio

### Varianza y Desviación Estándar
* La  varianza mide la dispersión dentro de un conjunto de datos, calculando la media de los cuadrados de las distancias de todos los datos. Si el valor de la varianza es pequeño, significa que los valores del conjunto están bastante agrupados.

* La desviación estándar $\sigma$  mide el promedio de las desviaciones de los datos respecto a la media en las mismas unidades de los datos. Es la raiz Cuadrada de la Varianza

In [None]:
df_curso["Edad"].var() #Varianza

In [None]:
df_curso["Edad"].std() # Desviacion Estándar

### Gráfico de cajas y bigotes
Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos numéricos a través de sus cuartiles.

Las líneas que se extienden paralelas a las cajas se conocen como «bigotes», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior.


<img align = "left" src="files/imagenes/boxplot.svg" height="400" width="400">

In [None]:
df_curso["Nota"].plot.box()

In [None]:
# La funcion describe() muestra el conteo, media, desviación estándar, valor mínimo, Cuartiles, valor máximo
df_curso.describe()

## Gráficas multivariables
### Matriz de Correlación
La Correlación es una técnica estadística usada para determinar la relación entre dos o más variables. 

El Coeficiente de Correlación es un valor cuantitativo de la relación entre dos o
más variables.

La coeficiente de correlación puede variar desde -1.00 hasta 1.00.

La correlación de proporcionalidad directa o positiva se establece con los valores
+1.00 y de proporcionalidad inversa o negativa, con -1.00. No existe relación entre
las variables cuando el coeficiente es de 0.00. 

In [None]:
correlacion = df_curso.corr()
correlacion

In [None]:
import matplotlib.pyplot as plt

fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlacion, vmin=-1, vmax=1, cmap=plt.cm.seismic)
fig.colorbar(cax)
ticks = np.arange(0,3,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(correlacion.index)
ax.set_yticklabels(correlacion.index)
plt.show()

### Gráfico de Dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos

In [None]:
graf_dispersion = pd.plotting.scatter_matrix(df_curso)

## Distribuciones

Las variables aleatorias crean distribuciones de acuerdo a la probabilidad de ocurrencia de todos los valores que toma.
Cada distribución tiene:
- Función de probabilidad: Asigna probabilidad a cada valor de la variable f(x) 
- Parámetros: Define la ubicación y el tamaño de una distribución

### Distribución Normal
La distribución normal o Gaussiana es la distribución continua que se utiliza más comúnmente en estadística. Un gran número de fenómenos se pueden modelar con esta distribución, tiene forma de Campana


La distribución normal o Gaussiana es la distribución continua que se utiliza más comúnmente en estadística. Un gran número de fenómenos se pueden modelar con esta distribución, tiene forma de Campana.

<img align = "left" src="files/imagenes/distro_normal.jpg" height="400" width="400">


A 1 desviación estándar de la media está el 68.26% de los datos