# Probabilidad y estadística con Python

### Estadística descriptiva

In [3]:
import numpy as np
from scipy import stats
import pandas as pd

np.random.seed(2132932)

In [4]:
datos = np.random.randn(5, 4)
datos

array([[ 0.80292262, -0.45611912,  0.05850386, -1.96674024],
       [-1.01885512,  0.08192945,  0.38530409, -1.02373574],
       [ 1.09577622, -1.41052202, -0.59203301,  1.06778346],
       [-0.21600417, -0.04911806,  0.25215608, -1.2112261 ],
       [-1.40225764, -1.21321696, -0.90891838,  0.78720345]])

* **Media aritmética:** Es la suma de los valores divididos entre el número de muestras.

$$
\mu = \frac{1}{n} \sum_{i} {x_i} 
$$


In [5]:
print(datos.mean())
print(np.mean(datos))  # usando numpy

-0.346858365914
-0.346858365914


In [6]:
print(np.median(datos, 0)) # media aritmetica de cada columna

[-0.21600417 -0.45611912  0.05850386 -1.02373574]


In [11]:
print(datos.mean(axis = 0)) # media aritmética de cada columna
print(datos.mean(axis = 1)) # media aritmética de cada fila

[-0.14768362 -0.60940934 -0.16099747 -0.46934304]
[-0.39035822 -0.39383933  0.04025117 -0.30604806 -0.68429738]


* **Mediana:** La mediana es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

In [16]:
print(np.median(datos)) 

0.328034738018


* **Desviación típica:**  La desviación típica es la raíz cuadrada de la varianza.

$$
\sigma = \sqrt{\frac{\sum_{i= 1}^{n} {(x_i - \mu)^2}}{n}}
$$

In [7]:
np.std(datos)

0.88611525879762243

In [10]:
print(np.std(datos, 0))  # desviación típica de cada columna
print(np.std(datos, 1))  # desviación típica de cada fila

[ 0.97850989  0.60361224  0.50249366  1.18672719]
[ 1.0142363   0.63656002  1.0810275   0.54887614  0.86761053]


* **Varianza:** La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

$$
\sigma^2 = \frac{\sum_{i= 1}^{n} {(x_i - \mu)^2}}{n}
$$

In [12]:
np.var(datos)

0.78520025187397746

In [13]:
print(np.var(datos, 0))  # desviación típica de cada columna
print(np.var(datos, 1))  # desviación típica de cada fila

[ 0.95748161  0.36434774  0.25249988  1.40832142]
[ 1.02867527  0.40520866  1.16862046  0.30126502  0.75274803]


* **Moda:** La moda es el valor que tiene mayor frecuencia absoluta. 


In [14]:
stats.mode(datos)        # el segundo array nos devuelve la frecuencia

ModeResult(mode=array([[-1.40225764, -1.41052202, -0.90891838, -1.96674024]]), count=array([[1, 1, 1, 1]]))

* **Correlación:** La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. La correlación es positiva cuando los valores de las variables aumenta juntos; y es negativa cuando un valor de una variable se reduce cuando el valor de la otra variable aumenta.

In [15]:
np.corrcoef(datos)       # crea la matriz de correlaciones

array([[ 1.        ,  0.21900536, -0.1251006 ,  0.79398517, -0.92118095],
       [ 0.21900536,  1.        , -0.90455263,  0.76636561, -0.4095757 ],
       [-0.1251006 , -0.90455263,  1.        , -0.65759937,  0.44342067],
       [ 0.79398517,  0.76636561, -0.65759937,  1.        , -0.87035937],
       [-0.92118095, -0.4095757 ,  0.44342067, -0.87035937,  1.        ]])

In [16]:
np.corrcoef(datos[0], datos[1])  # correlación entre dos vectores

array([[ 1.        ,  0.21900536],
       [ 0.21900536,  1.        ]])

* **Covarianza:**  La covarianza es el equivalente de la varianza aplicado a una variable bidimensional. Es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.La covarianza indica el sentido de la correlación entre las variables; si $\sigma_{xy} > 0$ la correlación es directa, si $\sigma_{xy} < 0$ la correlación es indirecta.

$$
\sigma_{xy} = \frac{\sum_{i = 0}^{n}{(x_i - \mu_x)(y_i - \mu_y)}}{n}
$$

In [17]:
np.cov(datos)         # calcula matriz de covarianza

array([[ 1.37156703,  0.18852632, -0.18288328,  0.58933825, -1.08080576],
       [ 0.18852632,  0.54027821, -0.82994379,  0.35701664, -0.301604  ],
       [-0.18288328, -0.82994379,  1.55816062, -0.52024897,  0.55451874],
       [ 0.58933825,  0.35701664, -0.52024897,  0.4016867 , -0.55263262],
       [-1.08080576, -0.301604  ,  0.55451874, -0.55263262,  1.00366404]])

In [18]:
np.cov(datos[0], datos[1])     # covarianza entre dos vectores

array([[ 1.37156703,  0.18852632],
       [ 0.18852632,  0.54027821]])

***

**Usando Pandas:**

In [19]:
dataframe = pd.DataFrame(datos, index=['a', 'b', 'c', 'd', 'e'], columns=['col1', 'col2', 'col3', 'col4'])
dataframe

Unnamed: 0,col1,col2,col3,col4
a,0.802923,-0.456119,0.058504,-1.96674
b,-1.018855,0.081929,0.385304,-1.023736
c,1.095776,-1.410522,-0.592033,1.067783
d,-0.216004,-0.049118,0.252156,-1.211226
e,-1.402258,-1.213217,-0.908918,0.787203


In [20]:
dataframe.describe()      # resumen estadistadistico con pandas

Unnamed: 0,col1,col2,col3,col4
count,5.0,5.0,5.0,5.0
mean,-0.147684,-0.609409,-0.160997,-0.469343
std,1.094007,0.674859,0.561805,1.326801
min,-1.402258,-1.410522,-0.908918,-1.96674
25%,-1.018855,-1.213217,-0.592033,-1.211226
50%,-0.216004,-0.456119,0.058504,-1.023736
75%,0.802923,-0.049118,0.252156,0.787203
max,1.095776,0.081929,0.385304,1.067783


In [21]:
print(dataframe.sum())   # sumando las columnas
print(dataframe.sum(axis = 1))    # sumando filas

col1   -0.738418
col2   -3.047047
col3   -0.804987
col4   -2.346715
dtype: float64
a   -1.561433
b   -1.575357
c    0.161005
d   -1.224192
e   -2.737190
dtype: float64


In [22]:
dataframe.cumsum() # acumulados

Unnamed: 0,col1,col2,col3,col4
a,0.802923,-0.456119,0.058504,-1.96674
b,-0.215932,-0.37419,0.443808,-2.990476
c,0.879844,-1.784712,-0.148225,-1.922693
d,0.66384,-1.83383,0.103931,-3.133919
e,-0.738418,-3.047047,-0.804987,-2.346715


In [23]:
print(dataframe.mean())  # media aritmetica de cada columna con pandas
print(dataframe.mean(axis = 1))  # media aritmetica de cada fila con pandas

col1   -0.147684
col2   -0.609409
col3   -0.160997
col4   -0.469343
dtype: float64
a   -0.390358
b   -0.393839
c    0.040251
d   -0.306048
e   -0.684297
dtype: float64
