# Estadística descriptiva básica

## Estadísticos

In [1]:
import pandas as pd

In [2]:
df_sel = pd.read_csv('../data/results/df_sel.csv')
df_sel

Unnamed: 0,timestamp,lat,lon,h,variable,value
0,2017-01-01 00:00:00,25.670,-100.338,560,PM10,143.0
1,2017-01-01 01:00:00,25.670,-100.338,560,PM10,183.0
2,2017-01-01 02:00:00,25.670,-100.338,560,PM10,142.0
3,2017-01-01 03:00:00,25.670,-100.338,560,PM10,101.0
4,2017-01-01 04:00:00,25.670,-100.338,560,PM10,85.0
...,...,...,...,...,...,...
5124400,2019-12-31 19:00:00,25.665,-100.413,636,WD,82.0
5124401,2019-12-31 20:00:00,25.665,-100.413,636,WD,87.0
5124402,2019-12-31 21:00:00,25.665,-100.413,636,WD,98.0
5124403,2019-12-31 22:00:00,25.665,-100.413,636,WD,104.0


In [3]:
# Tipo de dato
type(df_sel)

pandas.core.frame.DataFrame

In [4]:
# Tipo de datos de las columnas
df_sel.dtypes

timestamp     object
lat          float64
lon          float64
h              int64
variable      object
value        float64
dtype: object

In [5]:
# A dato temporal
df_sel.timestamp = pd.to_datetime(df_sel.timestamp)

In [6]:
df_sel.dtypes

timestamp    datetime64[ns]
lat                 float64
lon                 float64
h                     int64
variable             object
value               float64
dtype: object

Rápidamente se pueden encontrar descriptores estadísticos de los datos con `describe`.

In [7]:
df_sel.describe()

Unnamed: 0,lat,lon,h,value
count,5124405.0,5124405.0,5124405.0,3441764.0
mean,25.68126,-100.2964,537.0769,90.51482
std,0.111894,0.1476078,109.2896,199.8082
min,25.36,-100.586,340.0,-20.6
25%,25.665,-100.366,476.0,1.97
50%,25.676,-100.3099,528.0,16.16
75%,25.757,-100.2489,630.0,56.0
max,25.8,-99.9955,716.0,2134.0


Pero esto no es muy informativo dado que hay diferentes variables, estaciones de monitoreo y tiempos de lectura. Para ello se puede separar el conjunto de datos en subconjuntos. Por ejemplo, por variable.

In [8]:
gp_sel_variable = df_sel.groupby('variable')

Esto se puede iterar (se muestra sólo una iteración como ejemplo).

In [12]:
for name, group in gp_sel_variable:
    print(name)
    display(group)
    print('Etcétera')
    break

BP


Unnamed: 0,timestamp,lat,lon,h,variable,value
3416270,2017-01-01 00:00:00,25.670,-100.338,560,BP,709.2
3416271,2017-01-01 01:00:00,25.670,-100.338,560,BP,708.9
3416272,2017-01-01 02:00:00,25.670,-100.338,560,BP,708.5
3416273,2017-01-01 03:00:00,25.670,-100.338,560,BP,708.2
3416274,2017-01-01 04:00:00,25.670,-100.338,560,BP,707.9
...,...,...,...,...,...,...
3757892,2019-12-31 19:00:00,25.665,-100.413,636,BP,715.1
3757893,2019-12-31 20:00:00,25.665,-100.413,636,BP,714.9
3757894,2019-12-31 21:00:00,25.665,-100.413,636,BP,715.0
3757895,2019-12-31 22:00:00,25.665,-100.413,636,BP,715.1


Etcétera


También es posible filtrar resultados.

In [13]:
df_pm10 = df_sel[df_sel.variable == 'PM10']

Ya con esto, se pueden obtener el resumen estadístico de los datos.

In [18]:
df_pm10.value.describe()

count    308536.000000
mean         59.192723
std          42.661375
min           2.000000
25%          32.000000
50%          49.000000
75%          74.000000
max         791.000000
Name: value, dtype: float64

## Medidas de tendencia central

### Media

Suma de todos los elementos $x_i$ de conjunto $X$ dividida entre el número total de elementos $n$,
$$\sum_i^n x_i / n.$$

Aunque se pueden usar funciones nativas de Python o integradas de `pandas` o `numpy` para los cálculos de los estadísticos, aprovecharemos esta sección para conocer la librería [`statistics`](https://docs.python.org/3/library/statistics.html).

In [19]:
import statistics

In [20]:
statistics.mean(df_pm10.value)

nan

Aquí tenemos un problema, pues aparece `nan` como resultado de la media. Esto sucede porque en el conjunto de registros de `value` hay valores no numéricos (_not a number_ o `nan`). Veamos cuántos `nan` hay.

In [33]:
# Qué celdas son nan
df_pm10.isna()

Unnamed: 0,timestamp,lat,lon,h,variable,value
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
341622,False,False,False,False,False,False
341623,False,False,False,False,False,False
341624,False,False,False,False,False,False
341625,False,False,False,False,False,False


In [41]:
# Total de nan por columna
df_pm10.isna().sum(axis=0)

timestamp        0
lat              0
lon              0
h                0
variable         0
value        33091
dtype: int64

In [39]:
# Total de nan por fila (aquí es trivial calcularlo)
df_pm10.isna().sum(axis=1)

0         0
1         0
2         0
3         0
4         0
         ..
341622    0
341623    0
341624    0
341625    0
341626    0
Length: 341627, dtype: int64

In [42]:
# Con esto vemos cuáles valores son nan
filtro = df_pm10.value.isna()
filtro

0         False
1         False
2         False
3         False
4         False
          ...  
341622    False
341623    False
341624    False
341625    False
341626    False
Name: value, Length: 341627, dtype: bool

In [26]:
# Esto nos devuelve las filas que son True en el filtro anterior
# O sea, todos los nan en value
df_pm10_nan = df_pm10[filtro]
df_pm10_nan

Unnamed: 0,timestamp,lat,lon,h,variable,value
219,2017-01-10 03:00:00,25.670,-100.338,560,PM10,
232,2017-01-10 16:00:00,25.670,-100.338,560,PM10,
255,2017-01-11 15:00:00,25.670,-100.338,560,PM10,
294,2017-01-13 06:00:00,25.670,-100.338,560,PM10,
419,2017-01-18 11:00:00,25.670,-100.338,560,PM10,
...,...,...,...,...,...,...
341424,2019-12-23 13:00:00,25.665,-100.413,636,PM10,
341425,2019-12-23 14:00:00,25.665,-100.413,636,PM10,
341426,2019-12-23 15:00:00,25.665,-100.413,636,PM10,
341476,2019-12-25 17:00:00,25.665,-100.413,636,PM10,


Podemos contarlos.

In [27]:
len(df_pm10_nan)

33091

También se puede encontrar la proporción de valores faltantes.

In [28]:
len(df_pm10_nan) / len(df_pm10)

0.09686295286965023

Ahora, pueden realizarse varias estrategias para calcular la media de estos valores. La más común es ignorar los `nan`.

In [30]:
# Elimina los valores nan
df_pm10.dropna()

Unnamed: 0,timestamp,lat,lon,h,variable,value
0,2017-01-01 00:00:00,25.670,-100.338,560,PM10,143.0
1,2017-01-01 01:00:00,25.670,-100.338,560,PM10,183.0
2,2017-01-01 02:00:00,25.670,-100.338,560,PM10,142.0
3,2017-01-01 03:00:00,25.670,-100.338,560,PM10,101.0
4,2017-01-01 04:00:00,25.670,-100.338,560,PM10,85.0
...,...,...,...,...,...,...
341622,2019-12-31 19:00:00,25.665,-100.413,636,PM10,12.0
341623,2019-12-31 20:00:00,25.665,-100.413,636,PM10,15.0
341624,2019-12-31 21:00:00,25.665,-100.413,636,PM10,20.0
341625,2019-12-31 22:00:00,25.665,-100.413,636,PM10,20.0


In [48]:
# Media sin nan
statistics.mean(df_pm10.value.dropna())

59.19272334508777

In [49]:
# Cálculo de media más rápida
statistics.fmean(df_pm10.value.dropna())

59.19272334508777

### Mediana

### Moda

## Medidas de dispersión


## Visualización

## Pruebas de normalidad

## Paramétricos y no paramétricos

## Pruebas de correlación

- https://machinelearningmastery.com/statistical-hypothesis-tests/