# Obteniendo estimados de locación y variabilidad

### OBJETIVO

- Utilizar `estimados de locación y variabilidad` para describir las `columnas numéricas` de un dataset

## Carga general de datos

Para obtener nuestros estimados de locación y variabilidad, utilizaremos las siguientes librerias y funciones:

**NOTA: Los datasets `depurado_melt` de cada partícula, fueron reajustados para este modulo. Los procedimientos los vemos [aquí](https://github.com/IrvingC48/BeduFase3-Proyecto_python/blob/main/Procesos/Pasos_Previos.ipynb)**

In [1]:
from scipy import stats
import pandas as pd
import numpy as np

In [2]:
# Nos calcula la media truncada al 10% de una columna x
def trim_mean_10(x):
    return stats.trim_mean(x, 0.1)

In [3]:
# Nos calcula el percentil n de una columna x 
def percentile(n):
    def percentile_(x):
        return x.quantile(n)
    return percentile_

Vamos a realizar lo siguiente:

- Cargar los documentos que validaremos, para obtener nuestros estimados
- Normalizar la fecha en formato de `ns`

In [2]:
df_PM10 = pd.read_csv('../Datasets/PM10/PM10_depurado_melt.csv', index_col=0)  #Data PM 10
df_PM25 = pd.read_csv('../Datasets/PM2.5/PM25_depurado_melt.csv', index_col=0) #Data PM 2.5

#Normalizamos fechas
df_PM10['FECHA'] = pd.to_datetime(df_PM10['FECHA'], unit='ns') 
df_PM25['FECHA'] = pd.to_datetime(df_PM25['FECHA'], unit='ns')

## Estimados de $PM_{10}$

Comenzamos identificando las columnas numéricas en nuestro dataset de $PM_{10}$

Observamos que tenemos las columnas `Year`, `Month`, `HORA` y `measurement` con datos estructurados, sin embargo, aunque las columnas `Year`, `Month` y `HORA` sean de tipo `int64`, sus datos son categóricos - ordinales.   

Por lo tanto, la única columna con datos numéricos es `measurement`

In [5]:
df_PM10.head()

Unnamed: 0,FECHA,Year,Month,HORA,station,measurement,Zona
0,2019-03-01,2019,3,1,ACO,119.0,NE
1,2019-03-01,2019,3,2,ACO,90.0,NE
2,2019-03-01,2019,3,3,ACO,81.0,NE
3,2019-03-01,2019,3,4,ACO,65.0,NE
4,2019-03-01,2019,3,5,ACO,53.0,NE


In [6]:
df_PM10.dtypes

FECHA          datetime64[ns]
Year                    int64
Month                   int64
HORA                    int64
station                object
measurement           float64
Zona                   object
dtype: object

Una vez que hemos identificado nuestra columna numérica, vamos a validar los siguientes `estimados de locación y variabilidad`, esto a nivel `station` y `Zona`:

    - Media o promedio
    - Mediana
    - Media truncada al 10%
    - Desviación Estándar
    - Dato Mínimo
    - Percentil 25
    - Percentil 50
    - Percentil 75
    - Dato Máxino
    - Rango
    - Rango Intercuartílico (IQR)

In [7]:
df_PM10.groupby('station').measurement.agg(
    media='mean',
    mediana='median',
    media_truncada=trim_mean_10,
    desv_estandar='std',
    minimo='min',
    percentile_25=percentile(0.25),
    percentile_50=percentile(0.5),
    percentile_75=percentile(0.75),
    maximo='max',
    rango=np.ptp, # max - min
    IQR=stats.iqr
)

Unnamed: 0_level_0,media,mediana,media_truncada,desv_estandar,minimo,percentile_25,percentile_50,percentile_75,maximo,rango,IQR
station,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
ACO,54.720721,51.0,52.126173,29.658719,1.0,36.0,51.0,69.0,626.0,625.0,33.0
AJM,41.337376,39.0,39.808137,20.494964,1.0,27.0,39.0,52.0,199.0,198.0,25.0
ATI,46.070516,41.0,42.740741,31.418856,1.0,26.0,41.0,59.0,598.0,597.0,33.0
BJU,35.687649,33.0,34.425299,16.706301,3.0,24.0,33.0,46.0,136.0,133.0,22.0
CAM,48.16597,45.0,46.241791,23.360021,3.0,31.0,45.0,61.0,253.0,250.0,30.0
CUA,38.789952,36.5,37.303328,19.740016,1.0,25.0,36.5,50.0,244.0,243.0,25.0
CUT,53.265523,45.0,48.640809,36.312806,1.0,30.0,45.0,68.0,387.0,386.0,38.0
FAC,42.130949,37.0,38.784431,28.872388,1.0,22.0,37.0,55.0,392.0,391.0,33.0
GAM,50.96495,47.0,49.110871,25.166116,3.0,33.0,47.0,66.0,165.0,162.0,33.0
HGM,47.227518,45.0,45.81461,21.029871,6.0,32.0,45.0,59.0,165.0,159.0,27.0


In [8]:
df_PM10.groupby('Zona').measurement.agg(
    media='mean',
    mediana='median',
    media_truncada=trim_mean_10,
    desv_estandar='std',
    minimo='min',
    percentile_25=percentile(0.25),
    percentile_50=percentile(0.5),
    percentile_75=percentile(0.75),
    maximo='max',
    rango=np.ptp, # max - min
    IQR=stats.iqr
)

Unnamed: 0_level_0,media,mediana,media_truncada,desv_estandar,minimo,percentile_25,percentile_50,percentile_75,maximo,rango,IQR
Zona,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
CE,44.662785,42.0,43.026466,21.63515,1.0,29.0,42.0,57.0,219.0,218.0,28.0
NE,57.326681,52.0,53.8897,33.717891,1.0,35.0,52.0,73.0,626.0,625.0,38.0
NO,48.680533,44.0,45.538033,30.013797,1.0,29.0,44.0,62.0,598.0,597.0,33.0
SE,52.554503,47.0,49.322787,31.274101,1.0,32.0,47.0,67.0,519.0,518.0,35.0
SO,37.200543,34.0,35.399624,20.204603,1.0,23.0,34.0,48.0,288.0,287.0,25.0




Con lo anterior, podemos analizar lo siguiente:

- Nuestros `rangos` son muy amplios, comparados contra el IQR, esto por los datos atípicos `(outliders)` que contiene el dataset   
- Vemos que nuestras `medias` no se encuentran tan alejadas de las `medianas`, lo que nos pareciera indicar que tenemos un `sesgo bajo`.
- Como es de esperarse, la media truncada se aproxima más a la mediana, al quitar los valores del 5% de cada extremo de nuestros datos.
- Contamos con desviaciones estándar amplias, pero inferiores a nuestra mediana. 
- Podemos apreciar que la mayoria de nuestros datos se encuentran cerca de la mediana  $\pm$ 1 $\sigma$, de acuerdo a los valores en los `percentiles 25 y 75`.
- Las `estaciones` que contienen los rangos más elevados `(mayores a 400` $\mu g/m^3$`)` son `ACO`, `ATI`, `SAG`, `TAH` y `VIF` (`Zonas` `NE`, `NO` y `SE`).

## Estimados de $PM_{2.5}$
Ahora identificaremos las columnas numéricas en nuestro dataset de $PM_{2.5}$

Observamos que tenemos las columnas `Year`, `Month`, `HORA` y `measurement` con datos estructurados, sin embargo, aunque las columnas `Year`, `Month` y `HORA` sean de tipo `int64`, sus datos son categóricos - ordinales.   

Por lo tanto, la única columna con datos numéricos es `measurement`

In [9]:
df_PM25.head()

Unnamed: 0,FECHA,Year,Month,HORA,station,measurement,Zona
0,2019-03-01,2019,3,1,AJM,8.0,SO
1,2019-03-01,2019,3,2,AJM,19.0,SO
2,2019-03-01,2019,3,3,AJM,29.0,SO
3,2019-03-01,2019,3,4,AJM,28.0,SO
4,2019-03-01,2019,3,5,AJM,26.0,SO


In [10]:
df_PM25.dtypes

FECHA          datetime64[ns]
Year                    int64
Month                   int64
HORA                    int64
station                object
measurement           float64
Zona                   object
dtype: object

Una vez que hemos identificado nuestra columna numérica, vamos a validar los siguientes `estimados de locación y variabilidad`, esto a nivel `station` y `Zona`:

    - Media o promedio
    - Mediana
    - Media truncada al 10%
    - Desviación Estándar
    - Dato Mínimo
    - Percentil 25
    - Percentil 50
    - Percentil 75
    - Dato Máxino
    - Rango
    - Rango Intercuartílico (IQR)

In [11]:
df_PM25.groupby('station').measurement.agg(
    media='mean',
    mediana='median',
    media_truncada=trim_mean_10,
    desv_estandar='std',
    minimo='min',
    percentile_25=percentile(0.25),
    percentile_50=percentile(0.5),
    percentile_75=percentile(0.75),
    maximo='max',
    rango=np.ptp, # max - min
    IQR=stats.iqr
)

Unnamed: 0_level_0,media,mediana,media_truncada,desv_estandar,minimo,percentile_25,percentile_50,percentile_75,maximo,rango,IQR
station,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AJM,22.341845,20.0,21.033107,12.983176,1.0,13.0,20.0,29.0,117.0,116.0,16.0
AJU,25.559804,21.0,22.41299,20.502523,1.0,13.0,21.0,32.0,198.0,197.0,19.0
BJU,20.978671,20.0,20.195184,10.944799,1.0,13.0,20.0,28.0,66.0,65.0,15.0
CAM,26.034954,24.0,24.837766,14.271623,1.0,16.0,24.0,34.0,119.0,118.0,18.0
CCA,23.803096,22.0,22.411125,14.142493,1.0,14.0,22.0,30.0,138.0,137.0,16.0
FAR,23.027175,21.0,21.770957,13.642844,1.0,13.0,21.0,31.0,113.0,112.0,18.0
GAM,27.289732,25.0,25.716518,16.113335,1.0,15.0,25.0,36.0,106.0,105.0,21.0
HGM,28.605897,26.0,26.946593,16.18456,1.0,17.0,26.0,36.0,132.0,131.0,19.0
INN,17.832124,16.0,16.772172,10.28604,1.0,10.0,16.0,23.0,88.0,87.0,13.0
MER,25.979094,24.0,24.861642,14.38446,1.0,16.0,24.0,34.0,109.0,108.0,18.0


In [12]:
df_PM25.groupby('Zona').measurement.agg(
    media='mean',
    mediana='median',
    media_truncada=trim_mean_10,
    desv_estandar='std',
    minimo='min',
    percentile_25=percentile(0.25),
    percentile_50=percentile(0.5),
    percentile_75=percentile(0.75),
    maximo='max',
    rango=np.ptp, # max - min
    IQR=stats.iqr
)

Unnamed: 0_level_0,media,mediana,media_truncada,desv_estandar,minimo,percentile_25,percentile_50,percentile_75,maximo,rango,IQR
Zona,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
CE,25.144686,23.0,23.887112,14.250272,1.0,15.0,23.0,33.0,132.0,131.0,18.0
NE,26.561909,24.0,24.907112,16.271988,1.0,15.0,24.0,35.0,227.0,226.0,20.0
NO,25.856581,24.0,24.729823,14.208408,1.0,16.0,24.0,34.0,119.0,118.0,18.0
SE,26.300049,24.0,24.690991,15.862894,1.0,15.0,24.0,34.0,211.0,210.0,19.0
SO,22.101331,20.0,20.495934,14.121012,1.0,12.0,20.0,28.0,198.0,197.0,16.0


### Conclusión $PM_{2.5}$

Con lo anterior, podemos analizar lo siguiente:

- Nuestros `rangos` son muy amplios, comparados contra el IQR, esto por los datos atípicos `(outliders)` que contiene el dataset   
- Vemos que nuestras `medias` no se encuentran tan alejadas de las `medianas`, lo que nos pareciera indicar que tenemos un `sesgo bajo`.
- Como es de esperarse, la media truncada se aproxima más a la mediana, al quitar los valores del 5% de cada extremo de nuestros datos.
- Contamos con desviaciones estándar amplias, pero inferiores a nuestra mediana. 
- Podemos apreciar que la mayoria de nuestros datos se encuentran cerca de la mediana  $\pm$ 1 $\sigma$, de acuerdo a los valores en los `percentiles 25 y 75`.
- Las `estaciones` que contienen los rangos más elevados `(mayores a 150` $\mu g/m^3$`)` son `AJU`, `NEZ`, `SAC` (`Zonas` `SO`, `NE` y `SE`).