# Análisis Exploratorio de datos

### OBJETIVO

*   Entender los datos que se utilizarán en nuestro estudio
*   Conocer el tamaño de los datasets
*   Descubrir las columnas de nuestro conjunto de datos e identificar el tipo de dato de cada una de ellas

Para los objetivos del estudio, utilizamos datos abiertos sobre la calidad del aire, disponibles desde la página del gobierno de la ciudad de México [aire.cdmx.gob.mx](http://www.aire.cdmx.gob.mx/default.php?opc='aKBh')

En estas bases de datos se pueden encontrar las concentraciones de $PM_{2.5}$ y $PM_{10}$ expresadas en $𝜇g/m^3$ registradas en las estaciones de monitoreo del Valle de México. Para nuestro análisis utilizamos la información de los años 2019 y 2020. De igual forma se utilizó un dataset con las ubicaciones de las estaciones de monitoreo y la zona del Valle de México a la que corresponde, este dataset se creó con la información del `SIMAT` y la `RAMA`.

## Carga general de datos

Para nuestra exploración de datos, utilizaremos la siguiente libreria:

In [1]:
import pandas as pd

Con la función de `read_csv` leemos los archivos `csv` que se encuentran en nuestro repositorio de github 

In [2]:
df2019PM10 = pd.read_csv("../Datasets/PM10/2019PM10.csv")
df2020PM10 = pd.read_csv("../Datasets/PM10/2020PM10.csv")

df2019PM25 = pd.read_csv("../Datasets/PM2.5/2019PM25.csv")
df2020PM25 = pd.read_csv("../Datasets/PM2.5/2020PM25.csv")

dfcatalogo = pd.read_csv("../Datasets/cat_estacion.csv",encoding='latin-1')


## Tamaño del conjunto de datos

Utizamos la función de `shape` para conocer el numero de columnas y filas de nuestros datasets.

In [3]:
df2019PM10.shape

(8760, 29)

In [4]:
df2020PM10.shape

(8784, 29)

In [5]:
df2019PM25.shape

(8760, 26)

In [6]:
df2020PM25.shape

(8040, 26)

In [7]:
dfcatalogo.shape

(69, 8)

## Descripción de los datos

A continuación se muestran una serie de funciones para conocer nuestro conjunto de datos: 
*  La función de `dtypes` nos permite saber el tipo de dato de nuestras columnas.
*  Con la función `info` podemos visualizar los primeros 5 renglones y los últimos 5. También podemos observar el número de columnas y filas.
*  La función `head` nos permite observar los primeros renglones de nuestro dataset y te da la facilidad de observar el número de renglones que quieras.
*  La función `tail` nos permite observar los ultimos renglones de nuestro dataset y al igual que la función `head` te da la facilidad de observar el número de renglones que quieras.




In [8]:
df2019PM10.dtypes

FECHA    object
HORA      int64
ACO       int64
AJM       int64
ATI       int64
BJU       int64
CAM       int64
CHO       int64
CUA       int64
CUT       int64
FAC       int64
FAR       int64
GAM       int64
HGM       int64
INN       int64
IZT       int64
MER       int64
MGH       int64
MPA       int64
PED       int64
SAC       int64
SAG       int64
SFE       int64
TAH       int64
TLA       int64
TLI       int64
UIZ       int64
VIF       int64
XAL       int64
dtype: object

In [9]:
df2020PM10.info

<bound method DataFrame.info of            FECHA  HORA  ACO  AJM  ATI  BJU  CAM  CHO  CUA  CUT  ...  PED  SAC  \
0     01/01/2020     1  -99  -99  102   62  -99  -99  116  138  ...   55  -99   
1     01/01/2020     2  -99  -99  113   61  -99  -99  200  137  ...   70  -99   
2     01/01/2020     3  -99  -99  123   63  -99  -99  136  192  ...   82  -99   
3     01/01/2020     4  -99  -99  101   66  -99  -99  143  201  ...   86  -99   
4     01/01/2020     5  -99  -99   76  103  -99  -99   88  160  ...   84  -99   
...          ...   ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...   
8779  31/12/2020    20   64  -99   28   20  -99  -99  -99   56  ...    9  -99   
8780  31/12/2020    21   47  -99   10   27  -99  -99  -99   45  ...   17  -99   
8781  31/12/2020    22   43  -99   18   24  -99  -99  -99   39  ...   28  -99   
8782  31/12/2020    23   43  -99   40   28  -99  -99  -99   44  ...   53  -99   
8783  31/12/2020    24   33  -99   20   49  -99  -99  -99   77  ...  -99  -99

In [10]:
df2019PM25.head(25)


Unnamed: 0,FECHA,HORA,AJM,AJU,BJU,CAM,CCA,COY,FAR,GAM,...,NEZ,PED,SAC,SAG,SFE,SJA,TLA,UAX,UIZ,XAL
0,01/01/2019,1,19,35,62,90,66,-99,-99,-99,...,133,-99,-99,92,33,-99,55,74,99,96
1,01/01/2019,2,17,24,88,104,84,-99,-99,-99,...,164,-99,-99,100,40,-99,52,115,99,164
2,01/01/2019,3,14,20,107,140,95,-99,-99,-99,...,206,-99,-99,104,52,-99,59,150,109,249
3,01/01/2019,4,6,15,101,162,97,-99,-99,-99,...,273,-99,-99,144,25,-99,58,180,112,200
4,01/01/2019,5,4,8,121,133,88,-99,-99,-99,...,291,-99,-99,171,21,-99,46,167,164,161
5,01/01/2019,6,7,7,93,106,77,-99,-99,-99,...,387,-99,-99,138,15,-99,51,165,168,186
6,01/01/2019,7,12,8,84,98,51,-99,-99,-99,...,393,-99,-99,125,10,-99,47,158,167,179
7,01/01/2019,8,15,7,101,82,39,-99,-99,-99,...,291,-99,-99,134,14,-99,29,159,156,152
8,01/01/2019,9,24,3,89,54,26,-99,-99,-99,...,264,-99,-99,135,13,-99,47,142,139,156
9,01/01/2019,10,24,-99,88,76,26,-99,-99,-99,...,182,-99,-99,177,45,-99,104,125,142,160


In [11]:
df2020PM25.tail(3)

Unnamed: 0,FECHA,HORA,AJM,AJU,BJU,CAM,CCA,COY,FAR,GAM,...,NEZ,PED,SAC,SAG,SFE,SJA,TLA,UAX,UIZ,XAL
8037,30/11/2020,22,-99,19,17,-99,28,-99,12,17,...,-99,19,19,17,24,-99,15,24,-99,-99
8038,30/11/2020,23,-99,11,23,-99,22,-99,14,16,...,-99,20,11,21,24,-99,21,18,-99,-99
8039,30/11/2020,24,-99,4,22,-99,23,-99,13,16,...,-99,24,16,20,26,-99,23,24,-99,-99


In [12]:
dfcatalogo.dtypes

cve_estac      object
nom_estac      object
longitud      float64
latitud       float64
alt           float64
obs_estac      object
id_station    float64
Zona           object
dtype: object

In [13]:
dfcatalogo.head(25)

Unnamed: 0,cve_estac,nom_estac,longitud,latitud,alt,obs_estac,id_station,Zona
0,ACO,Acolman,-98.912003,19.635501,2198.0,,484150000000.0,NE
1,AJU,Ajusco,-99.162611,19.154286,2942.0,,484090000000.0,SO
2,AJM,Ajusco Medio,-99.207744,19.272161,2548.0,,484090000000.0,SO
3,ARA,Aragï¿½n,-99.074549,19.470218,2200.0,Finalizï¿½ operaciï¿½n en 2010,484090000000.0,-
4,ATI,Atizapan,-99.254133,19.576963,2341.0,,484150000000.0,NO
5,AZC,Azcapotzalco,-99.198657,19.487728,2279.0,Finalizï¿½ operaciï¿½n en 2010,484090000000.0,-
6,BJU,Benito Juï¿½rez,-99.159596,19.370464,2249.0,Finalizï¿½ operaciï¿½n en 2005,484090000000.0,CE
7,CAM,Camarones,-99.169794,19.468404,2233.0,,484090000000.0,NO
8,CCA,Centro de Ciencias de la Atmï¿½sfera,-99.176111,19.326111,2294.0,,484090000000.0,SO
9,CES,Cerro de la Estrella,-99.074678,19.334731,2219.0,Finalizï¿½ operaciï¿½n en 2010,484090000000.0,-


Aplicando las funciones previamente descritas, observamos lo siguiente de cada uno de nuestros datasets:

- En total, los 5 datasets en formato `csv` se encuentran conformados, como se muestra a continuación:

<div style="text-align:center; padding: 1px; margin: 5px;"><img src='../img/tabla1_aed.jpg'></div

- Los datasets de `2019PM10`, `2020PM10`, `2019PM25` y `2020PM25` comparten la misma estructura. Lo que los diferencía es que unos tienen más estaciones de monitoreo, por ejemplo, los datasets de $PM_{10}$ tienen **27** estaciones registradas y los de $PM_{2.5}$ tienen **24** estaciones. A continuación se describen las columnas que conforman a estos datasets.

<div style="text-align:center; padding: 1px; margin: 5px;"><img src='../img/tabla2_aed.jpg'></div

- El dataset de cat_estacion se utilizó como catálogo para poder ubicar a qué zona pertenecen las estaciones de monitoreo y su ubicación geográfica, en la siguiente tabla se describen los atributos que la conforman:

<div style="text-align:center; padding: 1px; margin: 5px;"><img src='../img/tabla3_aed.jpg'></div