In [1]:
import pandas as pd
import numpy as np

In [2]:
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
%matplotlib inline

In [4]:
df = pd.read_csv('datos/2013/Diarios/As_2013_DD.csv', sep=";")

In [5]:
df.head()

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANNO,MES,D01,D02,D03,...,D22,D23,D24,D25,D26,D27,D28,D29,D30,D31
0,12,135,4,17,12135004_17_M,2013,4,,,,...,0.35,,,,,,,,,
1,12,135,4,17,12135004_17_M,2013,6,0.35,,1.5,...,,,,,,,,1.67,,
2,12,135,4,17,12135004_17_M,2013,7,1.39,,,...,,,,,,,,0.69,,
3,12,135,4,17,12135004_17_M,2013,8,2.21,1.66,,...,,,0.97,,2.5,,,3.64,2.65,
4,12,135,4,17,12135004_17_M,2013,9,1.26,1.12,,...,,1.67,,,1.11,1.66,,0.55,1.51,


In [6]:
df_ordenado_por_meses= df.sort_values(by=['MES'])

In [11]:
lista_meses = df_ordenado_por_meses['MES'].unique()

Contamos el número de estaciones que realizan datos por cada mes:

In [23]:
suma = 0
for x in lista_meses:
    suma += len(df[df['MES']==x])
    print('{}{}{}{}'.format('Mes ',x,' Total observatorios: ',len(df[df['MES']==x])))

# comprobamos que coincide el número de registros con la suma de las repeticiones de los meses
print("Total observaciones: ",suma)

Mes 1 Total observatorios: 98
Mes 2 Total observatorios: 99
Mes 3 Total observatorios: 99
Mes 4 Total observatorios: 98
Mes 5 Total observatorios: 82
Mes 6 Total observatorios: 104
Mes 7 Total observatorios: 102
Mes 8 Total observatorios: 101
Mes 9 Total observatorios: 100
Mes 10 Total observatorios: 100
Mes 11 Total observatorios: 100
Mes 12 Total observatorios: 96
Total observaciones:  1179


In [24]:
lista_dias_del_meses = [31,28,31,30,31,30,31,31,30,31,30,31]

Nos interesa únicamente las mediciones diarias por meses de todas las estaciones, para poder sacar el valor mensual del contaminante:

In [25]:
df_datos_diarios_por_mes = df_ordenado_por_meses.iloc[:,6:]

In [27]:
mes1 = df_datos_diarios_por_mes[df_datos_diarios_por_mes['MES']==1].iloc[:,1:]

Estudiando el dataset proporcionado, observamos que cada estación medidora proporciona una cantidad distinta de datos
por mes. Según los datos del Ministerio esto puede ser debido a causas técnicas. Por ello es necesario tratar las 
observaciones de la siguiente manera:

- Obtención de la media mensual por cada estación
- Media del conjunto total de estaciones por meses, ya que hemos visto que no existe un número igual por cada mes 

Al tener los valores NaN en el dataset la función .mean no los tendrá en cuenta y obtendrá la media con los datos 
reales por día

In [45]:
medias_por_dia_mes = df_datos_diarios_por_mes[df_datos_diarios_por_mes['MES']==1].iloc[:,1:].mean()

In [46]:
medias_por_dia_mes

D01    0.767500
D02    1.082143
D03    0.871212
D04    0.587586
D05    0.449615
D06    0.776667
D07    1.131875
D08    0.674063
D09    0.810952
D10    0.663226
D11    0.911364
D12    0.679189
D13    0.483052
D14    0.459750
D15    0.556957
D16    0.494362
D17    0.651667
D18    0.721575
D19    0.567964
D20    0.416970
D21    0.538000
D22    0.482056
D23    0.501667
D24    0.650000
D25    0.658612
D26    0.743529
D27    0.627879
D28    0.739976
D29    1.029167
D30    0.803171
D31    1.012270
dtype: float64

In [43]:
# =========  INICIO PRUEBAS COMPROBACIONES ALEATORIAS  ================
# =====================================================================

In [34]:
# Prueba de que los datos son correctos

df_mes1 = pd.read_csv('datos/2013/Diarios/mes1.csv', sep=";", header=None)

In [35]:
df_mes1.mean()

0    0.7675
dtype: float64

In [37]:
df_mes1.sum()

0    9.21
dtype: float64

In [38]:
9.21/12

0.7675000000000001

In [39]:

df_dia14 = pd.read_csv('datos/2013/Diarios/mes1_dia14.csv', sep=";")

In [41]:
df_dia14.sum()

D14    18.39
dtype: float64

In [42]:
18.39/40

0.45975

In [44]:
#  ============= FIN COMPROBACIONES ============================

In [47]:
media_mes_1 = medias_por_dia_mes.mean()

In [49]:
media_mes_1

0.6949681962260175

In [50]:
len(medias_por_dia_mes)

31

In [52]:
medias_por_dia_mes.sum()/31

0.6949681962260175

<h3>Automatizar el proceso para cada mes: </h3>

In [62]:
datos = [1,3,56,54]

In [65]:
datos.append(456)

In [66]:
s = pd.Series(datos)

In [67]:
s

0      1
1      3
2     56
3     54
4    456
dtype: int64

In [70]:
totales = []

for x in lista_meses:
    medias_por_dia_mes = df_datos_diarios_por_mes[df_datos_diarios_por_mes['MES']== x ].iloc[:,1:].mean()
    media_por_mes = medias_por_dia_mes.mean()   
    totales.append(media_por_mes)



In [71]:
totales

[0.6949681962260175,
 0.7219603053536116,
 0.8070277027376372,
 0.8073794400578513,
 0.9125689815092793,
 0.6767599567327721,
 0.762031013961715,
 0.6661569083842653,
 0.7312035161840096,
 0.6584191182266532,
 0.6517168821211371,
 0.7943624607446779]