In [1]:
import pandas as pd

# Cargar el conjunto de datos
file_path = 'MME.csv'
data = pd.read_csv(file_path)

# Mostrar las primeras filas del dataset
display(data.head())

# Diccionario de mapeo de provincias a comunidades autónomas
comunidades_autonomas = {
    'BARCELONA': 'Cataluña',
    'GIRONA': 'Cataluña',
    'TARRAGONA': 'Cataluña',
    'LLEIDA': 'Cataluña',
    'A CORUÑA': 'Galicia',
    'LUGO': 'Galicia',
    'OURENSE': 'Galicia',
    'PONTEVEDRA': 'Galicia',
    'ASTURIAS': 'Asturias',
    'BIZKAIA': 'País Vasco',
    'GIPUZKOA': 'País Vasco',
    'ARABA/ALAVA': 'País Vasco',
    'CANTABRIA': 'Cantabria',
    'NAVARRA': 'Navarra',
    'LEON': 'Castilla y León',
    'AVILA': 'Castilla y León',
    'BURGOS': 'Castilla y León',
    'PALENCIA': 'Castilla y León',
    'SALAMANCA': 'Castilla y León',
    'SEGOVIA': 'Castilla y León',
    'SORIA': 'Castilla y León',
    'VALLADOLID': 'Castilla y León',
    'ZAMORA': 'Castilla y León',
    'MADRID': 'Madrid',
    'CACERES': 'Extremadura',
    'BADAJOZ': 'Extremadura',
    'CUENCA': 'Castilla-La Mancha',
    'GUADALAJARA': 'Castilla-La Mancha',
    'TOLEDO': 'Castilla-La Mancha',
    'CIUDAD REAL': 'Castilla-La Mancha',
    'ALBACETE': 'Castilla-La Mancha',
    'CORDOBA': 'Andalucía',
    'HUELVA': 'Andalucía',
    'CADIZ': 'Andalucía',
    'GRANADA': 'Andalucía',
    'JAEN': 'Andalucía',
    'SEVILLA': 'Andalucía',
    'ALMERIA': 'Andalucía',
    'MALAGA': 'Andalucía',
    'CEUTA': 'Ceuta',
    'MELILLA': 'Melilla',
    'ALICANTE': 'Comunidad Valenciana',
    'CASTELLON': 'Comunidad Valenciana',
    'VALENCIA': 'Comunidad Valenciana',
    'MURCIA': 'Murcia',
    'HUESCA': 'Aragón',
    'TERUEL': 'Aragón',
    'ZARAGOZA': 'Aragón',
    'LA RIOJA': 'La Rioja',
    'ILLES BALEARS': 'Islas Baleares',
    'LAS PALMAS': 'Canarias',
    'STA. CRUZ DE TENERIFE': 'Canarias'
}

# Crear una nueva columna 'comunidad_autonoma' basada en el mapeo de provincias
data['comunidad_autonoma'] = data['provincia'].map(comunidades_autonomas)

# Guardar el dataset con la nueva columna
output_path = 'MME_with_comunidad.csv'
data.to_csv(output_path, index=False)

# Mostrar las primeras filas del dataset con la nueva columna
display(data.head())

# Lista de columnas que deberían ser numéricas
numeric_columns = ['altitud', 'tmed', 'prec', 'tmin', 'tmax', 'velmedia', 'racha', 'sol', 'presmax', 'presmin']

# Convertir todas las columnas a tipo cadena antes de reemplazar comas por puntos
for column in numeric_columns:
    data[column] = data[column].astype(str).str.replace(',', '.')
    data[column] = pd.to_numeric(data[column], errors='coerce')

# Mostrar las primeras filas del dataset
display(data.head())

# Verificar la presencia de valores nulos en el conjunto de datos
null_values = data.isnull().sum()
print("Valores Nulos:\n", null_values)

# Obtener estadísticas descriptivas de las columnas numéricas
descriptive_stats = data.describe()
print("Estadísticas Descriptivas:\n", descriptive_stats)

# Imputar valores nulos en columnas numéricas con la media de la columna
for column in data.select_dtypes(include=['float64', 'int64']).columns:
    data[column] = data[column].fillna(data[column].mean())

# Imputar valores nulos en columnas categóricas con el valor más frecuente
for column in data.select_dtypes(include=['object']).columns:
    data[column] = data[column].fillna(data[column].mode()[0])

# Verificar la presencia de valores nulos después de la imputación
null_values_after = data.isnull().sum()
print("Valores Nulos Después de la Imputación:\n", null_values_after)

# Guardar el dataset limpio
data.to_csv('MME_cleaned.csv', index=False)

# Eliminar columnas con todos los valores nulos
data = data.drop(columns=['presmax', 'horapresmax', 'presmin', 'horapresmin'])

# Verificar la presencia de valores nulos después de eliminar las columnas
null_values_after = data.isnull().sum()
print("Valores Nulos Después de Eliminar Columnas:\n", null_values_after)

# Guardar el dataset limpio
data.to_csv('MME_cleaned.csv', index=False)

# Filtrar los años entre 1970 y 2021
data['fecha'] = pd.to_datetime(data['fecha'])
data = data[(data['fecha'].dt.year >= 1970) & (data['fecha'].dt.year <= 2021)]

# Eliminar registros con temperaturas extremadamente altas/bajas
data = data[(data['tmed'] >= -40) & (data['tmed'] <= 54)]

# Eliminar registros con precipitaciones extremadamente altas
data = data[data['prec'] <= 500]

# Eliminar registros con velocidades de viento extremadamente altas
data = data[data['velmedia'] <= 50]

# Guardar el dataset corregido
data.to_csv('MME_corrected.csv', index=False)


Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,horatmax,dir,velmedia,racha,horaracha,sol,presmax,horapresmax,presmin,horapresmin
0,2021-01-01,0252D,ARENYS DE MAR,BARCELONA,74,76,0,46,Varias,106,13:00,NE,8,69,08:10,,,,,
1,2021-01-02,0252D,ARENYS DE MAR,BARCELONA,74,73,0,35,05:40,111,11:40,NE,11,47,22:30,,,,,
2,2021-01-03,0252D,ARENYS DE MAR,BARCELONA,74,63,0,20,08:20,106,12:40,NNE,19,50,20:10,,,,,
3,2021-01-04,0252D,ARENYS DE MAR,BARCELONA,74,64,0,15,04:00,112,11:20,NNE,11,72,06:10,,,,,
4,2021-01-05,0252D,ARENYS DE MAR,BARCELONA,74,66,3,17,23:20,114,12:20,NNE,14,50,11:10,,,,,


Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,...,dir,velmedia,racha,horaracha,sol,presmax,horapresmax,presmin,horapresmin,comunidad_autonoma
0,2021-01-01,0252D,ARENYS DE MAR,BARCELONA,74,76,0,46,Varias,106,...,NE,8,69,08:10,,,,,,Cataluña
1,2021-01-02,0252D,ARENYS DE MAR,BARCELONA,74,73,0,35,05:40,111,...,NE,11,47,22:30,,,,,,Cataluña
2,2021-01-03,0252D,ARENYS DE MAR,BARCELONA,74,63,0,20,08:20,106,...,NNE,19,50,20:10,,,,,,Cataluña
3,2021-01-04,0252D,ARENYS DE MAR,BARCELONA,74,64,0,15,04:00,112,...,NNE,11,72,06:10,,,,,,Cataluña
4,2021-01-05,0252D,ARENYS DE MAR,BARCELONA,74,66,3,17,23:20,114,...,NNE,14,50,11:10,,,,,,Cataluña


Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,...,dir,velmedia,racha,horaracha,sol,presmax,horapresmax,presmin,horapresmin,comunidad_autonoma
0,2021-01-01,0252D,ARENYS DE MAR,BARCELONA,74,7.6,0.0,4.6,Varias,10.6,...,NE,0.8,6.9,08:10,,,,,,Cataluña
1,2021-01-02,0252D,ARENYS DE MAR,BARCELONA,74,7.3,0.0,3.5,05:40,11.1,...,NE,1.1,4.7,22:30,,,,,,Cataluña
2,2021-01-03,0252D,ARENYS DE MAR,BARCELONA,74,6.3,0.0,2.0,08:20,10.6,...,NNE,1.9,5.0,20:10,,,,,,Cataluña
3,2021-01-04,0252D,ARENYS DE MAR,BARCELONA,74,6.4,0.0,1.5,04:00,11.2,...,NNE,1.1,7.2,06:10,,,,,,Cataluña
4,2021-01-05,0252D,ARENYS DE MAR,BARCELONA,74,6.6,0.3,1.7,23:20,11.4,...,NNE,1.4,5.0,11:10,,,,,,Cataluña


Valores Nulos:
 fecha                       0
indicativo                  0
nombre                      0
provincia                   0
altitud                     0
tmed                   139882
prec                   191677
tmin                   137564
horatmin               284767
tmax                   137969
horatmax               282309
dir                    481795
velmedia               302349
racha                  481960
horaracha              484077
sol                   1315853
presmax               3090418
horapresmax           3090418
presmin               3090418
horapresmin           3090418
comunidad_autonoma          0
dtype: int64
Estadísticas Descriptivas:
             altitud          tmed          prec          tmin          tmax  \
count  3.090418e+06  2.950536e+06  2.898741e+06  2.952854e+06  2.952449e+06   
mean   4.323069e+02  1.515810e+01  1.662671e+00  9.985878e+00  2.032916e+01   
std    4.370447e+02  6.939852e+00  5.781247e+00  6.809937e+00  7.828495e+00 