## **Limpieza del CSV de "Presión Atmosférica"**
----
**Elaborado con base en**
* [Presión Atmosférica | Datos Abiertos Colombia](https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Presi-n-Atmosf-rica/62tk-nxj5/about_data)

#### ***Importación de paquetes***

In [1]:
import pandas as pd

#### ***Cargar el CSV mediante Pandas***

In [2]:
df = pd.read_csv("../CSV/Presion_Atmosferica_20240614.csv")
df

Unnamed: 0,CodigoEstacion,CodigoSensor,FechaObservacion,ValorObservado,NombreEstacion,Departamento,Municipio,ZonaHidrografica,Latitud,Longitud,DescripcionSensor,UnidadMedida
0,53075020,255,04/19/2012 07:00:00 AM,834.8,EL DIVISO - AUT,CAUCA,ARGELIA,TAPAJE - DAGUA - DIRECTOS,2.311417,-77.258778,Presión Atmosferica (1h),HPa
1,53045040,255,05/19/2011 06:00:00 PM,1011.7,AEROPUERTO GUAPI - AUT,CAUCA,GUAPI,TAPAJE - DAGUA - DIRECTOS,2.574417,-77.894750,Presión Atmosferica (1h),HPa
2,22025040,255,12/03/2010 01:00:00 AM,626.1,EL DIABLO,CAUCA,PÁEZ (BELALCÁZAR),ALTO MAGDALENA,2.978000,-76.064000,Presión Atmosferica (1h),HPa
3,53045040,255,01/05/2006 01:00:00 PM,1011.4,AEROPUERTO GUAPI - AUT,CAUCA,GUAPI,TAPAJE - DAGUA - DIRECTOS,2.574417,-77.894750,Presión Atmosferica (1h),HPa
4,53045040,255,02/06/2018 11:00:00 PM,1010.8,AEROPUERTO GUAPI - AUT,CAUCA,GUAPI,TAPAJE - DAGUA - DIRECTOS,2.574417,-77.894750,Presión Atmosferica (1h),HPa
...,...,...,...,...,...,...,...,...,...,...,...,...
3001945,26075150,258,06/12/2024 03:32:00 PM,903.2,AEROPUERTO A. BONILLA,VALLE DEL CAUCA,PALMIRA,CAUCA,3.532992,-76.382500,GPRS - PRESIÓN ATMOSFÉRICA,hPA
3001946,26075150,258,06/12/2024 03:12:00 PM,903.3,AEROPUERTO A. BONILLA,VALLE DEL CAUCA,PALMIRA,CAUCA,3.532992,-76.382500,GPRS - PRESIÓN ATMOSFÉRICA,hPA
3001947,26075150,258,06/12/2024 07:24:00 PM,904.5,AEROPUERTO A. BONILLA,VALLE DEL CAUCA,PALMIRA,CAUCA,3.532992,-76.382500,GPRS - PRESIÓN ATMOSFÉRICA,hPA
3001948,26075150,258,06/12/2024 11:50:00 AM,906.1,AEROPUERTO A. BONILLA,VALLE DEL CAUCA,PALMIRA,CAUCA,3.532992,-76.382500,GPRS - PRESIÓN ATMOSFÉRICA,hPA


#### ***Liberarnos de ciertas columnas***

In [3]:
df = df.drop(["CodigoSensor", "CodigoEstacion", "NombreEstacion", "DescripcionSensor", "UnidadMedida"], axis=1)
df.head()

Unnamed: 0,FechaObservacion,ValorObservado,Departamento,Municipio,ZonaHidrografica,Latitud,Longitud
0,04/19/2012 07:00:00 AM,834.8,CAUCA,ARGELIA,TAPAJE - DAGUA - DIRECTOS,2.311417,-77.258778
1,05/19/2011 06:00:00 PM,1011.7,CAUCA,GUAPI,TAPAJE - DAGUA - DIRECTOS,2.574417,-77.89475
2,12/03/2010 01:00:00 AM,626.1,CAUCA,PÁEZ (BELALCÁZAR),ALTO MAGDALENA,2.978,-76.064
3,01/05/2006 01:00:00 PM,1011.4,CAUCA,GUAPI,TAPAJE - DAGUA - DIRECTOS,2.574417,-77.89475
4,02/06/2018 11:00:00 PM,1010.8,CAUCA,GUAPI,TAPAJE - DAGUA - DIRECTOS,2.574417,-77.89475


#### ***Enfocarnos en los departamentos de la región Pacífica***

In [4]:
#df.head()
df["Departamento"].value_counts()

Departamento
VALLE DEL CAUCA    951789
NARIÑO             939152
CAUCA              541934
CHOCÓ              444757
CHOCO               99935
NARINO              24383
Name: count, dtype: int64

#### ***Limpieza en los departamentos***

In [5]:
diccionario_reemplazo = {
    "CHOCO": "CHOCÓ",
    "NARINO": "NARIÑO"
}

df["Departamento"] = df["Departamento"].replace(diccionario_reemplazo)
df["Departamento"].value_counts()

Departamento
NARIÑO             963535
VALLE DEL CAUCA    951789
CHOCÓ              544692
CAUCA              541934
Name: count, dtype: int64

#### ***Transformar el formato de la fecha y añadir columnas "Año" y "Mes"***

In [6]:
df["FechaObservacion"] = df["FechaObservacion"].astype(str)

df["FechaObservacion"] = df["FechaObservacion"].str.split(' ').str[0]

df["FechaObservacion"] = pd.to_datetime(df["FechaObservacion"])

df["Año"] = df["FechaObservacion"].dt.year
df["Mes"] = df["FechaObservacion"].dt.month

df["FechaObservacion"] = df["FechaObservacion"].dt.date

# Reorganizar las columnas
cols = ['Año', 'Mes'] + [col for col in df.columns if col not in ['Año', 'Mes']]
df = df[cols]

#### ***Eliminar datos que no se encuentren en el rango de año de 2003 a 2023***

In [7]:
df = df[(df['Año'] >= 2003) & (df['Año'] <= 2023)]
df["Año"].value_counts()

Año
2019    357774
2018    269301
2020    205823
2023    181996
2017    168248
2015    151612
2021    148297
2022    145590
2016    144463
2008    132202
2010    131931
2009    127298
2014    125888
2007    117093
2011    108239
2013    104120
2006    100518
2012     81643
2005     35386
2003        67
2004        61
Name: count, dtype: int64

#### ***Guardar la nueva versión del dataset***

In [8]:
df.to_csv("../PresionAtmosferica_RegionPacifico.csv", index=False)