In [2]:
import pandas as pd

In [3]:
# Load the CSV file (update the path if needed)
file_path = 'Resources/puntos-de-abastecimiento-de-agua-a-nivel-municipal-monterrey.csv'
df = pd.read_csv(file_path)

In [4]:
print(df.columns)

Index(['Ejercicio', 'Mes', 'Nombre del punto de distribución',
       'Tipo de asentamiento ', 'Denominación del asentamiento',
       'Nombre de la vialidad', 'Número de vialidad (en su caso)',
       'Tipo de abastecimiento', 'Días ', 'Horarios', 'Contacto',
       'Capacidad de la unidad ', 'Geopoint', 'Nota'],
      dtype='object')


In [5]:
# Step 1: Assign IDs starting from 1 based on the existing number of rows
df['ID'] = range(1, len(df) + 1)

# Move the 'ID' column to the leftmost position
df = df[['ID'] + [col for col in df.columns if col != 'ID']]

# Display the updated DataFrame
df.head(5)

Unnamed: 0,ID,Ejercicio,Mes,Nombre del punto de distribución,Tipo de asentamiento,Denominación del asentamiento,Nombre de la vialidad,Número de vialidad (en su caso),Tipo de abastecimiento,Días,Horarios,Contacto,Capacidad de la unidad,Geopoint,Nota
0,1,2023,Octubre,Centro de Bienestar Familiar Burócratas munici...,Colonia,Burócratas Municipales,Avenida Alfonso Reyes,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,81-51-02-73-23,1000 litros,"25.6352203, -100.2990693",1 Contenedor
1,2,2023,Octubre,Centro de Bienestar Familiar Valle del Mirador,Colonia,Valle del Mirador,Calle Paseo Alicia,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,81-51-02-73-19,1000 litros,"25.639017498380895, -100.30948000096342",1 Contenedor
2,3,2023,Octubre,Centro de Bienestar Familiar Tierra y Libertad,Colonia,Tierra y Libertad,Calle Liga Femenil,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,81-51-02-71-59,1000 litros,"25.741158636659847, -100.3381042670378",2 Contenedores
3,4,2023,Octubre,Centro de Bienestar Familiar Nueva Morelos,Colonia,Nueva Morelos,Calle Marea Alta,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,81-51-02-73-53,1000 litros,"25.718641664223934, -100.34674910367468",1 Contenedor
4,5,2023,Octubre,Centro de Bienestar Familiar Antonio I. Villar...,Colonia,Antonio I. Villarreal,Calle Veteranos de la Revolución,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,81-51-02-71-31,1000 litros,"25.70494909056859, -100.3556544251508",1 Contenedor


In [6]:
# Step 2: Combine 'Ejercicio' (Year) and 'Mes' (Month) into a single column
df['Fecha'] = df['Ejercicio'].astype(str) + '-' + df['Mes']

# Move the column to the leftmost position
df = df[['ID','Fecha'] + [col for col in df.columns if col != 'ID''Fecha']]

#Droping columns whith similar data
df.drop(columns=['Ejercicio', 'Mes', 'Contacto', 'Nota'], inplace=True)

# Display the updated DataFrame
df.head(5)

Unnamed: 0,ID,Fecha,ID.1,Nombre del punto de distribución,Tipo de asentamiento,Denominación del asentamiento,Nombre de la vialidad,Número de vialidad (en su caso),Tipo de abastecimiento,Días,Horarios,Capacidad de la unidad,Geopoint,Fecha.1
0,1,2023-Octubre,1,Centro de Bienestar Familiar Burócratas munici...,Colonia,Burócratas Municipales,Avenida Alfonso Reyes,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.6352203, -100.2990693",2023-Octubre
1,2,2023-Octubre,2,Centro de Bienestar Familiar Valle del Mirador,Colonia,Valle del Mirador,Calle Paseo Alicia,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.639017498380895, -100.30948000096342",2023-Octubre
2,3,2023-Octubre,3,Centro de Bienestar Familiar Tierra y Libertad,Colonia,Tierra y Libertad,Calle Liga Femenil,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.741158636659847, -100.3381042670378",2023-Octubre
3,4,2023-Octubre,4,Centro de Bienestar Familiar Nueva Morelos,Colonia,Nueva Morelos,Calle Marea Alta,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.718641664223934, -100.34674910367468",2023-Octubre
4,5,2023-Octubre,5,Centro de Bienestar Familiar Antonio I. Villar...,Colonia,Antonio I. Villarreal,Calle Veteranos de la Revolución,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.70494909056859, -100.3556544251508",2023-Octubre


In [7]:
# Step 3: Split the 'geopoint' column into 'Latitude' and 'Longitude'
df[['Latitude', 'Longitude']] = df['Geopoint'].str.split(', ', expand=True)

# Convert the new columns to float
df['Latitude'] = df['Latitude'].astype(float)
df['Longitude'] = df['Longitude'].astype(float)

# Move the column to the leftmost position
df = df[['ID','Fecha','Latitude','Longitude'] + [col for col in df.columns if col != 'ID''Fecha''Latitude''Longitude']]

# Display the updated DataFrame
df.head(5)

Unnamed: 0,ID,ID.1,Fecha,Fecha.1,Latitude,Longitude,ID.2,ID.3,Fecha.2,Fecha.3,...,Número de vialidad (en su caso),Tipo de abastecimiento,Días,Horarios,Capacidad de la unidad,Geopoint,Fecha.4,Fecha.5,Latitude.1,Longitude.1
0,1,1,2023-Octubre,2023-Octubre,25.63522,-100.299069,1,1,2023-Octubre,2023-Octubre,...,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.6352203, -100.2990693",2023-Octubre,2023-Octubre,25.63522,-100.299069
1,2,2,2023-Octubre,2023-Octubre,25.639017,-100.30948,2,2,2023-Octubre,2023-Octubre,...,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.639017498380895, -100.30948000096342",2023-Octubre,2023-Octubre,25.639017,-100.30948
2,3,3,2023-Octubre,2023-Octubre,25.741159,-100.338104,3,3,2023-Octubre,2023-Octubre,...,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.741158636659847, -100.3381042670378",2023-Octubre,2023-Octubre,25.741159,-100.338104
3,4,4,2023-Octubre,2023-Octubre,25.718642,-100.346749,4,4,2023-Octubre,2023-Octubre,...,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.718641664223934, -100.34674910367468",2023-Octubre,2023-Octubre,25.718642,-100.346749
4,5,5,2023-Octubre,2023-Octubre,25.704949,-100.355654,5,5,2023-Octubre,2023-Octubre,...,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros,"25.70494909056859, -100.3556544251508",2023-Octubre,2023-Octubre,25.704949,-100.355654


In [8]:
#Droping columns whith similar data
df.drop(columns=['Geopoint'], inplace=True)

# Drop duplicate columns
df = df.loc[:, ~df.columns.duplicated()]
df.head(5)

Unnamed: 0,ID,Fecha,Latitude,Longitude,Nombre del punto de distribución,Tipo de asentamiento,Denominación del asentamiento,Nombre de la vialidad,Número de vialidad (en su caso),Tipo de abastecimiento,Días,Horarios,Capacidad de la unidad
0,1,2023-Octubre,25.63522,-100.299069,Centro de Bienestar Familiar Burócratas munici...,Colonia,Burócratas Municipales,Avenida Alfonso Reyes,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
1,2,2023-Octubre,25.639017,-100.30948,Centro de Bienestar Familiar Valle del Mirador,Colonia,Valle del Mirador,Calle Paseo Alicia,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
2,3,2023-Octubre,25.741159,-100.338104,Centro de Bienestar Familiar Tierra y Libertad,Colonia,Tierra y Libertad,Calle Liga Femenil,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
3,4,2023-Octubre,25.718642,-100.346749,Centro de Bienestar Familiar Nueva Morelos,Colonia,Nueva Morelos,Calle Marea Alta,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
4,5,2023-Octubre,25.704949,-100.355654,Centro de Bienestar Familiar Antonio I. Villar...,Colonia,Antonio I. Villarreal,Calle Veteranos de la Revolución,Sin número,Contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros


In [9]:
# Step 4: Standardize 'Tipo de abastecimiento' (Supply Type)
df['Tipo de abastecimiento'] = df['Tipo de abastecimiento'].str.strip().str.lower()


In [10]:
# Step 5: Check for missing values
df.dropna(inplace=True)  # Remove rows with missing values

In [11]:
renamed_df = df.rename(columns={"Nombre del punto de distribución": "Establecimiento", 
                                "Denominación del asentamiento":"Colonia", 
                                "Nombre de la vialidad":"Vialidad"})

renamed_df.head(5)

Unnamed: 0,ID,Fecha,Latitude,Longitude,Establecimiento,Tipo de asentamiento,Colonia,Vialidad,Número de vialidad (en su caso),Tipo de abastecimiento,Días,Horarios,Capacidad de la unidad
0,1,2023-Octubre,25.63522,-100.299069,Centro de Bienestar Familiar Burócratas munici...,Colonia,Burócratas Municipales,Avenida Alfonso Reyes,Sin número,contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
1,2,2023-Octubre,25.639017,-100.30948,Centro de Bienestar Familiar Valle del Mirador,Colonia,Valle del Mirador,Calle Paseo Alicia,Sin número,contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
2,3,2023-Octubre,25.741159,-100.338104,Centro de Bienestar Familiar Tierra y Libertad,Colonia,Tierra y Libertad,Calle Liga Femenil,Sin número,contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
3,4,2023-Octubre,25.718642,-100.346749,Centro de Bienestar Familiar Nueva Morelos,Colonia,Nueva Morelos,Calle Marea Alta,Sin número,contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros
4,5,2023-Octubre,25.704949,-100.355654,Centro de Bienestar Familiar Antonio I. Villar...,Colonia,Antonio I. Villarreal,Calle Veteranos de la Revolución,Sin número,contenedor,"Lunes, Martes, Miércoles, Jueves y Viernes",8:00 a.m. a 5:00 p.m.,1000 litros


In [18]:
print (renamed_df.columns)

Index(['ID', 'Fecha', 'Latitude', 'Longitude', 'Establecimiento',
       'Tipo de asentamiento ', 'Colonia', 'Vialidad',
       'Número de vialidad (en su caso)', 'Tipo de abastecimiento', 'Días ',
       'Horarios', 'Capacidad de la unidad '],
      dtype='object')


In [12]:
# Step 5: Save cleaned data to a new CSV for JavaScript visualization
renamed_df.to_csv('Resources/cleaned_water_distribution.csv', index=False)

PermissionError: [Errno 13] Permission denied: 'Resources/cleaned_water_distribution.csv'