<a href="https://colab.research.google.com/github/jonathanahc/Proyecto/blob/main/ProyectoProgADAP_255497NvaVersion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto de Programación para Analítica Descriptiva y Predictiva**
## Nombre del Proyecto: Consumo y Costo del Agua en Nueva York
## Grupo: A
## Autor: Jonathan Adrian Herrera Castro
## Matrícula: 255497
## Fecha: 08/03/2025

# **1. Introducción**

## **- Descripción del problema:** el objetivo de este análisis es examinar el consumo de agua en la ciudad de Nueva York y su costo asociado, con el fin de identificar tendencias y algunos factores que influyen en su variación. Se analizarán patrones de consumo en distintas zonas y sectores de febrero del 2013 hasta 2023.

## **- Objetivo del análisis:** comprender el consumo y costo del agua en Nueva York para identificar patrones y factores que afectan su variabilidad. Este análisis tiene como impacto en el tema de la optimización el uso del agua, la planificación de tarifas y establecer algunas estrategias de sostenibilidad.

## **- Fuente de datos:** los datos utilizados en este análisis provienen de NYC Open Data, una plataforma que ofrece bases de datos de acceso público. La información fue proporcionada por la Autoridad de Vivienda de la Ciudad de Nueva York (NYCHA, por sus siglas en inglés).


# **2. Información General del Conjunto de Datos**

El conjunto de datos sobre el consumo y costo del agua en Nueva York pertenece a la categoría de gestión de recursos hídricos urbanos, que abarca el análisis y control de la distribución de agua potable y la fijación de tarifas. Los datos recopilados incluyen información sobre el volumen de agua consumido en diferentes áreas de la ciudad, las tarifas establecidas para los consumidores, patrones de consumo y variaciones de precios. La fuente principal de estos datos es la Autoridad de Vivienda de la Ciudad de Nueva York (NYCHA, por sus siglas en inglés), los informes y los datos sobre el consumo de agua se publican anualmente y están disponibles al público en su sitio web oficial.

El enlace para acceder a la base de datos es:
[Water Consumption And Cost (2013 - Feb 2025)](https://data.cityofnewyork.us/Housing-Development/Water-Consumption-And-Cost-2013-Feb-2025-/66be-66yr/about_data)

Estos datos se pueden encontrar en formato CSV lo cual facilita su acceso y análisis y son utilizados para diversos fines como el análisis - planificación de políticas públicas, gestión - mantenimiento de infraestructura y para pronósticos y ajustes tarifarios.

#**3. Descripción del Conjunto de Datos**


Como primera fase, se emplearon diversas librerías para facilitar el proceso de carga del archivo CSV. La primera librería utilizada fue google.colab, la cual establece la conexión a la carpeta Drive donde se encuentra almacenado el archivo. Además, se importaron las librerías Pandas y Re para interactuar con los datos.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
import re

Mounted at /content/drive


Con esta sentencia, se cargó el archivo CSV en un dataframe sin presentar inconvenientes durante el proceso.

In [2]:
df = pd.read_csv('/content/drive/MyDrive/ProyectoProgramacion/Water_Consumption_And_Cost__2013_-_Feb_2023__20250216.csv', engine="python")

Una vez cargado el archivo, se validó que los datos se mostrarán correctamente.

In [4]:
df.head(3)

Unnamed: 0,Development Name,Borough,Account Name,Location,Meter AMR,Meter Scope,TDS #,EDP,RC Code,Funding Source,...,Service End Date,# days,Meter Number,Estimated,Current Charges,Rate Class,Bill Analyzed,Consumption (HCF),Water&Sewer Charges,Other Charges
0,HOWARD AVENUE,BROOKLYN,HOWARD AVENUE,BLD 02,AMR,,339.0,782,K033900,FEDERAL,...,04/23/2020,31.0,E11310572,N,2945.22,Basic Water and Sewer,Yes,285,2945.22,0.0
1,BAISLEY PARK,QUEENS,BAISLEY PARK,BLD 09,AMR,BLD 09,91.0,240,Q009100,FEDERAL,...,01/26/2020,34.0,K13060723,N,196.35,Basic Water and Sewer,Yes,19,196.35,0.0
2,BAISLEY PARK,QUEENS,BAISLEY PARK,BLD 09,AMR,BLD 09,91.0,240,Q009100,FEDERAL,...,02/24/2020,29.0,K13060723,N,258.35,Basic Water and Sewer,Yes,25,258.35,0.0


Utilizando la función Shape, se realizó un conteo del número de filas y columnas del dataframe.

In [6]:
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

Filas: 50315, Columnas: 25


Después del conteo, se utilizó la función Info con la cual se obtuvó la información sobre las columnas, incluyendo el nombre y el tipo de dato de cada una.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50315 entries, 0 to 50314
Data columns (total 25 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Development Name     50255 non-null  object 
 1   Borough              50315 non-null  object 
 2   Account Name         50315 non-null  object 
 3   Location             49487 non-null  object 
 4   Meter AMR            49805 non-null  object 
 5   Meter Scope          12782 non-null  object 
 6   TDS #                50255 non-null  float64
 7   EDP                  50315 non-null  int64  
 8   RC Code              50315 non-null  object 
 9   Funding Source       50239 non-null  object 
 10  AMP #                50193 non-null  object 
 11  Vendor Name          50315 non-null  object 
 12  UMIS BILL ID         50315 non-null  int64  
 13  Revenue Month        50315 non-null  object 
 14  Service Start Date   50308 non-null  object 
 15  Service End Date     50308 non-null 

Finalment, la función Describe proporcionó un resumen estadístico de cada columna.

In [9]:
df.describe(include='all')

Unnamed: 0,Development Name,Borough,Account Name,Location,Meter AMR,Meter Scope,TDS #,EDP,RC Code,Funding Source,...,Service End Date,# days,Meter Number,Estimated,Current Charges,Rate Class,Bill Analyzed,Consumption (HCF),Water&Sewer Charges,Other Charges
count,50255,50315,50315,49487,49805,12782,50255.0,50315.0,50315,50239,...,50308,50308.0,50315,50315,50315.0,50279,50315,50315.0,50315.0,50315.0
unique,110,7,117,305,3,59,,,114,6,...,1114,,795,2,,5,2,,,
top,FHA REPOSSESSED HOUSES (GROUP V),FHA,FHA REPOSSESSED HOUSES (GROUP V),BLD 01,AMR,Community Center,,,Q026000,FEDERAL,...,03/24/2019,,UN-METERED,N,,Basic Water and Sewer,Yes,,,
freq,4765,23460,4759,4459,43782,1228,,,4765,45346,...,594,,179,41499,,50175,49235,,,
mean,,,,,,,258.871794,463.205764,,,...,,33.182953,,,2150.221066,,,224.291066,2140.327436,9.893631
std,,,,,,,101.467018,185.10921,,,...,,53.18184,,,5623.852543,,,2020.962056,5619.812518,607.714232
min,,,,,,,1.0,200.0,,,...,,-335.0,,,-1748.51,,,0.0,0.0,-67726.83
25%,,,,,,,209.0,325.0,,,...,,29.0,,,46.46,,,5.0,46.36,0.0
50%,,,,,,,273.0,396.0,,,...,,30.0,,,197.36,,,26.0,196.35,0.0
75%,,,,,,,338.0,637.0,,,...,,32.0,,,2598.415,,,236.0,2575.52,0.0


# **4. Limpieza y Transformación del Conjunto de Datos**

Para cada una de las siguientes subsecciones deberás explicar qué hiciste y qué obtuviste como resultado

- Normalización de Nombres de Columnas: Explicar qué pasos o procesos aplicaste para normalizar los nombres de las columnas (muestra también el código). Muestra el antes y después.
- Corrección de Tipos de Datos: Explicar qué columnas corregiste el tipo de datos(numérico, categórico, texto, fecha) - Muestra el código de todo este proceso de corrección antes y después.
- Limpieza, Transformación y Normalización de Datos Categóricos: Explica qué pasos realizaste para tratar los datos categóricos. Muestra el código sobre el proceso que realizaste
- Datos Perdidos: Describe cuántos datos perdidos hay por columna, los pasos que realizaste para detectar, tratar y finalmente cómo quedó el conjunto de datos después del tratamiento.  Muestra el código de cuántos datos perdidos tiene cada columna y luego aplica una estrategia para tratar estos datos. Justifica la decisión que elegiste para trata este problema.
- Limpieza, Transformación y Normalización de Datos Temporales: Explica qué pasos realizaste para tratar los datos Temporales. Muestra el código sobre el proceso que realizaste
- Outliers: Explica qué pasos realizaste para detectar y tratar los outliers. Muestra el código sobre el proceso que realizaste.

RECUERDA AGREGAR UNA O VARIAS CELDAS DE CÓDIGO

# **5. Análisis Descriptivo de Datos**

## - Preguntas a responder con el AD
## - Explicación de Estadísticas Básicas Aplicadas, Visualización de Datos con Gráficos, y Resumen de las respuestas

# **6. Análisis Exploratorio de los Datos**

## - Preguntas a responder
## - Estadísticas Empleadas, visualización y Resumen de las respuestas encontradas.

RECUERDA AGREGAR UNA O VARIAS CELDAS DE CÓDIGO

# **7. Análisis Predictivo**

## - Preprocesamiento para Análisis Predictivo: Problemas, Técnicas y Código

## - Modelado Predictivo
### - Modelo elegido y parámetros
### - Entrenamiento y Evaluación
## - Resultados
RECUERDA AGREGAR UNA O VARIAS CELDAS DE CÓDIGO

# **8. Conclusiones y Trabajos Futuros**

## - Resumen del trabajo realizado, hallazgos y posibles mejoras

RECUERDA AGREGAR UNA O VARIAS CELDAS DE CÓDIGO