# Análisis exploratorio de datos del suministro de agua de la CDMX

Análisis exploratorio de datos del suministro de agua de la Ciudad de México a septiembre de 2020. Este análisis fue efectuado empleando la información bimestral por el concepto de suministro de agua a nivel manzana, considerando la facturación por servicio de consumo medido y promedio otorgada por el Gobierno de la Ciudad de México y disponible [en el portal de Datos Abiertos Ciudad de México](https://datos.cdmx.gob.mx/explore/dataset/consumo-agua/information/). 

Este análisis fue efecutado por el equipo de Ciencia de Datos conformado por:
* Carlos Bautista (125761)
* Enrique Ortiz (150644)
* Mario Heredia (197863)
* José Antonio Lechuga (192610)

## Contenido

En el presente reporte se abordan las siguientes preguntas y actividades:
* Exploración inicial
    * Generación de código exploratorio
    * ¿Cuántas variables existen?
    * ¿Cuántas observaciones existen?
    * ¿Cuántas observaciones únicas se tienen por variable?
    * ¿Cuántas variables numéricas existen?
    * ¿Cuántas variables de fecha existen?
    * ¿Cuántas variables categóricas existen?
    * ¿Cuántas variables de texto hay?
    * Generación del profiling de cada variable.
    * ¿Qué se conoce hasta ahora de este set de datos por variable?
    * ¿Cuántas alcadías hay? ¿Cuántos `nomgeo` existen? ¿Se identifica algún error?
* Limpieza y manipulación de datos
    * Generación de código de limpieza y manipulación
    * Transformación del nombre de las columnas a formato estándar: minúsculas, sin espacios en blanco (cambiar por guiones bajos) y sin signos de puntuación.
    * Agregar la variable `latitud` y `longitud` generadas a partir de la columna `geo_point`.
    * Transformar la variable latitud y longitud a numérica.
    * Eliminar la columna `geo_point`.
    * Eliminar la columna `geo_shape`.
    * Cambiar a minúsculas las columnas `alcaldia`, `colonia` e `indice_des`.
    * Efectuar nuevamente el proceso de identificación de variables numéricas, categóricas, texto y fechas.
    * Generación del profiling de cada variable.

## Exploración inicial

### Generación de código exploratorio

In [1]:
# verificando versiones
import datetime
import pandas as pd
import sys

from pandas_profiling import ProfileReport
sys.version

'3.7.4 (default, Sep 21 2020, 23:36:29) \n[Clang 11.0.0 (clang-1100.0.33.17)]'

In [2]:
def numero_variables_observaciones(data):
    observaciones, variables = data.shape
    print(f"Tenemos {observaciones} observaciones para {variables} variables.")
    
def contar_variables_numericas(data):
    # con 'data.dtypes' podemos ver todos los tipos de variables 
    numeric = [e for e in data.dtypes.values if e == "float64" or e == "int64"]
    print(f"Tenemos {len(numeric)} variables numéricas.")
    
def contar_variables_fecha(data):   
    date_variables = [e for e in data.dtypes.values if type(e) is datetime.date]
    print(f"Tenemos {len(date_variables)} variables de fecha.")
    
def generar_data_profiling(title, path):
    profile = ProfileReport(data, title=title)
    profile.to_file(output_file=path)
    return profile

def numero_valores_unicos(data, column):
    if column not in data.columns:
        print("Nombre de columna invalido")
    else:
        return len(data[column].unique())

In [3]:
# cambiar a donde se encuentre el archivo csv con los datos requeridos
data_path = 'datos/consumo-agua.csv'

In [4]:
data = pd.read_csv(data_path)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 20)

### ¿Cuántas variables existen? ¿Cuántas observaciones existen?

In [5]:
numero_variables_observaciones(data)

Tenemos 71102 observaciones para 17 variables.


In [6]:
data.head()

Unnamed: 0,Geo Point,Geo Shape,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des
0,"19.4552601937,-99.1126617526","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",159.72,2019,Gustavo A. Madero,42.566364,468.23,GUSTAVO A. MADERO,7 DE NOVIEMBRE,53.24,631.0,42.066667,3.05,3,3.05,57250,ALTO
1,"19.4552601937,-99.1126617526","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",0.0,2019,Gustavo A. Madero,35.936667,107.81,GUSTAVO A. MADERO,7 DE NOVIEMBRE,0.0,115.13,28.7825,7.32,3,7.32,57253,MEDIO
2,"19.4557195871,-99.1135822797","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",0.0,2019,Gustavo A. Madero,24.586,122.93,GUSTAVO A. MADERO,7 DE NOVIEMBRE,0.0,197.96,32.993333,75.03,3,75.03,57255,POPULAR
3,"19.4596467168,-99.1044693641","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",0.0,2019,Gustavo A. Madero,0.0,0.0,GUSTAVO A. MADERO,NUEVA TENOCHTITLAN,0.0,253.53,84.51,84.51,3,253.53,57267,BAJO
4,"19.4741606185,-99.1467497317","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",56.72,2019,Azcapotzalco,67.43625,539.49,AZCAPOTZALCO,PROHOGAR,56.72,839.35,76.304545,121.57,3,243.14,57330,BAJO


### ¿Cuántas observaciones únicas se tienen por variables? 


In [7]:
data.nunique()

Geo Point               22930
Geo Shape               22922
consumo_total_mixto     24339
anio                        1
nomgeo                     17
consumo_prom_dom        52060
consumo_total_dom       47051
alcaldia                   16
colonia                  1340
consumo_prom_mixto      31911
consumo_total           56015
consumo_prom            62214
consumo_prom_no_dom     37440
bimestre                    3
consumo_total_no_dom    27336
gid                     71102
indice_des                  4
dtype: int64

### ¿Cuántas variables numéricas existen? 

In [8]:
# podemos ver todos los tipos de variables
data.dtypes

Geo Point                object
Geo Shape                object
consumo_total_mixto     float64
anio                      int64
nomgeo                   object
consumo_prom_dom        float64
consumo_total_dom       float64
alcaldia                 object
colonia                  object
consumo_prom_mixto      float64
consumo_total           float64
consumo_prom            float64
consumo_prom_no_dom     float64
bimestre                  int64
consumo_total_no_dom    float64
gid                       int64
indice_des               object
dtype: object

In [9]:
contar_variables_numericas(data)

Tenemos 11 variables numéricas.


### ¿Cuántas variables de fecha tenemos? 

Ninguna. Se puede ver en la impresión de dtypes. La variable `anio` indica el año, pero eso no es suficiente para ser una fecha (no califica como date, time o datetime). 

In [10]:
contar_variables_fecha(data)

Tenemos 0 variables de fecha.


### ¿Cuántas variables categóricas existen? 

Las siguientes pueden ser consideradas variables categóricas: `nomgeo`, `alcaldia`, `colonia`, e `indice_des`. `bimestre` fue contada como numérica, pero es cierto que puede ser analizada como categórica, al igual que año (dado que solo hay cifras para 2019). Por lo tanto, tenemos entre 4 y 6 variables categóricas, dependiendo de si tomamos a bimestre y año como categórica o no.  

### ¿Cuántas variables de texto hay? 

Aunque `nomgeo`, `alcaldia`, `colonia` e `indice_des` son texto, no contienen como tal texto a analizar (como palabras u oraciones). Diríamos que son categóricas.

### Generación del profiling de cada variable

In [11]:
initial_profile = generar_data_profiling('Profiling inicial de consumo de agua', 'reportes/profiling_inicial.html')

HBox(children=(FloatProgress(value=0.0, description='Summarize dataset', max=31.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Generate report structure', max=1.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Render HTML', max=1.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Export report to file', max=1.0, style=ProgressStyle(desc…




### ¿Qué se conoce hasta ahora de este set de datos por variable?

* `Geo Point` indica la latitud y longitud de la colonia. 
* `Geo Shape` es un diccionario con información geográfica. 
* `nomgeo` y `alcaldia` son equivalentes (e indican el nombre de la alcaldía). Hay 16 distintos. 
* `colonia` indica el nombre de la colonia.
* `anio` indica el año, y solo hay datos para 2019.
* `bimestre` indica el bimestre del año, y solo hay datos para el bimestre 1, 2 y 3. 

### ¿Cuántas alcaldías hay? ¿Cuántos `nomgeo` existen? ¿Se identifica algún error? 

In [12]:
no_alcaldias = numero_valores_unicos(data, 'alcaldia')
no_nomgeo = numero_valores_unicos(data, 'nomgeo')
print(f'Se tiene {no_alcaldias} alcaldías únicas y {no_nomgeo} nomgeo únicos.')

Se tiene 16 alcaldías únicas y 17 nomgeo únicos.


Sí el error está en la variable nomgeo: se registró "Talpan" en vez de "Tlalpan". 

In [13]:
[e for e in data.nomgeo.unique() if e.endswith('pan')]

['Talpan', 'Tlalpan']

## Limpieza y manipulación de datos

### Generación de código de limpieza y manipulación

In [14]:
def standarize_column_names(data, excluded_punctuation=".,-*¿?¡!"):
    data.columns = data.columns.str.lower().str.replace(" ", "_")
    for ch in excluded_punctuation:
        data.columns = data.columns.str.replace(ch, "")
        
        
def standarize_column_strings(data, columns, excluded_punctuation=".,-*¿?¡!"):
    for col in columns:
        data[col] = data[col].apply(lambda x: x.lower().replace(" ", "_"))
        for ch in excluded_punctuation:
            data[col] = data[col].apply(lambda x: x.replace(ch, ""))
    
def replace_column_value(data, column, search_string, replace_string):
    data[column] = data[column].apply(lambda x: x.replace(search_string, replace_string))
    

def clean_data_from(path):
    """
    Función para realizar todas las transformaciones necesarias requeridas al 
    dataset del consumo de agua. 
    
    Inputs:
    -------
    
    path: str
          El path en tu compu donde está el archivo csv. ("/Users/etc/etc..")
    
    Returns:
    --------
    
    data: pandas dataframe
          Un dataframe en el formato correcto
    
    """
    #1. cargar la info y arreglar nombres de columnas
    data = pd.read_csv(path)
    standarize_column_names(data)
    
    #2. Transformar alcaldia, colonia e indice_des
    col_text = ["alcaldia", "colonia", "indice_des"]
    standarize_column_strings(data, col_text)
    
    #3. Agregar latitud y longitud en formato numérico
    latitud = [float(e.split(",")[0]) for e in data["geo_point"]] 
    longitud = [float(e.split(",")[1]) for e in data["geo_point"]]
    data["latitud"] = latitud 
    data["longitud"] = longitud
    
    #4. Tirar variables irrelevantes
    data.drop(columns = ["geo_point", "geo_shape"], inplace = True)
    
    #5. Quitar el error de Talpan
    replace_column_value(data, 'nomgeo', 'Talpan', 'Tlalpan')
    
    return data

### Transformación del nombre de las columnas a formato estándar

In [15]:
standarize_column_names(data)
data.head()

Unnamed: 0,geo_point,geo_shape,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des
0,"19.4552601937,-99.1126617526","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",159.72,2019,Gustavo A. Madero,42.566364,468.23,GUSTAVO A. MADERO,7 DE NOVIEMBRE,53.24,631.0,42.066667,3.05,3,3.05,57250,ALTO
1,"19.4552601937,-99.1126617526","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",0.0,2019,Gustavo A. Madero,35.936667,107.81,GUSTAVO A. MADERO,7 DE NOVIEMBRE,0.0,115.13,28.7825,7.32,3,7.32,57253,MEDIO
2,"19.4557195871,-99.1135822797","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",0.0,2019,Gustavo A. Madero,24.586,122.93,GUSTAVO A. MADERO,7 DE NOVIEMBRE,0.0,197.96,32.993333,75.03,3,75.03,57255,POPULAR
3,"19.4596467168,-99.1044693641","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",0.0,2019,Gustavo A. Madero,0.0,0.0,GUSTAVO A. MADERO,NUEVA TENOCHTITLAN,0.0,253.53,84.51,84.51,3,253.53,57267,BAJO
4,"19.4741606185,-99.1467497317","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",56.72,2019,Azcapotzalco,67.43625,539.49,AZCAPOTZALCO,PROHOGAR,56.72,839.35,76.304545,121.57,3,243.14,57330,BAJO


### Agregar la variable latitud y longitud generadas a partir de `geopoint`. Transformar la variable latitud y longitud a numérica.

In [16]:
# sin lo de "float" lo toma como "object"
latitud = [float(e.split(",")[0]) for e in data["geo_point"]] 
longitud = [float(e.split(",")[1]) for e in data["geo_point"]]
 
data["latitud"] = latitud 
data["longitud"] = longitud

data.dtypes

geo_point                object
geo_shape                object
consumo_total_mixto     float64
anio                      int64
nomgeo                   object
consumo_prom_dom        float64
consumo_total_dom       float64
alcaldia                 object
colonia                  object
consumo_prom_mixto      float64
consumo_total           float64
consumo_prom            float64
consumo_prom_no_dom     float64
bimestre                  int64
consumo_total_no_dom    float64
gid                       int64
indice_des               object
latitud                 float64
longitud                float64
dtype: object

### Eliminar la columna `geo_point` y `geo_shape`

In [17]:
data.drop(columns = ["geo_point", "geo_shape"], inplace = True)
data.head()

Unnamed: 0,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des,latitud,longitud
0,159.72,2019,Gustavo A. Madero,42.566364,468.23,GUSTAVO A. MADERO,7 DE NOVIEMBRE,53.24,631.0,42.066667,3.05,3,3.05,57250,ALTO,19.45526,-99.112662
1,0.0,2019,Gustavo A. Madero,35.936667,107.81,GUSTAVO A. MADERO,7 DE NOVIEMBRE,0.0,115.13,28.7825,7.32,3,7.32,57253,MEDIO,19.45526,-99.112662
2,0.0,2019,Gustavo A. Madero,24.586,122.93,GUSTAVO A. MADERO,7 DE NOVIEMBRE,0.0,197.96,32.993333,75.03,3,75.03,57255,POPULAR,19.45572,-99.113582
3,0.0,2019,Gustavo A. Madero,0.0,0.0,GUSTAVO A. MADERO,NUEVA TENOCHTITLAN,0.0,253.53,84.51,84.51,3,253.53,57267,BAJO,19.459647,-99.104469
4,56.72,2019,Azcapotzalco,67.43625,539.49,AZCAPOTZALCO,PROHOGAR,56.72,839.35,76.304545,121.57,3,243.14,57330,BAJO,19.474161,-99.14675


### Cambiar a minúsculas las columnas alcaldía, colonia e indice_des.

In [18]:
col_text = ["alcaldia", "colonia", "indice_des"]
standarize_column_strings(data, col_text)
data.head()

Unnamed: 0,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des,latitud,longitud
0,159.72,2019,Gustavo A. Madero,42.566364,468.23,gustavo_a_madero,7_de_noviembre,53.24,631.0,42.066667,3.05,3,3.05,57250,alto,19.45526,-99.112662
1,0.0,2019,Gustavo A. Madero,35.936667,107.81,gustavo_a_madero,7_de_noviembre,0.0,115.13,28.7825,7.32,3,7.32,57253,medio,19.45526,-99.112662
2,0.0,2019,Gustavo A. Madero,24.586,122.93,gustavo_a_madero,7_de_noviembre,0.0,197.96,32.993333,75.03,3,75.03,57255,popular,19.45572,-99.113582
3,0.0,2019,Gustavo A. Madero,0.0,0.0,gustavo_a_madero,nueva_tenochtitlan,0.0,253.53,84.51,84.51,3,253.53,57267,bajo,19.459647,-99.104469
4,56.72,2019,Azcapotzalco,67.43625,539.49,azcapotzalco,prohogar,56.72,839.35,76.304545,121.57,3,243.14,57330,bajo,19.474161,-99.14675


### Efectuar nuevamente el proceso de identificación de variables numéricas, categóricas, texto y fechas

* **Variables numéricas:** 
    * `consumo_total_mixto`
    * `anio` (de nuevo, que puede ser contada como categórica)
    * `consumo_promo_dom`
    * `consumo_total_dom`
    * `consumo_prom_mixto`
    * `consumo_total`
    * `consumo_prom`
    * `consumo_prom_no_dom`
    * `consumo_total_no_dom`
    * `gid`
    * `bimestre` (una vez mas) puede ser o no contada como numérica

* **Variables de fecha:** ninguna. 

* **Variables de texto:** 
    * `latitud` y `longitud` son texto para pandas, aunque en realidad son coordenadas
    * No hay variables que contengan texto a analizar

* **Variables categóricas:** 
    * `nomgeo`
    * `alcaldia`
    * `colonia`
    * `indices_des`
    * `bimestre`

In [19]:
contar_variables_numericas(data)
contar_variables_fecha(data)

Tenemos 13 variables numéricas.
Tenemos 0 variables de fecha.


In [20]:
replace_column_value(data, 'nomgeo', 'Talpan', 'Tlalpan')
data.nomgeo.unique()

array(['Gustavo A. Madero', 'Azcapotzalco', 'Coyoacán', 'Tlalpan',
       'Milpa Alta', 'Álvaro Obregón', 'Cuajimalpa de Morelos', 'Tláhuac',
       'La Magdalena Contreras', 'Xochimilco', 'Iztapalapa', 'Iztacalco',
       'Benito Juárez', 'Miguel Hidalgo', 'Cuauhtémoc',
       'Venustiano Carranza'], dtype=object)

In [21]:
data.nomgeo.nunique()

16

### Genera el data profiling por variable. 

In [22]:
final_profile = generar_data_profiling('Profiling final de consumo de agua', 'reportes/profiling_final.html')

HBox(children=(FloatProgress(value=0.0, description='Summarize dataset', max=31.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Generate report structure', max=1.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Render HTML', max=1.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Export report to file', max=1.0, style=ProgressStyle(desc…




In [23]:
# prueba de funcion de limpieza global
clean_data = clean_data_from(data_path)
clean_data.head()

Unnamed: 0,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des,latitud,longitud
0,159.72,2019,Gustavo A. Madero,42.566364,468.23,gustavo_a_madero,7_de_noviembre,53.24,631.0,42.066667,3.05,3,3.05,57250,alto,19.45526,-99.112662
1,0.0,2019,Gustavo A. Madero,35.936667,107.81,gustavo_a_madero,7_de_noviembre,0.0,115.13,28.7825,7.32,3,7.32,57253,medio,19.45526,-99.112662
2,0.0,2019,Gustavo A. Madero,24.586,122.93,gustavo_a_madero,7_de_noviembre,0.0,197.96,32.993333,75.03,3,75.03,57255,popular,19.45572,-99.113582
3,0.0,2019,Gustavo A. Madero,0.0,0.0,gustavo_a_madero,nueva_tenochtitlan,0.0,253.53,84.51,84.51,3,253.53,57267,bajo,19.459647,-99.104469
4,56.72,2019,Azcapotzalco,67.43625,539.49,azcapotzalco,prohogar,56.72,839.35,76.304545,121.57,3,243.14,57330,bajo,19.474161,-99.14675


## Exposición 2

### Data Profiling

**Datos faltantes y completos**

Con base en los resultados obtenidos del Data Profiling, generamos un cuadro que condense la información sobre las variables que contienen missing values. Podemos observar que estas variables se refieren a algún tipo de consumo, en específico las de consumo mixto y consumo doméstico. 

Dado que el resto de variables tienen información completa para el total de las observaciones, podríamos sospechar que los missing values se expliquen por manzanas donde no existe ese tipo de consumo particular.

In [99]:
mv_df = pd.DataFrame(data=[[1,'consumo_total_mixto',data['consumo_total_mixto'].isna().sum(),round(data['consumo_total_mixto'].isna().sum()/data.shape[0]*100,1)],
                       [2,'consumo_prom_mixto',data['consumo_prom_mixto'].isna().sum(),round(data['consumo_prom_mixto'].isna().sum()/data.shape[0]*100,1)],
                       [3,'consumo_total_dom',data['consumo_total_dom'].isna().sum(),round(data['consumo_total_dom'].isna().sum()/data.shape[0]*100,1)],
                       [4,'consumo_prom_dom',data['consumo_prom_dom'].isna().sum(),round(data['consumo_prom_dom'].isna().sum()/data.shape[0]*100,1)]],
                 columns=['id', 'variable', 'total', 'porcentaje'])
mv_df       

Unnamed: 0,id,variable,total,porcentaje
0,1,consumo_total_mixto,8327,11.7
1,2,consumo_prom_mixto,8327,11.7
2,3,consumo_total_dom,4820,6.8
3,4,consumo_prom_dom,4820,6.8


Recordamos que el consumo total de una manzana se compone de la suma de las tomas de agua de tipo doméstico, no doméstico y mixto.
Esto lo podemos comprobar, y si ambas sumas son iguales, podríamos afirmar que los missing values efectivamente corresponden a manzanas donde no existen tomas de dichas características.

In [100]:
con_tot_comp =round(data['consumo_total_mixto'].sum() + data['consumo_total_dom'].sum() + data['consumo_total_no_dom'].sum(),0)
con_tot = round(data['consumo_total'].sum(),0)
print(con_tot,con_tot_comp)

120578129.0 120578129.0


Y efectivamente vemos que las sumas coinciden y que la diferencia es cero:

In [101]:
con_tot - con_tot_comp

0.0

Grafica

**Comportamiento del consumo bimestral**

No observamos diferencia significativa en el consumo por bimestre (justificar) ...

### Consumo total

Por alcaldía (gráfica de barras ordenada de mayor a menor y descripción breve)

Por índice de desarrollo (boxplot y descripción breve))

Participación de cada tipo de consumo (doméstico, no doméstico y mixto) en el total (puede ser gráf o tabla)

# Consumo promedio

En esta sección analizaremos el consumo promedio de las tres variables observadas para el total: consumo doméstico, no doméstico y mixto. 

### Consumo promedio doméstico por colonia. 

En la siguiente gráfica observamos que hay una variación considerable en el consumo doméstico por colonia. Colonias como Miguel Hidalgo o Álvaro Obregón tienen un nivel de consumo considerablemente mayor al de colonias como Tláhuac o Milpa Alta. 

Se decidió utilizar el promedio de los tres bimestres por fines de claridad y porque el consumo tuvo poca variación de bimestre a bimestre en cada colonia (lo cual se mostrará en la siguiente gráfica). 

![Consumo Promedio Doméstico](plots/consumo_promedio/BARRAS_PROMEDIO_DOMESTICO_V2.png)

El conjunto de datos no presenta unidades, pero el promedio del consumo promedio doméstico por colonia es de 29.29 unidades, con una desviación estándar de 8.65 unidades, un mínimo de 14.8 (Milpa Alta) y un máximo de 43 (Miguel Hidalgo). 

### Consumo promedio no doméstico por colonia

A continuación observamos la misma gráfica para el promedio del consumo no doméstico. 

![Consumo Promedio Doméstico](plots/consumo_promedio/BARRAS_PROMEDIO_NO_DOMESTICO_V2.png)

Es interesante notar que algunas colonias, como Tlalpan o Cuauhtémoc, no son preponderantes en el consumo doméstico pero sí en el no doméstico. Esto es lo que habríamos de esperar, pues xisten zonas residenciales y zonas industriales en el país. 

El promedio del consumo no doméstico es de 129 unidades, más de 4 veces el promedio del consumo doméstico. La varianza es mayor en este caso: con una desviación estándar de 70 unidades, observamos colonias como Tláhuac, que cuenta con tan solo 40 unidades de consumo y colonias como Tlalpan, con 278 unidades de consumo en promedio para los tres bimestres. 

### Consumo promedio mixto por colonia. 

El consumo mixto está definido como aquel que ocurre en zonas donde simultáneamente se usa el agua para consumo doméstico y no doméstico. ¿Cómo se ve la distribución por colonia en en este caso? 

![Consumo Promedio Doméstico](plots/consumo_promedio/BARRAS_PROMEDIO_MIXTO_V2.png)

En este caso, el mínimo es de 16.63 unidades y el máximo de 98.25. El promedio del consumo promedio mixto de agua es de 46 unidades. 

La siguiente tabla, que muestra el ranking de cada colonia en estos tres rubros, nos permite ver que algunas colonias, como Miguel Hidalgo o Cuajimalpa, tienen una actividad importante en estos tres campos, mientras que otras, como Milpa Alta y Tláhuac, tienen un consumo relativamente bajo. Por supuesto, existen otras, como Cuahutémoc o Tlalpan, que tienen un consumo alto en algunas categorías y bajo en otras. 

| Colonia | Ranking Doméstico | Ranking No Doméstico| Ranking Mixto |
| --- | --- | --- | --- |
| Miguel Hidalgo | 1| 2 |  2 |
| Álvaro Obregón | 2| 5 |  5 |
| La Magdalena Contreras | 3| 8 | 11 |
| Cuajimalpa de Morelos | 4| 3 |  3 |
| Azcapotzalco | 5| 7 |  7 |
| Iztacalco| 6| 11 |  8 |
| Venustiano Carranza | 7| 12 |  6 |
| Gustavo A. Madero | 8| 10 |  9 |
| Coyoacán | 9| 6 |  10 |
| Tlalpan | 10| 1 |  12 |
| Cuauhtémoc | 11| 4 |  1 |
| Benito Juárez | 12| 9 |  4 |
| Xochimilco | 13| 14 |  14 |
| Iztapalapa| 14| 13 |  13 |
| Tláhuac | 15| 16 |  15 |
| Milpa Alta | 16| 15 |  16 |

En la siguiente gráfica podemos también resumir la diferencia en distribuciones por estos tres tipos de consumo:

![Consumo Promedio Doméstico](plots/consumo_promedio/COMPARACION_TRIPARTITA.png)

En la siguiente gráfica podemos observar que el consumo promedio, tanto del sector doméstico como del no doméstico, tuvo pocos cambios de bimestre a bimestre. El consumo mixto disminuyó de 67 a 45 unidades del primer al segundo bimestre pero después se mantuvo estable.

![Consumo Promedio Doméstico](plots/consumo_promedio/COMPARACION_TRES_BIM.png)

### Distribución del consumo promedio por índice de desarrollo.

Curiosamente, a pesar de que algunas colonias tienen un consumo mucho mayor que otras, podemos notar que sus distribuciones son relativamente similares, con un medianta cercana a las 28 unidades. Es relevante también mencionar que el sector con índice de desarrollo popular tiene una varianza mayor en su consumo promedio de agua. 

![Consumo Promedio Doméstico](plots/consumo_promedio/Domestico_DES_boxplot.png)

Para el sector no doméstico, las distribuciones varían un poco más. Notamos que el sector con alto índice de desarrollo tiene una mediana notablemente mayor que la de los demás sectores, aunque sigue siendo cierto que el sector popular tiene mayor varianza en su consumo promedio. 

![Consumo Promedio Doméstico](plots/consumo_promedio/NO_Dom_DES_BoxPlot.png)

Finalmente, realizamos el mismo análisis para el consumo mixto.

![Consumo Promedio Doméstico](plots/consumo_promedio/MIXTO_BOXPLOT.png)

### Distribución de las colonias de la CDMX

Por alcaldía (conteo y descripción de qué alcaldía tiene más colonias, etc.)

Por índice de desarrollo (conteo y descripción de colonias según idh)

### Características de los datos para la definición de un modelo

Argumentos: consideramos que información no es suficiente ni completa para predecir un modelo correcto. Nos gustaría contar con información adicional como número de tomas (para controlar), tarifa promedio, entre otros...

Variables que nos servirían para predecir idh: consumo promedio, tipo de consumo y su proporción, ubicación (alcaldía).