In [2]:
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

In [3]:
df_hist = pl.read_csv('../DATASETS/reportes_agua_hist.csv')

# Exploracion de los datos

In [4]:
df_hist.head()

folio,tipo_de_falla,quien_atiende,latitud,longitud,codigo_postal,fecha,colonia_registro_sacmex,colonia_datos_abiertos,alcaldia
str,str,str,f64,f64,str,str,str,str,str
"""20210405-0030""","""Falta de agua""","""Poniente""",19.378935,-99.191926,"""1420""","""2021-04-05""","""Alfonso XIII""","""SANTA MARIA NONOALCO""","""ALVARO OBREGON"""
"""20210428-0107""","""Falta de agua""","""Poniente""",19.342617,-99.218876,"""1780""","""2021-04-28""","""Olivar de los Padres""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""
"""20210428-0184""","""Falta de agua""","""Poniente""",19.342893,-99.218,"""NA""","""2021-04-28""","""Lomas de los Ángeles Tetelpan""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""
"""20210429-0075""","""Falta de agua""","""Poniente""",19.342617,-99.218876,"""1780""","""2021-04-29""","""Olivar de los Padres""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""
"""20210429-0157""","""Falta de agua""","""Poniente""",19.342831,-99.217981,"""1780""","""2021-04-29""","""Lomas de los Ángeles Tetelpan""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""


In [5]:
print(df_hist.columns)
print(df_hist.dtypes)

['folio', 'tipo_de_falla', 'quien_atiende', 'latitud', 'longitud', 'codigo_postal', 'fecha', 'colonia_registro_sacmex', 'colonia_datos_abiertos', 'alcaldia']
[String, String, String, Float64, Float64, String, String, String, String, String]


In [6]:
# Parse/Cast de los datos al tipo de dato correcto
df_hist2 = df_hist.select(
    pl.col("folio").cast(pl.Utf8),
    pl.col("tipo_de_falla").cast(pl.Utf8),
    pl.col("quien_atiende").cast(pl.Utf8),
    pl.col("latitud").cast(pl.Float64),
    pl.col("longitud").cast(pl.Float64),
    pl.col("codigo_postal").cast(pl.Int16, strict=False),
    pl.col("fecha").str.to_date(),
    pl.col("colonia_registro_sacmex").cast(pl.Utf8),
    pl.col("colonia_datos_abiertos").cast(pl.Utf8),
    pl.col("alcaldia").cast(pl.Utf8)
)
df_hist2.head()

folio,tipo_de_falla,quien_atiende,latitud,longitud,codigo_postal,fecha,colonia_registro_sacmex,colonia_datos_abiertos,alcaldia
str,str,str,f64,f64,i16,date,str,str,str
"""20210405-0030""","""Falta de agua""","""Poniente""",19.378935,-99.191926,1420.0,2021-04-05,"""Alfonso XIII""","""SANTA MARIA NONOALCO""","""ALVARO OBREGON"""
"""20210428-0107""","""Falta de agua""","""Poniente""",19.342617,-99.218876,1780.0,2021-04-28,"""Olivar de los Padres""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""
"""20210428-0184""","""Falta de agua""","""Poniente""",19.342893,-99.218,,2021-04-28,"""Lomas de los Ángeles Tetelpan""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""
"""20210429-0075""","""Falta de agua""","""Poniente""",19.342617,-99.218876,1780.0,2021-04-29,"""Olivar de los Padres""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""
"""20210429-0157""","""Falta de agua""","""Poniente""",19.342831,-99.217981,1780.0,2021-04-29,"""Lomas de los Ángeles Tetelpan""","""LOMAS DE LOS ANGELES TETELPAN""","""ALVARO OBREGON"""


In [7]:
df_hist2.null_count()

folio,tipo_de_falla,quien_atiende,latitud,longitud,codigo_postal,fecha,colonia_registro_sacmex,colonia_datos_abiertos,alcaldia
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,16494,0,0,0,0


In [8]:
df_hist2.select((pl.col('codigo_postal').null_count()/df_hist2.shape[0] * 100).round(2))

codigo_postal
f64
6.48


> Podemos elegir eliminar esos registros o llenarlos con un valor default. Ya que nos interesa más los otros datos.

In [9]:
# tipos de falla
df_hist2['tipo_de_falla'].unique()

tipo_de_falla
str
"""NA"""
"""Falta de agua"""
"""Fuga"""
"""Mala calidad"""


In [10]:
df_hist2['fecha'].dt.year().value_counts()

fecha,count
i32,u32
2019,69378
2020,33559
2021,83994
2018,67799


In [11]:
df_hist2.select(
    pl.col('fecha').dt.year(),
    pl.col('tipo_de_falla')
).filter(
    pl.col('tipo_de_falla') == 'Fuga'
).group_by('fecha').agg(pl.col('tipo_de_falla').count())

fecha,tipo_de_falla
i32,u32
2021,33018


In [12]:
df_hist2['tipo_de_falla'].value_counts()

tipo_de_falla,count
str,u32
"""NA""",5
"""Fuga""",33018
"""Mala calidad""",843
"""Falta de agua""",220864


In [13]:
# Quitamos los que son NA
df_hist2 = df_hist2.filter(pl.col('tipo_de_falla') != 'NA')
df_hist2['tipo_de_falla'].value_counts()

tipo_de_falla,count
str,u32
"""Mala calidad""",843
"""Fuga""",33018
"""Falta de agua""",220864


In [14]:
# Solo los casos de Fugas
df_fugas_hist = df_hist2.filter(pl.col('tipo_de_falla') == 'Fuga')
df_fugas_hist.head()

folio,tipo_de_falla,quien_atiende,latitud,longitud,codigo_postal,fecha,colonia_registro_sacmex,colonia_datos_abiertos,alcaldia
str,str,str,f64,f64,i16,date,str,str,str
"""20210107-0129""","""Fuga""","""Tláhuac""",19.310192,-99.047786,,2021-01-07,"""Ciudad de México""","""LAS ARBOLEDAS""","""TLAHUAC"""
"""20210101-0008""","""Fuga""","""Iztapalapa""",19.370615,-99.030413,9239.0,2021-01-01,"""Ciudad de México""","""EJERCITO DE ORIENTE (U HAB) I""","""IZTAPALAPA"""
"""20210101-0020""","""Fuga""","""Álvaro Obregón""",19.375857,-99.233819,,2021-01-01,"""Ciudad de México""","""2DA JALALPA TEPITO (AMPL)""","""ALVARO OBREGON"""
"""20210101-0048""","""Fuga""","""Álvaro Obregón""",19.388433,-99.20185,1150.0,2021-01-01,"""Colonia Cristo Rey""","""CRISTO REY""","""ALVARO OBREGON"""
"""20210101-0049""","""Fuga""","""Azcapotzalco""",19.473759,-99.176527,2060.0,2021-01-01,"""Un Hogar Para Cada Trabajador""","""UN HOGAR PARA CADA TRABAJADOR""","""AZCAPOTZALCO"""


In [15]:
df_fugas_hist['fecha'].dt.year().unique()

fecha
i32
2021


In [16]:
# Fugas por año
df_fugas_hist.group_by([pl.col('fecha').dt.year(), 'alcaldia']).agg(pl.col('tipo_de_falla').count())

fecha,alcaldia,tipo_de_falla
i32,str,u32
2021,"""TLAHUAC""",974
2021,"""CUAJIMALPA DE MORELOS""",531
2021,"""MILPA ALTA""",210
2021,"""GUSTAVO A. MADERO""",5153
2021,"""COYOACAN""",4795
…,…,…
2021,"""IZTACALCO""",655
2021,"""TLALPAN""",3502
2021,"""MIGUEL HIDALGO""",1502
2021,"""XOCHIMILCO""",1839


In [17]:
df_fugas_hist \
    .group_by([pl.col('fecha').dt.year(), 'quien_atiende']) \
    .agg(total_fugas=(pl.col('tipo_de_falla').count())) \
    .sort(by='total_fugas', descending=True)

fecha,quien_atiende,total_fugas
i32,str,u32
2021,"""Coyoacán""",4224
2021,"""Álvaro Obregón""",3835
2021,"""Gustavo A. Madero""",3078
2021,"""Tlalpan""",2698
2021,"""Iztapalapa""",2258
…,…,…
2021,"""Oriente Santa Catarina""",351
2021,"""NA""",51
2021,"""Cuajimalpa de Morelos""",7
2021,"""Cuauhtémoc""",1


In [18]:
df_fugas_hist.write_parquet('../DATASETS/fugas_2021.parquet', compression='gzip')