# Desafío de Data Wrangling

## Llamados telefónicos al 147 - Atención al vecino

Para este desafío utilizo un dataset provisto por la ciudad de Pergamino, Buenos Aires, Argentina (donde resido). El dataset es el listado de llamados telefónicos al número 147, que resulta de la actividad del proyecto, como lo describe el Municipio en su página:

    Atención al Vecino 147 es la linea gratuita de reclamos municipales donde se recepcionan todos los reclamos hacia las áreas municipales que realizan los vecinos de la ciudad.

    Los reclamos son registrados mediante un número de reclamo y derivados inmediatamente a las áreas que correspondan por medio de un sistema que se trabaja conjuntamente con las diferentes áreas.

    El objetivo es brindar una buena atención para que se sientan escuchados y luego que su reclamo sea solucionado lo mas pronto posible por esto se trabaja conjuntamente con todas las áreas del municipio.

La información se utilizará para entender cuáles son las principales preocupaciones de los habitantes, cuáles son los problemas más recurrentes, en qué zonas de la ciudad, detectar oportunidades de aplicar políticas de prevención y/o reforzar las áreas correspondientes.

In [1]:
import pandas as pd

llamados = pd.read_csv("https://raw.githubusercontent.com/JuanPabloVeliz/Coder-DS/main/Dataset/Llamados147.csv", sep=";")

In [2]:
llamados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23609 entries, 0 to 23608
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   fecha                       23609 non-null  object
 1   mes                         23609 non-null  int64 
 2   reclamo                     23609 non-null  int64 
 3   titulo                      23609 non-null  object
 4   situacion                   23609 non-null  object
 5   area                        23609 non-null  object
 6   barrio                      21965 non-null  object
 7   cantidad_llamados_por_caso  23609 non-null  int64 
dtypes: int64(3), object(5)
memory usage: 1.4+ MB


En la información del dataset se nota que la columna fecha, tiene un tipo incorrecto, y que sólo hay datos ausentes en la columna "barrio".

In [3]:
llamados.duplicated().value_counts()

False    23609
dtype: int64

No existen valores duplicados.

In [4]:
llamados.head()

Unnamed: 0,fecha,mes,reclamo,titulo,situacion,area,barrio,cantidad_llamados_por_caso
0,04/02/2019,2,188,SEMAFORO,SEMASFORO FALTAN LAS LUCES,ELECTROMECANICA,VILLA SAN JOSE,1
1,04/02/2019,2,187,AGUA,ROTURA DE CAÑO ROTO EN LA CALLE,OBRAS Y SERVICIOS SANITARIOS,VILLA PROGRESO,1
2,04/02/2019,2,186,RESIDUOS,RESIDUOS DOMICILIARIO NO PASO EL CAMION,HIGIENE URBANA,,1
3,04/02/2019,2,185,INSPECTOR URBANO,TERRENO BALDIO CON BASURA O MALEZAS,CONTRALOR URBANO,VILLA GRAL. SAN MARTIN,1
4,04/02/2019,2,181,RESIDUOS,RESIDUOS VOLUMINOSOS: RESTOS VERDES,HIGIENE URBANA,,2


In [5]:
# Se cambia el dtype de la columna fecha a datetime para poder trabajar con series de tiempo correctamente
llamados["fecha"] = pd.to_datetime(llamados["fecha"], format="%d/%m/%Y")

# Se elimina la columna "mes" por ser redundante, el dato se puede obtener de la columna "fecha"
llamados.drop(columns=["mes"], inplace=True)

# La única columna que tiene datos ausentes es "barrio", se eliminan las filas completas porque
# es un dato esencial sin el cual el resto de las columnas carecen de sentido para el tipo de 
# analisis que se intenta hacer
llamados.dropna(inplace=True)

llamados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21965 entries, 0 to 23608
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   fecha                       21965 non-null  datetime64[ns]
 1   reclamo                     21965 non-null  int64         
 2   titulo                      21965 non-null  object        
 3   situacion                   21965 non-null  object        
 4   area                        21965 non-null  object        
 5   barrio                      21965 non-null  object        
 6   cantidad_llamados_por_caso  21965 non-null  int64         
dtypes: datetime64[ns](1), int64(2), object(4)
memory usage: 1.3+ MB


Hechas las correcciones y ajustes necesarios, el dataset está listo para ser utilizado en el análisis posterior.