# EDA (Exploratory Data Analaysis) para llamadas al 123 Julio de 2022

In [1]:
# importar librerias para manipulacion de datos
import numpy  as np
import pandas as pd

# importar librerias para visualizacion
import matplotlib.pyplot as plt


# importar librerias internas del sistema
import os
from pathlib import Path

Matplotlib is building the font cache; this may take a moment.


In [2]:
# Ruta de los archivos de datos

current_dir = Path(".").resolve()
project_dir = Path(current_dir).parent

print("Directorio actual   ", current_dir)
print("Directorio principal", project_dir)


Directorio actual    C:\Users\usuario\Desktop\DATOS BIGDATA\DATOS BIGDATA\notebooks
Directorio principal C:\Users\usuario\Desktop\DATOS BIGDATA\DATOS BIGDATA


In [3]:
# Obtener la ruta donde leer los archivos de datos
filename = "llamadas123_julio_2022.csv"
dir_data = os.path.join(project_dir, "data", "raw")


print(filename, type(filename))
print(dir_data, type(dir_data))

llamadas123_julio_2022.csv <class 'str'>
C:\Users\usuario\Desktop\DATOS BIGDATA\DATOS BIGDATA\data\raw <class 'str'>


In [4]:
# Leer archivo de datos con extension CSV
data = pd.read_csv(
    os.path.join(dir_data , filename),
    sep = ';',
    encoding = 'latin-1'
)

data.head()


Unnamed: 0,NUMERO_INCIDENTE,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,CODIGO_LOCALIDAD,LOCALIDAD,EDAD,UNIDAD,GENERO,RED,TIPO_INCIDENTE,PRIORIDAD,RECEPCION
0,CRU-00278353-22,1/07/2022 0:08,11,Suba,88,A¤os,FEMENINO,Norte,Accidente Cerebro Vascular,ALTA,1/07/2022 3:40
1,CRU-00278360-22,1/07/2022 0:14,11,Suba,16,A¤os,MASCULINO,Norte,Herido,ALTA,1/07/2022 3:38
2,CRU-00278365-22,1/07/2022 0:21,18,Rafael Uribe Uribe,52,A¤os,FEMENINO,Centro Oriente,Evento Respiratorio,CRITICA,1/07/2022 4:08
3,CRU-00278370-22,1/07/2022 0:38,19,Ciudad Bol¡var,SIN_DATO,SIN_DATO,SIN_DATO,Privada,Herido,ALTA,0000-00-00 00:00:00
4,CRU-00278372-22,1/07/2022 0:53,1,Usaqun,33,A¤os,MASCULINO,Norte,Intento de Suicidio,ALTA,1/07/2022 3:25


In [5]:
# Tipos de datos

data.dtypes     # Muestra el tipo de variable por cada columna  (esquema de la tabla)

NUMERO_INCIDENTE                     object
FECHA_INICIO_DESPLAZAMIENTO_MOVIL    object
CODIGO_LOCALIDAD                      int64
LOCALIDAD                            object
EDAD                                 object
UNIDAD                               object
GENERO                               object
RED                                  object
TIPO_INCIDENTE                       object
PRIORIDAD                            object
RECEPCION                            object
dtype: object

se observan algunas inconsistencias en el tipo de datos, con respecto a su naturaleza
* Edad es una variable numerica no string
* Recepcion y fecha inicio desplazamiento movil son fechas, no strings

## Estructuras de  Datos
* Listas
* Dictionarios

### Listas

In [6]:
list(data.columns)     # Listas en python son una estructura de datos, utiles para hacer iteraciones

['NUMERO_INCIDENTE',
 'FECHA_INICIO_DESPLAZAMIENTO_MOVIL',
 'CODIGO_LOCALIDAD',
 'LOCALIDAD',
 'EDAD',
 'UNIDAD',
 'GENERO',
 'RED',
 'TIPO_INCIDENTE',
 'PRIORIDAD',
 'RECEPCION']

In [7]:
lista_columnas = list(data.columns)

columnas[-1]    # Muestra el contenido de la lista en la posicion (index) indicada

NameError: name 'columnas' is not defined

In [None]:
lista_columnas[3:6]    # sliders, perfimenten "navegar" sobre los indices de una lista

['LOCALIDAD', 'EDAD', 'UNIDAD']

In [None]:
print("Cuantas columnas hay?", len(lista_columnas))    # la funcion len() indica el tamano de una lista

Cuantas columnas hay? 11


In [None]:
# Iterar sobre una lista

# Cuantos valores unicos hay cada columna?
for elem in lista_columnas:
    print(elem, len(data[elem].unique()) )

NUMERO_INCIDENTE 12015
FECHA_INICIO_DESPLAZAMIENTO_MOVIL 12781
CODIGO_LOCALIDAD 20
LOCALIDAD 20
EDAD 100
UNIDAD 6
GENERO 3
RED 5
TIPO_INCIDENTE 21
PRIORIDAD 4
RECEPCION 5235


In [None]:
# Creemos una tabla con el resumen de valores unicos por columna

# crear un dictionario vacio
dict_valores = dict()

# loop para llenar el dictionario
# {
#   "NUMERO_INCIDENTE" : 12015,
#   ...
#   "EDAD" : 100
# }
for elem in lista_columnas:
    dict_valores[elem] = len(data[elem].unique())

# Crea una tabla (pandas.dataframe) desde un dictionario
df_sum = pd.DataFrame.from_dict(dict_valores, orient="index")
df_sum = df_sum.rename({0:"Count"}, axis=1)                    # renombra la columna 0 con Count
df_sum

Unnamed: 0,Count
NUMERO_INCIDENTE,12015
FECHA_INICIO_DESPLAZAMIENTO_MOVIL,12781
CODIGO_LOCALIDAD,20
LOCALIDAD,20
EDAD,100
UNIDAD,6
GENERO,3
RED,5
TIPO_INCIDENTE,21
PRIORIDAD,4


In [None]:
## Ejercicio, Crear un script de python (main.py) que lea el archivo de llamadas al 123 
# y genere una tabla de reporte de la cantidad de valores unicos, 
# guarde la tabla en resultante en el directorio data/processed