##  Proyecto 1:
### *Data Profiling* y Mapas:

**Cargando librerías:**

In [149]:
#%load_ext pycodestyle_magic
#%pycodestyle_on

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import datetime
import numpy as np
import folium
from matplotlib.ticker import FuncFormatter

In [3]:
#define categorical, numerical and date columns
CAT_COLS = ["dia_semana", "codigo_cierre", "año_cierre", "mes_cierre", "mes", "delegacion_inicio", 
            "incidente_c4", "clas_con_f_alarma", "tipo_entrada", "delegacion_cierre", "hora_creacion",
           "hora_cierre"]

DATE_COLS = ["fecha_creacion", "fecha_cierre"]

NUM_COLS = ["latitud", "longitud"]

In [4]:
#esto irá en el script ingestion .py
def ingest_file(file_name):
    """
    Function to retrieve and return the accidents dataset.
    Parameters:
    -----------
    file_name: str
               Path to the file.
    Returns:
    --------
    df: pandas dataframe
    """
    df = pd.read_csv(file_name)
    return df

#No estoy eliminando la columna folio, para analizar las fechas.

def drop_cols(df):
    """
    Function to drop unnnecesary columns in the dataset.
    """
    df.drop(columns = ['geopoint', 'mes', 'mes_cierre', 'hora_cierre', 'año_cierre'], inplace = True)
    return df



def fill_na(df):
    """
    Function to fill null values in a dataframe.
    """
    #aquí podemos ir agregando más cosas cuando descubramos 
    #cómo imputar valores faltantes para latitud y longitud
    df.fillna({
        'delegacion_inicio': 'No Disponible',
        'delegacion_cierre': 'No Disponible'
              }, inplace = True)
    return df


def categoric_transformation(col,df):
    df[col] = df[col].astype("category")
    return df 

def create_categorical(cols, df):
    """
    Function to transform and prepare the categorical features in the dataset.
    """
    #transform to appropriate data type
    for col in cols: 
        df = categoric_transformation(col, df)
     
    return df


def date_transformation(col,df):
    """
    Function to prepare and transform date-type columns. 
    """
    df[col] = pd.to_datetime(df[col])
    return df

def create_date_cols(cols, df):
    for col in cols:
        df = date_transformation(col, df)
    return df 



def generate_label(df):
    """
    Function to create a new column indicating whether there was
    a false alarm or not. 
    Parameters:
    -----------
    df: pandas dataframe
    
    Returns:
    --------
    df: pandas dataframe
    """
    #transformamos la columna para solo quedarnos con la letra del código
    df["codigo_cierre"] = df["codigo_cierre"].apply(lambda x: x[1])
    df['label'] = np.where(
        (df.codigo_cierre == 'F') | (df.codigo_cierre == 'N'), 1, 0)
    return df 


def clean_hora_creacion(df):
    """
    Function to transform hours with incorrect format to timedelta format. 
    """
    horas_raw = df.hora_creacion.values.tolist()
    horas_clean = [datetime.timedelta(days=float(e)) if e.startswith("0.") else e for e in horas_raw]
    df["hora_creacion"] = horas_clean
    return df 


def create_simple_hour(df):
    """
    Function to extract the hour from the column "hora_creacion"
    Parameters:
    -----------
    df: pandas dataframe
    
    Returns:
    ---------
    df: pandas dataframe with a new column indicating the hour. 
    """
    #la función se podria adaptar para devolver minuto o segundo pero no lo considero necesario
    pattern = '\d+' #encuentra uno o más dígitos
    horas_raw = df.hora_creacion.astype(str).values #son así: '22:35:04', '22:50:49', '09:40:11'
    n = len(horas_raw)
    horas_clean = [0]*n #es más rápido reasignar valores que hacer .append()
    for i in range(n):
        hora_raw = horas_raw[i]
        hora_clean = re.match(pattern, hora_raw)[0] #solo queremos la hora, esto devuelve un objeto
        horas_clean[i] = hora_clean
    
    df["hora_simple"] = horas_clean
    return df 


def add_date_columns(df):
    """
    Esta función es muy importante puesto que nos ayudará a crear el mes, día y año de creación
    del registro. De esta manera podemos prescindir de las fechas de cierre, que no tendríamos en tiempo
    real en un modelo. 
    Parameters:
    -----------
    df: pandas dataframe
    
    Returns:
    ---------
    df: pandas dataframe with 4 new columns
    """
    mapping_meses = {1: "Enero", 2: "Febrero", 3: "Marzo", 4: "Abril", 5: "Mayo",
                       6: "Junio", 7: "Julio", 8: "Agosto", 9: "Septiembre", 10: "Octubre",
                       11: "Noviembre", 12: "Diciembre"}
    
    
    df["año_creacion"] = df.fecha_creacion.dt.year
    df["mes_creacion"] = df.fecha_creacion.dt.month
    df["dia_creacion"] = df.fecha_creacion.dt.day
    df["mes_creacion_str"] = df.mes_creacion.map(mapping_meses)
    df["año_creacion"] = df["año_creacion"].astype(str)
    return df 


def create_time_blocks(df):
    """
    Function to group the hour of the day into 3-hour blocks.
    Parameters:
    -----------
    df: pandas dataframe
    
    Returns:
    ---------
    df: pandas dataframe with a new column indicating the time-block.
    """
    horas_int = set(df.hora_simple.astype(int).values) #estaba como categórico
    f = lambda x: 12 if x == 0 else x
    mapping_hours = {}
    for hora in horas_int:
        grupo = (hora // 3) * 3
        if grupo < 12: 
            nombre_grupo = str(f(grupo)) + "-" + str(grupo + 2) + " a.m."
        else:
            hora_tarde = grupo % 12
            nombre_grupo = str(f(hora_tarde)) + "-" + str(hora_tarde + 2) + " p.m."
        mapping_hours[hora] = nombre_grupo
    
    df["espacio_del_dia"] = df["hora_simple"].astype(int).map(mapping_hours)
    return df
    

    

    
def basic_preprocessing(path):
    """
    Function to summarize all the preprocessing done to the data.
    Parameters:
    -----------
    path: str
          Path to your file
    
    Returns:
    ---------
    df: pandas dataframe
    """
    df = ingest_file(path) 
    df = generate_label(df)
    df = fill_na(df) 
    df = clean_hora_creacion(df)
    df = create_categorical(CAT_COLS, df) #transform to appropriate data types
    df = create_date_cols(DATE_COLS, df)
    df = add_date_columns(df)
    df = create_simple_hour(df)
    df = create_time_blocks(df)
    df = drop_cols(df)
    
    return df

**Cargando archivo y haciendo pre-procesamiento:**

In [5]:
data = basic_preprocessing('/Users/Leo/Documents/MCD/1o/IDS/Proyectos/proyecto1/datos/incidentes-viales-c5.csv')
data.head()

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,label,año_creacion,mes_creacion,dia_creacion,mes_creacion_str,hora_simple,espacio_del_dia
0,GA/160123/05714,2016-01-23,22:35:04,Sábado,A,2016-01-24,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.422113,-99.084643,EMERGENCIA,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,0,2016,1,23,Enero,22,9-11 p.m.
1,AO/160123/05826,2016-01-23,22:50:49,Sábado,A,2016-01-24,CUAJIMALPA,accidente-choque con lesionados,19.35832,-99.297641,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,CUAJIMALPA,0,2016,1,23,Enero,22,9-11 p.m.
2,C4/160124/02187,2016-01-24,09:40:11,Domingo,N,2016-01-24,TLALPAN,accidente-choque sin lesionados,19.21707,-99.21907,EMERGENCIA,LLAMADA DEL 066,TLALPAN,1,2016,1,24,Enero,9,9-11 a.m.
3,C4/160124/05723,2016-01-24,22:40:57,Domingo,N,2016-01-24,MAGDALENA CONTRERAS,accidente-choque sin lesionados,19.32058,-99.24101,EMERGENCIA,LLAMADA DEL 066,MAGDALENA CONTRERAS,1,2016,1,24,Enero,22,9-11 p.m.
4,C4/160124/01334,2016-01-24,04:25:15,Domingo,A,2016-01-24,MIGUEL HIDALGO,accidente-choque sin lesionados,19.4529,-99.21587,EMERGENCIA,LLAMADA DEL 066,MIGUEL HIDALGO,0,2016,1,24,Enero,4,3-5 a.m.


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1383138 entries, 0 to 1383137
Data columns (total 20 columns):
 #   Column             Non-Null Count    Dtype         
---  ------             --------------    -----         
 0   folio              1383138 non-null  object        
 1   fecha_creacion     1383138 non-null  datetime64[ns]
 2   hora_creacion      1383138 non-null  category      
 3   dia_semana         1383138 non-null  category      
 4   codigo_cierre      1383138 non-null  category      
 5   fecha_cierre       1383138 non-null  datetime64[ns]
 6   delegacion_inicio  1383138 non-null  category      
 7   incidente_c4       1383138 non-null  category      
 8   latitud            1382695 non-null  float64       
 9   longitud           1382703 non-null  float64       
 10  clas_con_f_alarma  1383138 non-null  category      
 11  tipo_entrada       1383138 non-null  category      
 12  delegacion_cierre  1383138 non-null  category      
 13  label              1383138 

## Cambiando a categóricas las variables necesarias:

In [106]:
for col in ["año_creacion", "mes_creacion", "dia_creacion", "mes_creacion_str", "hora_simple", "espacio_del_dia"]:
    data[col] = data[col].astype("category")

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1383138 entries, 0 to 1383137
Data columns (total 20 columns):
 #   Column             Non-Null Count    Dtype         
---  ------             --------------    -----         
 0   folio              1383138 non-null  object        
 1   fecha_creacion     1383138 non-null  datetime64[ns]
 2   hora_creacion      1383138 non-null  category      
 3   dia_semana         1383138 non-null  category      
 4   codigo_cierre      1383138 non-null  category      
 5   fecha_cierre       1383138 non-null  datetime64[ns]
 6   delegacion_inicio  1383138 non-null  category      
 7   incidente_c4       1383138 non-null  category      
 8   latitud            1382695 non-null  float64       
 9   longitud           1382703 non-null  float64       
 10  clas_con_f_alarma  1383138 non-null  category      
 11  tipo_entrada       1383138 non-null  category      
 12  delegacion_cierre  1383138 non-null  category      
 13  label              1383138 

### Tablas de *data profiling*:

El *data profiling* se realizará sobre la información final, sobre la que estaremos trabajando durante el resto del proyecto.

**Nota:**  Éste *data profiling* se realiza sobre la totalidad de las llamadas, con etiqueta `0` y etiqueta `1`.  El desglose más detallado por etiquetas se aprecia con mayor claridad en el **GEDA**.

In [9]:
# Definiendo columnas numéricas:
number_variables = data.select_dtypes(include = 'int64').columns.values
(len(number_variables), number_variables)

(1, array(['label'], dtype=object))

In [10]:
# Definiendo columnas categóricas:
category_variables = data.select_dtypes(include = 'category').columns.values
(len(category_variables), category_variables)

(14,
 array(['hora_creacion', 'dia_semana', 'codigo_cierre',
        'delegacion_inicio', 'incidente_c4', 'clas_con_f_alarma',
        'tipo_entrada', 'delegacion_cierre', 'año_creacion',
        'mes_creacion', 'dia_creacion', 'mes_creacion_str', 'hora_simple',
        'espacio_del_dia'], dtype=object))

In [11]:
# Definiendo columnas de fecha:
date_variables = data.select_dtypes(include = 'datetime').columns.values
(len(date_variables), date_variables)

(2, array(['fecha_creacion', 'fecha_cierre'], dtype=object))

In [12]:
# Definiendo columnas geoespaciales:
geospace_variables = data.select_dtypes(include = 'float64').columns.values
(len(geospace_variables), geospace_variables)

(2, array(['latitud', 'longitud'], dtype=object))

In [13]:
# Verificando si tenemos todas las columnas:
if (sum([len(number_variables), len(category_variables), 
      len(date_variables), len(geospace_variables)]) == data.shape[1]): 
    print('OK')
else:
    print('Columns missing')

Columns missing


**Falta considerar la columna de `folio`, está presente para análisis de fechas**

***Data profiling* de variables numéricas:**

In [16]:
def get_repeated_values(df, col, top):
    top_5 = df.groupby([col])[col]\
                    .count()\
                    .sort_values(ascending = False)\
                    .head(3)
    indexes_top_5 = top_5.index
    
    if ((top == 1) and (len(indexes_top_5) > 0)):
        return indexes_top_5[0]
    elif ((top == 2) and (len(indexes_top_5) > 1)):
        return indexes_top_5[1]
    elif ((top == 3) and (len(indexes_top_5) > 2)):
        return indexes_top_5[2]
    else: 
        return 'undefined'

In [17]:
def numeric_profiling(df, col):
    """
    Profiling for numeric columns. 
    
    :param: column to analyze
    :return: dictionary
    """
    profiling = {}

    profiling.update({'max': df[col].max(),
                     'min': df[col].min(),
                     'mean': df[col].mean(),
                     'stdv': df[col].std(),
                     '25%': df[col].quantile(.25),
                     'median': df[col].median(),
                     '75%': df[col].quantile(.75),
                     'kurtosis': df[col].kurt(),
                     'skewness': df[col].skew(),
                     'uniques': df[col].nunique(),
                     'prop_missings': df[col].isna().sum()/df.shape[0]*100,
                     'top1_repeated': get_repeated_values(df, col, 1),
                     'top2_repeated': get_repeated_values(df, col, 2),})
    
    return profiling

In [18]:
profiling_dict = {}

numeric_profiling_output = {elem: numeric_profiling(data, elem)\
                            for elem in number_variables}

In [19]:
df_numeric_profiling = pd.DataFrame(numeric_profiling_output).reset_index()
df_numeric_profiling.rename(columns={'index': 'metric'}, inplace=True)
df_numeric_profiling

Unnamed: 0,metric,label
0,25%,0.0
1,75%,0.0
2,kurtosis,0.15593
3,max,1.0
4,mean,0.204103
5,median,0.0
6,min,0.0
7,prop_missings,0.0
8,skewness,1.468308
9,stdv,0.403045


**Puntos más relevantes:**
1.  La única variable numérica con la que estaremos trabajando es **`label`**.  Esta etiqueta tiene un valor de `1` cuando el código de cierre es `(F)`o `(N)` (la llamada es falsa), y `0` para cualquier otro caso (la llamada es verdadera).
2.  Se tiene un 20.41% de llamadas falsas (etiqueta `1`). 
3.  Se generaron etiquetas al 100% de los datos.

***Data profiling* de variables categóricas:**

In [130]:
def category_profiling(df, col):
    """
    Profiling for categoric columns. 
    
    :param: column to analyze
    :return: dictionary
    """
    profiling = {}

    profiling.update({'num_categories': df[col].nunique(),
                     'missings': df[col].isna().sum()/df[col].size*100,
                     'top1_repeated': get_repeated_values(df, col, 1),
                     'top2_repeated': get_repeated_values(df, col, 2),
                     'top3_repeated': get_repeated_values(df, col, 3)})
    
    return profiling

In [131]:
category_profiling_output = {elem: category_profiling(data, elem)\
                             for elem in category_variables}

category_profiling_output
df_category_profiling = pd.DataFrame(category_profiling_output).reset_index()
df_category_profiling.rename(columns={'index': 'metric'}, inplace=True)
df_category_profiling

Unnamed: 0,metric,hora_creacion,dia_semana,codigo_cierre,delegacion_inicio,incidente_c4,clas_con_f_alarma,tipo_entrada,delegacion_cierre,año_creacion,mes_creacion,dia_creacion,mes_creacion_str,hora_simple,espacio_del_dia
0,num_categories,105887,7,5,17,26,4,9,17,8,12.0,31.0,12,34,8
1,missings,0,0,0,0,0,0,0,0,0,0.0,0.0,0,0,0
2,top1_repeated,20:44:00,Viernes,A,IZTAPALAPA,accidente-choque sin lesionados,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,2018,10.0,12.0,Octubre,19,6-8 p.m.
3,top2_repeated,19:16:00,Sábado,D,GUSTAVO A. MADERO,accidente-choque con lesionados,URGENCIAS MEDICAS,LLAMADA DEL 066,GUSTAVO A. MADERO,2019,8.0,10.0,Agosto,20,3-5 p.m.
4,top3_repeated,18:38:00,Jueves,N,CUAUHTEMOC,lesionado-atropellado,FALSA ALARMA,BOTÓN DE AUXILIO,CUAUHTEMOC,2017,9.0,3.0,Septiembre,18,9-11 p.m.


**Puntos más relevantes:**

1.  No se cuenta con registros faltantes en las columnas categóricas.
2.  La delegación con más llamadas registradas es Iztapalapa, y el tipo de entrada más común es la "Llamada del 911".
3.  En cuanto a temporalidad, el mes con más registros es Octubre, el día de la semana con más registros es el Viernes, y el espacio del día con más registros es de 6 a 8pm.  

***Data profiling* de variables de fecha:**

In [22]:
def date_profiling(df, col):
    """
    Profiling for date columns. 
    
    :param: column to analyze
    :return: dictionary
    """
    profiling = {}

    profiling.update({'mode': df[col].mode().values,
                     'num_dates': df[col].nunique(),
                     'max': df[col].max(),
                     'min': df[col].min(),
                     'mean': df[col].mean(),
                     'uniques': df[col].nunique(),
                     'missings': df[col].isna().sum()/df[col].size*100,
                     'top1_repeated': get_repeated_values(df, col, 1),
                     'top2_repeated': get_repeated_values(df, col, 2),
                     'top3_repeated': get_repeated_values(df, col, 3)})
    
    return profiling

In [23]:
date_profiling_output = {elem: date_profiling(data, elem)\
                             for elem in date_variables}

In [24]:
date_profiling_output
df_date_profiling = pd.DataFrame(date_profiling_output).reset_index()
df_date_profiling.rename(columns={'index': 'metric'}, inplace=True)
df_date_profiling

Unnamed: 0,metric,fecha_creacion,fecha_cierre
0,mode,[2020-02-14T00:00:00.000000000],[2020-02-14T00:00:00.000000000]
1,num_dates,2497,2496
2,max,2020-12-10 00:00:00,2020-12-10 00:00:00
3,min,2013-12-31 00:00:00,2014-01-01 00:00:00
4,mean,2017-07-11 08:51:05.550942976,2017-07-11 09:28:01.742819840
5,uniques,2497,2496
6,missings,0,0
7,top1_repeated,2020-02-14 00:00:00,2020-02-14 00:00:00
8,top2_repeated,2018-10-26 00:00:00,2017-08-12 00:00:00
9,top3_repeated,2019-11-30 00:00:00,2017-02-12 00:00:00


**Puntos más relevantes:**
1.  La información con la que contamos cubre los años 2014 - 2020.  Como los registros se reflejan en el sistema con un día de retraso, los registros con fecha de cierre 2014/01/01 fueron en realidad creados el 2013/12/31, siendo esta la fecha más lejana registrada.
2.  La fecha más reciente registrada es del 2020/12/10, se trata de un error en el registro, al comparar el número de foliio con las fechas de creación y cierre.   
3.  La fecha más repetida es el 14/Feb/2020.

In [25]:
# Checando cuántos registros hay con fecha posterior al 2020-12-09:
date_lim = np.datetime64("2020-12-09")

print("Número de registros con fecha posterior al 2020-12-09:")
len(data[data["fecha_creacion"] > date_lim])

Número de registros con fecha posterior al 2020-12-09:


420

In [26]:
#Cambiando columna folio a string:
for col in ["folio"]:
    data[col] = data[col].astype("str")

In [27]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1383138 entries, 0 to 1383137
Data columns (total 20 columns):
 #   Column             Non-Null Count    Dtype         
---  ------             --------------    -----         
 0   folio              1383138 non-null  object        
 1   fecha_creacion     1383138 non-null  datetime64[ns]
 2   hora_creacion      1383138 non-null  category      
 3   dia_semana         1383138 non-null  category      
 4   codigo_cierre      1383138 non-null  category      
 5   fecha_cierre       1383138 non-null  datetime64[ns]
 6   delegacion_inicio  1383138 non-null  category      
 7   incidente_c4       1383138 non-null  category      
 8   latitud            1382695 non-null  float64       
 9   longitud           1382703 non-null  float64       
 10  clas_con_f_alarma  1383138 non-null  category      
 11  tipo_entrada       1383138 non-null  category      
 12  delegacion_cierre  1383138 non-null  category      
 13  label              1383138 

**Generando dataframe de fechas para análisis:**

In [160]:
#Fechas contenidas en la columna folio:
ref1 = pd.DataFrame(data["folio"])
ref1["folio"] = ref1["folio"].str.slice(3, 9)

#Fechas contenidas en la columna fecha_creacion:
ref2 = pd.DataFrame(data["fecha_creacion"].astype("str"))
ref2["fecha_creacion"] = pd.DataFrame(ref2["fecha_creacion"].str.replace("-", ""))
ref2 = pd.DataFrame(ref2["fecha_creacion"].str.slice(2, ))

#Fechas contenidas en la columna fecha_cierre:
ref3 = pd.DataFrame(data["fecha_cierre"].astype("str"))
ref3["fecha_cierre"] = pd.DataFrame(ref3["fecha_cierre"].str.replace("-", ""))
ref3 = pd.DataFrame(ref3["fecha_cierre"].str.slice(2, ))

#Dataframe con todas las fechas:
fechas = pd.concat([ref1, ref2, ref3], axis = 1)
fechas.head()

Unnamed: 0,folio,fecha_creacion,fecha_cierre
0,160123,160123,160124
1,160123,160123,160124
2,160124,160124,160124
3,160124,160124,160124
4,160124,160124,160124


In [176]:
#Cambiando a string para comparación de meses:
for col in ["folio", "fecha_creacion", "fecha_cierre"]:
    fechas[col] = fechas[col].astype("str")

In [177]:
fechas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1383138 entries, 0 to 1383137
Data columns (total 3 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   folio           1383138 non-null  object
 1   fecha_creacion  1383138 non-null  object
 2   fecha_cierre    1383138 non-null  object
dtypes: object(3)
memory usage: 31.7+ MB


In [202]:
# Dataframe con fechas de folio distintas de fecha de creación:
fechas_mal_1 = fechas[fechas["folio"] != fechas["fecha_creacion"]]
fechas_mal_1

Unnamed: 0,folio,fecha_creacion,fecha_cierre
9,160124,160123,160124
825,160129,160128,160129
1269,160201,160102,160102
1270,160201,160102,160102
1271,160201,160102,160102
...,...,...,...
1382638,201011,201110,201110
1382639,201011,201110,201110
1382640,201011,201110,201110
1382641,201011,201110,201110


In [204]:
# Dataframe con fechas de folio distintas de fecha de creación y de cierre:
fechas_mal_2 = fechas_mal_1[fechas_mal_1["folio"] != fechas_mal_1["fecha_cierre"]]
fechas_mal_2

Unnamed: 0,folio,fecha_creacion,fecha_cierre
1269,160201,160102,160102
1270,160201,160102,160102
1271,160201,160102,160102
1272,160201,160102,160102
1273,160201,160102,160102
...,...,...,...
1382637,201011,201110,201110
1382638,201011,201110,201110
1382639,201011,201110,201110
1382640,201011,201110,201110


## Pendiente:
- Arreglar fechas equivocadas con base en la fecha del folio.
## Hay 497,022 fechas que parecen estar mal capturadas!!

***Data profiling* de variables geoespaciales:**

In [100]:
def geospace_profiling(df, col):
    """
    Profiling for geospace columns. 
    
    :param: column to analyze
    :return: dictionary
    """
    profiling = {}

    profiling.update({'mode': df[col].mode().values,
                     'max': df[col].max(),
                     'min': df[col].min(),
                     'mean': df[col].mean(),
                     'stdv': df[col].std(),
                     '25%': df[col].quantile(.25),
                     'median': df[col].median(),
                     '75%': df[col].quantile(.75),
                     'kurtosis': df[col].kurt(),
                     'skewness': df[col].skew(),
                     'uniques': df[col].nunique(),
                     'prop_missings': df[col].isna().sum()/df.shape[0]*100,
                     'top1_repeated': get_repeated_values(df, col, 1),
                     'top2_repeated': get_repeated_values(df, col, 2),})
    
    return profiling

In [101]:
profiling_dict = {}

geospace_profiling_output = {elem: geospace_profiling(data, elem)\
                            for elem in geospace_variables}

In [102]:
df_geospace_profiling = pd.DataFrame(geospace_profiling_output).reset_index()
df_geospace_profiling.rename(columns={'index': 'metric'}, inplace=True)
df_geospace_profiling

Unnamed: 0,metric,latitud,longitud
0,mode,[19.30431996],[-99.08024004]
1,max,195.303,-98.9454
2,min,19.094,-991.764
3,mean,19.3839,-99.1436
4,stdv,0.266638,2.39968
5,25%,19.3369,-99.1793
6,median,19.3841,-99.1402
7,75%,19.435,-99.096
8,kurtosis,400835,138084
9,skewness,611.376,-371.477


**Puntos más relevantes:**
1.  Originalmente se encontró aproximadamente un 3% de valores faltantes de latitud y longitud, que decidimos **decisión sobre datos geoespaciales faltantes**.  Una vez imputados estos valores, la información con la que trabajaremos no tiene valores faltantes.
2.  Se encontraron también errores de escritura tanto para latitud como longitud.  En el caso de la latitud, había **3** registros con valores de aproximadamente 190, cuando el promedio de la latitud es 19.09.  En el caso de la longitud, había **10** registros con un valor de aproximadamente -991, cuando el valor promedio es de -99.14.  Se decidió **decisión sobre datos geoespaciales erróneos**, eliminando estos valores incorrectos.
3.  El punto más repetido es (19.3043, -99.0802), con ubicación en **agregar ubicación de éste punto en el mapa**.

In [183]:
len(data[data["latitud"] > 19.9])

3

In [184]:
len(data[data["longitud"] < -99.9])

10

## Pendiente:
- Decisión para imputación de datos geoespaciales faltantes.
- Decisión sobre los datos geoespaciales erróneos (eliminarlos?  son sólo 13 registros).

## Agregando el mapa:

In [208]:
def generateBaseMap(default_location = [19.3841, -99.1402], default_zoom_start = 10):
    base_map = folium.Map(location = default_location, control_scale = True, zoom_start = default_zoom_start)
    return base_map

In [251]:
# Data frame con llamadas falsas:
data_false = pd.DataFrame(data[data["label"] == 1])

# Data frame con llamadas verdaderas:
data_true = pd.DataFrame(data[data["label"] == 0])
for row in ["label"]:
    data_true[row] = 1

In [298]:
from folium.plugins import HeatMap

base_map = generateBaseMap()

# Marcadores para punto con más registros, y más registros falsos:
folium.Marker([data["latitud"].mode(), data["longitud"].mode()], popup = "Punto con mas registros").add_to(base_map)
folium.Marker([data_false["latitud"].mode(), data_false["longitud"].mode()], popup = "Punto con mas registros falsos", icon=folium.Icon(color="red")).add_to(base_map)

#Mapas de calor para llamadas falsas y verdaderas:
HeatMap(data = data_true[['latitud', 'longitud', 'label']].groupby(['latitud', 'longitud']).sum().reset_index().values.tolist(), radius=8, max_zoom=13, blur = 17, gradient={.2: '#ececa3', .6:"#abc32f", 1: '#607c3c'}).add_to(base_map)
HeatMap(data = data_false[['latitud', 'longitud', 'label']].groupby(['latitud', 'longitud']).sum().reset_index().values.tolist(), radius=8, max_zoom=13, blur = 22, gradient={.2: '#ffbaba', .6:"#ff5252", 1: '#a70000'}).add_to(base_map)

#HeatMap(data = data_false[['latitud', 'longitud', 'label']].groupby(['latitud', 'longitud']).sum().reset_index().values.tolist(), radius=8, max_zoom=13).add_to(base_map)

<folium.plugins.heat_map.HeatMap at 0x1bf4302d0>

In [299]:
base_map