In [93]:
import pandas as pd
import numpy as np
import os  
from pathlib import Path
import argparse


def get_data(filename):
    """Carga datos desde la carpeta raw
    
    Arg:
        filename: nombre del archivo guardado en la carpeta raw
        
    Return:
        datos --> pd.dataframe """
    
    bucket = "gs://arodriguez_llamadas_123/"
    file_path = os.path.join(bucket , 'data', 'raw', filename)
    file_path
    
    datos = pd.read_csv(file_path, sep=';', encoding='latin-1')
    print('get_data')
    print('La tabla contiene: ', datos.shape[0], 'filas', datos.shape[1], 'columnas')
    return datos

def agregar_tabla(datos, filename_2):
    
    print('agregar_tabla')
    bucket = "gs://arodriguez_llamadas_123/"
    file_path = os.path.join(bucket , 'data', 'raw', filename_2)
    file_path
    nueva_tabla = pd.read_csv(file_path, sep=';', encoding='latin-1')
    datos = datos.append(nueva_tabla)
    return datos

def save_data(datos):
    """Guarda los datos compilados en un nuevo archivo en la carpeta processed
    
    Arg:
        datos --> pd.dataframe
        filename: nombre del archivo
        
    Return:
        datos --> csv"""
    
    bucket = "gs://arodriguez_llamadas_123/"     
    out_name = 'total_llamadas_123.csv' 
    out_path = os.path.join(bucket, 'data', 'processed', out_name)
    datos.to_csv(out_path)
    print('DATOS GUARDADOS')

def get_data_compilada(filename_comp):
    """Carga datos desde la carpeta processed
    
    Arg:
        filename: nombre del archivo guardado en la carpeta raw
        
    Return:
        datos --> pd.dataframe """
    
    bucket = "gs://arodriguez_llamadas_123/"
    file_path = os.path.join(bucket , 'data', 'processed', filename_comp)
    file_path
    
    datos_comp = pd.read_csv(file_path, encoding='latin-1')
    print('get_data_compilada')
    print('La tabla contiene: ', datos_comp.shape[0], 'filas', datos_comp.shape[1], 'columnas')
    return datos_comp

def remover_duplicados_y_nulos(datos_comp):
    """Remueve datos duplicados y datos nulos de la columna UNIDAD
        
    Arg:
        datos --> pd.dataframe
        
    Return:
        datos --> pd.dataframe """
        
    print('remover_duplicados_y_nulos')
    datos_comp = datos_comp.drop_duplicates()
    datos.reset_index(inplace = True, drop = True)
    
    datos_comp['UNIDAD'] = datos_comp['UNIDAD'].fillna('SIN_DATO')
    datos_comp['UNIDAD'].value_counts(dropna = False, normalize = True)
    return datos_comp
    
def convertir_str_a_num(datos_comp):
    """Convierte los datos tipo str de la columna EDAD a datos numericos tipo float
    
    Arg:
        datos --> pd.dataframe
        
    Return:
        datos --> pd.dataframe """
        
    print('convertir_str_a_num')
    datos_comp['EDAD'] = datos_comp['EDAD'].replace({'SIN_DATO' or 'Sin_dato' : np.nan})
    datos_comp['EDAD'] = datos_comp['EDAD'].astype('float')
    return datos

def corregir_fechas(datos_comp):
    """Corrige el tipo de dato de las fechas del dataframe a tipo pd.datetime
    
    Arg:
        datos --> pd.dataframe
        
    Return:
        datos --> pd.dataframe """
        
    print('corregir_fechas')
    datos_comp['FECHA_INICIO_DESPLAZAMIENTO_MOVIL'] = pd.to_datetime(datos_comp['FECHA_INICIO_DESPLAZAMIENTO_MOVIL'], errors='coerce')
    datos_comp['RECEPCION'] = pd.to_datetime(datos_comp['RECEPCION'], errors='coerce')
    print(datos_comp.dtypes)
    return datos_comp

def save_limpieza(datos_comp):
    """Guarda los datos limpios en un nuevo archivo en la carpeta processed
    
    Arg:
        datos --> pd.dataframe
        filename: nombre del archivo
        
    Return:
        datos --> csv"""
    
    bucket = "gs://arodriguez_llamadas_123/"     
    out_name = 'limpieza_total_llamadas_123' 
    out_path = os.path.join(bucket, 'data', 'processed', out_name)
    datos.to_csv(out_path)
    print('DATOS LIMPIOS Y GUARDADOS')


In [95]:
print ('¿Cuantos meses se van a agregar?')
meses = input()
meses = int(meses)
filename = 'llamadas123_agosto_2022.csv'
datos = get_data(filename)    
while meses > 0:
    meses -= 1
    print('Introduzca el mes_año:')
    mes = input()
    filename_2 = 'llamadas123_' + mes + '.csv'
    print('Agregando: ', filename_2)
    datos = agregar_tabla(datos, filename_2)
print('La tabla contiene: ', datos.shape[0], 'filas', datos.shape[1], 'columnas')
save_data(datos)
filename_comp = 'total_llamadas_123.csv' 
datos_comp = get_data_compilada(filename_comp) 
datos_comp = remover_duplicados_y_nulos(datos_comp)
datos_comp = convertir_str_a_num(datos_comp)
datos_comp = corregir_fechas(datos_comp)
save_limpieza(datos_comp)

¿Cuantos meses se van a agregar?


 4


get_data
La tabla contiene:  13673 filas 11 columnas
Introduzca el mes_año:


 julio_2022


Agregando:  llamadas123_julio_2022.csv
agregar_tabla
Introduzca el mes_año:


 junio_2022


Agregando:  llamadas123_junio_2022.csv
agregar_tabla
Introduzca el mes_año:


 mayo_2022


Agregando:  llamadas123_mayo_2022.csv
agregar_tabla
Introduzca el mes_año:


 abril_2022


Agregando:  llamadas123_abril_2022.csv
agregar_tabla
La tabla contiene:  66628 filas 12 columnas
DATOS GUARDADOS


  


get_data_compilada
La tabla contiene:  66628 filas 13 columnas
remover_duplicados_y_nulos
convertir_str_a_num
corregir_fechas
NUMERO_INCIDENTE                             object
FECHA_INICIO_DESPLAZAMIENTO_MOVIL    datetime64[ns]
CODIGO_LOCALIDAD                              int64
LOCALIDAD                                    object
EDAD                                         object
UNIDAD                                       object
GENERO                                       object
RED                                          object
TIPO_INCIDENTE                               object
PRIORIDAD                                    object
RECEPCION                            datetime64[ns]
FECHA_INICIO_DESPLAZAMIENTO-MOVIL            object
dtype: object
DATOS LIMPIOS Y GUARDADOS
