In [77]:
import pandas as pd
import numpy as np
import os  
from pathlib import Path
import argparse


def get_data(filename):
    """Carga datos desde la carpeta raw
    
    Arg:
        filename: nombre del archivo guardado en la carpeta raw
        
    Return:
        datos --> pd.dataframe """
    print('get_data')
    bucket = "gs://arodriguez_llamadas_123/"
    file_path = os.path.join(bucket , 'data', 'raw', filename)
    file_path
    
    datos = pd.read_csv(file_path, sep=';', encoding='latin-1')
    print('La tabla contiene: ', datos.shape[0], 'filas', datos.shape[1], 'columnas')
    print(datos)
    return datos

def remover_duplicados_y_nulos(datos):
    """Remueve datos duplicados y datos nulos de la columna UNIDAD
        
    Arg:
        datos --> pd.dataframe
        
    Return:
        datos --> pd.dataframe """
        
    print('remover_duplicados_y_nulos')
    datos = datos.drop_duplicates()
    datos.reset_index(inplace = True, drop = True)
    
    datos['UNIDAD'] = datos['UNIDAD'].fillna('SIN_DATO')
    datos['UNIDAD'].value_counts(dropna = False, normalize = True)
    #print(datos)
    return datos
    
def convertir_str_a_num(datos):
    """Convierte los datos tipo str de la columna EDAD a datos numericos tipo float
    
    Arg:
        datos --> pd.dataframe
        
    Return:
        datos --> pd.dataframe """
        
    print('convertir_str_a_num')
    datos['EDAD'] = datos['EDAD'].replace({'SIN_DATO' : np.nan})
    datos['EDAD'] = datos['EDAD'].astype('float')
    #print(datos)
    #print(datos.dtypes)
    return datos

def corregir_fechas(datos):
    """Corrige el tipo de dato de las fechas del dataframe a tipo pd.datetime
    
    Arg:
        datos --> pd.dataframe
        
    Return:
        datos --> pd.dataframe """
        
    print('corregir_fechas')
    datos = datos.rename(columns = {'FECHA_INICIO_DESPLAZAMIENTO-MOVIL':'FECHA_INICIO_DESPLAZAMIENTO_MOVIL'})
    datos['FECHA_INICIO_DESPLAZAMIENTO_MOVIL'] = pd.to_datetime(datos['FECHA_INICIO_DESPLAZAMIENTO_MOVIL'], errors='coerce')
    #datos['RECEPCION'] = pd.to_datetime(datos['RECEPCION'], errors='coerce')
    #print(datos)
    print(datos.dtypes)
    return datos

def save_data(datos, filename):
    """Guarda los datos limpios en un nuevo archivo en la carpeta processed
    
    Arg:
        datos --> pd.dataframe
        filename: nombre del archivo
        
    Return:
        datos --> csv"""
    bucket = "gs://arodriguez_llamadas_123/"
    out_name = 'limpieza_' + filename
    out_path = os.path.join(bucket, 'data', 'processed', out_name)
    datos.to_csv(out_path)
    print('DATOS GUARDADOS')
    

In [78]:
    filename = 'llamadas123_enero_2021.csv'
    datos   = get_data(filename)
    datos = remover_duplicados_y_nulos(datos)
    datos = convertir_str_a_num(datos)
    datos = corregir_fechas(datos)
    save_data(datos, filename)
    


get_data
La tabla contiene:  12969 filas 10 columnas
      NUMERO_INCIDENTE FECHA_INICIO_DESPLAZAMIENTO-MOVIL  COD_LOCALIDAD  \
0      CRU-00000049-21                    1/01/2021 0:27              7   
1      CRU-00000009-21                    1/01/2021 0:31             12   
2      CRU-00000031-21                    1/01/2021 0:33              3   
3      CRU-00000046-21                    1/01/2021 0:45             10   
4      CRU-00000063-21                    1/01/2021 0:50             14   
...                ...                               ...            ...   
12964  CRU-00065416-21                    1/02/2021 0:38             11   
12965  CRU-00065414-21                    1/02/2021 1:03              4   
12966  CRU-00065405-21                    1/02/2021 1:05             13   
12967  CRU-00065386-21                    1/02/2021 1:09              1   
12968  CRU-00065120-21                    1/02/2021 3:08             15   

            LOCALIDAD      EDAD    UNIDAD     

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


NUMERO_INCIDENTE                             object
FECHA_INICIO_DESPLAZAMIENTO_MOVIL    datetime64[ns]
COD_LOCALIDAD                                 int64
LOCALIDAD                                    object
EDAD                                        float64
UNIDAD                                       object
GENERO                                       object
RED                                          object
TIPO_INCIDENTE                               object
PRIORIDAD                                    object
dtype: object
DATOS GUARDADOS
