#### Análisis Exploratorio y Curación de Datos:

# LABORATORIO: LIMPIAR UN SET DE DATOS CON PANDAS

<p><em>Consigna:</em></p>
<p>Limpiar un set de datos con pandas</p>
<ul>
<li>Un set de datos que tengan permisos para compartir con nosotros</li>
<li>M&aacute;s de 100000 registros</li>
<li>M&aacute;s de 20 columnas</li>
<li>Con datos con cadenas, n&uacute;meros, fechas, y categor&iacute;as</li>
</ul>
<p>

<ol>
    <li>Importando los datos</li>
        <ol>
            <li> Verificar si no hay problemas en la importación Habilitar chequeos al importar </li>
            <li> Asegurar de tener ids/claves únicas Chequear que no hay datos duplicados </li>
            <li> Despersonalizar datos y guardarlos en un nuevo archivo</li>
            <li> Nunca modificar los datos crudos u originales</li>
        </ol>
    <li>Pasos necesarios</li>
        <ol>
            <li>Etiquetas de variables/columnas: no usar caracteres especiales Verificar que no haya problemas de codificación/encoding </li>
            <li> Tratar valores faltantes Quitar o imputar</li>
            <li> Codificar variables: las variables categóricas deben ser etiquetadas como variables numéricas, no como cadenas</li>
            <li> No cambiar los nombres de las variables de la fuente de origen</li>
            <li> Verificar la consistencia de las variables
Aplicar reglas de integridad</li>
            <li> Identificar y documentar valores atípicos/outliers
Calcular estadísticos</li>
            <li> Evaluar cómo comprimir los datos para su almacenamiento más eficiente</li>
            <li> Guardar el set de datos con un nombre informativo.</li>
        </ol>
    <li> Pasos deseables</li>
    <ol>
        <li> Ordenar variables/columnas si es posible – primero ID, luego en el mismo orden que la fuente</li>
        <li> Quitar variables/columnas que no tienen información a analizar</li>
        <li> Renombrar variables de grillas</li>
        <li> Categorizar resultados en “Otros”
Si tiene un campo de texto libre asociado, codificar en nuevos valores de la variable
categórica asociada. Revisar fuzzyness.</li>
        <li> Agregar metadata a los datos: cuando y como fueron obtenidos, limpieza realizada,
asunciones, etc
Vincular con etiquetas del código fuente y los datos. Al menos incluir un README.</li>
    <ol>
</ol>
</p>

---

In [16]:
# Inicialmente cargamos las librerías a utilizar:
import os.path as path
import zipfile
import pandas as pd
import numpy as np
import seaborn
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import display, HTML
from pylab import rcParams
rcParams['figure.figsize'] = 18, 10

---

# Limpiar un set de datos con pandas:
Ejecutamos los pasos planteados:


# 1. Importando los datos:

### 1.A. Verificar si no hay problemas en la importación Habilitar chequeos al importar

In [17]:
# Nota: El dataset se encuentra comprimido por un tema de volumen. 
# Esta rutina chequea su existencia en formato descomprimido y lo extrae en caso de no existir. 
dataset_filename = '../datos/datos-anonimizados-clientes.csv'

if path.isfile(dataset_filename) == False:
    zip = zipfile.ZipFile('../datos/datos-anonimizados-clientes.zip')
    zip.extractall('../datos/')
    print('Dataset extraido. Continuamos.')
else:
    print('El dataset existe. Continuamos.')


Dataset extraido. Continuamos.


In [18]:
# No especificamos columna indice, porque no tenemos una columna con datos unicos
ventas_df = pd.read_csv(dataset_filename)

  interactivity=interactivity, compiler=compiler, result=result)


In [19]:
ventas_df.dtypes

Unnamed: 0                 int64
CODIGO_CLIENTE            object
RAZON_SOCIAL              object
CUIT                      object
CATEGORIA_IVA             object
GRUPO_CANAL                int64
CANAL                      int64
SUBCANAL                   int64
APERTURA_ADICIONAL         int64
CATEGORIA                 object
ZONA                       int64
ZONA_REPARTO               int64
CONDICION_VENTA           object
CREDITO_MAXIMO           float64
CREDITO_MONEDA            object
LISTA_PRECIOS             object
AGENTE_RETENCION            bool
DIAS_TOLERANCIA_COBRO      int64
GRUPO                      int64
SOCIEDAD_JURIDICA         object
ESTADO                    object
MOTIVO_ESTADO             object
ESQUEMA_COMERCIAL         object
FACTURA_CODIGO            object
FACTURA_NUM_ID            object
FACTURA_SUCURSAL           int64
FACTURA_FECHA             object
FACTURA_MONTO_TOTAL      float64
FACTURA_COND_VENTA        object
FACTURA_VENDEDOR           int64
CODIGO_ART

Para salvar el warning, definiremos los tipos de datos de cada columna:

In [20]:
ventas_df_dtype={'CODIGO_CLIENTE': object,
 'RAZON_SOCIAL':  object,
 'CUIT': object,
 'CATEGORIA_IVA': object,
 'GRUPO_CANAL': object,
 'CANAL': object,
 'SUBCANAL': object,
 'APERTURA_ADICIONAL': object,
 'CATEGORIA': object,
 'ZONA': object,
 'ZONA_REPARTO': object,
 'CONDICION_VENTA': object,
 'CREDITO_MAXIMO': np.dtype('f'),
 'CREDITO_MONEDA': object,
 'LISTA_PRECIOS': object,
 'AGENTE_RETENCION': np.dtype('?'),
 'DIAS_TOLERANCIA_COBRO': np.dtype('i'),
 'GRUPO': object,
 'SOCIEDAD_JURIDICA': object,
 'ESTADO': object,
 'MOTIVO_ESTADO': object,
 'ESQUEMA_COMERCIAL': object,
 'DIRECCION_CALLE': object,
 'DIRECCION_NUMERO': object,
 'CODIGO_POSTAL': object,
 'LATITUD': np.dtype('f'),
 'LONGITUD': np.dtype('f') ,
 'DIRECCION_PRINCIPAL': object,
 'FACTURA_CODIGO': object,
 'FACTURA_NUMERO': np.dtype('i'),
 'FACTURA_SUCURSAL': np.dtype('i'),
 'FACTURA_FECHA': object,
 'FACTURA_MONTO_TOTAL': np.dtype('f'),
 'FACTURA_COND_VENTA': object,
 'FACTURA_VENDEDOR': object,
 'CODIGO_ARTICULO': object,
 'DESCRIPCION': object,
 'AGRUPACION_1': object,
 'AGRUPACION_2': object,
 'AGRUPACION_3': object,
 'AGRUPACION_4': object,
 'AGRUPACION_5': object,
 'AGRUPACION_6': object,
 'CANTIDAD': np.dtype('d'),
 'UNIDAD_MEDIDA': object,
 'PRECIO_UNITARIO': np.dtype('d'),
 'PRECIO_TOTAL' : np.dtype('d')}


In [21]:
# Cargamos los datos nuevamente y observamos si aparece el Warning:
ventas_df = pd.read_csv("../datos/datos-anonimizados-clientes.csv",
                        dtype=ventas_df_dtype)

Obtenemos el tamaño del dataframe en filas y columnas:

In [22]:
cant_filas = len(ventas_df)
cant_columnas = len(ventas_df.columns)

if (cant_filas > 100000) & (cant_columnas > 20):
    display(HTML('<H3>NOTA: El set de datos posee {0:,.0f} filas por {1} columnas, lo cual lo hace adecuado para el ejercicio.</h3>'.format(cant_filas,cant_columnas)))
else: 
    display(HTML('<H3>ATENCIÓN: El set de datos posee {0:,.0f} filas por {1} columnas, lo cual NO lo hace adecuado para el ejercicio.</h3>'.format(cant_filas,cant_columnas)))

### 1.B. Asegurar de tener ids/claves únicas Chequear que no hay datos duplicados

In [23]:
ventas_df.dtypes

Unnamed: 0                 int64
CODIGO_CLIENTE            object
RAZON_SOCIAL              object
CUIT                      object
CATEGORIA_IVA             object
GRUPO_CANAL               object
CANAL                     object
SUBCANAL                  object
APERTURA_ADICIONAL        object
CATEGORIA                 object
ZONA                      object
ZONA_REPARTO              object
CONDICION_VENTA           object
CREDITO_MAXIMO           float32
CREDITO_MONEDA            object
LISTA_PRECIOS             object
AGENTE_RETENCION            bool
DIAS_TOLERANCIA_COBRO      int32
GRUPO                     object
SOCIEDAD_JURIDICA         object
ESTADO                    object
MOTIVO_ESTADO             object
ESQUEMA_COMERCIAL         object
FACTURA_CODIGO            object
FACTURA_NUM_ID            object
FACTURA_SUCURSAL           int32
FACTURA_FECHA             object
FACTURA_MONTO_TOTAL      float32
FACTURA_COND_VENTA        object
FACTURA_VENDEDOR          object
CODIGO_ART

In [24]:
ventas_df.head()

Unnamed: 0.1,Unnamed: 0,CODIGO_CLIENTE,RAZON_SOCIAL,CUIT,CATEGORIA_IVA,GRUPO_CANAL,CANAL,SUBCANAL,APERTURA_ADICIONAL,CATEGORIA,...,AGRUPACION_1,AGRUPACION_2,AGRUPACION_3,AGRUPACION_4,AGRUPACION_5,AGRUPACION_6,CANTIDAD,UNIDAD_MEDIDA,PRECIO_UNITARIO,PRECIO_TOTAL
0,0,c4798d1002b95e5b0f16f09c62c95e06,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,12,122,253,12,80,1,1.0,UN,21.5519,26.08
1,1,c4798d1002b95e5b0f16f09c62c95e06,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,12,425,700,12,80,1,1.0,UN,10.4264,12.62
2,2,75eed0dd5091ba851cb1082f5c600404,5e09c84900842536972d00dc670c3fbc,c1660dedd01d4e5c55d3e9f5d549536d,RI,100,100,106,106,C,...,3,185,220,3,33,1,6.0,UN,15.0361,109.16
3,3,75eed0dd5091ba851cb1082f5c600404,5e09c84900842536972d00dc670c3fbc,c1660dedd01d4e5c55d3e9f5d549536d,RI,100,100,106,106,C,...,91,34,101,3,21,1,12.0,UN,8.038,116.72
4,4,d7b59972e86f00e016b54288826786ae,24dc84bc7bc604e81717f2356fbd278b,4334910e09a671816fe006c0d9b9beb8,RM,0,10,10,10,A,...,12,302,402,12,126,1,6.0,UN,14.3429,104.13


In [25]:
ventas_df.tail()

Unnamed: 0.1,Unnamed: 0,CODIGO_CLIENTE,RAZON_SOCIAL,CUIT,CATEGORIA_IVA,GRUPO_CANAL,CANAL,SUBCANAL,APERTURA_ADICIONAL,CATEGORIA,...,AGRUPACION_1,AGRUPACION_2,AGRUPACION_3,AGRUPACION_4,AGRUPACION_5,AGRUPACION_6,CANTIDAD,UNIDAD_MEDIDA,PRECIO_UNITARIO,PRECIO_TOTAL
1677675,1677675,65f982b05dba94f8565335eecb46e4da,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,75,545,932,12,77,1,2.0,UN,21.9074,53.01
1677676,1677676,65f982b05dba94f8565335eecb46e4da,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,12,355,575,12,76,1,3.0,UN,18.7375,68.01
1677677,1677677,65f982b05dba94f8565335eecb46e4da,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,10,275,432,10,61,1,2.0,UN,11.965,28.96
1677678,1677678,65f982b05dba94f8565335eecb46e4da,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,10,345,138,10,78,1,6.0,UN,6.6734,48.45
1677679,1677679,65f982b05dba94f8565335eecb46e4da,ec7c2a1bd7b6b3c9d195ed52ae5d7569,6505d3facde2c86923a7339db59a21ec,RM,0,10,10,10,A,...,10,265,380,10,61,1,5.0,UN,9.9707,60.32


In [26]:
Los datos se ven en orden, pero no poseen una clave unica. 

SyntaxError: invalid syntax (<ipython-input-26-97378eba3de7>, line 1)

In [None]:
### 1.C. Despersonalizar datos y guardarlos en un nuevo archivo

---

## Visualizamos el Dataframe:

In [None]:
ventas_df[:5]

In [None]:
# El codigo cliente no es único, usamos la columna indice para identificarla univocamente
if ventas_df['CODIGO_CLIENTE'].size == ventas_df['CODIGO_CLIENTE'].unique().size:
    print("CODIGO_CLIENTE Unique")
else:
    print("CODIGO_CLIENTE Not unique")
ventas_df.rename(columns={'Unnamed: 0':'indice'}, inplace=True)
if ventas_df['indice'].size == ventas_df['indice'].unique().size:
    print("indice Unique")
else:
    print("indice Not unique")

In [None]:
# Eliminamos filas repetidas
ventas_df = ventas_df.drop_duplicates()
print(len(ventas_df))
# No tenemos filas repetidas!

In [None]:
ventas_df[:1]

# 2 - Pasos necesarios
### 2.1 Etiquetas de variables/columnas: no usar caracteres especiales Verificar que no haya problemas de codificación/encoding

In [None]:
ventas_df.dtypes

Nota: Las columnas no presentan ni espacios ni caracteres especiales.

### 2.2. Tratar valores faltantes Quitar o imputar


### Codificar variables: las variables categóricas deben ser etiquetadas como variables numéricas, no como cadenas


### No cambiar los nombres de las variables de la fuente de origen


### Verificar la consistencia de las variables. Aplicar reglas de integridad


### Identificar y documentar valores atípicos/outliers Calcular estadísticos


### Evaluar cómo comprimir los datos para su almacenamiento más eficiente


### Guardar el set de datos con un nombre informativo.

#### Comprimir los datos y guardar el set de datos con un nombre informativo.
Leyendo sobre el funcion de pandas.Dataframe.to_csv, esta cuenta con una función para comprimir el archivo 
y cuanta con varios metodos de compresion, nosotros elegimos gzip

In [None]:
pd.DataFrame.to_csv(ventas_df, compression='gzip')