# EDA for the data cleanning

The first step is to look for inconsistencies in the data like; inconsistencies in the column names, outliers, 
NAN values, etc.

In [72]:
# Libraries
import pandas as pd

# Loading the dataset
data = pd.read_csv('tabla.csv', sep=';')

### Checking the column names of the data

In [73]:
print(data.columns)

Index(['#', 'Código de cliente/proveedor', 'vendedor',
       'Nombre de cliente/proveedor', 'FA', 'mes', 'año',
       'Fecha de contabilización', 'Total bruto', 'Ingreso bruto línea',
       'Cantidad FA', 'Número de artículo', 'codigo padre', 'codigo padre.1',
       'tipo insumo', 'Descripcion unión', 'Descripción del artículo',
       'ID interno de documento', 'NC', 'Fecha de contabilización.1',
       'Cantidad NC', 'Total bruto.1', 'Ingreso bruto línea.1', 'CUM',
       'tipo cliente juan', 'tipo cliente juan.1', 'ABC ADJUDICACION'],
      dtype='object')


### Changing the column names

In [74]:
import re

# Function to normalize the column names
def normalize_names():
    names = []
    for name in data.columns:
        name = name.lower()
        name = re.sub(' ', '_', name)
        name = re.sub('/', '_', name)
        name = re.sub('\.', '_', name)
        name = re.sub('á', 'a', name)
        name = re.sub('é', 'e', name)
        name = re.sub('í', 'i', name)
        name = re.sub('ó', 'o', name)
        name = re.sub('ú', 'u', name)
        names.append(name)
    return names
        
data.columns = normalize_names()    
print(data.columns)

Index(['#', 'codigo_de_cliente_proveedor', 'vendedor',
       'nombre_de_cliente_proveedor', 'fa', 'mes', 'año',
       'fecha_de_contabilizacion', 'total_bruto', 'ingreso_bruto_linea',
       'cantidad_fa', 'numero_de_articulo', 'codigo_padre', 'codigo_padre_1',
       'tipo_insumo', 'descripcion_union', 'descripcion_del_articulo',
       'id_interno_de_documento', 'nc', 'fecha_de_contabilizacion_1',
       'cantidad_nc', 'total_bruto_1', 'ingreso_bruto_linea_1', 'cum',
       'tipo_cliente_juan', 'tipo_cliente_juan_1', 'abc_adjudicacion'],
      dtype='object')


The following columns must be eliminated from the dataframe: #, mes, año, numero_de_articulo, codigo_padre, codigo_padre_1, descripcion_union, id_interno_de_documento, nc (this column has many null values and not it recomended), fecha_de_contabilizacion_1 (has many null values), cantidad_nc, total_bruto_1 (has many null values), ingreso_bruto_linea_1 (has many null values)

### Eliminating the columns that are not necesary

In [75]:
data = data.drop(['#', 'mes', 'año', 'numero_de_articulo', 'codigo_padre', 'codigo_padre_1', 'descripcion_union', 
                 'id_interno_de_documento', 'nc', 'fecha_de_contabilizacion_1', 'cantidad_nc', 'total_bruto_1', 
                 'ingreso_bruto_linea_1'], axis=1)
print(data.columns)

Index(['codigo_de_cliente_proveedor', 'vendedor',
       'nombre_de_cliente_proveedor', 'fa', 'fecha_de_contabilizacion',
       'total_bruto', 'ingreso_bruto_linea', 'cantidad_fa', 'tipo_insumo',
       'descripcion_del_articulo', 'cum', 'tipo_cliente_juan',
       'tipo_cliente_juan_1', 'abc_adjudicacion'],
      dtype='object')


### Checking the data types 

In [76]:
print(data.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123193 entries, 0 to 123192
Data columns (total 14 columns):
codigo_de_cliente_proveedor    123193 non-null object
vendedor                       123193 non-null object
nombre_de_cliente_proveedor    123193 non-null object
fa                             123193 non-null int64
fecha_de_contabilizacion       123193 non-null object
total_bruto                    123193 non-null object
ingreso_bruto_linea            123193 non-null object
cantidad_fa                    123193 non-null int64
tipo_insumo                    123038 non-null float64
descripcion_del_articulo       123142 non-null object
cum                            100011 non-null object
tipo_cliente_juan              123193 non-null int64
tipo_cliente_juan_1            123193 non-null object
abc_adjudicacion               117596 non-null object
dtypes: float64(1), int64(3), object(10)
memory usage: 13.2+ MB
None


total bruto should be float64, ingreso_linea_bruto should be float64, fecha_de_contabilizacion should be a datetime object, 
cum should be float64, tipo_cliente_juan should be a category, tipo_cliente_juan_1 should be a category and tipo_insumo should be a category


### Changing the data types

In [77]:
def cambiocomapunto(nombre):
    num = []
    for numero in data[nombre]:
        numero = re.sub(',', '.', numero)
        num.append(numero)
    return num

data['ingreso_bruto_linea'] = cambiocomapunto('ingreso_bruto_linea') 
data['total_bruto'] = cambiocomapunto('total_bruto')

s = pd.Series(data["total_bruto"])
data["total_bruto"]= pd.to_numeric(s)

data.fecha_de_contabilizacion = pd.to_datetime(data.fecha_de_contabilizacion)

s = pd.Series(data["tipo_insumo"])
data["tipo_insumo"]= pd.to_numeric(s).astype('category')

s = pd.Series(data["ingreso_bruto_linea"])
data["ingreso_bruto_linea"]= pd.to_numeric(s)

data['tipo_cliente_juan'] = data['tipo_cliente_juan'].astype('category')
data['tipo_cliente_juan_1'] = data['tipo_cliente_juan_1'].astype('category')


print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123193 entries, 0 to 123192
Data columns (total 14 columns):
codigo_de_cliente_proveedor    123193 non-null object
vendedor                       123193 non-null object
nombre_de_cliente_proveedor    123193 non-null object
fa                             123193 non-null int64
fecha_de_contabilizacion       123193 non-null datetime64[ns]
total_bruto                    123193 non-null float64
ingreso_bruto_linea            123193 non-null float64
cantidad_fa                    123193 non-null int64
tipo_insumo                    123038 non-null category
descripcion_del_articulo       123142 non-null object
cum                            100011 non-null object
tipo_cliente_juan              123193 non-null category
tipo_cliente_juan_1            123193 non-null category
abc_adjudicacion               117596 non-null object
dtypes: category(3), datetime64[ns](1), float64(2), int64(2), object(6)
memory usage: 10.7+ MB
None


### Changing the index of the DataFrame to be a datetime

In [78]:
data.index = data.fecha_de_contabilizacion
data = data.drop(['fecha_de_contabilizacion'], axis=1)
print(data.head())
print('\n\n\n')
print(data.tail())

                         codigo_de_cliente_proveedor            vendedor  \
fecha_de_contabilizacion                                                   
2016-03-28                                C821003143  OMAR GIL Y DIOMARY   
2016-03-28                                C821003143  OMAR GIL Y DIOMARY   
2016-03-28                                C821003143  OMAR GIL Y DIOMARY   
2016-03-28                                C821003143  OMAR GIL Y DIOMARY   
2016-03-28                                C821003143  OMAR GIL Y DIOMARY   

                                                nombre_de_cliente_proveedor  \
fecha_de_contabilizacion                                                      
2016-03-28                HOSPITAL DEPARTAMENTAL CENTENARIO DE SEVILLA E...   
2016-03-28                HOSPITAL DEPARTAMENTAL CENTENARIO DE SEVILLA E...   
2016-03-28                HOSPITAL DEPARTAMENTAL CENTENARIO DE SEVILLA E...   
2016-03-28                HOSPITAL DEPARTAMENTAL CENTENARIO DE SEVILLA E

## Seeing the values of the columns  

### Seeing the values of vendedor

In [79]:
print(data.vendedor.value_counts())

ALEX PEÑA Y CLAUDIA      49938
JUAN CARLOS Y GLORIA     26592
OMAR GIL y GLORIA        12348
ALEX PEÑA Y DIOMARY       9140
JUAN CARLOS Y CLAUDIA     7479
ALEX PEÑA Y GLORIA        5670
DIOMARY                   5083
OMAR GIL Y DIOMARY        3063
JUAN CARLOS Y DIOMARY     2498
JUAN CARLOS               1149
ALEX Y CLAUDIA             117
MARIA E                    115
CONCESIONARIO                1
Name: vendedor, dtype: int64


the names in vendedor are joined in a single string and separated by Y, the names should be separated in a list for a best procesing. Example: 'OMAR GIL Y DIOMARY' must be ['OMAR GIL', 'DIOMARY'] 

In [80]:
import re

re_vendedor = r'\sy?Y?\s'
data.vendedor = data.vendedor.apply(lambda n: re.split(re_vendedor, n))
print(data.vendedor.value_counts())

[ALEX PEÑA, CLAUDIA]      49938
[JUAN CARLOS, GLORIA]     26592
[OMAR GIL, GLORIA]        12348
[ALEX PEÑA, DIOMARY]       9140
[JUAN CARLOS, CLAUDIA]     7479
[ALEX PEÑA, GLORIA]        5670
[DIOMARY]                  5083
[OMAR GIL, DIOMARY]        3063
[JUAN CARLOS, DIOMARY]     2498
[JUAN CARLOS]              1149
[ALEX, CLAUDIA]             117
[MARIA E]                   115
[CONCESIONARIO]               1
Name: vendedor, dtype: int64


In [103]:
def list_value_counts(list_names):
    for name in list_names:
        if name in counts:
            counts[name] += 1
        else:
            counts[name] = 1

counts = {}
data.vendedor.apply(lambda list: list_value_counts(list))
result = pd.DataFrame(list(counts.items()))
result.sort_values(by=1, ascending=False, inplace=True)
print(result)

               0      1
2      ALEX PEÑA  64748
3        CLAUDIA  57534
5         GLORIA  44610
4    JUAN CARLOS  37718
1        DIOMARY  19784
0       OMAR GIL  15411
7           ALEX    117
8        MARIA E    115
6  CONCESIONARIO      1


### Seeing the values of nombre_de_cliente_proveedor

In [105]:
print(data.nombre_de_cliente_proveedor.value_counts())

ESE HOSPITAL SAN FELIX DE LA DORADA                                    11931
RED SALUD ARMENIA EMPRESA SOCIAL DEL ESTADO E.S.E.                     10805
HOSPITAL DEPARTAMENTAL SANTA SOFIA DE CALDAS                            4580
ESE HOSPITAL SAN JOSE DE VITERBO                                        4090
ESE HOSPITAL SAN JOSE DE AGUADAS                                        3808
ESE HOSPITAL SAN LORENZO DE SUPIA                                       3669
HOSPITAL DEPARTAMENTA SAN ANTONIO DE MARMATO ESE                        3483
ESE HOSPITAL SANTA ANA DE PIJAO                                         3173
HOSPITAL DEPARTAMENTAL CENTENARIO DE SEVILLA E.S.E                      3063
MEDICCOL S.A.S                                                          2661
ESE HOSPITAL SAGRADO CORAZON DE JESUS DE QUIMBAYA                       2498
ESE HOSPITAL LA MISERICORDIA DE CALARCA                                 2466
ESE HOSPITAL SAN VICENTE DE PAUL DE FILANDIA                            2419

## Exporting the resulting DataFrame

In [104]:
json_file = data.to_json(orient='table')
with open('tabla_limpia.json', 'w') as file:
    file.write(json_file)