# Limpieza de datos

## Importación

In [1]:
import pandas as pd

## Lectura

In [2]:
ventas = pd.read_csv('Ventas.csv', delimiter=";")
empleados = pd.read_csv('Empleados.csv', delimiter=";")

  exec(code_obj, self.user_global_ns, self.user_ns)


## EDA

### Filas totalmente nulas

Se consultaron las filas totalmente nulas, es decir, Nan en todas sus columnas, y borrarlas.

In [3]:
ventas.tail()

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
1048570,,,,,,,,,,,,,
1048571,,,,,,,,,,,,,
1048572,,,,,,,,,,,,,
1048573,,,,,,,,,,,,,
1048574,,,,,,,,,,,,,


In [4]:
# Eliminar todas las filas después del índice dado
ventas.drop(ventas.index[127255:], inplace=True)

In [5]:
ventas.tail()

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
127250,C891100881,MORENO VARGAS SOCIEDAD ANONIMA,10/3/2020,2.0,LL-PLC-0159,X WORKS HD XDY 12R22.5,101.0,LLANTA,4,5635766,Engativa,Ventas externas,22.0
127251,C900364615,ORGANIZACION SUMA SAS,10/3/2020,1.0,LL-PLB-0024,X MULTI Z 235/75R17.5,101.0,LLANTA,9,6894000,Engativa,Ventas externas,22.0
127252,C900365651,EMPRESA DE TRANSPORTE INTEGRADO DE BOGOTA ETIB...,10/3/2020,2.0,LL-PLB-0024,X MULTI Z 235/75R17.5,101.0,LLANTA,20,11955636,Engativa,Ventas externas,22.0
127253,C900365651,EMPRESA DE TRANSPORTE INTEGRADO DE BOGOTA ETIB...,10/3/2020,2.0,LL-PLB-0031,XZE2 215/75 R17.5,101.0,LLANTA,30,15908063,Engativa,Ventas externas,22.0
127254,C900364615,ORGANIZACION SUMA SAS,10/3/2020,1.0,LL-PLC-0074,X MULTI Z 295/80R22.5,101.0,LLANTA,14,21868000,Engativa,Ventas externas,22.0


In [6]:
empleados.head()

Unnamed: 0,Id_Empleado,Nombre y Apellido
0,1,Juan Pastran
1,2,Esteban Damico
2,3,Julian Quevedo
3,4,Oscar Rosseto
4,5,Valentin Quintero


### Datos nulos

In [7]:
ventas.isnull().sum().sum()

0

### Registros duplicados

In [8]:
ventas.duplicated().sum()

18461

In [9]:
ventas.shape

(127255, 13)

### Eliminar duplicados

In [10]:
ventas.drop_duplicates(inplace=True)

### Conversión de tipos de datos

In [11]:
ventas['Empleado'] = ventas['Empleado'].astype(int)
ventas['Area'] = ventas['Area'].astype(int)
# Identificar y corregir el valor '1,006' en la columna 'Cantidad'
ventas.loc[ventas['Cantidad'] == '1,006', 'Cantidad'] = '1006'

# Identificar y corregir el valor '1,068' en la columna 'Cantidad'
ventas.loc[ventas['Cantidad'] == '1,068', 'Cantidad'] = '1068'

# Convertir la columna 'Cantidad' al tipo de dato entero (int64)
ventas['Cantidad'] = ventas['Cantidad'].astype(int)

ventas['CodigoFamilia'] = ventas['CodigoFamilia'].astype(int)

# Convertir la columna 'Fecha' al tipo de dato de fecha
ventas['Fecha'] = pd.to_datetime(ventas['Fecha'], format='%d/%m/%Y')

# Añadir columna Año
ventas['Year'] = ventas['Fecha'].dt.year

# Cambiar valores inadecuados de ventas
ventas.loc[ventas['Ventas'] == '70.000.001,00', 'Ventas'] = '70000001'
ventas.loc[ventas['Ventas'] == '74.511.448,00', 'Ventas'] = '74511448'
ventas.loc[ventas['Ventas'] == '74.158.398,00', 'Ventas'] = '74158398'
ventas.loc[ventas['Ventas'] == '65.321.270,00', 'Ventas'] = '65321270'

# convertir ventas a entero
ventas['Ventas'] = ventas['Ventas'].astype('int64')

# Cambiar el nombre de la columna 'Descripcion' a 'Productos'
ventas.rename(columns={'Descripcion': 'Productos'}, inplace=True)


## Merge de dataframes

In [12]:
# Unir los DataFrames ventas y empleados en uno solo basado en la columna 'Empleado' de ventas y 'Id_Empleado' de empleados
ventas_full = pd.merge(ventas, empleados, left_on='Empleado', right_on='Id_Empleado', how='left')

In [13]:
# Eliminar la columna 'Empleado'
ventas_full.drop(columns='Empleado', inplace=True)

# Renombrar la columna 'Nombre y Apellido' a 'NombreCompleto'
ventas_full.rename(columns={'Nombre y Apellido': 'NombreCompleto'}, inplace=True)

## Guardado de datos limpios

In [14]:
# Guardar el DataFrame ventas en un archivo CSV sin incluir el índice
ventas.to_csv('ventas_limpio.csv', index=False)

# Guardar el DataFrame empleados en un archivo CSV sin incluir el índice
empleados.to_csv('empleados_limpio.csv', index=False)

ventas_full.to_csv('ventas_full.csv', index=False)

In [15]:
ventas_full.dtypes

IdCliente                 object
NombreCliente             object
Fecha             datetime64[ns]
Referencia                object
Productos                 object
CodigoFamilia              int64
Familia                   object
Cantidad                   int64
Ventas                     int64
Localidad                 object
Sede                      object
Area                       int64
Year                       int64
Id_Empleado                int64
NombreCompleto            object
dtype: object