In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
ventas = pd.read_csv('ventas_limpio.csv')
empleados = pd.read_csv('empleados_limpio.csv')

In [3]:
# Unir los DataFrames ventas y empleados en uno solo basado en la columna 'Empleado' de ventas y 'Id_Empleado' de empleados
ventas_full = pd.merge(ventas, empleados, left_on='Empleado', right_on='Id_Empleado', how='left')

In [4]:
ventas_full.dtypes

IdCliente            object
NombreCliente        object
Fecha                object
Empleado              int64
Referencia           object
Productos            object
CodigoFamilia         int64
Familia              object
Cantidad              int64
Ventas                int64
Localidad            object
Sede                 object
Area                  int64
Year                  int64
Id_Empleado           int64
Nombre y Apellido    object
dtype: object

In [5]:
ventas_full.head()

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Productos,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area,Year,Id_Empleado,Nombre y Apellido
0,C1070956433,PINTO JOHN,2016-09-01,24,LL-2R-0038,PILOT STREET 110/80-17,101,LLANTA,1,129310,Puente aranda,Calle 13,35,2016,24,Tello German
1,C1032372566,CESAR CRUZ,2016-09-01,14,LL-TCA-0133,TOURING 175/70R13,101,LLANTA,2,181034,Suba,Suba,32,2016,14,Javier Garay
2,C2865810,PINEDA JAIME,2016-09-01,12,LL-TCA-0019,ENERGY XM2 185/65R14,101,LLANTA,1,193095,Usaquen,Santa ana,33,2016,12,Marcos Luna
3,C11210285,VILLALBA RODRIGUEZ FABIO,2016-09-01,24,LL-TCA-0009,ENERGY XM2 165/65R13,101,LLANTA,2,262069,Puente aranda,Calle 13,35,2016,24,Tello German
4,C80755314,MOLINA RONALD,2016-09-01,14,LL-TCA-0132,NO UTILIZAR,101,LLANTA,4,362069,Suba,Suba,32,2016,14,Javier Garay


In [6]:
ventas_full.columns

Index(['IdCliente', 'NombreCliente', 'Fecha', 'Empleado', 'Referencia',
       'Productos', 'CodigoFamilia', 'Familia', 'Cantidad', 'Ventas',
       'Localidad', 'Sede', 'Area', 'Year', 'Id_Empleado',
       'Nombre y Apellido'],
      dtype='object')

In [7]:
ventas_full['Fecha'].unique()

array(['2016-09-01', '2016-09-02', '2016-09-03', ..., '2020-03-07',
       '2020-03-09', '2020-03-10'], dtype=object)

In [8]:
# Convertir la columna 'Fecha' al tipo de dato de fecha de pandas sin hora
ventas_full['Fecha'] = pd.to_datetime(ventas_full['Fecha'], format='%Y-%m-%d')
ventas_full['Fecha'] = pd.to_datetime(ventas_full['Fecha'].dt.date)

# Verificar el dtype de la columna 'Fecha'
print(ventas_full['Fecha'].dtype)

datetime64[ns]


In [9]:
ventas_full['Fecha'].unique()

array(['2016-09-01T00:00:00.000000000', '2016-09-02T00:00:00.000000000',
       '2016-09-03T00:00:00.000000000', ...,
       '2020-03-07T00:00:00.000000000', '2020-03-09T00:00:00.000000000',
       '2020-03-10T00:00:00.000000000'], dtype='datetime64[ns]')

In [63]:
ventas_full['Fecha'] = ventas_full['Fecha'].dt.date

0         2016-09-01
1         2016-09-01
2         2016-09-01
3         2016-09-01
4         2016-09-01
             ...    
108789    2020-03-10
108790    2020-03-10
108791    2020-03-10
108792    2020-03-10
108793    2020-03-10
Name: Fecha, Length: 108794, dtype: object

In [52]:
ventas_full['Fecha'].dtype

dtype('O')

In [51]:
ventas_full.dtypes

IdCliente            object
NombreCliente        object
Fecha                object
Empleado              int64
Referencia           object
Descripcion          object
CodigoFamilia         int64
Familia              object
Cantidad              int64
Ventas                int64
Localidad            object
Sede                 object
Area                  int64
Id_Empleado           int64
Nombre y Apellido    object
dtype: object

In [9]:
ventas_full.Fecha.dtype

dtype('O')

In [18]:
# Convertir la columna 'Fecha' al tipo de dato de fecha si aún no está en ese formato
ventas_full['Fecha'] = pd.to_datetime(ventas_full['Fecha'])
ventas_full['Fecha'].dt.year.unique()

array([2016, 2017, 2018, 2019, 2020])

In [79]:
# Filtrar las ventas del año 2020
ventas_2020 = ventas_full[ventas_full['Fecha'].dt.year == 2020]

# Obtener los meses registrados en el año 2020
meses_2020 = ventas_2020['Fecha'].dt.month.unique()

# Contar el número de meses registrados en el año 2020
num_meses_2020 = len(meses_2020)

# Imprimir el resultado
print("Número de meses registrados en 2020:", num_meses_2020)

Número de meses registrados en 2020: 3


In [81]:
meses_2020

array([1, 2, 3])

In [82]:
ventas_full.columns

Index(['IdCliente', 'NombreCliente', 'Fecha', 'Empleado', 'Referencia',
       'Descripcion', 'CodigoFamilia', 'Familia', 'Cantidad', 'Ventas',
       'Localidad', 'Sede', 'Area', 'Id_Empleado', 'Nombre y Apellido'],
      dtype='object')

In [85]:
ventas_full.Descripcion.unique()

array(['PILOT STREET 110/80-17', 'TOURING 175/70R13',
       'ENERGY XM2 185/65R14', ..., 'REENC  M250 245/70R19.5',
       'REENC XDE2 235/75R17.5 PROPIEDAD COMPAÑIA',
       'PRIMACY 4 MI 225/55R16 99W'], dtype=object)