# Introducción: Situación Problemática Ficticia

## Contexto:

### Una cadena de fiambrerías llamada "Delicias de la Casa" ha estado operando durante varios años y ha acumulado una cantidad significativa de datos sobre sus ventas. Recientemente, la dirección de la empresa ha decidido analizar estos datos para mejorar su estrategia de ventas y optimizar sus operaciones. Para ello, han contratado a un equipo de analistas de datos y te han asignado la tarea de guiar a un grupo de nuevos analistas a través del proceso de análisis de datos.

## Problema:

### La empresa ha proporcionado dos conjuntos de datos históricos: uno con detalles de las ventas (Ventas_Detalladas) y otro con información sobre los medios de pago utilizados (Ventas_MediosPago). Tu tarea es enseñar a los nuevos analistas cómo procesar y analizar estos datos utilizando Python. El objetivo es extraer información valiosa que pueda ayudar a la empresa a entender mejor sus ventas y los hábitos de pago de sus clientes.

## Objetivos Específicos:

### Exploración de Datos:

#### Cargar y explorar los datos para entender su estructura y contenido.

### Limpieza de Datos:

#### Identificar y manejar valores faltantes o inconsistentes.
#### Asegurarse de que los tipos de datos sean correctos.

### Análisis Básico:

#### Calcular estadísticas descriptivas.
#### Identificar los artículos más vendidos.
#### Analizar la distribución de ventas por medio de pago.

### Visualización de Datos:

#### Crear gráficos que muestren las ventas por artículo.
#### Visualizar la proporción de ventas por medio de pago.

### Integración de Datos:

#### Unir los dos conjuntos de datos para obtener una visión más completa.
#### Analizar las ventas totales por artículo y medio de pago combinados.

# Paso 1: Exploración de Datos

In [4]:
# Instalar el paquete xlrd
!pip install xlrd

import pandas as pd

# Cargar los datasets
ventas_detalladas_path = 'Ventas_Detalladas.xls'
ventas_medios_pago_path = 'Ventas_MediosPago.xls'

# Leer los archivos Excel
ventas_detalladas = pd.read_excel(ventas_detalladas_path, engine='xlrd')
ventas_medios_pago = pd.read_excel(ventas_medios_pago_path, engine='xlrd')

# Mostrar las primeras filas de cada dataset para explorar su contenido
print("Ventas Detalladas:")
print(ventas_detalladas.head())

print("\nVentas Medios de Pago:")
print(ventas_medios_pago.head())

# Mostrar información de los datasets
print("\nInformación de Ventas Detalladas:")
print(ventas_detalladas.info())

print("\nInformación de Ventas Medios de Pago:")
print(ventas_medios_pago.info())


Ventas Detalladas:
               FechaPedido  NroPedido TipoComprobante Letra  NroComprobante  \
0  2021-01-15 09:06:25.010     192026               T   NaN               0   
1  2021-01-16 10:05:09.140     192152               T     B      1300363195   
2  2021-01-15 09:56:25.420     192034               T     B      1300363130   
3  2021-01-15 18:06:43.640     192076               T     B      1300363153   
4  2021-01-02 19:11:00.240     190865               T     B      1300362127   

          FechaComprobante  CodCliente     NombreCliente    Total  \
0  2021-01-15 09:06:25.010         109  CONSUMIDOR FINAL   102.11   
1  2021-01-16 10:05:09.140         109  CONSUMIDOR FINAL  1353.86   
2  2021-01-15 09:56:25.420         109  CONSUMIDOR FINAL   705.37   
3  2021-01-15 18:06:43.640         109  CONSUMIDOR FINAL   172.11   
4  2021-01-02 19:11:00.240         109  CONSUMIDOR FINAL  1733.18   

   CodArticulo  ... PorcRecargoGral  ImporteRecargoGral  PendEntrega  \
0          550  ...

# Paso 2: Limpieza de Datos

In [9]:
# Identificar valores faltantes
print("\nValores faltantes en Ventas Detalladas:")
print(ventas_detalladas.isnull().sum())

print("\nValores faltantes en Ventas Medios de Pago:")
print(ventas_medios_pago.isnull().sum())

valor_por_defecto='seba'

# Manejo de valores faltantes: ejemplo de relleno o eliminación
ventas_detalladas.fillna({'columna_a_rellenar': valor_por_defecto}, inplace=True)
ventas_medios_pago.dropna(subset=['columna_importante'], inplace=True)

# Asegurar tipos de datos correctos
ventas_detalladas['columna_numerica'] = ventas_detalladas['columna_numerica'].astype(float)
ventas_medios_pago['columna_fecha'] = pd.to_datetime(ventas_medios_pago['columna_fecha'])

# Confirmar cambios
print("\nInformación de Ventas Detalladas después de limpieza:")
print(ventas_detalladas.info())

print("\nInformación de Ventas Medios de Pago después de limpieza:")
print(ventas_medios_pago.info())



Valores faltantes en Ventas Detalladas:
FechaPedido                0
NroPedido                  0
TipoComprobante            0
Letra                   6116
NroComprobante             0
FechaComprobante           0
CodCliente                 0
NombreCliente              0
Total                      0
CodArticulo                0
DescripcionArticulo        0
PrecioUnit                 0
Cantidad                   0
ImporteFinal               0
BonifItem                  0
TasaIVA                    0
ImporteNeto                0
ImporteIVA                 0
PorcDescGral               0
ImporteDescGral            0
PorcRecargoGral            0
ImporteRecargoGral         0
PendEntrega                0
Sucursal                   0
CodVendedor                0
NombreVendedor             0
Rubro                    433
Subrubro                 898
Marca                  26321
Proveedor                  5
dtype: int64

Valores faltantes en Ventas Medios de Pago:
FechaPedido                 0
N

KeyError: ['columna_importante']

# Paso 3: Análisis Básico

In [12]:
# Calcular estadísticas descriptivas
print("\nEstadísticas descriptivas de Ventas Detalladas:")
print(ventas_detalladas.describe())

# Identificar los artículos más vendidos
articulos_mas_vendidos = ventas_detalladas['nombre_articulo'].value_counts().head(10)
print("\nArtículos más vendidos:")
print(articulos_mas_vendidos)

# Análisis de la distribución de ventas por medio de pago
ventas_por_medio_pago = ventas_medios_pago['medio_pago'].value_counts()
print("\nDistribución de ventas por medio de pago:")
print(ventas_por_medio_pago)



Estadísticas descriptivas de Ventas Detalladas:
          NroPedido  NroComprobante    CodCliente         Total   CodArticulo  \
count  3.052900e+04    3.052900e+04  3.052900e+04  30529.000000  3.052900e+04   
mean   1.241202e+07    9.378650e+08  8.684523e+03   1343.357405  3.950366e+12   
std    9.820590e+06    4.772534e+08  3.880812e+05   1287.212335  3.893295e+12   
min    1.907840e+05    0.000000e+00  6.500000e+01      9.990000  3.010000e+02   
25%    1.926660e+05    1.100197e+09  1.090000e+02    513.980000  2.070140e+05   
50%    2.030289e+07    1.100199e+09  1.090000e+02    984.660000  7.622301e+12   
75%    2.030461e+07    1.300362e+09  1.090000e+02   1786.740000  7.791885e+12   
max    2.030630e+07    1.300364e+09  2.000008e+07  32169.670000  8.999003e+12   

         PrecioUnit      Cantidad   ImporteFinal  BonifItem       TasaIVA  \
count  30529.000000  30529.000000   30529.000000    30529.0  30529.000000   
mean     352.154526      1.008241     195.531093        0.0     20.

KeyError: 'nombre_articulo'

# Paso 4: Visualización de Datos

In [17]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualizar los artículos más vendidos
plt.figure(figsize=(10, 6))
sns.barplot(x=articulos_mas_vendidos.values, y=articulos_mas_vendidos.index)
plt.title('Artículos más vendidos')
plt.xlabel('Cantidad Vendida')
plt.ylabel('Artículo')
plt.show()

# Visualizar la distribución de ventas por medio de pago
plt.figure(figsize=(10, 6))
sns.barplot(x=ventas_por_medio_pago.values, y=ventas_por_medio_pago.index)
plt.title('Distribución de ventas por medio de pago')
plt.xlabel('Cantidad de Ventas')
plt.ylabel('Medio de Pago')
plt.show()


NameError: name 'articulos_mas_vendidos' is not defined

<Figure size 1000x600 with 0 Axes>

# Paso 5: Integración de Datos

In [20]:
# Suponiendo que ambos datasets tienen una columna común llamada 'id_venta'
ventas_combinadas = pd.merge(ventas_detalladas, ventas_medios_pago, on='id_venta')

# Mostrar las primeras filas del dataset combinado
print("\nVentas Combinadas:")
print(ventas_combinadas.head())

# Análisis de ventas totales por artículo y medio de pago
ventas_por_articulo_y_pago = ventas_combinadas.groupby(['nombre_articulo', 'medio_pago']).size().unstack(fill_value=0)
print("\nVentas por artículo y medio de pago:")
print(ventas_por_articulo_y_pago)


KeyError: 'id_venta'