ENTENDIMIENTO DE DATOS
Felipe Carrasquilla Quintero

In [26]:
#!pip install mysql-connector-python
#!pip install pymysql

In [27]:
from sqlalchemy import create_engine
import pandas as pd

In [None]:
# Configura la conexión
engine = create_engine('mysql+mysqlconnector://Estudiante_16_202415:Estudiante_202423813@157.253.236.120:8080/WWImportersTransactional')

# Lee la tabla en un DataFrame de Pandas
df = pd.read_sql('SELECT * FROM movimientosCopia', engine)

# Muestra el DataFrame
print(df.head())

Contexto del negocio: Wide World Importers
Se trata de una empresa B2B que importa y distribuye productos a comercializadores minoristas principalmente de Estados Unidos

La empresa comparte la tabla movimientosCopia de su base de datos para el proyecto de analítica 1.0 en el que pretende entender el comportamiento de clientes o vendedores basándose en el movimiento de inventarios.

![MovimientosCopia.jpg](attachment:MovimientosCopia.jpg)

La tabla MovimientosCopia tiene los campos que se ven en la imagen.
Cada fila de la tabla corresponde al movimiento de un producto en particular dentro de una transacción, si es una salida de producto (venta) entonces se ve a qué cliente y en qué factura está el movimiento además de la fecha de la transacción y la cantidad del producto que salió del inventario. Si es una entrada de producto, en lugar de cliente y factura aparece el proveedor y la orden de compra correspondiente. Por ejemplo la primera fila de la imagen representa que el día 25 de abril de 2014, salieron 40 unidades del inventario del producto identificado con el id 217 para el cliente con id 476 y hace parte del invoice o factura 24904

La llave única que identifica cada registro dentro de la tabla es TransaccionProductoID

Se revisa entonces la tabla movimientosCopia para hacer los primeros descubrimientos:

In [29]:
queryTiposTransaccion = '''
select distinct(m.TipoTransaccionID), t.TipoTransaccionNombre from WWImportersTransactional.movimientosCopia m
left join WWImportersTransactional.TiposTransaccion t on t.TipoTransaccionID = m.TipoTransaccionID;
'''

![TipoTransacciones.jpg](attachment:TipoTransacciones.jpg)

Se aconseja revisar si la tabla está truncada o filtrada o incompleta, ya que la diferencia que hay entre stock issue (entendido como salidas de inventario) y stock receipt (entendido como entrada de inventario) es demasiado alta (aproximadamente 20 a 1) y significaría que la empresa está llenándose de inventario y la rotación demasiado baja

--------------------------------------------------------------------------------------------------------------------------

La empresa Wide World Importers afirma que en su empresa la cantidad máxima de productos movidos es 50 millones por transacción. Si suponemos que con transacción se refiere a cada factura (Invoice) para salidas y a órdenes de compra para entradas entonces los movimientos están lejos de ese límite

In [30]:
queryCantidadSalidas = '''
select distinct(invoiceid), sum(cantidad) from WWImportersTransactional.movimientosCopia
group by invoiceid
order by sum(cantidad) asc;
'''

La factura que suma más cantidades alcanza apenas 1273 salidas

In [31]:
queryCantidadEntradas = '''
select distinct(ordendecompraid), sum(cantidad) from WWImportersTransactional.movimientosCopia
group by ordendecompraid
order by sum(cantidad) desc;
'''

La entrada de producto más grande en una sola orden de compra es de 320904

-------------------------------------------------------------------------------------------------------------------------

Se afirma también que existen 236.668 movimientos de producto desde 2013.

In [32]:
queryNumeroTransacciones = '''
select count(distinct(TransaccionProductoID)) from WWImportersTransactional.movimientosCopia m;
'''

Sin embargo en la tabla de movimientos únicamente hay 173.659 registros, lo que refuerza la posibilidad de que la tabla esté incompleta.

-------------------------------------------------------------------------------------------------------------------------

Al revisar los clientes, que según la información recibida deberían ser 228.265. Solo están apareciendo 664 clientes diferentes en los registros de la tabla movimientosCopias

In [33]:
queryClientesDistintos = '''
select count(distinct(ClienteID)) from WWImportersTransactional.movimientosCopia m where ClienteID is not null and ClienteID <> '';
'''

Se recomienda revisar la cifra de 228.265 clientes, ya que para el tipo de negocio B2B que maneja WWI puede ser un valor demasiado alto

-------------------------------------------------------------------------------------------------------------------------

Al revisar las fechas en las que hay información en movimientosCopia, vemos que solo hay información entre el 31 de diciembre de 2013 y el 31 de mayo de 2016. 

In [34]:
queryRangoFechas = '''
select min(FechaTransaccion) as Fecha_Inicial, max(FechaTransaccion) as Fecha_Final from WWImportersTransactional.movimientosCopia;
'''
queryFechasDiferentes = '''
select distinct(FechaTransaccion) from WWImportersTransactional.movimientosCopia order by FechaTransaccion;
'''

Adicionalmente, hay dos formatos diferentes en los que se encuentran las fechas: YYYY-MM-DD HH:MM:SS y mmm-DD,YYYY. Adicionalmente, ninguno de los formatos en la tabla está siendo tomado como fecha por el sistema, son simplemente texto

-------------------------------------------------------------------------------------------------------------------------

La empresa también afirma que actualmente hay 13 diferentes proveedores

In [35]:
queryClientesDiferentes = '''
select count(distinct(ProveedorID)) from WWImportersTransactional.movimientosCopia m where ProveedorID is not null and ProveedorID <> '';
'''

En la tabla movimientosCopia solo aparecen 3

-------------------------------------------------------------------------------------------------------------------------

Se había guardado el archivo en un df por si ocurría algún inconveniente.

In [None]:
# Carga el archivo CSV en un DataFrame
#df = pd.read_csv('data.csv')

# Muestra las primeras filas del DataFrame
print(df.head())

In [None]:
df.info()

In [None]:
duplicados = df.duplicated().sum()
print(duplicados)


Se identifica que hay 30.633 filas duplicadas y se procede a filtrarlas para este análisis inicial

In [39]:
df = df.drop_duplicates()

In [None]:

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


# Separar el DataFrame en tres
df_tipo_12 = df[df['TipoTransaccionID'] == 12]
df_tipo_11 = df[df['TipoTransaccionID'] == 11]
df_tipo_10 = df[df['TipoTransaccionID'] == 10]

# Calcular estadísticas descriptivas para la columna 'Cantidad'
estadisticas_tipo_12 = df_tipo_12['Cantidad'].describe()
estadisticas_tipo_11 = df_tipo_11['Cantidad'].describe()
estadisticas_tipo_10 = df_tipo_10['Cantidad'].describe()

# Mostrar los resultados
print("Estadísticas para ENTRADAS:")
print(estadisticas_tipo_11)

print("\nEstadísticas para SALIDAS:")
print(estadisticas_tipo_10)

print("\nEstadísticas para AJUSTES:")
print(estadisticas_tipo_12)

# Crear una figura para las gráficas
plt.figure(figsize=(12, 6))

# Gráfica de violín para Tipo 11 (ENTRADAS)
plt.subplot(1, 3, 1)
sns.violinplot(y='Cantidad', data=df_tipo_11)
plt.title('ENTRADAS (Tipo 11)')
plt.ylabel('Cantidad')

# Gráfica de violín para Tipo 10 (SALIDAS)
plt.subplot(1, 3, 2)
sns.violinplot(y='Cantidad', data=df_tipo_10)
plt.title('SALIDAS (Tipo 10)')
plt.ylabel('Cantidad')

# Gráfica de violín para Tipo 12 (AJUSTES)
plt.subplot(1, 3, 3)
sns.violinplot(y='Cantidad', data=df_tipo_12)
plt.title('AJUSTES (Tipo 12)')
plt.ylabel('Cantidad')

# Ajustar el espacio entre las gráficas
plt.tight_layout()
plt.show()



Las entradas de mercancía de cada producto en promedio mueven 21713 unidades con una desviación estándar de 13562 unidades lo que indica que no hay un sesgo demasiado marcado como sí lo hay en las salidas, donde el promedio de la salida de cada producto por transacción es de 39 unidades con una desviación estándar de 54. Se observa claramente en el gráfico de las salidas y en los cuartiles que la gran mayoría de salidas de inventario mueven pocas unidades.

In [None]:

# Agrupar por ProveedorID y sumar la columna Cantidad
suma_por_proveedor = df_tipo_11.groupby('ProveedorID')['Cantidad'].sum().reset_index()

# Crear la gráfica
plt.figure(figsize=(12, 6))
barplot = sns.barplot(x='ProveedorID', y='Cantidad', data=suma_por_proveedor, palette='viridis')

# Añadir títulos y etiquetas
plt.title('Suma de Cantidad por ProveedorID')
plt.xlabel('Proveedor ID')
plt.ylabel('Suma de Cantidad')
plt.xticks(rotation=45)  # Rotar las etiquetas del eje x si es necesario

# Añadir los valores sobre las barras
for p in barplot.patches:
    barplot.annotate(format(p.get_height(), '.1f'), 
                     (p.get_x() + p.get_width() / 2., p.get_height()), 
                     ha='center', va='bottom', fontsize=10, color='black', 
                     xytext=(0, 5),  # Desplazamiento del texto
                     textcoords='offset points')

plt.tight_layout()  # Ajustar el espacio
plt.show()

La mayoría de compras se le han hecho al proveedor con ID 4, un poco más de la mitad al proveedor con ID 7 y muy poco al proveedor con ID 1

In [None]:

# Agrupar por ClienteID y sumar la columna Cantidad (invirtiendo el signo)
ventas_por_cliente = df_tipo_10.groupby('ClienteID')['Cantidad'].sum().reset_index()

# Convertir Cantidad a positivo para reflejar el total de ventas
ventas_por_cliente['Cantidad'] = -ventas_por_cliente['Cantidad']

# Filtrar los 10 clientes con más ventas y ordenar de mayor a menor
top_10_clientes = ventas_por_cliente.nlargest(10, 'Cantidad').sort_values(by='Cantidad', ascending=False)

# Convertir ClienteID a cadena
top_10_clientes['ClienteID'] = top_10_clientes['ClienteID'].astype(str)

# Crear la gráfica
plt.figure(figsize=(12, 6))
barplot = sns.barplot(x='ClienteID', y='Cantidad', data=top_10_clientes, palette='viridis')

# Añadir títulos y etiquetas
plt.title('Top 10 Clientes con Más Ventas')
plt.xlabel('Cliente ID')
plt.ylabel('Total de Ventas (positivas)')
plt.xticks(rotation=45)  # Rotar las etiquetas del eje x si es necesario

# Añadir los valores sobre las barras
for p in barplot.patches:
    barplot.annotate(format(p.get_height(), '.1f'), 
                     (p.get_x() + p.get_width() / 2., p.get_height()), 
                     ha='center', va='bottom', fontsize=10, color='black', 
                     xytext=(0, 5),  # Desplazamiento del texto
                     textcoords='offset points')

plt.tight_layout()  # Ajustar el espacio
plt.show()

In [None]:
# Crear una nueva columna 'FechaTransaccionConvertida' con las conversiones
df['FechaTransaccionConvertida'] = pd.to_datetime(df['FechaTransaccion'], errors='coerce')

# Convertir las fechas restantes en el otro formato y actualizarlas en 'FechaTransaccionConvertida'
df.loc[df['FechaTransaccionConvertida'].isnull(), 'FechaTransaccionConvertida'] = pd.to_datetime(
    df.loc[df['FechaTransaccionConvertida'].isnull(), 'FechaTransaccion'], 
    format='%b %d,%Y', errors='coerce'
)

# Verificar si aún quedan filas sin convertir
print(df['FechaTransaccionConvertida'].isnull().sum())



In [None]:
df.head()


Los clientes a los que más productos se les vendió entre los 663 que aparecen en la lista se ven en la gráfica.
Paricipa en menos de un 0,22% por lo que se deduce que la empresa no depende de ningún cliente en particular y que la distribución es homogénea.

CONCLUSIONES Y RECOMENDACIONES

1. Revisar las filas repetidas de la tabla movimientosCopia por lo que no se cumple la unicidad
2. Revisar que la tabla sí esté completa, hay varios indicios que podrían indicar que la tabla no está completa y que falta una cantidad importante de datos. Parece que no se cumple la completitud
3. Solo hay registros de fechas hasta mayo de 2016 y los formatos no son consistentes.
4. Hay muchas más entradas de inventario que salidas
5. Las reglas de negocio no se están cumpliendo en su mayoría. Se debe revisar cuidadosamente la tabla para que refleje la verdad del negocio.
