## Este código está diseñado para analizar el conjunto de datos de ventas de una tienda, explorar sus características, limpiar posibles problemas y generar insights clave.

Se importa la librería pandas, que se utiliza para la manipulación y análisis de datos estructurados.

In [24]:
import pandas as pd
import plotly.express as px

pd.read_csv("./ventas_central_shop.csv"): Lee el archivo CSV ubicado en la ruta especificada y lo convierte en un DataFrame.

df: Muestra el contenido del DataFrame.

In [3]:
df = pd.read_csv("./ventas_central_shop.csv")
df

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
0,1,2024-01-10,Televisor,Electrodomésticos,400,2,800,Carlos Pérez,Norte,Tigo_Money
1,2,2024-02-15,Lavadora,Electrodomésticos,300,1,300,María López,Sur,Tigo_Money
2,3,2024-03-05,Celular,Electrónica,200,3,600,Juan Gómez,Este,Tigo_Money
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
4,5,2024-05-12,Laptop,Electrónica,700,1,700,Luis Fernández,Norte,Tigo_Money
...,...,...,...,...,...,...,...,...,...,...
153,154,2025-01-24,Aspiradora,Electrónica,650,2,1300,Luis Fernández,Oeste,Efectivo
154,155,2025-01-25,Microondas,Electrodomésticos,300,4,1200,Sofía Martínez,Este,Tigo_Money
155,156,2025-01-26,Aspiradora,Electrodomésticos,250,1,250,Ana Torres,Oeste,Efectivo
156,157,2025-01-27,Aspiradora,Electrónica,150,1,150,Ana Torres,Este,Personal_Pay


Muestra un resumen informativo del DataFrame, incluyendo:
- Número total de entradas (filas).
- Número de columnas.
- Tipos de datos de cada columna.
- Cantidad de valores no nulos por columna.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158 entries, 0 to 157
Data columns (total 10 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   ID_Venta   158 non-null    int64 
 1   Fecha      158 non-null    object
 2   Producto   158 non-null    object
 3   Categoria  158 non-null    object
 4   Precio     158 non-null    int64 
 5   Cantidad   158 non-null    int64 
 6   Total      158 non-null    int64 
 7   Cliente    158 non-null    object
 8   Region     158 non-null    object
 9   Tipo_Pago  158 non-null    object
dtypes: int64(4), object(6)
memory usage: 12.5+ KB


df.head(): Muestra las primeras 5 filas del DataFrame (por defecto).

In [9]:
df.head()

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
0,1,2024-01-10,Televisor,Electrodomésticos,400,2,800,Carlos Pérez,Norte,Tigo_Money
1,2,2024-02-15,Lavadora,Electrodomésticos,300,1,300,María López,Sur,Tigo_Money
2,3,2024-03-05,Celular,Electrónica,200,3,600,Juan Gómez,Este,Tigo_Money
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
4,5,2024-05-12,Laptop,Electrónica,700,1,700,Luis Fernández,Norte,Tigo_Money


df.head(10): Muestra las primeras 10 filas del DataFrame.

In [14]:
df.head(10)

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
0,1,2024-01-10,Televisor,Electrodomésticos,400,2,800,Carlos Pérez,Norte,Tigo_Money
1,2,2024-02-15,Lavadora,Electrodomésticos,300,1,300,María López,Sur,Tigo_Money
2,3,2024-03-05,Celular,Electrónica,200,3,600,Juan Gómez,Este,Tigo_Money
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
4,5,2024-05-12,Laptop,Electrónica,700,1,700,Luis Fernández,Norte,Tigo_Money
5,6,2024-06-30,Microondas,Electrodomésticos,120,2,240,Sofía Martínez,Sur,Tigo_Money
6,7,2024-07-15,Tablet,Electrónica,300,2,600,Pedro Castillo,Este,Tigo_Money
7,8,2024-08-10,Cámara,Electrónica,500,1,500,Lucía García,Oeste,Tigo_Money
8,9,2024-09-01,Tablet,Electrónica,250,3,750,Juan Gómez,Norte,Transferencia
9,10,2024-09-02,Lavadora,Electrónica,750,3,2250,Juan Gómez,Oeste,Efectivo


Genera estadísticas descriptivas para las columnas numéricas, como:
- Media, desviación estándar, mínimo, máximo y percentiles

In [15]:
df.describe()

Unnamed: 0,ID_Venta,Precio,Cantidad,Total
count,158.0,158.0,158.0,158.0
mean,79.5,517.21519,2.310127,1185.379747
std,45.754781,255.108004,1.139348,867.000566
min,1.0,100.0,1.0,100.0
25%,40.25,300.0,1.0,600.0
50%,79.5,500.0,2.0,875.0
75%,118.75,700.0,3.0,1800.0
max,158.0,950.0,4.0,3400.0


df.tail(): Muestra las últimas 5 filas del DataFrame (por defecto)

In [16]:
df.tail()

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
153,154,2025-01-24,Aspiradora,Electrónica,650,2,1300,Luis Fernández,Oeste,Efectivo
154,155,2025-01-25,Microondas,Electrodomésticos,300,4,1200,Sofía Martínez,Este,Tigo_Money
155,156,2025-01-26,Aspiradora,Electrodomésticos,250,1,250,Ana Torres,Oeste,Efectivo
156,157,2025-01-27,Aspiradora,Electrónica,150,1,150,Ana Torres,Este,Personal_Pay
157,158,2025-01-28,Microondas,Electrónica,650,3,1950,María López,Este,Personal_Pay


df.tail(10): Muestra las últimas 10 filas del DataFrame

In [17]:
df.tail(10)

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
148,149,2025-01-19,Laptop,Electrodomésticos,450,2,900,Luis Fernández,Sur,Personal_Pay
149,150,2025-01-20,Aspiradora,Electrodomésticos,750,2,1500,Luis Fernández,Sur,Transferencia
150,151,2025-01-21,Lavadora,Electrodomésticos,100,1,100,Carlos Pérez,Sur,Tigo_Money
151,152,2025-01-22,Tablet,Electrodomésticos,600,1,600,Luis Fernández,Oeste,Efectivo
152,153,2025-01-23,Laptop,Electrónica,650,1,650,Carlos Pérez,Oeste,Tigo_Money
153,154,2025-01-24,Aspiradora,Electrónica,650,2,1300,Luis Fernández,Oeste,Efectivo
154,155,2025-01-25,Microondas,Electrodomésticos,300,4,1200,Sofía Martínez,Este,Tigo_Money
155,156,2025-01-26,Aspiradora,Electrodomésticos,250,1,250,Ana Torres,Oeste,Efectivo
156,157,2025-01-27,Aspiradora,Electrónica,150,1,150,Ana Torres,Este,Personal_Pay
157,158,2025-01-28,Microondas,Electrónica,650,3,1950,María López,Este,Personal_Pay


df.min(): Devuelve el valor mínimo de cada columna.

In [18]:
df.min()

ID_Venta                     1
Fecha               2024-01-10
Producto            Aspiradora
Categoria    Electrodomésticos
Precio                     100
Cantidad                     1
Total                      100
Cliente             Ana Torres
Region                    Este
Tipo_Pago             Efectivo
dtype: object

df.max(): Devuelve el valor máximo de cada columna.

In [None]:
df.max()

ID_Venta                158
Fecha            2025-01-28
Producto          Televisor
Categoria       Electrónica
Precio                  950
Cantidad                  4
Total                  3400
Cliente      Sofía Martínez
Region                  Sur
Tipo_Pago     Transferencia
dtype: object

Devuelve una lista con los nombres de las columnas del DataFrame.

In [22]:
df.columns

Index(['ID_Venta', 'Fecha', 'Producto', 'Categoria', 'Precio', 'Cantidad',
       'Total', 'Cliente', 'Region', 'Tipo_Pago'],
      dtype='object')

Devuelve una tupla con el número de filas y columnas del DataFrame en el formato (n_filas, n_columnas).

In [23]:
df.shape

(158, 10)

df[df['Categoria'] == "Electrodomésticos"]: Filtra las filas donde la columna "Categoria" sea igual a "Electrodomésticos".
El resultado se guarda en la variable cat_elect

In [10]:
cat_elect = df[df['Categoria']=="Electrodomésticos"]
cat_elect

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
0,1,2024-01-10,Televisor,Electrodomésticos,400,2,800,Carlos Pérez,Norte,Tigo_Money
1,2,2024-02-15,Lavadora,Electrodomésticos,300,1,300,María López,Sur,Tigo_Money
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
5,6,2024-06-30,Microondas,Electrodomésticos,120,2,240,Sofía Martínez,Sur,Tigo_Money
13,14,2024-09-06,Cámara,Electrodomésticos,350,3,1050,Juan Gómez,Oeste,Tigo_Money
...,...,...,...,...,...,...,...,...,...,...
149,150,2025-01-20,Aspiradora,Electrodomésticos,750,2,1500,Luis Fernández,Sur,Transferencia
150,151,2025-01-21,Lavadora,Electrodomésticos,100,1,100,Carlos Pérez,Sur,Tigo_Money
151,152,2025-01-22,Tablet,Electrodomésticos,600,1,600,Luis Fernández,Oeste,Efectivo
154,155,2025-01-25,Microondas,Electrodomésticos,300,4,1200,Sofía Martínez,Este,Tigo_Money


df.groupby('Region')['Total'].sum():

Agrupa el DataFrame por la columna "Region".

Calcula la suma de la columna "Total" para cada grupo.

El resultado se almacena en la variable ventas_region

In [6]:
ventas_region = df.groupby('Region')['Total'].sum()
ventas_region

Region
Este     35450
Norte    61650
Oeste    50300
Sur      39890
Name: Total, dtype: int64

df.sort_values(by='Total', ascending=False):

Ordena el DataFrame en función de la columna "Total" en orden descendente.

El resultado se almacena en la variable ordenado.

In [8]:
ordenado = df.sort_values(by='Total', ascending=False)
ordenado

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
38,39,2024-10-01,Celular,Electrónica,850,4,3400,Juan Gómez,Oeste,Tigo_Money
95,96,2024-11-27,Tablet,Electrónica,850,4,3400,Pedro Castillo,Sur,Pago_POS
120,121,2024-12-22,Cámara,Electrónica,800,4,3200,Pedro Castillo,Oeste,Efectivo
20,21,2024-09-13,Televisor,Electrónica,800,4,3200,Luis Fernández,Norte,Pago_POS
115,116,2024-12-17,Tablet,Electrodomésticos,750,4,3000,Sofía Martínez,Este,Transferencia
...,...,...,...,...,...,...,...,...,...,...
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
156,157,2025-01-27,Aspiradora,Electrónica,150,1,150,Ana Torres,Este,Personal_Pay
139,140,2025-01-10,Celular,Electrodomésticos,150,1,150,Lucía García,Este,Pago_POS
150,151,2025-01-21,Lavadora,Electrodomésticos,100,1,100,Carlos Pérez,Sur,Tigo_Money


df.isnull(): Devuelve un DataFrame booleano indicando dónde hay valores nulos.

.sum(): Suma la cantidad de valores nulos en cada columna.

In [11]:
print(df.isnull().sum())

ID_Venta     0
Fecha        0
Producto     0
Categoria    0
Precio       0
Cantidad     0
Total        0
Cliente      0
Region       0
Tipo_Pago    0
dtype: int64


df.Tipo_Pago.value_counts():

Cuenta la frecuencia de cada valor único en la columna "Tipo_Pago".

El resultado se almacena en la variable tipo_pago.

In [12]:
tipo_pago = df.Tipo_Pago.value_counts()
tipo_pago


Tipo_Pago
Tigo_Money       47
Transferencia    33
Efectivo         28
Pago_POS         27
Personal_Pay     23
Name: count, dtype: int64

df[['Producto', 'Categoria']]: Selecciona únicamente las columnas "Producto" y "Categoria" del DataFrame

In [13]:
columnas = df[['Producto', 'Categoria']]
columnas

Unnamed: 0,Producto,Categoria
0,Televisor,Electrodomésticos
1,Lavadora,Electrodomésticos
2,Celular,Electrónica
3,Aspiradora,Electrodomésticos
4,Laptop,Electrónica
...,...,...
153,Aspiradora,Electrónica
154,Microondas,Electrodomésticos
155,Aspiradora,Electrodomésticos
156,Aspiradora,Electrónica


In [14]:
df

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
0,1,2024-01-10,Televisor,Electrodomésticos,400,2,800,Carlos Pérez,Norte,Tigo_Money
1,2,2024-02-15,Lavadora,Electrodomésticos,300,1,300,María López,Sur,Tigo_Money
2,3,2024-03-05,Celular,Electrónica,200,3,600,Juan Gómez,Este,Tigo_Money
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
4,5,2024-05-12,Laptop,Electrónica,700,1,700,Luis Fernández,Norte,Tigo_Money
...,...,...,...,...,...,...,...,...,...,...
153,154,2025-01-24,Aspiradora,Electrónica,650,2,1300,Luis Fernández,Oeste,Efectivo
154,155,2025-01-25,Microondas,Electrodomésticos,300,4,1200,Sofía Martínez,Este,Tigo_Money
155,156,2025-01-26,Aspiradora,Electrodomésticos,250,1,250,Ana Torres,Oeste,Efectivo
156,157,2025-01-27,Aspiradora,Electrónica,150,1,150,Ana Torres,Este,Personal_Pay


Devuelve todas las filas donde el valor de la columna "Precio" sea menor o igual a 600.

In [15]:
df[df["Precio"]<=600]



Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
0,1,2024-01-10,Televisor,Electrodomésticos,400,2,800,Carlos Pérez,Norte,Tigo_Money
1,2,2024-02-15,Lavadora,Electrodomésticos,300,1,300,María López,Sur,Tigo_Money
2,3,2024-03-05,Celular,Electrónica,200,3,600,Juan Gómez,Este,Tigo_Money
3,4,2024-04-20,Aspiradora,Electrodomésticos,150,1,150,Ana Torres,Oeste,Tigo_Money
5,6,2024-06-30,Microondas,Electrodomésticos,120,2,240,Sofía Martínez,Sur,Tigo_Money
...,...,...,...,...,...,...,...,...,...,...
150,151,2025-01-21,Lavadora,Electrodomésticos,100,1,100,Carlos Pérez,Sur,Tigo_Money
151,152,2025-01-22,Tablet,Electrodomésticos,600,1,600,Luis Fernández,Oeste,Efectivo
154,155,2025-01-25,Microondas,Electrodomésticos,300,4,1200,Sofía Martínez,Este,Tigo_Money
155,156,2025-01-26,Aspiradora,Electrodomésticos,250,1,250,Ana Torres,Oeste,Efectivo


df.sample(10): Selecciona 10 filas aleatorias del DataFrame.

In [49]:
df.sample(10)

Unnamed: 0,ID_Venta,Fecha,Producto,Categoria,Precio,Cantidad,Total,Cliente,Region,Tipo_Pago
73,74,2024-11-05,Televisor,Electrodomésticos,200,3,800,Carlos Pérez,Norte,Pago_POS
130,131,2025-01-01,Cámara,Electrodomésticos,450,4,800,Pedro Castillo,Sur,Personal_Pay
146,147,2025-01-17,Tablet,Electrodomésticos,150,2,800,Sofía Martínez,Norte,Pago_POS
50,51,2024-10-13,Laptop,Electrodomésticos,500,2,800,Ana Torres,Norte,Pago_POS
15,16,2024-09-08,Aspiradora,Electrodomésticos,700,3,800,Sofía Martínez,Oeste,Transferencia
24,25,2024-09-17,Tablet,Electrodomésticos,750,4,800,Lucía García,Oeste,Tigo_Money
42,43,2024-10-05,Celular,Electrodomésticos,300,4,800,María López,Este,Personal_Pay
82,83,2024-11-14,Televisor,Electrónica,700,4,800,Pedro Castillo,Oeste,Tigo_Money
74,75,2024-11-06,Televisor,Electrodomésticos,150,1,800,Sofía Martínez,Oeste,Pago_POS
118,119,2024-12-20,Televisor,Electrónica,400,3,800,Carlos Pérez,Norte,Tigo_Money


Selecciona la columna Tipo_Pago del DataFrame.

Esto te permite identificar qué métodos de pago son más comunes en los datos.

In [16]:
df.Tipo_Pago.value_counts()

Tipo_Pago
Tigo_Money       47
Transferencia    33
Efectivo         28
Pago_POS         27
Personal_Pay     23
Name: count, dtype: int64

In [25]:
# Contar las frecuencias de cada método de pago
tipo_pago = df['Tipo_Pago'].value_counts()
tipo_pago

Tipo_Pago
Tigo_Money       47
Transferencia    33
Efectivo         28
Pago_POS         27
Personal_Pay     23
Name: count, dtype: int64

In [29]:
# Convertir a un DataFrame para usarlo con Plotly
tipo_pago_df = tipo_pago.reset_index()
tipo_pago_df.columns = ['Tipo_Pago','Frecuencia']

In [27]:
# Crear el gráfico de barras
fig = px.bar(
    tipo_pago_df,
    x='Tipo_Pago',
    y='Frecuencia',
    title='Frecuencia de motedos de pago',
    labels={'Tipo_Pago': 'Método de Pago', 'Frecuencia': 'Cantidad'},
    color='Frecuencia',
    text='Frecuencia'
)

In [28]:
# Personalizar el diseño

fig.update_traces(textposition='outside')
fig.update_layout(
    xaxis_title='Metodo de Pago',
    yaxis_title='Frecuencia',
    template='plotly_white'
)

fig.show()

Explicación del código

Contar frecuencias:

- Usamos value_counts() para obtener la cantidad de cada tipo de pago.

- Convertimos el resultado en un DataFrame para usarlo fácilmente con Plotly.

Crear el gráfico:

- px.bar: Crea un gráfico de barras.

- x y y: Define las columnas para los ejes X e Y.

- color: Colorea las barras en función de los valores de frecuencia.

- text: Agrega etiquetas de texto con las frecuencias en las barras.

Personalización:

- Las etiquetas se colocan fuera de las barras (textposition='outside').

- Se usa un diseño limpio con template='plotly_white'.

Resultado esperado

Un gráfico de barras interactivo que muestra:

- Los métodos de pago en el eje X.

- La frecuencia de cada método en el eje Y.

- Etiquetas de texto con los valores de frecuencia encima de cada barra