# Análisis descriptivo y visualización de ventas de PepsiCo en Argentina.

Este proyecto tiene como objetivo analizar un conjunto de datos sin depurar correspondiente a las ventas de productos de PepsiCo realizadas por distintas distribuidoras en todo el país.

A través de herramientas de procesamiento y estadística descriptiva, se busca identificar patrones relevantes, limpiar el dataset y describir las variables disponibles para su análisis posterior.

---

## Integrantes del equipo

- Eglimar Ramirez  
- Francisco Oviedo  
- Jonathan Guillen  
- Jonathan Manuel Palomeque
- Lucas Ledesma  
- Maia Majzum  
- Valentina Pich 


## Descripción general del dataset

El dataset contiene datos relacionados con la venta de productos, incluyendo:

- **Distribuidor**: nombre de la distribuidora.
- **Área**: región geográfica.
- **Artículo**: código identificador del producto.
- **Descripción**: nombre comercial del producto.
- **Cantidad**: unidades vendidas.
- **Capacidad**: gramos vendidos.
- **Línea**: línea o categoría comercial (ej. Gold, Platinum).
- **Rubro**: categoría general del producto (ej. Crakers).


In [6]:
import pandas as pd

df = pd.read_csv("Listado_Ventas.csv", encoding="latin1")
df.head(10)

Unnamed: 0,Distribuidor,Area,Articulo,Descripcion,Cantidad,Capacidad,Linea,Rubro
0,TOTAL CENTRO S.R.L.,NEA y Litoral,300063098,Twistos Minit Queso 95gx30x1,4319.0,410495.0,Gold/Crakers,Crakers
1,TOTAL CENTRO S.R.L.,NEA y Litoral,300063097,Twistos Minit Queso 100gx30,4027.0,382565.0,Gold/Crakers,Crakers
2,TOTAL CENTRO S.R.L.,NEA y Litoral,300052695,Twistos Minit Jamon 100gx30,70.0,7.0,Gold/Crakers,Crakers
3,TOTAL CENTRO S.R.L.,NEA y Litoral,300052696,Twistos Minit Jamon 40gx112x1,3284940.0,34.36,Platinum/Crakers,Crakers
4,TOTAL CENTRO S.R.L.,NEA y Litoral,300063264,Twistos Minit Queso 40gx112x1,3284940.0,25.36,Platinum/Crakers,Crakers
5,TOTAL CENTRO S.R.L.,NEA y Litoral,300063263,Twistos Minit Jamon 40gx84,287.0,11.48,Platinum/Crakers,Crakers
6,TOTAL CENTRO S.R.L.,NEA y Litoral,300052694,Twistos Minit Jamon 155gx20,1881.0,291555.0,Silver/Crakers,Crakers
7,TOTAL CENTRO S.R.L.,NEA y Litoral,300062972,Pehuamar acanalada 230gx14x1,264.0,69.96,Bronze/Salty,Salty
8,TOTAL CENTRO S.R.L.,NEA y Litoral,300062973,Pehuamar Papa Lisa 230gx14x1,194.0,44.62,Bronze/Salty,Salty
9,TOTAL CENTRO S.R.L.,NEA y Litoral,300060197,Pehuamar Acanalada 485x9,97.0,22.31,Bronze/Salty,Salty


## Analisis de columnas numéricas (válidos, nulos, media, mediana, desviación estandar y mal registrados)

In [8]:
# Seleccionar columnas numéricas
columnas_numericas = df.select_dtypes(include='number').columns

# Crear una lista para almacenar resultados
resultados = []

for col in columnas_numericas:
    total = len(df)
    validos = df[col].notna().sum()
    nulos = df[col].isna().sum()
    
    # Se interpretan como mal registrados o erróneos los valores negativos o cero.
    erroneos = df[col][df[col] <= 0].count()

    media = df[col].mean()
    mediana = df[col].median()
    std = df[col].std()

    resultados.append({
        "Columna": col,
        "Total": total,
        "Válidos": validos,
        "Nulos": nulos,
        "Erróneos": erroneos,
        "Media": round(media, 2),
        "Mediana": round(mediana, 2),
        "Desvío estándar": round(std, 2)
    })

# Mostrar resultados
pd.DataFrame(resultados)

Unnamed: 0,Columna,Total,Válidos,Nulos,Erróneos,Media,Mediana,Desvío estándar
0,Articulo,1777,1777,0,0,300057200.0,300060100.0,6640.24
1,Cantidad,1777,1693,84,6,109210.5,655.0,582171.96
2,Capacidad,1777,1777,0,8,105021.9,221.24,671860.82


## Análisis de columnas categóricas (válidos, nulos, mal registrados y cantidad de registros por categoría)

In [9]:
# Seleccionar solo las columnas categóricas (no numéricas)
columnas_categoricas = df.select_dtypes(exclude='number').columns

# Guardar resultados en una lista
resultados = []

for col in columnas_categoricas:
    total = len(df)
    validos = df[col].notna().sum()
    nulos = df[col].isna().sum()
    categorias = df[col].nunique()

    # Se interpretan como mal registrados o erróneos los valores vacíos 
    erroneos = df[col].isin(["", " ", "-", "Sin dato", "No aplica"]).sum()

    resultados.append({
        "Columna": col,
        "Total registros": total,
        "Válidos": validos,
        "Nulos": nulos,
        "Mal registrados (vacíos o inválidos)": erroneos,
        "Cantidad de categorías distintas": categorias
    })

# Mostrar resultados
pd.DataFrame(resultados)

Unnamed: 0,Columna,Total registros,Válidos,Nulos,Mal registrados (vacíos o inválidos),Cantidad de categorías distintas
0,Distribuidor,1777,1777,0,0,20
1,Area,1777,1777,0,0,7
2,Descripcion,1777,1777,0,0,284
3,Linea,1777,1777,0,0,16
4,Rubro,1777,1777,0,0,3


## Análisis de datos válidos, nulos y mal registrados en columnas no categóricas o numéricas

In [10]:
# Seleccionar la columna "Articulo"
col = "Articulo"

# Total de registros
total = len(df)

# Valores válidos (no nulos)
validos = df[col].notna().sum()

# Valores nulos
nulos = df[col].isna().sum()

# Mal registrados (valores vacíos, guiones o espacios)
mal_registrados = df[col].isin(["", " ", "-", "Sin dato", "No aplica"]).sum()

# Mostrar resultados
print(f"Columna: {col}")
print(f"Total de registros: {total}")
print(f"Válidos: {validos}")
print(f"Nulos: {nulos}")
print(f"Mal registrados: {mal_registrados}")

Columna: Articulo
Total de registros: 1777
Válidos: 1777
Nulos: 0
Mal registrados: 0
