# Análisis descriptivo y visualización de ventas de PepsiCo en Argentina.

Este proyecto tiene como objetivo analizar un conjunto de datos sin depurar correspondiente a las ventas de productos de PepsiCo realizadas por distintas distribuidoras en todo el país.

A través de herramientas de procesamiento y estadística descriptiva, se busca identificar patrones relevantes, limpiar el dataset y describir las variables disponibles para su análisis posterior.

---

## Integrantes del equipo

- Eglimar Ramirez  
- Francisco Oviedo  
- Jonathan Guillen  
- Jonathan Manuel Palomeque
- Lucas Ledesma  
- Maia Majzum  
- Valentina Pich


## Descripción general del dataset

El dataset contiene datos relacionados con la venta de productos, incluyendo:

- **Distribuidor**: nombre de la distribuidora.
- **Área**: región geográfica.
- **Artículo**: código identificador del producto.
- **Descripción**: nombre comercial del producto.
- **Cantidad**: unidades vendidas.
- **Capacidad**: gramos vendidos.
- **Línea**: línea o categoría comercial (ej. Gold, Platinum).
- **Rubro**: categoría general del producto (ej. Crakers).


## Carga de Datos

In [15]:
import pandas as pd #Importando librerias
from IPython.display import display #Libreria para mostrar dataframes

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [6]:
df = pd.read_csv('/content/drive/MyDrive/Listado_Ventas.csv', encoding='latin1', sep=';') #Lectura del archivo .csv para cargar en el notebook
df.head(10) #Mostrando las primeras 10 filas del dataset

Unnamed: 0,Distribuidor,Area,Articulo,Descripcion,Cantidad,Capacidad,Linea,Rubro
0,TOTAL CENTRO S.R.L.,NEA y Litoral,300063098,Twistos Minit Queso 95gx30x1,4319.0,410495.0,Gold/Crakers,Crakers
1,TOTAL CENTRO S.R.L.,NEA y Litoral,300063097,Twistos Minit Queso 100gx30,4027.0,382565.0,Gold/Crakers,Crakers
2,TOTAL CENTRO S.R.L.,NEA y Litoral,300052695,Twistos Minit Jamon 100gx30,70.0,7.0,Gold/Crakers,Crakers
3,TOTAL CENTRO S.R.L.,NEA y Litoral,300052696,Twistos Minit Jamon 40gx112x1,3284940.0,34.36,Platinum/Crakers,Crakers
4,TOTAL CENTRO S.R.L.,NEA y Litoral,300063264,Twistos Minit Queso 40gx112x1,3284940.0,25.36,Platinum/Crakers,Crakers
5,TOTAL CENTRO S.R.L.,NEA y Litoral,300063263,Twistos Minit Jamon 40gx84,287.0,11.48,Platinum/Crakers,Crakers
6,TOTAL CENTRO S.R.L.,NEA y Litoral,300052694,Twistos Minit Jamon 155gx20,1881.0,291555.0,Silver/Crakers,Crakers
7,TOTAL CENTRO S.R.L.,NEA y Litoral,300062972,Pehuamaráacanaladaá230gx14x1,264.0,69.96,Bronze/Salty,Salty
8,TOTAL CENTRO S.R.L.,NEA y Litoral,300062973,Pehuamar Papa Lisa 230gx14x1,194.0,44.62,Bronze/Salty,Salty
9,TOTAL CENTRO S.R.L.,NEA y Litoral,300060197,Pehuamar Acanalada 485x9,97.0,22.31,Bronze/Salty,Salty


## Exploración inicial del dataset

1. TAMAÑO DEL DATASET

In [7]:
df.shape

(1777, 8)

**Comentario:** El dataset consta de 1777 filas y 8 columnas

2. COLUMNAS

In [8]:
df.columns

Index(['Distribuidor ', 'Area', 'Articulo', 'Descripcion', 'Cantidad',
       'Capacidad', 'Linea', 'Rubro'],
      dtype='object')

3. TIPO DE DATOS

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1777 entries, 0 to 1776
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Distribuidor   1777 non-null   object 
 1   Area           1777 non-null   object 
 2   Articulo       1777 non-null   int64  
 3   Descripcion    1777 non-null   object 
 4   Cantidad       1693 non-null   float64
 5   Capacidad      1777 non-null   float64
 6   Linea          1777 non-null   object 
 7   Rubro          1777 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 111.2+ KB


**Comentarios:**

La data incluye:


*  variables numéricas: Articulo, Cantidad y Capacidad, estas dos últimas se deben convertir a tipo de dato entero.

*  variables categóricas: Distribuidor, Area, Descripcion, Linea y Rubro.

*  Sólo la variable cantidad prensenta datos nulos y además representa datos enteros de cantidad de artíclos, por lo que debe transformarse a int64.

* La variable Capacidad, puede soportar valores decimales de acuerdo a la unidad de medida que se emplee. En gramos sería una variable entera, pero en kg puede ser decimal.

4. TRANSFORMANDO EL TIPO DE DATO DE LA VARIABLE CANTIDAD

In [18]:
# Hacer una copia del dataset
df_copia = df.copy()

# Transformar columnas de float a int
df_copia["Cantidad"] = df_copia["Cantidad"].astype("Int64")  # Usa 'Int64' para soportar valores nulos


# Verificar los cambios
print(df_copia[["Cantidad"]].dtypes)

Cantidad    Int64
dtype: object


## Analisis de columnas numéricas (válidos, nulos, media, mediana, desviación estandar y mal registrados)

1. EXPLORACIÓN PARCIAL

In [23]:
# Estadísticas para 'cantidad'
print("📊 Estadísticas de 'Cantidad':\n")
print(df_copia['Cantidad'].describe(percentiles=[.25, .5, .75, .9]))

# Estadísticas para 'capacidad'
print("\n📊 Estadísticas de 'Capacidad':\n")
print(df_copia['Capacidad'].describe(percentiles=[.25, .5, .75, .9]))



📊 Estadísticas de 'Cantidad':

count           1693.0
mean     109210.492617
std      582171.964524
min              -33.0
25%              165.0
50%              655.0
75%             2878.0
90%             8597.4
max          3284940.0
Name: Cantidad, dtype: Float64

📊 Estadísticas de 'Capacidad':

count    1.777000e+03
mean     1.050286e+05
std      6.718598e+05
min     -5.005000e+03
25%      3.258000e+01
50%      2.458200e+02
75%      3.364900e+04
90%      2.260572e+05
max      2.529404e+07
Name: Capacidad, dtype: float64


**Observaciones:**


**variable Cantidad:**

- Hay 1693 valores no nulos.
- En promedio, hay 109 mil unidades por registro.
- La desviación estándar muy alta, lo que indica mucha dispersión, hay valores muy alejados del promedio.
- Hay cantidades negativas que se consideran no válidas en el análisis.
- El 25% de los datos tiene menos de 165 unidades.
- La mitad de los registros tiene menos de 655 unidades.
- El 75% tiene menos de 2878 unidades.
- El valor max es muy alto con respecto al 90% de los datos, se considera que hay valores extremos.


**variables capacidad:**
- Hay 1777 Valores no nulos.
- Promedio de capacidad muy alto.
- Muy alta dispersión también.
- Capacidad con valores negativos.
- Un cuarto de los productos tiene menos de ~33g.
- La mitad tiene menos de ~246g.
- 75% tiene menos de 36 kg.
- valor max	25,294,040.0	Más de 25 toneladas si está en gramos. Es muy probable que sea un error de carga.

**Conlusiones y Recomendaciones:**
                                                                                

- Hay outliers fuertes que sesgan el promedio.

- Hay datos negativos que no tienen sentido.

- El rango es enorme, desde gramos hasta toneladas en la columna capacidad.


- Se Requiere revisar unidades (g, kg, error de carga).

- Tratar outliers extremos y negativos.



2. EXPLORACIÓN GENERAL

In [11]:
# Seleccionar columnas numéricas
columnas_numericas = df_copia.select_dtypes(include='number').columns

# Crear una lista para almacenar resultados
resultados = []

for col in columnas_numericas:
    total = len(df_copia)
    validos = df_copia[col].notna().sum()
    nulos = df_copia[col].isna().sum()

    # Se interpretan como mal registrados o erróneos los valores negativos o cero.
    erroneos = df_copia[col][df_copia[col] <= 0].count()

    media = df_copia[col].mean()
    mediana = df_copia[col].median()
    std = df_copia[col].std()

    resultados.append({
        "Columna": col,
        "Total": total,
        "Válidos": validos,
        "Nulos": nulos,
        "Erróneos": erroneos,
        "Media": round(media, 2),
        "Mediana": round(mediana, 2),
        "Desvío estándar": round(std, 2)
    })

# Mostrar resultados
pd.DataFrame(resultados)

Unnamed: 0,Columna,Total,Válidos,Nulos,Erróneos,Media,Mediana,Desvío estándar
0,Articulo,1777,1777,0,0,300057200.0,300060100.0,6640.24
1,Cantidad,1777,1693,84,6,109210.5,655.0,582171.96
2,Capacidad,1777,1777,0,8,105028.6,245.82,671859.76


## Análisis de columnas categóricas (válidos, nulos, mal registrados y cantidad de registros por categoría)

1. EXPLORACIÓN GENERAL

In [24]:
# Seleccionar solo las columnas categóricas (no numéricas)
columnas_categoricas = df_copia.select_dtypes(exclude='number').columns

# Guardar resultados en una lista
resultados = []

for col in columnas_categoricas:
    total = len(df_copia)
    validos = df_copia[col].notna().sum()
    nulos = df_copia[col].isna().sum()
    categorias = df_copia[col].nunique()

    # Se interpretan como mal registrados o erróneos los valores vacíos
    erroneos = df_copia[col].isin(["", " ", "-", "Sin dato", "No aplica"]).sum()

    resultados.append({
        "Columna": col,
        "Total registros": total,
        "Válidos": validos,
        "Nulos": nulos,
        "Mal registrados (vacíos o inválidos)": erroneos,
        "Cantidad de categorías distintas": categorias
    })

# Mostrar resultados
pd.DataFrame(resultados)

Unnamed: 0,Columna,Total registros,Válidos,Nulos,Mal registrados (vacíos o inválidos),Cantidad de categorías distintas
0,Distribuidor,1777,1777,0,0,20
1,Area,1777,1777,0,0,7
2,Descripcion,1777,1777,0,0,284
3,Linea,1777,1777,0,0,16
4,Rubro,1777,1777,0,0,3


1. EXPLORACIÓN PARCIAL

In [25]:
for col in columnas_categoricas:
    print(f"\nColumna: {col}")
    print(df_copia[col].value_counts().sort_index())


Columna: Distribuidor 
Distribuidor 
BACOSHOPERS SRL                   81
BAHIA BLANCA S.R.L.               95
BARASI HNOS SA                    97
BRINDARSE S.A.                   105
CHABS S. R. L.                    51
DISTRIBUIDORA AMANECER S.R.L.     90
DISTRIBUIDORA CATAMARCA S. A.     87
DISTRIBUIDORA J.F.T. S.R.L.       91
DISTRIBUIDORA NORTE S.R.L.        53
DISTRIBUIDORA POSITANO SRL        98
ELECTRON SRL                      92
LEGOS S.R.L                       99
LERVO S. A.                       63
LOGISTICAS S.R.L.                 97
MARCELINA DISTRIBUIDORA S.A.      80
NEUQUEN S.R.L                    108
PREMIUM S.R.L.                   101
PRIMEROS PRODUCTOS S.A.          101
TOTAL  CENTRO S.R.L.              87
USHUAIA S.R.L.                   101
Name: count, dtype: int64

Columna: Area
Area
Atlantico y Cordillera    306
Centro y Cuyo             239
Costa y La Pampa          277
GBA Norte                 260
GBA Sur                   283
NEA y Litoral             

**Observaciones:**

- Se detectaron problemas de tipeo, formato variable en la columna descripción.

- Posibles duplicados con diferentes formatos.

## Análisis de datos válidos, nulos y mal registrados en columnas no categóricas o numéricas

In [None]:
# Seleccionar la columna "Articulo"
col = "Articulo"

# Total de registros
total = len(df)

# Valores válidos (no nulos)
validos = df[col].notna().sum()

# Valores nulos
nulos = df[col].isna().sum()

# Mal registrados (valores vacíos, guiones o espacios)
mal_registrados = df[col].isin(["", " ", "-", "Sin dato", "No aplica"]).sum()

# Mostrar resultados
print(f"Columna: {col}")
print(f"Total de registros: {total}")
print(f"Válidos: {validos}")
print(f"Nulos: {nulos}")
print(f"Mal registrados: {mal_registrados}")

Columna: Articulo
Total de registros: 1777
Válidos: 1777
Nulos: 0
Mal registrados: 0


**Determinando si hay códigos diferentes asociados a descripciones iguales o parecidas**

In [26]:
df_copia[['Articulo', 'Descripcion']]

Unnamed: 0,Articulo,Descripcion
0,300063098,Twistos Minit Queso 95gx30x1
1,300063097,Twistos Minit Queso 100gx30
2,300052695,Twistos Minit Jamon 100gx30
3,300052696,Twistos Minit Jamon 40gx112x1
4,300063264,Twistos Minit Queso 40gx112x1
...,...,...
1772,300060200,Tostitos 200gx14 (14)
1773,300060191,Doritos Queso 200gx14
1774,300060231,Lays Clasicas 330gx9
1775,300030738,Quaker Barras Mous De Choco 20x156g


In [27]:
duplicados = df_copia.groupby('Descripcion')['Articulo'].nunique()
duplicados = duplicados[duplicados > 1]
print(duplicados)

Descripcion
3d Mega Queso Pc Dts 23grx120    2
3d Queso 143gx18x1               2
3d Queso 43gx75x1                2
3d Queso 85gx27x1                2
Cheetos 23grx108                 2
                                ..
Twistos Minit Jamon 40gx112x1    2
Twistos Minit Jamon 40gx84       2
Twistos Minit Queso 100gx30      2
Twistos Minit Queso 40gx112x1    2
Twistos Minit Queso 95gx30x1     2
Name: Articulo, Length: 81, dtype: int64


In [28]:
df_copia[df_copia['Descripcion'].isin(duplicados.index)].sort_values('Descripcion')[['Descripcion', 'Articulo']].drop_duplicates()

Unnamed: 0,Descripcion,Articulo
49,3d Mega Queso Pc Dts 23grx120,300052757
1020,3d Mega Queso Pc Dts 23grx120,300052023
733,3d Queso 143gx18x1,300058397
62,3d Queso 143gx18x1,300060190
647,3d Queso 43gx75x1,300058395
...,...,...
1,Twistos Minit Queso 100gx30,300063097
4,Twistos Minit Queso 40gx112x1,300063264
1747,Twistos Minit Queso 40gx112x1,300063263
1232,Twistos Minit Queso 95gx30x1,300063097


**Observaciones**

- Hay 82 descripciones o productos bases iguales registrados con códigos diferentes.

##  Conclusiones Generales y Observaciones

1. **Lectura e inspección inicial de los datos**  
   Se logró importar correctamente el archivo `.csv` con codificación `latin1` y delimitador `;`. Esto permitió acceder a los datos estructurados, aunque inicialmente todos los valores se encontraban en una sola columna por no especificar el delimitador correctamente.

2. **Estado de los datos**  
   Se identificó que los datos aún no están completamente estandarizados. Algunas inconsistencias detectadas incluyen:  
   - Diferencias tipográficas en la columna `Descripcion` (mayúsculas, caracteres especiales, errores de tipeo).  
   - Nombres similares en la columna `Area` o `Linea` con ligeras variaciones.  
   - Un mismo producto (`Descripcion`) asociado a múltiples códigos (`Articulo`), lo cual sugiere que falta consolidar productos equivalentes.

3. **Análisis exploratorio preliminar**  
   - Se realizó un análisis exploratorio de frecuencia (`value_counts()`) que sirvió para visualizar rápidamente qué categorías presentan posibles errores o duplicaciones.  
   - También se filtraron combinaciones de `Descripcion` y `Articulo` para detectar productos repetidos con diferentes códigos.

---

##  Recomendaciones a Seguir

1. **Completar la estandarización de los datos en Excel**  
   - Unificar descripciones de productos que hacen referencia al mismo artículo.  
   - Corregir errores tipográficos en nombres de áreas, líneas y otras variables categóricas.  
   - Verificar que cada producto tenga un único código o, si hay excepciones, documentarlas claramente.


2. **Automatizar validaciones en Python**  
   - Una vez estandarizados los datos, es recomendable crear scripts que verifiquen:  
     - Duplicados lógicos.  
     - Productos con más de un código.  
     - Valores atípicos o poco frecuentes.  
   - Esto ayudará a mantener la calidad de los datos en futuras actualizaciones.

