# Análisis de Datos de Ventas

## · Importar los datos

In [9]:
import pandas as pd

# Importar los datos
df = pd.read_csv('./Datos/American Things - Base de Datos.csv', encoding='latin-1')



### datos dumplicados, aplica a numeros de factura, que deben ser unicos para la empresa

# LIMPIEZA DE DATOS

## Datos con formato incorrecto y datos ausentes
### Formatea las columnas "Costo", "Ventas", "Resenia" a formato numérico, reemplazando los datos incorrectos por valores nulos(Nan) y posteriormente se reemplazan los valores nulos por la Media de cada columna

In [None]:
# Convierte los str formato numero y los errores en NaN
df['Costo'] = pd.to_numeric(df['Costo'], errors='coerce')
df['Ventas'] = pd.to_numeric(df['Ventas'], errors='coerce')
df['Resenia'] = pd.to_numeric(df['Resenia'], errors='coerce')

# Reemplaza los valores nulos(NaN) por la media de la columna
df['Costo'] = df['Costo'].fillna(df['Costo'].mean())
df['Ventas'] = df['Ventas'].fillna(df['Ventas'].mean())
df['Resenia'] = df['Resenia'].fillna(df['Resenia'].mean())

## Datos duplicados
### Borra el o los registros duplicados en la columna "Factura"

In [11]:
# Eliminar duplicados considerando solo la columna 'Factura'
df = df.drop_duplicates(subset=['Factura'])

## Datos erroneos
### Se modifican los valores erroneos en las columnas "Fecha" y "Resenia"

In [None]:
# Convierte los valores a formato FECHA y los errores en NaN
df['Fecha'] = pd.to_datetime(df['Fecha'], errors='coerce')

# Reemplaza los valores nulos(NaN) por el último valor no nulo
df['Fecha'] = df['Fecha'].ffill()

# Controla si el valor de las reseñas está entre 1 y 10, de lo contrario se reemplaza el valor por la media de la columna 'Resenia'
for i in df.index:
    if df.loc[i, 'Resenia'] < 1 or df.loc[i, 'Resenia'] > 10:
        df.loc[i, 'Resenia'] = df['Resenia'].mean()

## · Imprimir los primeros diez registros

In [16]:
print(df.head(10))

       Factura Sucursal      Ciudad    Tipo  Genero               Categoria  \
0  750-67-8428        A  Nueva York  Member  Female       Health and beauty   
1  226-31-3081        C     Houston  Normal  Female  Electronic accessories   
2  631-41-3108        A  Nueva York  Normal    Male      Home and lifestyle   
3  123-19-1176        A  Nueva York  Member    Male       Health and beauty   
4  373-73-7910        A       Green  Normal    Male       Sports and travel   
5  699-14-3026        C     Houston  Normal    Male  Electronic accessories   
6  355-53-5943        A  Nueva York  Member  Female  Electronic accessories   
7  315-22-5665        C         N/N  Normal  Female      Home and lifestyle   
8  665-32-9167        A  Nueva York  Member  Female       Health and beauty   
9  692-92-5582        B     Chicago  Member  Female                  Female   

          Costo  Ventas      Fecha   Hora Metodo de Pago   Resenia  
0     522.83000  548.97 2019-01-05  13:08        Ewallet  6.9

## ·        Describir el dataset

In [None]:
print(df.describe(include='all'))

            Factura Sucursal      Ciudad    Tipo Genero           Categoria  \
count           394      389         384     387    391                 378   
unique          394       15          15      10     10                  22   
top     831-64-0259        A  Nueva York  Normal   Male  Home and lifestyle   
freq              1      135         131     196    195                  65   
mean            NaN      NaN         NaN     NaN    NaN                 NaN   
min             NaN      NaN         NaN     NaN    NaN                 NaN   
25%             NaN      NaN         NaN     NaN    NaN                 NaN   
50%             NaN      NaN         NaN     NaN    NaN                 NaN   
75%             NaN      NaN         NaN     NaN    NaN                 NaN   
max             NaN      NaN         NaN     NaN    NaN                 NaN   
std             NaN      NaN         NaN     NaN    NaN                 NaN   

               Costo        Ventas                 

## ·        Análisis de columnas numéricas

In [19]:
numeric_cols = df.select_dtypes(include=['number']).columns

for col in numeric_cols:
    print(f"Análisis de la columna numérica: {col}")
    print(f"Valores válidos sobre el total: {df[col].count()} / {len(df)}")
    print(f"Media: {round(df[col].mean(), 2)}")
    print(f"Mediana: {round(df[col].median(), 2)}")
    print(f"Desviación estándar: {round(df[col].std(), 2)}")
    print(f"Valores ausentes: {df[col].isna().sum()}")
    print(f"Valores mal registrados o erróneos: {df[col].isna().sum() + df[col].isnull().sum()}")
    print("")

Análisis de la columna numérica: Costo
Valores válidos sobre el total: 395 / 395
Media: 330794.25
Mediana: 280.62
Desviación estándar: 6211371.47
Valores ausentes: 0
Valores mal registrados o erróneos: 0

Análisis de la columna numérica: Ventas
Valores válidos sobre el total: 395 / 395
Media: 53746.86
Mediana: 284.19
Desviación estándar: 1006531.28
Valores ausentes: 0
Valores mal registrados o erróneos: 0

Análisis de la columna numérica: Resenia
Valores válidos sobre el total: 395 / 395
Media: 7.01
Mediana: 7.0
Desviación estándar: 1.71
Valores ausentes: 0
Valores mal registrados o erróneos: 0



## ·        Análisis de columnas categóricas

In [None]:
categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    print(f"Análisis de la columna categórica: {col}")
    print(df[col].value_counts())
    print(f"Registros válidos sobre el total: {df[col].count()} / {len(df)}")
    print(f"Valores ausentes: {df[col].isna().sum()}")
    print(f"Valores mal registrados o erróneos: {df[col].isna().sum() + df[col].isnull().sum()}")
    print("")

## ·        Análisis de otras variables

In [None]:
other_cols = df.columns.difference(numeric_cols).difference(categorical_cols)

for col in other_cols:
    print(f"Análisis de la columna: {col}")
    print(f"Valores válidos sobre el total: {df[col].count()} / {len(df)}")
    print(f"Valores ausentes: {df[col].isna().sum()}")
    print(f"Valores mal registrados o erróneos: {df[col].isna().sum() + df[col].isnull().sum()}")
    print("")