
# Análisis de Datos de Ventas

## Descripción del Proyecto
American Things, un poli rubro dedicado a la venta de productos en general, que se ha visto en la necesidad de organizar la información 
alojada en sus bases de datos respecto a las ventas realizadas durante un determinado período de tiempo. El proyecto propone el análisis
y procesamiento de datos, relacionados a las ventas más actuales de la empresa, obtenidos en un período de tiempo, con el fin de desarrollar
y aplicar, tecnologías y métodos destinados a poner en conocimiento al establecimiento, de las categorías de productos, que han tenido un
alza o una baja en ventas, y a partir de ello, abordar las estrategias necesarias para mejorar los diferentes sectores y generar un mejor
rendimiento.

## Integrantes del Equipo
- **Lucas Ryser** - 44.346.194 - lucasryser4k@gmail.com - [GitHub](https://github.com/lucasryser6)
- **Emanuel Guaráz** - 38.276.061 - guarazjemanuel@gmail.com - [GitHub](https://github.com/JEmanuelG)
- **Nicolás Allende Olmedo** - 35.871.057 - nicoallende92@gmail.com - [GitHub](https://github.com/AllendeNicolas)
- **Bruno Lobo Souza** - 95.690.709 - lobosouza.it@gmail.com - [GitHub](https://github.com/lobosouza)
- **Carlos Direni** - 28.117.281 - direnicarlos@gmail.com - [GitHub](https://github.com/Cdireni1)

## ·        Importar los datos

## ·        Imprimir los primeros diez registros

In [None]:
import pandas as pd

# Importar los datos
df = pd.read_csv('American Things - Base de Datos.csv', encoding='latin-1')

# convierte los str formato numero y los errores en NaN
df['Costo'] = pd.to_numeric(df['Costo'], errors='coerce')
df['Ventas'] = pd.to_numeric(df['Ventas'], errors='coerce')
df['Resenia'] = pd.to_numeric(df['Resenia'], errors='coerce')

# Mostrar los primeros 10 registros
print(df.head(10))

       Factura Sucursal      Ciudad    Tipo  Genero               Categoria  \
0  750-67-8428        A  Nueva York  Member  Female       Health and beauty   
1  226-31-3081        C     Houston  Normal  Female  Electronic accessories   
2  631-41-3108        A  Nueva York  Normal    Male      Home and lifestyle   
3  123-19-1176        A  Nueva York  Member    Male       Health and beauty   
4  373-73-7910        A       Green  Normal    Male       Sports and travel   
5  699-14-3026        C     Houston  Normal    Male  Electronic accessories   
6  355-53-5943        A  Nueva York  Member  Female  Electronic accessories   
7  315-22-5665        C         N/N  Normal  Female      Home and lifestyle   
8  665-32-9167        A  Nueva York  Member  Female       Health and beauty   
9  692-92-5582        B     Chicago  Member  Female                  Female   

    Costo  Ventas      Fecha   Hora Metodo de Pago  Resenia  
0  522.83  548.97   1/5/2019  13:08        Ewallet      NaN  
1   76

  df = pd.read_csv('.\Datos\American Things - Base de Datos.csv', encoding='latin-1')


## ·        Describir el dataset

In [24]:
print(df.describe(include='all'))

            Factura Sucursal      Ciudad    Tipo Genero           Categoria  \
count           397      396         392     395    399                 386   
unique          394       15          15      10     10                  22   
top     848-62-7243        A  Nueva York  Normal   Male  Home and lifestyle   
freq              3      136         133     199    199                  67   
mean            NaN      NaN         NaN     NaN    NaN                 NaN   
std             NaN      NaN         NaN     NaN    NaN                 NaN   
min             NaN      NaN         NaN     NaN    NaN                 NaN   
25%             NaN      NaN         NaN     NaN    NaN                 NaN   
50%             NaN      NaN         NaN     NaN    NaN                 NaN   
75%             NaN      NaN         NaN     NaN    NaN                 NaN   
max             NaN      NaN         NaN     NaN    NaN                 NaN   

               Costo        Ventas     Fecha   Hora

## ·        Análisis de columnas numéricas

In [26]:
numeric_cols = df.select_dtypes(include=['number']).columns

for col in numeric_cols:
    print(f"Análisis de la columna numérica: {col}")
    print(f"Valores válidos sobre el total: {df[col].count()} / {len(df)}")
    print(f"Media: {round(df[col].mean(), 2)}")
    print(f"Mediana: {df[col].median()}")
    print(f"Desviación estándar: {round(df[col].std(), 2)}")
    print(f"Valores ausentes: {df[col].isna().sum()}")
    print(f"Valores mal registrados o erróneos: {df[col].isna().sum() + df[col].isnull().sum()}")
    print("")

Análisis de la columna numérica: Costo
Valores válidos sobre el total: 384 / 404
Media: 325040.91
Mediana: 265.225
Desviación estándar: 6300092.89
Valores ausentes: 20
Valores mal registrados o erróneos: 40

Análisis de la columna numérica: Ventas
Valores válidos sobre el total: 391 / 404
Media: 52818.82
Mediana: 276.95
Desviación estándar: 1011704.57
Valores ausentes: 13
Valores mal registrados o erróneos: 26

Análisis de la columna numérica: Resenia
Valores válidos sobre el total: 395 / 404
Media: 7.0
Mediana: 7.0
Desviación estándar: 1.74
Valores ausentes: 9
Valores mal registrados o erróneos: 18



# ·        Análisis de columnas categóricas

In [27]:
categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    print(f"Análisis de la columna categórica: {col}")
    print(df[col].value_counts())
    print(f"Registros válidos sobre el total: {df[col].count()} / {len(df)}")
    print(f"Valores ausentes: {df[col].isna().sum()}")
    print(f"Valores mal registrados o erróneos: {df[col].isna().sum() + df[col].isnull().sum()}")
    print("")

Análisis de la columna categórica: Factura
Factura
848-62-7243           3
Food and beverages    2
226-31-3081           1
631-41-3108           1
123-19-1176           1
                     ..
371-85-5789           1
273-16-6619           1
636-48-8204           1
549-59-1358           1
831-64-0259           1
Name: count, Length: 394, dtype: int64
Registros válidos sobre el total: 397 / 404
Valores ausentes: 7
Valores mal registrados o erróneos: 14

Análisis de la columna categórica: Sucursal
Sucursal
A            136
C            130
B            117
2/27/2019      2
12             1
PP             1
Cisco          1
SAda           1
Aer            1
ZZZ            1
65             1
ARCa555        1
ara            1
aaswee         1
Male           1
Name: count, dtype: int64
Registros válidos sobre el total: 396 / 404
Valores ausentes: 8
Valores mal registrados o erróneos: 16

Análisis de la columna categórica: Ciudad
Ciudad
Nueva York    133
Houston       125
Chicago       118
M

# ·        Análisis de otras variables

In [28]:
other_cols = df.columns.difference(numeric_cols).difference(categorical_cols)

for col in other_cols:
    print(f"Análisis de la columna: {col}")
    print(f"Valores válidos sobre el total: {df[col].count()} / {len(df)}")
    print(f"Valores ausentes: {df[col].isna().sum()}")
    print(f"Valores mal registrados o erróneos: {df[col].isna().sum() + df[col].isnull().sum()}")
    print("")