# EDA 

In [2]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import sqlite3 as sql

## 1. Cargando el dataset

In [3]:
ruta_archivo = "../data/raw/adidas_us_sales_dataset.xlsx"

df = pd.read_excel(ruta_archivo, index_col=None)

# Eliminar columna de índice anterior si existe
if 'Unnamed: 0' in df.columns:
    df.drop(columns=['Unnamed: 0'], inplace=True)

# Guardar en SQLite
conn = sql.connect("../data/raw/adidas_sales.db")
df.to_sql("ventas_adidas", conn, if_exists="replace", index=False)

print("Base de datos creada con éxito")

cursor = conn.cursor()


Base de datos creada con éxito


## 2. Conociendo la estructura del dataset

In [4]:
# Número de filas y columnas:
print(f"Dimensiones del dataset: {df.shape}")

# Información sobre los tipos de datos
print("\nInformación del dataset:")
df.info()

Dimensiones del dataset: (9648, 13)

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9648 entries, 0 to 9647
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Retailer          9648 non-null   object        
 1   Retailer ID       9648 non-null   int64         
 2   Invoice Date      9648 non-null   datetime64[ns]
 3   Region            9648 non-null   object        
 4   State             9648 non-null   object        
 5   City              9648 non-null   object        
 6   Product           9648 non-null   object        
 7   Price per Unit    9648 non-null   float64       
 8   Units Sold        9648 non-null   int64         
 9   Total Sales       9648 non-null   float64       
 10  Operating Profit  9648 non-null   float64       
 11  Operating Margin  9648 non-null   float64       
 12  Sales Method      9648 non-null   object        
dtypes: datetime64[ns

### Análisis:

- Tenemos 9648 filas y 13 columnas.
- Hay variables numéricas (float64, int64) y categóricas(object).
- No hay valores nulos en el dataset.

## 3. Revisando los nombres de las columnas

In [6]:
# Nombres de las columnas
print(f"Nombres de las columnas:")
df.columns.tolist()

Nombres de las columnas:


['Retailer',
 'Retailer ID',
 'Invoice Date',
 'Region',
 'State',
 'City',
 'Product',
 'Price per Unit',
 'Units Sold',
 'Total Sales',
 'Operating Profit',
 'Operating Margin',
 'Sales Method']

## 4. Tipos de variables detectadas

In [7]:
print("Tipos de variables en el dataset:")
print(df.dtypes)

Tipos de variables en el dataset:
Retailer                    object
Retailer ID                  int64
Invoice Date        datetime64[ns]
Region                      object
State                       object
City                        object
Product                     object
Price per Unit             float64
Units Sold                   int64
Total Sales                float64
Operating Profit           float64
Operating Margin           float64
Sales Method                object
dtype: object


### Interpretación:

- Numéricas: `Retailer ID`, `Price per Unit`, `Units Sold`, `Total Sales`, `Operating Profit`, `Operating Margin`.
- Categóricas: `Retailer`, `Region`, `State`, `City`, `Product`, `Sales Method`.
- Fechas: `Invoice Date`.

## 5. Análisis de la Distribución de Datos

- Análisis descriptivo rápido para ver la distribución de los valores:

In [12]:
# Para variables numéricas
df.describe()

Unnamed: 0,Retailer ID,Price per Unit,Units Sold,Total Sales,Operating Profit,Operating Margin
count,9648.0,9648.0,9648.0,9648.0,9648.0,9648.0
mean,1173850.0,45.216625,256.930037,93273.4375,34425.244761,0.422991
std,26360.38,14.705397,214.25203,141916.016727,54193.113713,0.097197
min,1128299.0,7.0,0.0,0.0,0.0,0.1
25%,1185732.0,35.0,106.0,4254.5,1921.7525,0.35
50%,1185732.0,45.0,176.0,9576.0,4371.42,0.41
75%,1185732.0,55.0,350.0,150000.0,52062.5,0.49
max,1197831.0,110.0,1275.0,825000.0,390000.0,0.8


In [13]:
# Para variables categóricas
df.describe(include=['object', 'category', 'bool'])

Unnamed: 0,Retailer,Region,State,City,Product,Sales Method
count,9648,9648,9648,9648,9648,9648
unique,6,5,50,52,6,3
top,Foot Locker,West,California,Portland,Men's Street Footwear,Online
freq,2637,2448,432,360,1610,4889


### Análisis :

- Para variables numéricas: Nos interesa la media (`mean`), mediana (`50%`), valores extremos (`min` y `max`) para cada variable o columna.

- Para variables categóricas: Vemos cuántas categorías existen (`unique`) y cuál es el más frecuente (`top`).


#### Valores distintos `unique`:

- Retailer: 6 valores (categorías) únicos(as).
- Region: 5 valores (categorías) únicos(as).
- State: 50 valores (categorías) únicos(as).
- City: 52 valores (categorías) únicos(as).
- Product: 6 valores (categorías) únicos(as).
- Sales Method: 3 valores (categorías) únicos(as).

#### Valores más frecuentes (moda de las variables categóricas)

- Retailer: 
    - count: Hay 9638 datos.
    - unique: Hay 6 valores diferentes.
    - top: El dato más común es `Foot Locker`.
    - freq: El dato más común aparece 2637.

- Region:
    - count:
    - unique:
    - top:
    - freq:

- State:
    - count:
    - unique:
    - top:
    - freq:

- City:
    - count:
    - unique:
    - top:
    - freq:

- Product:
    - count:
    - unique:
    - top:
    - freq:

- Sales Method:
    - count:
    - unique:
    - top:
    - freq: