In [2]:
import pandas as pd
import numpy as np

In [3]:
df_nike = pd.read_csv("./data/nike_sales_2024.csv")
df_nike

Unnamed: 0,Month,Region,Main_Category,Sub_Category,Product_Line,Price_Tier,Units_Sold,Revenue_USD,Online_Sales_Percentage,Retail_Price
0,November,India,Equipment,Bags,Gym Sack,Budget,48356,14506800,73,300
1,January,India,Equipment,Accessories,Hats,Budget,9842,2066820,50,210
2,October,India,Apparel,Tops,Tech Fleece,Mid-Range,25079,1755530,90,70
3,December,Greater China,Footwear,Cricket,Vapor Cricket,Premium,41404,8694840,58,210
4,May,Greater China,Equipment,Socks,Performance Socks,Premium,33569,5371040,53,160
...,...,...,...,...,...,...,...,...,...,...
995,October,India,Equipment,Accessories,Hats,Mid-Range,9870,987000,82,100
996,July,Europe,Equipment,Socks,Performance Socks,Mid-Range,14668,2640240,88,180
997,August,Japan,Footwear,Football,Phantom Vision,Premium,15078,2261700,74,150
998,May,South Korea,Equipment,Socks,Crew Socks,Premium,26242,1312100,52,50


In [4]:
#Reviso Nulos
nulos_nike = df_nike.isnull().sum()
print("Nulos por columna:")
print(nulos_nike)

Nulos por columna:
Month                      0
Region                     0
Main_Category              0
Sub_Category               0
Product_Line               0
Price_Tier                 0
Units_Sold                 0
Revenue_USD                0
Online_Sales_Percentage    0
Retail_Price               0
dtype: int64


In [5]:
#Reviso Duplicados
duplicados_nike = df_nike.duplicated().sum()
print(f"Filas duplicadas: {duplicados_nike}")

Filas duplicadas: 0


In [6]:
#Reviso los tipos
print(df_nike.dtypes)


Month                      object
Region                     object
Main_Category              object
Sub_Category               object
Product_Line               object
Price_Tier                 object
Units_Sold                  int64
Revenue_USD                 int64
Online_Sales_Percentage     int64
Retail_Price                int64
dtype: object


In [7]:
# Reviso que no hayan palabras que se escriban diferente y que tengan el mismo valor
for col in ['Region', 'Main_Category', 'Sub_Category', 'Price_Tier']:
    print(f"Valores únicos en {col}:")
    print(df_nike[col].unique())



Valores únicos en Region:
['India' 'Greater China' 'Japan' 'Europe' 'South Korea' 'America'
 'Southeast Asia']
Valores únicos en Main_Category:
['Equipment' 'Apparel' 'Footwear']
Valores únicos en Sub_Category:
['Bags' 'Accessories' 'Tops' 'Cricket' 'Socks' 'Performance' 'Outerwear'
 'Lifestyle' 'Running' 'Basketball' 'Football']
Valores únicos en Price_Tier:
['Budget' 'Mid-Range' 'Premium']


In [8]:
def describe_df(df_nike):
    """
    Vamos a generar un resumen detallado de nuestro dataframe

    Los argumentos serán:
    1--> El DataFrame seleccionado que sera df_nike para analizar

    Devuelve:
    pd.DataFrame: Un Dataframe con la información global resumida
                 - Tipo de dato de cada columna
                  - Porcentaje de valores nulos
                  - Cantidad de valores únicos
                  - Porcentaje de cardinalidad
                  - Valores mínimo y máximo (para columnas numéricas)
                  - Moda (valor más frecuente en cada columna)
    """
    
# Paso 1: Tipo de dato de cada columna
    # Usaremos "df.dtypes" ya que devuelve los tipos de datos de cada columna...
    tipos_de_dato = df_nike.dtypes 
    
# Paso 2: Calcular el porcentaje de valores nulos
    # Usaremos "df.isnull()"" que nos devuelve un DataFrame de valores booleanos donde True nos dice que es un valor nulo
    # Usaremos "mean()" para calcular el promedio de estos nulos por columna
    # Multiplicaremos por 100 para obtener el porcentaje y redondeamos a 2 decimales
    porcentaje_nulos = (df_nike.isnull().mean() * 100).round(2)
    
# Paso 3: Contar los valores únicos por columna
    # Usaremos "df.nunique()"" para contar la cantidad de valores únicos en cada columna
    valores_unicos = df_nike.nunique()  
    
# Paso 4: Calcular el porcentaje de cardinalidad
    # Dividimos los valores únicos entre el total y luego multiplicamos por 100 para obtener el porcentaje
    porcentaje_cardinalidad = ((valores_unicos / len(df_nike)) * 100).round(2)
    
    
# Paso 5: Calcular valores mínimo y máximo para columnas numéricas
    # Usaremos "df.select_dtypes(include='number')" para selecciona solo las columnas numéricas
    # Usaremos "min()" y "max()" para calcular los valores mínimo y máximo
    minimos = df_nike.select_dtypes(include='number').min()
    maximos = df_nike.select_dtypes(include='number').max()
    
# Paso 6: Calcular la moda 
    # Usaremos "df.mode()" que nos devolverá el valor más frecuente en cada columna. Si hay varias, seleccionaremos la primera con ".iloc[0]"
    moda = df_nike.mode().iloc[0]
    
# Paso 8: Construir el resumen
    # Crearemos un diccionario
    resumen = {
        "Tipo de dato": tipos_de_dato,
        "% Nulos": porcentaje_nulos,
        "Valores únicos": valores_unicos,
        "% Cardinalidad": porcentaje_cardinalidad,
        "Valor mínimo": minimos,
        "Valor máximo": maximos,
        "Moda": moda
    }
    
# Paso 9 Convertiremos el diccionario en un DataFrame 
    resumen_df_nike = pd.DataFrame(resumen)
    
# Paso 10: Retornaremos
    return resumen_df_nike


In [9]:
descripcion = describe_df(df_nike)
pd.set_option('display.max_columns', None) 
pd.set_option('display.width', 1000)     
print(descripcion)

                        Tipo de dato  % Nulos  Valores únicos  % Cardinalidad  Valor mínimo  Valor máximo           Moda
Main_Category                 object      0.0               3             0.3           NaN           NaN      Equipment
Month                         object      0.0              12             1.2           NaN           NaN       December
Online_Sales_Percentage        int64      0.0              41             4.1          50.0          90.0           73.0
Price_Tier                    object      0.0               3             0.3           NaN           NaN         Budget
Product_Line                  object      0.0              24             2.4           NaN           NaN     Windrunner
Region                        object      0.0               7             0.7           NaN           NaN  Greater China
Retail_Price                   int64      0.0              26             2.6          50.0         300.0          290.0
Revenue_USD                    i

In [None]:
#def tipifica_variables(df_nike, umbral_categoria, umbral_continua):
    """
    Esta funcion no dara el tipo de variable para cada columna de nuestro dataframe

    Argumentos:
    DataFrame: Evaluaremos  las variables
    umbral_categoria (int): Umbral para definir si una variable es categórica
    umbral_continua (float): Porcentaje mínimo de cardinalidad para definir si una variable es continua

    Retorna:
    DataFrame: Dos columnas una con el nombre de la variable y el otro con el tipo de variable, que contiene el nombre de cada variable y su tipo sugerido (Binaria, Categórica, Numérica Continua,"Numérica Discreta).
    """

# Paso 1 Creanis una lista donde se guardarán los resultados
    resultados = []

    # Paso 2.1 Itineramos por cada columna del DataFrame de entrada
    for col in df_nike.columns:
           # Verificar si la columna tiene valores categóricos basados en su tipo de dato
        if df_nike[col].dtype == 'object' or isinstance(df_nike[col].iloc[0], str):
            tipo = "Categórica"
        # Paso 2.2 Calculamos la cardinalidad: el número de valores únicos de la columna
        else:
            valores_unicos = df_nike[col].nunique()
        # Paso 2.3 Calculamos el porcentaje de cardinalidad
            porcentaje_cardinalidad = valores_unicos / len(df_nike)

        # Paso 2.4 Clasificamos las columnas segun las reglas dadas por el guion del trabajo
        if valores_unicos == 2:  
            tipo = "Binaria"
        elif valores_unicos < umbral_categoria:  # Si la cardinalidad es menor al umbral
            tipo = "Categórica"
        else:  # Si la cardinalidad es mayor o igual al umbral
            if porcentaje_cardinalidad >= umbral_continua:
                tipo = "Numérica Continua"  # Si el porcentaje de cardinalidad es mayor o igual al umbral continuo
            else:
                tipo = "Numérica Discreta"  # Caso contrario, es discreta

        # Paso 2.5 Añadimos el resultado como un diccionario con el nombre de la columna y su tipo sugerido
        resultados.append({"nombre_variable": col, "tipo_sugerido": tipo})

    # Paso 3 Convertimos la lista de resultados en un DF
    resultado_df_nike = pd.DataFrame(resultados)

    # Paso 4 Devolvemos el DF
    return resultado_df_nike


In [29]:
def tipifica_variables(df_nike, umbral_categoria, umbral_continua):
    """
    Esta funcion no dara el tipo de variable para cada columna de nuestro dataframe

    Argumentos:
    DataFrame: Evaluaremos  las variables
    umbral_categoria (int): Umbral para definir si una variable es categórica
    umbral_continua (float): Porcentaje mínimo de cardinalidad para definir si una variable es continua

    Retorna:
    DataFrame: Dos columnas una con el nombre de la variable y el otro con el tipo de variable, que contiene el nombre de cada variable y su tipo sugerido (Binaria, Categórica, Numérica Continua,"Numérica Discreta).
    """

# Paso 1 Creanis una lista donde se guardarán los resultados
    resultados = []

    # Paso 2.1 Itineramos por cada columna del DataFrame de entrada
    for col in df_nike.columns:
        # Paso 6 Verificamos si la columna contiene valores categóricos basados en su tipo de dato como puede ser object
        if df_nike[col].dtype == 'object' or isinstance(df_nike[col].iloc[0], str):
            tipo = "Categórica"
        # Paso 2.2 Calculamos la cardinalidad: el número de valores únicos de la columna
        else:
            valores_unicos = df_nike[col].nunique()
         # Paso 2.3 Calculamos el porcentaje de cardinalidad
            porcentaje_cardinalidad = valores_unicos / len(df_nike)

        # Paso 2.4 Clasificamos las columnas segun las reglas dadas por el guion del trabajo
            if valores_unicos == 2:  
                tipo = "Binaria"
            elif valores_unicos < umbral_categoria:  # Si la cardinalidad es menor al umbral
                tipo = "Categórica"
            else:  # Si la cardinalidad es mayor o igual al umbral
                if porcentaje_cardinalidad >= umbral_continua:
                    tipo = "Numérica Continua"  # Si el porcentaje de cardinalidad es mayor o igual al umbral continuo
                else:
                    tipo = "Numérica Discreta"  # Caso contrario, es discreta

        # Paso 2.5 Añadimos el resultado como un diccionario con el nombre de la columna y su tipo sugerido
        resultados.append({"nombre_variable": col, "tipo_sugerido": tipo})

    # Paso 3 Convertimos la lista de resultados en un DF
    resultado_df_nike = pd.DataFrame(resultados)

    # Paso 4 Devolvemos el DF
    return resultado_df_nike


In [31]:
#Paso 5 Llamamos a la funcion y le pasomos 3 argumentos, 1 DF, 2 umbral categoria (Si tiene menos de 4 valores únicos es categorica), 3 umbral continua (0.5--> 50% de las filas tienen valores únicos) si el % es menor es discreta.
resultado = tipifica_variables(df_nike, umbral_categoria=4, umbral_continua=0.5)
print(resultado)


           nombre_variable      tipo_sugerido
0                    Month         Categórica
1                   Region         Categórica
2            Main_Category         Categórica
3             Sub_Category         Categórica
4             Product_Line         Categórica
5               Price_Tier         Categórica
6               Units_Sold  Numérica Continua
7              Revenue_USD  Numérica Continua
8  Online_Sales_Percentage  Numérica Discreta
9             Retail_Price  Numérica Discreta
