In [4]:
import pandas as pd

In [26]:
def exploracion_dataframe(dataframe, columna_control):
    """
    Realiza un análisis exploratorio básico de un DataFrame, mostrando información sobre duplicados,
    valores nulos, tipos de datos, valores únicos para columnas categóricas y estadísticas descriptivas
    para columnas categóricas y numéricas, agrupadas por la columna de control.

    Parámetros:
    - dataframe (DataFrame): El DataFrame que se va a explorar.
    - columna_control (str): El nombre de la columna que se utilizará como control para dividir el DataFrame.

    Returns: 
    No devuelve nada directamente, pero imprime en la consola la información exploratoria.
    """
    
    print(f"Los duplicados que tenemos en el conjunto de datos son: {dataframe.duplicated().sum()}")
    print("\n ..................... \n")
    
    
    # generamos un DataFrame para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(dataframe.isnull().sum() / dataframe.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    
    print("\n ..................... \n")
    print(f"Los tipos de las columnas son:")
    display(pd.DataFrame(dataframe.dtypes, columns = ["tipo_dato"]))
    
    
    print("\n ..................... \n")
    print("Los valores que tenemos para las columnas categóricas son: ")
    dataframe_categoricas = dataframe.select_dtypes(include = "O")
    
    for col in dataframe_categoricas.columns:
        print(f"La columna {col()} tiene las siguientes valore únicos:")
        display(pd.DataFrame(dataframe[col].value_counts()).head())    
    
    # como estamos en un problema de A/B testing y lo que realmente nos importa es comparar entre el grupo de control y el de test, los principales estadísticos los vamos a sacar de cada una de las categorías
    
    for categoria in dataframe[columna_control].unique():
        
        dataframe_filtrado = dataframe[dataframe[columna_control] == categoria]
    
        print("\n ..................... \n")
        print(f"Los principales estadísticos de las columnas categóricas para el {categoria()} son: ")
        display(dataframe_filtrado.describe(include = "O").T)
        
        print("\n ..................... \n")
        print(f"Los principales estadísticos de las columnas numéricas para el {categoria()} son: ")
        display(dataframe_filtrado.describe().T)

In [6]:
ventas = pd.read_csv('../ventas.csv')

In [7]:
ventas.head()

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98


In [None]:
exploracion_dataframe(ventas,"ID_Producto")

In [None]:
## EDA: 

In [18]:
ventas.shape

(100, 5)

In [19]:
ventas.columns

Index(['ID_Cliente', 'ID_Producto', 'Fecha_Venta', 'Cantidad', 'Total'], dtype='object')

In [20]:
ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Cliente   100 non-null    int64  
 1   ID_Producto  100 non-null    object 
 2   Fecha_Venta  100 non-null    object 
 3   Cantidad     100 non-null    int64  
 4   Total        100 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ KB


In [22]:
ventas.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID_Cliente,100.0,572.05,290.403877,29.0,234.0,543.0,876.0,987.0
Cantidad,100.0,1.65,0.729951,1.0,1.0,1.5,2.0,3.0
Total,100.0,11.2005,7.031316,4.25,5.93,8.75,12.5,32.97


In [28]:
ventas.duplicated().sum()

0

In [29]:
ventas.isnull().sum()

ID_Cliente     0
ID_Producto    0
Fecha_Venta    0
Cantidad       0
Total          0
dtype: int64

In [27]:
ventas['ID_Cliente'].value_counts().sum()

100

In [12]:
productos = pd.read_csv('../productos.csv', delimiter=';')
productos.head()


Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,"Clásica pizza italiana con tomate,mozzarella f..."
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,"Risotto cremoso con champiñones frescos,una de..."
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...


In [None]:
exploracion_dataframe(productos,"Descripción")

In [18]:
clientes = pd.read_csv('../clientes.csv')
clientes.head()

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle


In [21]:
clientes['City'].unique()

array(['Palma De Mallorca', 'Lugo', nan, 'Leon',
       "Hospitalet De Llobregat, L'", 'Lleida', 'Santander', 'Malaga',
       'Valladolid', 'Murcia', 'Pamplona/Iruña', 'Barcelona', 'Palencia',
       'Pontevedra', 'Girona', 'Fuenlabrada', 'Jaen', 'Almeria',
       'Elx/Elche', 'Getafe', 'Sevilla', 'Coruña, A', 'Zaragoza',
       'Palmas De Gran Canaria, Las', 'Cadiz', 'Tarragona',
       'Santiago De Compostela', 'Donostia-San Sebastian', 'Cartagena',
       'Madrid', 'Ceuta', 'Vigo', 'Valencia', 'Sabadell', 'Granada',
       'Albacete', 'Teruel', 'Aviles',
       'Castellon De La Plana/Castello De La Pla', 'Vitoria-Gasteiz',
       'Zamora', 'Santa Cruz De Tenerife', 'Logroño', 'Torrevieja',
       'Leganes', 'Gijon', 'Toledo', 'Badajoz', 'Dos Hermanas', 'Ourense',
       'Ferrol', 'Salamanca', 'Sant Cugat Del Valles', 'Huesca',
       'Alicante/Alacant', 'Telde'], dtype=object)

In [20]:
clientes['Country'].unique()

array(['Spain', nan], dtype=object)

In [22]:
def rellenar_nulos(dataframe, columna, valor):
    return dataframe[columna].fillna(valor, inplace=True)

In [23]:
rellenar_nulos(clientes, 'Country', 'Spain')

In [None]:
exploracion_dataframe(clientes, 'Country')