In [1]:
import pandas as pd

In [2]:
df_2 = pd.read_csv('mxmh_survey_results.csv')
df_2.head()

Unnamed: 0,Timestamp,Age,Primary streaming service,Hours per day,While working,Instrumentalist,Composer,Fav genre,Exploratory,Foreign languages,...,Frequency [R&B],Frequency [Rap],Frequency [Rock],Frequency [Video game music],Anxiety,Depression,Insomnia,OCD,Music effects,Permissions
0,8/27/2022 19:29:02,18.0,Spotify,3.0,Yes,Yes,Yes,Latin,Yes,Yes,...,Sometimes,Very frequently,Never,Sometimes,3.0,0.0,1.0,0.0,,I understand.
1,8/27/2022 19:57:31,63.0,Pandora,1.5,Yes,No,No,Rock,Yes,No,...,Sometimes,Rarely,Very frequently,Rarely,7.0,2.0,2.0,1.0,,I understand.
2,8/27/2022 21:28:18,18.0,Spotify,4.0,No,No,No,Video game music,No,Yes,...,Never,Rarely,Rarely,Very frequently,7.0,7.0,10.0,2.0,No effect,I understand.
3,8/27/2022 21:40:40,61.0,YouTube Music,2.5,Yes,No,Yes,Jazz,Yes,Yes,...,Sometimes,Never,Never,Never,9.0,7.0,3.0,3.0,Improve,I understand.
4,8/27/2022 21:54:47,18.0,Spotify,4.0,Yes,No,No,R&B,Yes,No,...,Very frequently,Very frequently,Never,Rarely,7.0,2.0,5.0,9.0,Improve,I understand.


In [3]:
def exploracion(df):
    
    """ 
    Realiza una exploración inicial y descriptiva de un DataFrame para identificar información relevante 
    sobre los datos, como valores nulos, duplicados, tipos de datos, y estadísticas generales. 
    La función también imprime un resumen de las columnas categóricas y numéricas del DataFrame.
    
    Parámetros:
    -----------
    dataframe (DataFrame): El DataFrame que contiene los datos.
    
    Descripción:
    ------------
    La función realiza los siguientes análisis y genera la siguiente información:
    
    - El número de filas y columnas del DataFrame.
    - La cantidad de datos duplicados y su porcentaje en relación al total.
    - La cantidad de columnas con valores nulos y las columnas sin valores nulos.
    - El tipo de dato de cada columna.
    - El número de valores únicos por columna.
    
    Además, la función imprime estadísticas descriptivas de las columnas categóricas (si las hay) y 
    numéricas (si las hay) del DataFrame."""
    
    df_info = pd.DataFrame()

    df_info["% nulos"] = round(df.isna().sum() / df.shape[0] * 100, 2).astype(str) + "%"
    df_info["% no_nulos"] = (
        round(df.notna().sum() / df.shape[0] * 100, 2).astype(str) + "%"
    )
    df_info["tipo_dato"] = df.dtypes
    df_info["num_valores_unicos"] = (
        df.nunique()
    )  # devuelve el número de valores únicos en la columna.

    print(f"""El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.
Tiene {df.duplicated().sum()} datos duplicados, lo que supone un porcentaje de {round(df.duplicated().sum()/df.shape[0]*100, 2)}% de los datos.

Hay {len(list(df_info[(df_info["% nulos"] != "0.0%")].index))} columnas con datos nulos, y son: 
{list(df_info[(df_info["% nulos"] != "0.0%")].index)}

y sin nulos hay {len(list(df_info[(df_info["% nulos"] == "0.0%")].index))} columnas y son: 
{list(df_info[(df_info["% nulos"] == "0.0%")].index)}


A continuación tienes un detalle sobre los datos nulos y los tipos y número de datos:""")

    print("Principales estadísticos de las columnas categóricas:")

    if (
        df.select_dtypes(include="object").shape[1] > 0
    ):  # Verificar si hay columnas categóricas
        display(df.describe(include="O").T)
    else:
        print("No hay columnas categóricas en el DataFrame.")

    print("Principales estadísticos de las columnas numéricas:")

    if (
        df.select_dtypes(exclude="object").shape[1] > 0
    ):  # Verificar si hay columnas numéricas
        display(df.describe(exclude="O").T)
    else:
        print("No hay columnas numéricas en el DataFrame.")

    return df_info


In [4]:
exploracion(df_2)

El DataFrame tiene 736 filas y 33 columnas.
Tiene 0 datos duplicados, lo que supone un porcentaje de 0.0% de los datos.

Hay 8 columnas con datos nulos, y son: 
['Age', 'Primary streaming service', 'While working', 'Instrumentalist', 'Composer', 'Foreign languages', 'BPM', 'Music effects']

y sin nulos hay 25 columnas y son: 
['Timestamp', 'Hours per day', 'Fav genre', 'Exploratory', 'Frequency [Classical]', 'Frequency [Country]', 'Frequency [EDM]', 'Frequency [Folk]', 'Frequency [Gospel]', 'Frequency [Hip hop]', 'Frequency [Jazz]', 'Frequency [K pop]', 'Frequency [Latin]', 'Frequency [Lofi]', 'Frequency [Metal]', 'Frequency [Pop]', 'Frequency [R&B]', 'Frequency [Rap]', 'Frequency [Rock]', 'Frequency [Video game music]', 'Anxiety', 'Depression', 'Insomnia', 'OCD', 'Permissions']


A continuación tienes un detalle sobre los datos nulos y los tipos y número de datos:
Principales estadísticos de las columnas categóricas:


Unnamed: 0,count,unique,top,freq
Timestamp,736,735,8/28/2022 16:15:08,2
Primary streaming service,735,6,Spotify,458
While working,733,2,Yes,579
Instrumentalist,732,2,No,497
Composer,735,2,No,609
Fav genre,736,16,Rock,188
Exploratory,736,2,Yes,525
Foreign languages,732,2,Yes,404
Frequency [Classical],736,4,Rarely,259
Frequency [Country],736,4,Never,343


Principales estadísticos de las columnas numéricas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,735.0,25.2068,12.05497,10.0,18.0,21.0,28.0,89.0
Hours per day,736.0,3.572758,3.028199,0.0,2.0,3.0,5.0,24.0
BPM,629.0,1589948.0,39872610.0,0.0,100.0,120.0,144.0,999999999.0
Anxiety,736.0,5.837636,2.793054,0.0,4.0,6.0,8.0,10.0
Depression,736.0,4.796196,3.02887,0.0,2.0,5.0,7.0,10.0
Insomnia,736.0,3.738451,3.088689,0.0,1.0,3.0,6.0,10.0
OCD,736.0,2.637228,2.842017,0.0,0.0,2.0,5.0,10.0


Unnamed: 0,% nulos,% no_nulos,tipo_dato,num_valores_unicos
Timestamp,0.0%,100.0%,object,735
Age,0.14%,99.86%,float64,61
Primary streaming service,0.14%,99.86%,object,6
Hours per day,0.0%,100.0%,float64,27
While working,0.41%,99.59%,object,2
Instrumentalist,0.54%,99.46%,object,2
Composer,0.14%,99.86%,object,2
Fav genre,0.0%,100.0%,object,16
Exploratory,0.0%,100.0%,object,2
Foreign languages,0.54%,99.46%,object,2


In [5]:
# Calcular la mediana de la columna 'Age'
mediana_age = df_2['Age'].median()

# Redondear la mediana a 2 decimales
mediana_age_redondeada = round(mediana_age, 2)

# Imprimir el resultado
print(f"La mediana de la columna 'Age' redondeada a 2 decimales es: {mediana_age_redondeada}")

La mediana de la columna 'Age' redondeada a 2 decimales es: 21.0


In [6]:
df_2['Age'] = df_2['Age'].fillna(mediana_age_redondeada)

In [7]:
df_2.isna().sum()

Timestamp                         0
Age                               0
Primary streaming service         1
Hours per day                     0
While working                     3
Instrumentalist                   4
Composer                          1
Fav genre                         0
Exploratory                       0
Foreign languages                 4
BPM                             107
Frequency [Classical]             0
Frequency [Country]               0
Frequency [EDM]                   0
Frequency [Folk]                  0
Frequency [Gospel]                0
Frequency [Hip hop]               0
Frequency [Jazz]                  0
Frequency [K pop]                 0
Frequency [Latin]                 0
Frequency [Lofi]                  0
Frequency [Metal]                 0
Frequency [Pop]                   0
Frequency [R&B]                   0
Frequency [Rap]                   0
Frequency [Rock]                  0
Frequency [Video game music]      0
Anxiety                     

In [8]:
columnas_moda = ["While working"]
columnas_desconocido = ["Primary streaming service", 'Instrumentalist', 'Composer', 'Foreign languages', 'BPM', 'Music effects']

In [9]:
# iteramos por la lista creada en el paso anterior:
for columna in columnas_moda:
    
    # calculamos la moda para la columna por la que estamos iterando
    moda = df_2[columna].mode()[0]    
    
    # utilizando el método fillna reemplazamos los valores nulos por la moda calculada en el paso anterior. 
    df_2[columna] = df_2[columna].fillna(moda)

# por último chequeamos si se han eliminado los nulos en las columnas de "marital" y "loan"
print("Después del reemplazo usando 'fillna' quedan los siguientes nulos")

df_2[columnas_moda].isnull().sum()

Después del reemplazo usando 'fillna' quedan los siguientes nulos


While working    0
dtype: int64

In [10]:
# iteramos por la lista de columnas a las que le vamos a cambiar los nulos por "Uknown"
for columna in columnas_desconocido:
    
    # reemplazamos los nulos por el valor Unknown para cada una de las columnas de la lista
    df_2[columna] = df_2[columna].fillna("Unknown")
    
# comprobamos si quedan nulos en las columnas categóricas. 
print("Después del reemplazo usando 'fillna' quedan los siguientes nulos")
df_2[columnas_desconocido].isnull().sum()

Después del reemplazo usando 'fillna' quedan los siguientes nulos


Primary streaming service    0
Instrumentalist              0
Composer                     0
Foreign languages            0
BPM                          0
Music effects                0
dtype: int64

In [11]:
# Guarda el DataFrame como un archivo CSV
df_2.to_csv("mxmh_clean.csv", index=False)