# Fase 1: Exploración y Limpieza

## 1. Exploración Inicial:

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:

def exploracion_inicial(csv1_path, csv2_path):
    try:
        # Intentar leer los archivos CSV con la codificación 'utf-8'
        df1 = pd.read_csv(csv1_path, encoding='utf-8', on_bad_lines='skip', delimiter= ';')
        df2 = pd.read_csv(csv2_path, encoding='utf-8', on_bad_lines='skip')
    except UnicodeDecodeError:
        # Si hay un error de decodificación, intentar con 'latin1'
        df1 = pd.read_csv(csv1_path, encoding='latin1', on_bad_lines='skip')
        df2 = pd.read_csv(csv2_path, encoding='latin1', on_bad_lines='skip')

    print("------------- Información del primer DataFrame (2023) --------------")
    print(f"Forma: {df1.shape}")
    print(f"Número de dimensiones: {df1.ndim}")
    print(f"Número de elementos: {df1.size}")
    print(f"Tipos de datos:\n{df1.dtypes}\n")
    print("Primeras filas:\n", df1.head(), "\n")
    print(df1.info())

    print("------------- Información del segundo DataFrame (2024) --------------")
    print(f"Forma: {df2.shape}")
    print(f"Número de dimensiones: {df2.ndim}")
    print(f"Número de elementos: {df2.size}")
    print(f"Tipos de datos:\n{df2.dtypes}\n")
    print("Primeras filas:\n", df2.head(), "\n")
    print(df2.info())

    # Identificar valores nulos
    print("------------- Valores nulos en el primer DataFrame --------------")
    print(df1.isnull().sum(), "\n")

    print("------------- Valores nulos en el segundo DataFrame --------------")
    print(df2.isnull().sum(), "\n")

    # Estadísticas básicas
    print("------------- Estadísticas descriptivas del primer DataFrame --------------")
    print(df1.describe().T, "\n")

    print("------------- Estadísticas descriptivas del segundo DataFrame --------------")
    print(df2.describe().T, "\n")

    # Identificar columnas categóricas y numéricas en df1
    cat_cols_df1 = df1.select_dtypes(include=['object', 'category']).columns
    num_cols_df1 = df1.select_dtypes(include=['number']).columns

    print(f"Columnas categóricas en el primer DataFrame: {cat_cols_df1}")
    print(f"Columnas numéricas en el primer DataFrame: {num_cols_df1}\n")

    # Identificar columnas categóricas y numéricas en df2
    cat_cols_df2 = df2.select_dtypes(include=['object', 'category']).columns
    num_cols_df2 = df2.select_dtypes(include=['number']).columns

    print(f"Columnas categóricas en el segundo DataFrame: {cat_cols_df2}")
    print(f"Columnas numéricas en el segundo DataFrame: {num_cols_df2}\n")

    # Análisis de columnas categóricas en df1
    for col in cat_cols_df1:
        print(f"----------- Análisis de la columna categórica '{col}' en el primer DataFrame -----------")
        print(f"Valores únicos:\n{df1[col].unique()}\n")
        print(f"Total de valores únicos:\n{df1[col].nunique()}\n")
        print(f"Frecuencia de valores únicos:\n{df1[col].value_counts()}\n")

    # Análisis de columnas categóricas en df2
    for col in cat_cols_df2:
        print(f"----------- Análisis de la columna categórica '{col}' en el segundo DataFrame -----------")
        print(f"Valores únicos:\n{df2[col].unique()}\n")
        print(f"Total de valores únicos:\n{df2[col].nunique()}\n")
        print(f"Frecuencia de valores únicos:\n{df2[col].value_counts()}\n")

# Llamar a la función con las rutas de tus archivos CSV
exploracion_inicial('Most Streamed Spotify Songs 2023.csv', 'Most Streamed Spotify Songs 2024.csv')


FileNotFoundError: [Errno 2] No such file or directory: 'Most Streamed Spotify Songs 2023.csv'

## 2. Limpieza de Datos

In [None]:
# Une los dos archivos de datos en un mismo DataFrame basado en 'Loyalty Number'.
# Luego, analiza los valores nulos y limpia los DataFrames df1 y df2.

# Leer los archivos CSV
try:
        # Intentar leer los archivos CSV con la codificación 'utf-8'
        df23 = pd.read_csv('Most Streamed Spotify Songs 2023.csv', encoding='utf-8', on_bad_lines='skip', delimiter= ';')
        df24 = pd.read_csv('Most Streamed Spotify Songs 2024.csv', encoding='utf-8', on_bad_lines='skip')
except UnicodeDecodeError:
        # Si hay un error de decodificación, intentar con 'latin1'
        df23 = pd.read_csv('Most Streamed Spotify Songs 2023.csv', encoding='latin1', on_bad_lines='skip')
        df24 = pd.read_csv('Most Streamed Spotify Songs 2024.csv', encoding='latin1', on_bad_lines='skip')

# 1. Eliminar duplicados DFs
df23= df23.drop_duplicates()
df24= df24.drop_duplicates()

# 2. Eliminar la columna 'Tidal'
# df24 = df24.drop(columns=['TIDAL Popularity'])


# 4. Verificar el porcentaje de valores nulos en el DataFrame
porc_nulos = round((df24.isnull().sum() / df24.shape[0]) * 100, 2)
print("\nPorcentaje de valores nulos del segundo Dataframe por columna:")
print(f"\n{porc_nulos}")



print("\n--------------------------------------------")
print("DataFrame 2023 limpio:")
# Verificar los cambios
print(df23.info())
print(f"\nForma: {df23.shape}")
print(f"\nNúmero de elementos: {df23.size}")

print("\n--------------------------------------------")
print("DataFrame 2024 limpio:")
# Verificar los cambios
print(df24.info())
print(f"\nForma: {df24.shape}")
print(f"\nNúmero de elementos: {df24.size}")

# Guardar el CSV limpio
df23.to_csv('Most Streamed Spotify Songs 2023.csv', index=False)
print("CSV limpio guardado como archivo_limpio.csv")

df24.to_csv('Most Streamed Spotify Songs 2024.csv', index=False)
print("CSV limpio guardado como archivo_limpio.csv")



Porcentaje de valores nulos del segundo Dataframe por columna:

Track                          1.24
Album Name                     1.00
Artist                         0.46
Release Date                   0.00
ISRC                           0.00
All Time Rank                  0.00
Track Score                    0.00
Spotify Streams                2.46
Spotify Playlist Count         1.52
Spotify Playlist Reach         1.57
Spotify Popularity            17.49
YouTube Views                  6.70
YouTube Likes                  6.85
TikTok Posts                  25.51
TikTok Likes                  21.31
TikTok Views                  21.34
YouTube Playlist Reach        21.94
Apple Music Playlist Count    12.20
Deezer Playlist Count         20.03
Deezer Playlist Reach         20.18
Amazon Playlist Count         22.94
Pandora Streams               24.05
Pandora Track Stations        27.58
Soundcloud Streams             0.00
Shazam Counts                 12.55
Explicit Track                 0.00

In [None]:
import pandas as pd
import re

# Limpia el archivo CSV 'Most Streamed Spotify Songs 2024.csv' para asegurar la consistencia y legibilidad de los datos.
# -----------------------------------------------------------------------

# Cargar el CSV limpio
try:
        # Intentar leer los archivos CSV con la codificación 'utf-8'
        df23 = pd.read_csv('Most Streamed Spotify Songs 2023.csv', encoding='utf-8', on_bad_lines='skip', delimiter= ';')
        df24 = pd.read_csv('Most Streamed Spotify Songs 2024.csv', encoding='utf-8', on_bad_lines='skip')
except UnicodeDecodeError:
        # Si hay un error de decodificación, intentar con 'latin1'
        df23 = pd.read_csv('Most Streamed Spotify Songs 2023.csv', encoding='latin1', on_bad_lines='skip')
        df24 = pd.read_csv('Most Streamed Spotify Songs 2024.csv', encoding='latin1', on_bad_lines='skip')

# 1. Eliminar columnas 'SiriusXM Spins' y 'AirPlay Spins' ya que o tienen muchos valores nulos
# o no aportan información relevante
# df24 = df24.drop(columns=['SiriusXM Spins', 'AirPlay Spins']) 

# 2. Convertir la columna 'Soundcloud Streams' a numérica, reemplazando los valores no convertibles por NaN
df24['Soundcloud Streams'] = pd.to_numeric(df24['Soundcloud Streams'], errors='coerce')

# Reemplazar valores nulos en 'Soundcloud Streams' por la media
mean_value = df24['Soundcloud Streams'].mean()
df24['Soundcloud Streams'].fillna(mean_value, inplace=True)


# 3. Función para limpiar texto
def limpiar_texto(texto):
    if isinstance(texto, str):
        # Eliminar caracteres extraños usando una expresión regular
        texto_limpio = re.sub(r'[^a-zA-Z0-9\s]', '', texto)
        # Eliminar espacios en blanco extra
        texto_limpio = re.sub(r'\s+', ' ', texto_limpio).strip()
        return texto_limpio
    return texto


df24['Track'] = df24['Track'].apply(limpiar_texto)
df24['Album Name'] = df24['Album Name'].apply(limpiar_texto)
df24['Artist'] = df24['Artist'].apply(limpiar_texto)


# Verificar los cambios
print(f"\nForma: {df24.shape}")
print(f"\nNúmero de elementos: {df24.size}")
df24.head()  # Visualizar las primeras filas


df24.to_csv('Most Streamed Spotify Songs 2024.csv', index=False)
print("CSV limpio guardado como archivo_limpio.csv")

# Guardar el CSV limpio
df23.to_csv('Most Streamed Spotify Songs 2023.csv', index=False)
print("CSV limpio guardado como 'Most Streamed Spotify Songs 2023.csv'")


Forma: (4598, 26)

Número de elementos: 119548
CSV limpio guardado como archivo_limpio.csv
CSV limpio guardado como 'Most Streamed Spotify Songs 2023.csv'


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df24['Soundcloud Streams'].fillna(mean_value, inplace=True)
