```markdown
# Análisis y Limpieza de Datos de Spotify

Este cuaderno de Jupyter documenta el proceso de análisis y limpieza de un conjunto de datos de canciones de Spotify. A continuación se describen los pasos realizados y el propósito de cada uno.

## 1. Cargar Datos Iniciales

```python
import pandas as pd

file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url6.csv"
df_clean = pd.read_csv(file_path, low_memory=False)
```

Se carga el archivo CSV `final_url6.csv` en un DataFrame de pandas para su posterior análisis.

## 2. Selección y Análisis de Columnas de Interés

```python
# Crear un nuevo dataframe con las columnas de interés
columns_to_check = ['album_name', 'popularity', 'album_release_date', 'spotify_url', 'duration_ms']
df_no_url = df_clean[columns_to_check]

# Contar nulos en cada columna
null_counts = df_no_url.isnull().sum()

# Mostrar resultados
print("Número de nulos por columna:")
print(null_counts)

# Verificar si todas las columnas tienen el mismo número de nulos
same_nulls = null_counts.nunique() == 1
print(f"\n¿Tienen todas las columnas el mismo número de nulos? {'Sí' if same_nulls else 'No'}")
print(f"\nParece igualmente que es caso de urls no encontradas, voy a pasarlas de nuevo a buscar urls por si hubiera suerte")
```

Se seleccionan las columnas de interés y se cuenta el número de valores nulos en cada una de ellas. Además, se verifica si todas las columnas tienen el mismo número de nulos.

## 3. Filtrado de Filas con Valores Nulos

```python
# Crear un dataframe con filas que tienen valores nulos en 'spotify_url'
df_no_url = df_clean[df_clean[['spotify_url', 'duration_ms']].isnull().any(axis=1)]

# Verificar las primeras filas del nuevo dataframe
print(df_no_url.head())

# Guardar el nuevo dataframe como un archivo CSV
df_no_url.to_csv('df_no_url.csv', index=False)
print("El archivo `df_no_url.csv` ha sido guardado exitosamente.")
```

Se crea un nuevo DataFrame que contiene solo las filas con valores nulos en las columnas `spotify_url` o `duration_ms`. Este DataFrame se guarda en un archivo CSV para su posterior análisis.

## 4. Actualización de Datos con Nuevas URLs

```python
import pandas as pd

# Cargar los archivos
final_idiomas_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url5.csv"
df_new_url_path = r"C:\Users\solan\Downloads\get_data_from_songs\src\df_url5.csv"
output_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url6.csv"

final_idiomas = pd.read_csv(final_idiomas_path)
df_new_url = pd.read_csv(df_new_url_path)

# Columnas que queremos actualizar
columns_to_update = ['album_name', 'popularity', 'album_release_date', 'spotify_url', 'duration_ms']

# Fusionar los datasets por `recording_id`
df_merged = final_idiomas.merge(df_new_url[['recording_id'] + columns_to_update], 
                                on='recording_id', how='left', suffixes=('', '_new'))

# Reemplazar solo los valores nulos en `final_idiomas`
for col in columns_to_update:
    df_merged[col] = df_merged[col].combine_first(df_merged[col + '_new'])
    df_merged.drop(columns=[col + '_new'], inplace=True)  # Eliminar columnas auxiliares

# Guardar el DataFrame actualizado
df_merged.to_csv(output_path, index=False)

print(f"✅ Archivo actualizado guardado en: {output_path}")
```

Se cargan dos archivos CSV y se fusionan para actualizar las columnas de interés con nuevas URLs. Los valores nulos en el DataFrame original se reemplazan con los valores correspondientes del nuevo DataFrame.

## 5. Verificación de Datos Actualizados

```python
df = pd.read_csv(output_path, low_memory=False)
```

Se carga el archivo CSV actualizado para verificar los cambios realizados.

## 6. Análisis de Valores Nulos

```python
print("Valores nulos por columna:")
print(df.isnull().sum())
```

Se cuentan y muestran los valores nulos por columna en el DataFrame actualizado.

```python
null_values = df.isnull().sum()
null_values = null_values[null_values > 0]  # Filtrar solo las columnas con nulos
print(null_values.sort_values(ascending=False))  # Ordenar de mayor a menor
```

Se filtran y ordenan las columnas que aún contienen valores nulos.

## 7. Análisis de Filas Duplicadas

```python
print("\nNúmero total de filas duplicadas:", df.duplicated().sum())
```

Se cuenta y muestra el número total de filas duplicadas en el DataFrame.

Este cuaderno proporciona un flujo de trabajo completo para la limpieza y actualización de datos de canciones de Spotify, asegurando que los datos estén lo más completos y precisos posible.
```

In [46]:
import pandas as pd

file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url6.csv"
df_clean = pd.read_csv(file_path, low_memory=False)

In [40]:
# Crear un nuevo dataframe con las columnas de interés
columns_to_check = ['album_name', 'popularity', 'album_release_date', 'spotify_url', 'duration_ms']
df_no_url = df_clean[columns_to_check]

# Contar nulos en cada columna
null_counts = df_no_url.isnull().sum()

# Mostrar resultados
print("Número de nulos por columna:")
print(null_counts)

# Verificar si todas las columnas tienen el mismo número de nulos
same_nulls = null_counts.nunique() == 1
print(f"\n¿Tienen todas las columnas el mismo número de nulos? {'Sí' if same_nulls else 'No'}")
print(f"\nParece igualmente que es caso de urls no encontradas, voy a pasarlas de nuevo a buscar urls por si hubiera suerte")


Número de nulos por columna:
album_name             482
popularity             464
album_release_date     464
spotify_url            463
duration_ms           6115
dtype: int64

¿Tienen todas las columnas el mismo número de nulos? No

Parece igualmente que es caso de urls no encontradas, voy a pasarlas de nuevo a buscar urls por si hubiera suerte


In [41]:
# Crear un dataframe con filas que tienen valores nulos en 'spotify_url'
df_no_url = df_clean[df_clean[['spotify_url', 'duration_ms']].isnull().any(axis=1)]

# Verificar las primeras filas del nuevo dataframe
print(df_no_url.head())

# Guardar el nuevo dataframe como un archivo CSV
df_no_url.to_csv('df_no_url.csv', index=False)
print("El archivo `df_no_url.csv` ha sido guardado exitosamente.")


         artist_name              song_name  \
30      kina grannis               together   
53   maximum balloon             the lesson   
59       i am arrows                    nun   
92    kill the noise    perfect combination   
108        los lobos  the lady and the rose   

                             recording_id  danceable  not_danceable   male  \
30   02352d4b-c907-4724-b515-c9c8a0849200      0.164          0.836  0.999   
53   037d34c3-b68d-4649-ad93-41f7dea68d13      0.934          0.066  0.653   
59   03c73e10-435b-4770-b7ca-93dc78ffc24b      0.991          0.009  0.974   
92   0665c0ec-3dfe-4312-845f-bd863cd03080      1.000          0.000  0.990   
108  075e85aa-979a-4280-ae69-6eb66c2603e8      0.930          0.070  0.029   

     female  timbre_bright  timbre_dark  tonal  ...  album_release_date  \
30    0.001          0.848        0.152  0.051  ...          2001-07-24   
53    0.347          0.228        0.772  0.069  ...          2019-04-19   
59    0.026          0.

pasarlas por spotify spoty nuevas

In [42]:
import pandas as pd

# Cargar los archivos
final_idiomas_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url5.csv"
df_new_url_path = r"C:\Users\solan\Downloads\get_data_from_songs\src\df_url5.csv"
output_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url6.csv"

final_idiomas = pd.read_csv(final_idiomas_path)
df_new_url = pd.read_csv(df_new_url_path)

# Columnas que queremos actualizar
columns_to_update = ['album_name', 'popularity', 'album_release_date', 'spotify_url', 'duration_ms']

# Fusionar los datasets por `recording_id`
df_merged = final_idiomas.merge(df_new_url[['recording_id'] + columns_to_update], 
                                on='recording_id', how='left', suffixes=('', '_new'))

# Reemplazar solo los valores nulos en `final_idiomas`
for col in columns_to_update:
    df_merged[col] = df_merged[col].combine_first(df_merged[col + '_new'])
    df_merged.drop(columns=[col + '_new'], inplace=True)  # Eliminar columnas auxiliares

# Guardar el DataFrame actualizado
df_merged.to_csv(output_path, index=False)

print(f"✅ Archivo actualizado guardado en: {output_path}")


✅ Archivo actualizado guardado en: C:\Users\solan\Downloads\get_data_from_songs\data\final_url6.csv


In [43]:
df = pd.read_csv(output_path, low_memory=False)

In [44]:
print("Valores nulos por columna:")
print(df.isnull().sum())


Valores nulos por columna:
artist_name            0
song_name              2
recording_id           0
danceable              0
not_danceable          0
                   ...  
track_uri          63072
playlist_ids       63084
positions          63084
playlists_names    63084
combined_genres     1174
Length: 87, dtype: int64


In [45]:
null_values = df.isnull().sum()
null_values = null_values[null_values > 0]  # Filtrar solo las columnas con nulos
print(null_values.sort_values(ascending=False))  # Ordenar de mayor a menor


playlist_ids          63084
positions             63084
playlists_names       63084
track_uri             63072
views                 43204
language              29082
lyrics                 5235
duration_ms            4451
combined_genres        1174
album_name              480
album_release_date      462
popularity              462
spotify_url             461
song_name                 2
dtype: int64


In [4]:
print("\nNúmero total de filas duplicadas:", df.duplicated().sum())



Número total de filas duplicadas: 0
