<a href="https://colab.research.google.com/github/BryanOVG/Prueba/blob/main/PruebaR5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
### Primera parte:
### Procesamiento de json a csv

In [1]:
import json
import pandas as pd

In [2]:
# Cargar el archivo JSON
with open('/content/taylor_swift_spotify (1).json') as file:
    data = json.load(file)

In [3]:
# Función para procesar el JSON y obtener los datos de las pistas
def process_json_tracks(data):
    tracks_data = []
    for album in data.get('albums', []):
        for track in album.get('tracks', []):
            track_info = {
                'disc_number': track.get('disc_number'),
                'duration_ms': track.get('duration_ms'),
                'explicit': track.get('explicit'),
                'track_number': track.get('track_number'),
                'track_popularity': track.get('track_popularity'),
                'track_id': track.get('track_id'),
                'track_name': track.get('track_name'),
            }
            audio_features = track.get('audio_features', {})
            if audio_features:
                track_info.update(audio_features)
            artist_info = {
                'artist_id': data.get('artist_id'),
                'artist_name': data.get('artist_name'),
                'artist_popularity': data.get('artist_popularity'),
            }
            album_info = {
                'album_id': album.get('album_id'),
                'album_name': album.get('album_name'),
                'album_release_date': album.get('album_release_date'),
                'album_total_tracks': album.get('album_total_tracks'),
            }
            track_info.update(artist_info)
            track_info.update(album_info)
            tracks_data.append(track_info)
    return tracks_data

In [4]:
# Procesar datos de las pistas
tracks_data = process_json_tracks(data)

# Convertir a DataFrame de Pandas
df = pd.DataFrame(tracks_data)

In [5]:
# Reordenar las columnas según el formato deseado
desired_columns_order = [
    'disc_number', 'duration_ms', 'explicit', 'track_number', 'track_popularity', 'track_id', 'track_name',
    'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness',
    'liveness', 'valence', 'tempo', 'id', 'time_signature',
    'artist_id', 'artist_name', 'artist_popularity',
    'album_id', 'album_name', 'album_release_date', 'album_total_tracks'
]

df = df[desired_columns_order]

In [6]:
# Guardar en un archivo CSV
df.to_csv('dataset.csv', index=False)

In [None]:
## Fin Primera Parte.

In [None]:
## Segunda Parte:
####### Análisis de Datos ###################################################

In [7]:
# Cargar el dataset
df = pd.read_csv('/content/dataset.csv')

In [None]:
# Visualizar los primeros registros
print(df.head())

In [None]:
# Obtener información general del dataset
print(df.info())

In [None]:
# Estadísticas descriptivas
print(df.describe())

In [None]:
# Verificar valores nulos
print(df.isnull().sum())

In [None]:
# Verificar duplicados
print(df.duplicated().sum())

In [None]:
# Filtrar y mostrar solo una instancia de cada registro duplicado
duplicates_unique = df[df.duplicated(keep=False)].drop_duplicates()
print("Registros duplicados únicos:")
print(duplicates_unique)

In [None]:
# Verificar valores atípicos en la duración_ms
# iterar demas variables
import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x=df['duration_ms'])
plt.show()

In [None]:
# Verificar valores únicos y conteo en una columna específica
print(df['explicit'].value_counts())

In [None]:
# Obtener solo las columnas no numéricas
non_numeric_columns = df.select_dtypes(exclude=['number']).columns

# Iterar sobre las columnas no numéricas para identificar valores únicos anómalos
for column in non_numeric_columns:
    print(f"Columna: {column}")
    unique_values = df[column].unique()
    # Filtrar valores que no sean 'True' o 'False'
    filtered_values = [value for value in unique_values if value not in ['True', 'False']]
    if filtered_values:
        print(f"Valores anómalos en {column}: {filtered_values}")
    else:
        print("No se encontraron valores anómalos.")
    print("---------------------")
# Excluir variables relacionadas con id

In [None]:
# Obtener solo las columnas no numéricas
non_numeric_columns = df.select_dtypes(exclude=['number']).columns

# Mostrar conteos de valores únicos para las columnas no numéricas
for column in non_numeric_columns:
    print(f"Columna: {column}")
    print(df[column].value_counts())
    print("---------------------")

In [None]:
# Convertir 6 minutos a milisegundos (1 min = 60,000 ms)
seis_minutos_en_ms = 6 * 60 * 1000

# Filtrar el DataFrame para obtener las canciones con duración superior a 6 minutos en milisegundos
canciones_mas_de_6_min = df[df['duration_ms'] > seis_minutos_en_ms]

# Mostrar las canciones que cumplen con la condición
print("Canciones con duración superior a 6 minutos:")
print(canciones_mas_de_6_min)

In [None]:
# Convertir 3 minutos a milisegundos (1 min = 60,000 ms)
tres_minutos_en_ms = 3 * 60 * 1000

# Filtrar el DataFrame para obtener las canciones con duración superior a 6 minutos en milisegundos
canciones_menos_de_3_min = df[df['duration_ms'] < tres_minutos_en_ms]

# Mostrar las canciones que cumplen con la condición
print("Canciones con duración menor a 3 minutos:")
print(canciones_menos_de_3_min)

In [None]:
# Filtrar el DataFrame para obtener las variables de 'acousticness' superiores a 1
acousticness_mas_de_1 = df[df['acousticness'] > 1]

# Mostrar las variables de 'acousticness' que son mayores a 1
print("Variables de 'acousticness' superiores a 1:")
print(acousticness_mas_de_1)

In [None]:
# Seleccionar solo la columna 'acousticness'
solo_acousticness = acousticness_mas_de_1['acousticness']

# Mostrar solo la columna 'acousticness'
print("Valores de 'acousticness':")
print(solo_acousticness)

In [None]:
# Filtrar los valores de 'track_popularity' que son menores a 0 o superiores a 100
valores_filtrados = df[(df['track_popularity'] < 0) | (df['track_popularity'] > 100)]

# Mostrar los valores de 'track_popularity' que cumplen con la condición
print("Valores de 'track_popularity' menores a 0 o superiores a 100:")
print(valores_filtrados['track_popularity'])

In [None]:
# Obtener la frecuencia de cada valor en 'disc_number'
frecuencia_disc_number = df['disc_number'].value_counts()

# Mostrar la frecuencia de cada valor en 'disc_number'
print("Frecuencia de valores en 'disc_number':")
print(frecuencia_disc_number)

In [None]:
# Obtener la frecuencia de cada valor en 'artist_name'
frecuencia_disc_number = df['artist_name'].value_counts()

# Mostrar la frecuencia de cada valor en 'artist_name'
print("Frecuencia de valores en 'artist_name':")
print(frecuencia_disc_number)

In [None]:
# Obtener la frecuencia de cada valor en 'valence'
frecuencia_disc_number = df['valence'].value_counts()

# Mostrar la frecuencia de cada valor en 'valence'
print("Frecuencia de valores en 'valence':")
print(frecuencia_disc_number)

In [None]:
# Filtrar los valores de 'valence' que son menores a 0 o superiores a 100
valores_filtrados = df[(df['valence'] < 0) | (df['valence'] > 100)]

# Mostrar los valores de 'valence' que cumplen con la condición
print("Valores de 'valence' menores a 0 o superiores a 100:")
print(valores_filtrados['valence'])

In [None]:
# Filtrar los valores de 'speechiness' que son menores a 0 o superiores a 100
valores_filtrados = df[(df['speechiness'] < 0) | (df['speechiness'] > 100)]

# Mostrar los valores de 'speechiness' que cumplen con la condición
print("Valores de 'speechiness' menores a 0 o superiores a 100:")
print(valores_filtrados['speechiness'])

In [None]:
# Filtrar los valores de 'artist_popularity' que son menores a 0 o superiores a 100
valores_filtrados = df[(df['artist_popularity'] < 0) | (df['artist_popularity'] > 100)]

# Mostrar los valores de 'artist_popularity' que cumplen con la condición
print("Valores de 'artist_popularity' menores a 0 o superiores a 100:")
print(valores_filtrados['artist_popularity'])

In [None]:
# Obtener la frecuencia de cada valor en 'artist_popularity'
frecuencia_artist_popularity = df['artist_popularity'].value_counts()

# Mostrar la frecuencia de cada valor en 'artist_popularity'
print("Frecuencia de valores en 'artist_popularity':")
print(frecuencia_artist_popularity)

In [None]:
# Obtener la frecuencia de cada valor en 'instrumentalness'
frecuencia_instrumentalness = df['instrumentalness'].value_counts()

# Mostrar la frecuencia de cada valor en 'instrumentalness'
print("Frecuencia de valores en 'instrumentalness':")
print(frecuencia_instrumentalness)

In [None]:
# Obtener la frecuencia de cada fecha en 'album_release_date'
frecuencia_fechas = df['album_release_date'].value_counts()

# Mostrar la frecuencia de cada fecha en 'album_release_date'
print("Frecuencia de fechas en 'album_release_date':")
print(frecuencia_fechas)