# ESTUDIO DE REPRODUCCIONES DE CANCIONES EN SPOTIFY

# 1. Etapa uno: determinar los objetivos de negocio
La primera etapa del proceso CRISP-DM es comprender lo que desea lograr desde una perspectiva comercial. Su empresa puede tener objetivos y limitaciones competitivas que deben estar bien equilibradas.El objetivo de esta etapa del proceso es descubrir factores importantes que podrían influir en el resultado del proyecto. Descuidar este paso puede significar que se hace una gran cantidad de esfuerzo para producir las respuestas correctas a las preguntas equivocadas.

## 1.1 Evaluar la situación actual 

Esto implica una investigación de hechos más detallada sobre todos los recursos, restricciones, supuestos y otros factores que deberá considerar al determinar su objetivo de análisis de datos y plan de proyecto.


### 1.1.1. Inventario de recursos
Enumerar los recursos disponibles para el proyecto, incluidos:
- Personal:
- Datos:
- Recursos informáticos:
- Software: 


### 1.1.2. Requisitos, supuestos y restricciones
- Requisitos del proyecto, incluido el cronograma de finalización.
- Requerido comprensibilidad y calidad de los resultados
- Seguridad de los datos, así como cualquier problema legal.
- Suposiciones hechas para la realización del proyecto. Estas pueden ser suposiciones sobre los datos que se pueden verificar durante la minería de datos, pero también pueden incluir suposiciones no verificables sobre el negocio relacionado con el proyecto. Es particularmente importante enumerar este último si afectarán la validez de los resultados.
- Enumere las limitaciones en el proyecto.


### 1.1.3. Riesgos y contingencias
- Enumerar los riesgos o eventos que podrían retrasar el proyecto o hacer que falle.
- ¿Qué acción tomarás si tienen lugar estos riesgos o eventos?

### 1.1.4. Terminología
- Un glosario de terminología comercial relevante
- Un glosario de terminología de minería de datos, ilustrado con ejemplos relevantes para el problema comercial en cuestión.


### 1.1.5. Costos y beneficios
- Construya un análisis de costo-beneficio para el proyecto que compara los costos del proyecto con los beneficios potenciales para el negocio si es exitoso.Esta comparación debe ser lo más específica posible.Por ejemplo, debe usar medidas financieras en una situación comercial.

 ## 1.2 ¿Cuáles son los resultados deseados del proyecto?

**Criterios de éxito comercial**
-
-



**Criterios de éxito de la minería de datos**
-
-


**Producir el plan de proyecto**
-
-


 ## 1.3 ¿Qué preguntas estamos tratando de responder? 

- 
- 

# 2. Etapa dos: comprensión de los datos
La segunda etapa del proceso CRISP-DM requiere que adquiera los datos enumerados en los recursos del proyecto. Esta colección inicial incluye la carga de datos, si esto es necesario para la comprensión de los datos.  
Por ejemplo, si utiliza una herramienta específica para la comprensión de los datos, tiene mucho sentido cargar sus datos en esta herramienta. Si adquiere múltiples fuentes de datos, entonces debe considerar cómo y cuándo integrarálas.

In [1]:
# Import Libraries Required
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import seaborn as sns

## 2.1 Informe de datos inicial
Informe inicial de recopilación de datos -
Enumerar las fuentes de datos adquiridas junto con sus ubicaciones, los métodos utilizados para adquirirlas y cualquier problema encontrado.  
Problemas de registro que encontró y cualquier resolución lograda. 
Esto ayudará tanto a la replicación futura de este proyecto como con la ejecución de proyectos futuros similares.

Cargamos los datos desde sus origenes a un dataframe de pandas para su análisis.  
En este caso el dataset con los datos de reproducciones en spotify.

In [2]:
df_spotify = pd.read_csv("https://raw.githubusercontent.com/nahumballina/cdbd/main/ficheros/spotify.csv", engine='openpyxl')

In [None]:
df_spotify

## 2.2 Describir datos
Informe de descripción de datos: describe los datos que se han adquirido, incluido su formato, su cantidad (por ejemplo, el número de registros y campos en cada tabla), las identidades de los campos y cualquier otra característica superficial que se haya descubierto. 
Evalua si los datos adquiridos satisfacen sus requisitos.

Descripción de las columnas del dataset:

* `title`: Name of the song  
* `artist`: Name of the artist(s) of the song
* `top_genre`: The genre of the song
* `year`: The year the song was released
* `bpm`: BPM (Beats Per Minute). Represents the tempo of the song
* `energy`: Shows the level of energy in a song. The higher the value, the more energetic a song is. Values range from 0-100
* `danceability`: The higher the value, the easier it is to dance to this song.
* `db`: Represents volume/loudness of the song. dB stands for Decibel.
* `liveness`: The higher the value, the more likely the song is a live recording.
* `valence`: Describes the musical positiveness conveyed by a track. Tracks with high valence sound more positive.
* `duration`: The duration of the songs measured in seconds
* `acousticness`: Measures how acoustic the song is from 0-100. e.g) A song with a higher value for acousticness has less singing.
* `speechiness`: Measures how much singing there is in a song from 0-100
* `popularity`: Measures how popular a song is on Spotify from 0-100

### 2.2.1 Obtenemos las columnas y vemos que representan

### 2.2.2 Obtenemos el tamaño del dataframe en filas y columnas

### 2.2.3 Vemos los tipos de datos de las columnas

### 2.2.4 Hacemos un análisis estadístico inicial del dataframe

### 2.2.6 Obtenemos información de nulos y del tamaño en memoria del dataframe

### 2.2.6 Vemos una muestra del dataframe

## 2.3 Verificar la calidad de los datos

Examina la calidad de los datos, abordando preguntas como:

- ¿Se completan los datos (cubre todos los casos requeridos)?
- ¿Es correcto o contiene errores y, si hay errores, qué tan comunes son?
- ¿Faltan valores en los datos? Si es así, ¿cómo se representan, dónde ocurren y qué tan comunes son?

### 2.3.1. Datos nulos
Además de los tipos de datos incorrectos, otro problema común cuando se trata de datos del mundo real es la falta de datos. Estos pueden surgir por muchas razones y deben ser completados o eliminados antes de entrenar un modelo de aprendizaje automático.  

Lo primero, es hacernos una idea de cuántos valores faltantes hay en cada columna.

Si bien siempre queremos tener cuidado al eliminar la información, si una columna tiene un alto porcentaje de valores faltantes, entonces probablemente no será útil para nuestro modelo. 
El umbral para eliminar columnas debe depender del problema y de la columna en cuestión.

In [11]:
def missing_values_table(df):
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")
        return mis_val_table_ren_columns

#### 2.3.1.1 Podemos comprobar como se comportan los valores en faltantes antes de determinar si es necesaria su eliminación o no


#### 2.3.1.2 Una vez estudiados dichos valores podemos eliminarlos las columnas si procede o simplemente quitar las filas del dataset

### 2.3.2. Duplicados

Necesitamos controlar que no existan filas duplidas en el dataset. Si existieran es necesario eliminarlas.

### 2.3.3. Outliers 
En este punto, es posible que también queramos eliminar los valores atípicos. Estos pueden deberse a errores tipográficos en la entrada de datos, errores en las unidades, o pueden ser valores legítimos pero extremos.  

Para este proyecto, eliminaremos anomalías en función de la definición de valores atípicos extremos:

https://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm

- debajo del primer cuartil - 3 ∗ rango intercuartil
- Por encima del tercer cuartil + 3 ∗ rango intercuartil

In [20]:
def mi_boxplot(columnas):
    fig, axs = plt.subplots(nrows=len(columnas), figsize=(8, 6 * len(columnas)))
    for i,columna in enumerate(columnas):
        sns.boxplot(x=df_spotify[columna], ax=axs[i])
        axs[i].set_title(columna)
    plt.tight_layout()
    plt.show()

#### 2.3.2.1 Eliminar outliers
Se pueden eliminar outliers estableciendo manualmente un umbral en el que quitariamos los valores fuera de dicho umbral.
O de forma automática usando la regla comentada anteriormente.

## 2.4 Exploración de datos inicial
Durante esta etapa, se abordarán las preguntas de minería de datos utilizando consultas, visualización de datos y técnicas de informes.  

Estos pueden incluir:

- **Distribución** de atributos clave (por ejemplo, el atributo objetivo de una tarea de predicción)
- **Relaciones** entre pares o pequeños números de atributos
- Resultados de **agregaciones simples**
- **Propiedades** de subpoblaciones significativas
- **Simple** Análisis estadísticos

Estos análisis pueden abordar directamente la consecución de los objetivos del proyecto. También pueden contribuir o refinar la descripción de los datos y los informes de calidad, a alimentar la transformación y otros pasos de preparación de datos necesarios para un análisis posterior.

- **Informe de exploración de datos** - Describa los resultados de su exploración de datos, incluidos los primeros hallazgos o la hipótesis inicial y su impacto en el resto del proyecto. Si corresponde, puede incluir gráficos y parcelas aquí para indicar las características de los datos que sugieren un examen más detallado de subconjuntos de datos interesantes.

### 2.4.1 Distribuciones  

In [30]:
def count_values_table(df):
        count_val = df.value_counts()
        count_val_percent = 100 * df.value_counts() / len(df)
        count_val_table = pd.concat([count_val, count_val_percent.round(1)], axis=1)
        count_val_table.columns=['Total Valores', '% Total Valores']
        return count_val_table

In [31]:
# Histograma
def hist_chart(df, col):
        fig = plt.figure(figsize=(40, 10))
        plt.xticks(rotation='vertical')
        plt.style.use('fivethirtyeight')
        plt.hist(df[col].dropna(), edgecolor = 'k');
        plt.xlabel(col); plt.ylabel('Número de Valores'); 
        plt.title('Distribution of '+col);

### 2.4.3 Correlaciones
¿Podemos derivar cualquier correlación de este conjunto de datos?  
La tabla de pares nos da las correlaciones, distribuciones y ruta de regresión.  
El correlograma es increíble para el análisis exploratorio. Permite observar rápidamente la relación entre cada variable de su matriz.
Es fácil hacerlo con Seaborn: solo llame a la función de parque de pares

La documentación de su funcionamiento se encuentra aquí: https://seaborn.pydata.org/generated/seaBorn.pairplot.html

#### 2.4.3.1 Correlograma

#### 2.4.3.2 Matriz de correlación

Los valores en una matriz de correlación pueden ser:

- 1-Correlación Perfecta: Un valor de 1 indica una correlación positiva perfecta, lo que significa que las variables están totalmente correlacionadas de manera positiva. Si una variable aumenta, la otra también aumentará en proporción constante. Esto siempre ocurre en la diagonal principal ya que se calcula la relación de una columna consigo misma.

- -1-Correlación Negativa Perfecta: Un valor de -1 indica una correlación negativa perfecta, lo que significa que las variables están totalmente correlacionadas de manera negativa. Si una variable aumenta, la otra disminuirá en proporción constante.

- 0-No Correlación: Un valor cercano a 0 indica una correlación débil o nula entre las variables. Esto sugiere que los cambios en una variable no están relacionados con los cambios en la otra variable.

- Entre -1 y 1: Valores que están entre -1 y 1 indican la fuerza y la dirección de la correlación. Cuanto más cercano a -1 o 1, más fuerte es la correlación. Un valor cercano a 1 indica una correlación positiva fuerte, mientras que un valor cercano a -1 indica una correlación negativa fuerte.  

Podemos hacer otro tipo de clasificación:
- Sin correlación rango (-0.25, 0,25): Las variables no tienen relación por lo que no son interesantes.
- Correlación débil rangos (-0.5, -0.25] y [0.25, 0.5): Las variables tienen poca relación entre si. En principio no son interesantes para el estudio.
- Correlación Moderada rangos (-0.75, -0.5] y [0.5, 0.75):  Las variables tienen relación entre ellas y es interesante estudiar dichas relaciones.
- Correlación Fuerte rangos (-1, -0.75] y [0.75, 1):  Las variables tienen una fuerte dependencia entre ellas y es interesante estudiar dichas relaciones.

Cabe decir que la escala anteriror variaría dependiendo del ámbito del que procedan los datos y el tipo de estudio que se esté realizando. Por ejemplo, a menudo en los campos médicos, la definición de una relación "fuerte" a menudo es mucho más baja. Si la relación entre tomar una cierta droga y la reducción de los ataques cardíacos es r = 0.3, esto podría considerarse una relación "débil positiva" en otros campos, pero en la medicina es lo suficientemente significativa como para que valga la pena tomar el medicamento para reducir las posibilidades de tener un ataque cardíaco.



Es importante recordar que la correlación no implica causalidad. Incluso si dos variables están correlacionadas, no significa que un cambio en una variable cause el cambio en la otra variable. La interpretación de los valores en una matriz de correlación debe hacerse con precaución y puede requerir un análisis más profundo dependiendo del contexto del problema que estás investigando.


#### 2.4.3.3 Heat map matriz de correlación

#### 2.4.3.4 Estudio particular de correlación de variblas energy vs dB

Aqui prepramos los valores medios para comprobar su comportamiento

## 2.5 Informe de calidad de datos
Enumere los resultados de la verificación de calidad de los datos. Si existen problemas de calidad, sugiera posibles soluciones.  Las soluciones a los problemas de calidad de los datos generalmente dependen en gran medida de los datos y el conocimiento empresarial.