# Limpieza de datos del DataFrame sobre la industria de la música

Recogido de: https://www.kaggle.com/code/bourrinemusique/music-sales-riaa/input 

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

industry_sales = pd.read_csv('..\data\musicdata.csv')
industry_sales

Unnamed: 0,format,metric,year,number_of_records,value_actual
0,CD,Units,1973,1,
1,CD,Units,1974,1,
2,CD,Units,1975,1,
3,CD,Units,1976,1,
4,CD,Units,1977,1,
...,...,...,...,...,...
3003,Vinyl Single,Value (Adjusted),2015,1,6.205390
3004,Vinyl Single,Value (Adjusted),2016,1,5.198931
3005,Vinyl Single,Value (Adjusted),2017,1,6.339678
3006,Vinyl Single,Value (Adjusted),2018,1,5.386197


In [2]:
# Desglosando el dataframe con .describe(), nos van a salir NaN en las columnas categóricas o de dtype objeto, pero no importa.

industry_sales.describe(include='all')


Unnamed: 0,format,metric,year,number_of_records,value_actual
count,3008,3008,3008.0,3008.0,1351.0
unique,24,3,,,
top,CD,Value,,,
freq,141,1081,,,
mean,,,1996.0,1.0,781.291237
std,,,13.566915,0.0,2246.837672
min,,,1973.0,1.0,-7.650944
25%,,,1984.0,1.0,3.700228
50%,,,1996.0,1.0,63.9
75%,,,2008.0,1.0,448.9


In [3]:
'''
Aquí podemos ver varias cosas:
- Que la columna 'number_of_records' es una columna de 1.0s asíque la eliminaremos, no nos aporta nada.
- Que el valor mínimo de la columna 'value _actual' es negativo, algo sin sentido. Dichos valores los convertiremos en 0s.
- Que en todas las columnas hay 3008 filas excepto en la de 'value_actual' que hay 1351. Tendremos que ver el porqué.
- Que hay 24 valores distintos en la columna 'format', de los cuales el que más se repite es 'CD', un total de 141 veces.
- Que hay 3 valores distintos en la columna 'metric', de los cuales el que más se repite es 'Value', un total de 1081 veces.
''';

In [4]:
# Quitaré la columna de 'number_of_records' porque no me aporta nada, son todos 1.0

industry_sales = industry_sales.drop('number_of_records', axis=1)
industry_sales.describe(include='all')

Unnamed: 0,format,metric,year,value_actual
count,3008,3008,3008.0,1351.0
unique,24,3,,
top,CD,Value,,
freq,141,1081,,
mean,,,1996.0,781.291237
std,,,13.566915,2246.837672
min,,,1973.0,-7.650944
25%,,,1984.0,3.700228
50%,,,1996.0,63.9
75%,,,2008.0,448.9


In [5]:
# Resulta que el valor mínimo de la columna de valor actual es negativo, algo sin sentido porque el valor no puede ser negativo.
# Comprobación de los casos en los que value_actual es negativo:

industry_sales[industry_sales['value_actual'] < 0]

Unnamed: 0,format,metric,year,value_actual
63,CD Single,Units,1989,-0.1
169,Cassette Single,Units,2001,-1.5
170,Cassette Single,Units,2002,-0.5
463,DVD Audio,Units,2013,-0.054735
909,CD Single,Value,1989,-0.7
1062,Cassette Single,Value,2001,-5.3
1063,Cassette Single,Value,2002,-1.6
1121,DVD Audio,Value,2013,-0.495804
2037,CD Single,Value (Adjusted),1989,-1.443225
2143,Cassette Single,Value (Adjusted),2001,-7.650944


In [6]:
# Suponiendo que al ser negativos, carecen de valor, voy a cambiarlos a 0, no me interesa que sean negativos.
# Pero antes voy a ver cuantos datos hay actualmente con valor en value_actual igual a 0.
industry_sales[industry_sales['value_actual'] == 0]

Unnamed: 0,format,metric,year,value_actual
130,Cassette,Units,2009,0.0
131,Cassette,Units,2010,0.0
132,Cassette,Units,2011,0.0
171,Cassette Single,Units,2003,0.0
172,Cassette Single,Units,2004,0.0
...,...,...,...,...
364,Other Tapes,Units,2008,0.0
365,Other Tapes,Units,2009,0.0
366,Other Tapes,Units,2010,0.0
367,Other Tapes,Units,2011,0.0


In [7]:
# Suponiendo que al ser negativos, carecen de valor, voy a cambiarlos a 0, no me interesa que sean negativos:

industry_sales.loc[industry_sales.value_actual < 0, "value_actual"] = 0
industry_sales[industry_sales['value_actual'] == 0]

# Se 'sumaran' a las columnas que ya tenian value_actual de 0, por lo que saldrán más filas.


Unnamed: 0,format,metric,year,value_actual
63,CD Single,Units,1989,0.0
130,Cassette,Units,2009,0.0
131,Cassette,Units,2010,0.0
132,Cassette,Units,2011,0.0
169,Cassette Single,Units,2001,0.0
...,...,...,...,...
1121,DVD Audio,Value,2013,0.0
2037,CD Single,Value (Adjusted),1989,0.0
2143,Cassette Single,Value (Adjusted),2001,0.0
2144,Cassette Single,Value (Adjusted),2002,0.0


In [8]:
# Otra cosa que llama la atención es que hay solo hay 1351 filas en la columna value_actual mientras que en las demás hay 3008.
# Esto podría deberse a que haya filas en esa columna que contengan strings o booleanos que el .describe() no los cuente. Comprobación:

print(industry_sales["value_actual"].dtypes)

float64


In [9]:
# La columna es dtype = float64, lo que descarta que haya booleanos o strings, pues sería dtype = object.
# Esto me lleva a la conclusión de que las filas que faltan por contar en el describe son NaN, que se contaría como objeto tipo float64.
# Comprobación:

if industry_sales['value_actual'].isna().sum() > 0:
    print("Yes")
else:
    print("No")

Yes


In [10]:
# Sustuiré los NaN de la columna 'value_actual' por 0 para que el describe() me de el mismo numero de filas que el resto de columnas.

industry_sales['value_actual'] = industry_sales['value_actual'].fillna(0)
industry_sales.describe(include='all')

Unnamed: 0,format,metric,year,value_actual
count,3008,3008,3008.0,3008.0
unique,24,3,,
top,CD,Value,,
freq,141,1081,,
mean,,,1996.0,350.913106
std,,,13.566915,1554.833493
min,,,1973.0,0.0
25%,,,1984.0,0.0
50%,,,1996.0,0.0
75%,,,2008.0,35.417592


In [11]:
# Hay 24 tipos diferentes en la columna 'format', de los cuales el que más se repite es 'CD' y 3 diferentes en la columna 'metric', de los cuales el que más se repite es 'Value'.
# Para ver todos los tipos únicos de cada columna:

print(industry_sales['format'].unique())
print()
print(industry_sales['metric'].unique())


['CD' 'CD Single' 'Cassette' 'Cassette Single' 'LP/EP' 'Vinyl Single'
 '8 - Track' 'Other Tapes' 'Music Video (Physical)' 'DVD Audio' 'SACD'
 'Download Single' 'Download Album' 'Kiosk' 'Download Music Video'
 'Ringtones & Ringbacks' 'Paid Subscriptions'
 'Limited Tier Paid Subscription' 'On-Demand Streaming (Ad-Supported)'
 'Other Ad-Supported Streaming' 'Other Digital' 'Paid Subscription'
 'SoundExchange Distributions' 'Synchronization']

['Units' 'Value' 'Value (Adjusted)']


In [12]:
industry_sales # Una vez limpio.

Unnamed: 0,format,metric,year,value_actual
0,CD,Units,1973,0.000000
1,CD,Units,1974,0.000000
2,CD,Units,1975,0.000000
3,CD,Units,1976,0.000000
4,CD,Units,1977,0.000000
...,...,...,...,...
3003,Vinyl Single,Value (Adjusted),2015,6.205390
3004,Vinyl Single,Value (Adjusted),2016,5.198931
3005,Vinyl Single,Value (Adjusted),2017,6.339678
3006,Vinyl Single,Value (Adjusted),2018,5.386197


In [13]:
#industry_sales.to_csv('Music_Sales_Limpio.csv') # Lo paso a un csv para empezar a graficar con Power BI.

In [15]:
import plotly.graph_objs as go

fig = go.Figure()

for i in industry_sales.format.unique():
    fig.add_trace(go.Bar(x=industry_sales[(industry_sales.format == i) & (industry_sales.metric == "Value (Adjusted)")]["year"], 
                         y=industry_sales[(industry_sales.format == i) & (industry_sales.metric == "Value (Adjusted)")]["value_actual"], 
                         name=i, 
                         width=0.4))

fig.update_layout(title='Value (adjusted) per format per year', 
                  xaxis_title='Year', 
                  yaxis_title='Value (Adjusted)',
                  margin=dict(l=100, r=100, t=100, b=100), 
                  legend=dict(yanchor="top", y=0.99, xanchor="left", x=0.01, orientation='h'))

fig.show()

In [16]:
import plotly.graph_objs as go

fig = go.Figure()

for i in industry_sales.format.unique():
    fig.add_trace(go.Bar(x=industry_sales[(industry_sales.format == i) & (industry_sales.metric == "Value (Adjusted)")]["year"], 
                         y=industry_sales[(industry_sales.format == i) & (industry_sales.metric == "Value (Adjusted)")]["value_actual"], 
                         name=i, 
                         width=0.4))

fig.update_layout(title='Value (adjusted) per format per year', 
                  xaxis_title='Year', 
                  yaxis_title='Value (Adjusted)',
                  margin=dict(l=100, r=100, t=100, b=100), 
                  legend=dict(yanchor="top", y=0.99, xanchor="left", x=0.01, orientation='h', font=dict(size=10)))

fig.show()

In [17]:
import plotly.express as px

fig = px.box(industry_sales, x="format", y="value_actual", color="metric", points="all",
             labels={"value_actual": "Valor Actual", "format": "Formato", "metric": "Métrica"})
fig.show()