# Taller Piensa 5.0


## Librerias

In [None]:
from google.colab import files
import io

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS

## Importación de datos

In [None]:
uploaded = files.upload()

In [None]:
df_spotify = pd.read_excel(io.BytesIO(uploaded['music-streaming.xlsx']), sheet_name='spotify')

In [None]:
df_youtube = pd.read_excel(io.BytesIO(uploaded['music-streaming.xlsx']), sheet_name='youtube')

In [None]:
df_spotify.columns

In [None]:
df_youtube.columns

In [None]:
df_spotify.shape

In [None]:
df_youtube.shape

In [None]:
df_spotify.tail(10)

## Unificación de datos | concatenacion  
Se unifican las dos fuentes de datos en un solo dataframe

In [None]:
df_music = pd.concat([df_youtube,df_spotify], axis=0)

In [None]:
df_music.head(3)

## Descipción de los datos

In [None]:
df_music.shape

In [None]:
df_music.info()

In [None]:
df_music.isna().sum()

El dataframe de origen posee dos filas con valores nulos las filas con indices 169 y 11

In [None]:
df_music[df_music.isna().any(axis=1)]

Se ejecuta dropna para eliminar los valores nulos o vacios

In [None]:
df_music.dropna(inplace=True)

In [None]:
df_music.isna().sum()

In [None]:
df_music.reset_index(inplace=True, drop=True)

In [None]:
df_music

In [None]:
df_music.describe().transpose()

## Analizando los datos

In [None]:
df_music.Artista.unique()

In [None]:
artistas = df_music['Artista'].values
artistas = ','.join(map(str, artistas))

In [None]:
nube_de_palabras = WordCloud(background_color='white',width=900, height=500).generate(artistas)

In [None]:
fig = plt.figure(figsize=(15,20))
plt.imshow(nube_de_palabras, interpolation="bilinear")
plt.axis("off")
plt.show()

**Bad bunny posee mas menciones o apareciones en las listas de reproducción en spotify y youtube en la semana 20-05 a 26-05 de 2022**

## Formateo de la columna fecha

In [None]:
df_music[['inicio','fin']] = df_music['semana'].str.split('/', expand=True)

In [None]:
df_music.iloc[150:155]

## Cantidad de apariciones en el ranking por artistas

In [None]:
df_music.Artista.value_counts()

In [None]:
df_music[(df_music['País']=='Chile') & (df_music['plataforma']=='youtube music')].Artista.value_counts().head(3)

In [None]:
df_music[(df_music['País']=='Chile') & (df_music['plataforma']=='spotify')].Artista.value_counts().head(3)

In [None]:
df_music[(df_music['País']=='Mexico') & (df_music['plataforma']=='youtube music')].Artista.value_counts().head(3)

In [None]:
df_music[(df_music['País']=='Mexico') & (df_music['plataforma']=='spotify')].Artista.value_counts().head(3)

In [None]:
df_music[(df_music['País']=='Perú') & (df_music['plataforma']=='youtube music')].Artista.value_counts().head(3)

In [None]:
df_music[(df_music['País']=='Perú') & (df_music['plataforma']=='spotify')].Artista.value_counts().head(3)

In [None]:
df_music[(df_music['plataforma']=='youtube music')].Artista.value_counts().head().sort_values(ascending=True).plot(kind='barh',
                                                                                                     figsize=(9,7))

In [None]:
df_music[(df_music['plataforma']=='spotify')].Artista.value_counts().head().sort_values(ascending=True).plot(kind='barh',
                                                                                                     figsize=(9,7))

Bad bunny predomina en cantidad de apareciones en ambas plataformas, pero en spotify su presencia es mas marcada

## Cantidad de reproducciones por artistas

In [None]:
df_music.groupby(by='Artista')['Streams'].sum().sort_values(ascending=False).to_frame()

In [None]:
df_music.groupby(by='Artista')['Streams'].sum().sort_values(ascending=False).head().plot(kind='barh')

## Cantidad de reproducciones por país

In [None]:
df_music.groupby('País').Streams.sum().sort_values(ascending=False).to_frame()

## Cantidad de Semanas en el Ranking

In [None]:
df_music[df_music['País']=='Chile'].sort_values(by='Semanas en el ranking', ascending=False)

In [None]:
df_music[(df_music['País']=='Chile')&(df_music['plataforma']=='spotify')].sort_values(by='Semanas en el ranking', ascending=False).head()

In [None]:
df_music[(df_music['País']=='Chile')&(df_music['plataforma']=='youtube music')].sort_values(by='Semanas en el ranking', ascending=False).head()

Los artistas permanecen por mas tiempo en el ranking en la plataforma youtube, en cambio en spotify permanecen por menos semanas.

## Reproducciones por plataforma

In [None]:
df_music[['plataforma','Streams']].groupby('plataforma').sum()

In [None]:
df_music[['plataforma','Streams']].groupby('plataforma').sum().plot.pie(ylabel='',
                                                                autopct='%.2f%%',
                                                                fontsize=10,
                                                                rot=70,
                                                                figsize=(8,6),
                                                                title='Reproducciones según plataforma',
                                                                legend=None,
                                                                labels=None,
                                                                colors=['#81B710','#C4302B'],
                                                                shadow=True,
                                                                subplots=True)

## Reproducciones según país

In [None]:
df_music[['plataforma','Streams','País']].groupby(['País','plataforma']).sum().reset_index()

In [None]:
youtube = df_music[df_music['plataforma']=='youtube music'].groupby(by=['País']).Streams.sum()
spotify = df_music[df_music['plataforma']=='spotify'].groupby(by=['País']).Streams.sum()

In [None]:
df_music['País'].unique()

In [None]:
x = np.arange(len(df_music['País'].unique()))
x

In [None]:
width = 0.2  # ancho de las barras
fig, ax = plt.subplots()
rects1 = ax.bar(x - width, youtube, width, label='Youtube',color='#AD1E1E')
rects2 = ax.bar(x, spotify, width, label='Spotify',color='#81B710')
# Personalizamos titulo, texto a los ejes x e y 
ax.set_ylabel('')
ax.ticklabel_format(axis='y',useOffset=False, style='plain')
ax.set_title('% distribución de reproducciones por país')
ax.set_xticks(np.arange(len(x)))
ax.set_xticklabels(['Argentina', 'Bolivia', 'Colombia', 'Chile', 'Mexico', 'Paraguay','Perú'])
ax.legend()

fig.set_size_inches(10, 6)
fig.tight_layout()
plt.show()

Mexico, paraguay y Colombia la plataforma preferida es spotify en cambio en Argentina, Bolivia, Perú y Chile es más utilizada youtube.

## Canción numero 1 según País

In [None]:
df_music[df_music['Ranking']==1][['Cancion','Artista','País','plataforma']].reset_index(drop=True)

Ojitos Lindos de Bad bunny es la canción mas escuchada en latam

## Descarga de archivos

In [None]:
df_music.to_excel('musica-latam.xlsx', index=False, sheet_name='streaming')
files.download('musica-latam.xlsx')

In [None]:
df_music.to_csv('musica-latam-csv.csv', index=False)
files.download('musica-latam-csv.csv')