# 📓 101010 

### ¿Qué es un Notebook? 📝
- Entorno interactivo.
- Combina código, texto y visualizaciones.
- Usado en análisis de datos y ciencia de datos.
- Como un cuaderno de laboratorio digital.

### ¿Por qué los analistas usan Notebooks? 📊
- **Interactividad**: Ejecuta código y ve resultados al instante.
- **Documentación**: Combina código con explicaciones y gráficos.
- **Colaboración**: Facilita compartir y colaborar.

### Relación con Python 🐍
- Popular entre analistas de datos.
- Usa bibliotecas como **pandas**, **numpy**, **matplotlib**, y **plotly**.
- Como un cuaderno de laboratorio digital.


### Escribir Codigo
Escribir código para análisis de datos se enfoca en manipular y visualizar datos para obtener insights, utilizando bibliotecas como pandas y matplotlib. 


In [14]:
2 * 7

14

![Python Logo](img/data.png)


![Python Logo](img/python.png)


In [15]:
import plotly.express as px

# Crear un DataFrame a partir del diccionario de datos
data_df = pd.DataFrame(data)

# Crear un mapa de coropletas
fig_map = px.choropleth(data_df,
                        locations="country",
                        locationmode="country names",
                        color="value",
                        hover_name="country",
                        title="Mapa de valores por país",
                        projection="natural earth")

# Mostrar el mapa
fig_map.show()

# Crear una gráfica de barras
fig_bar = px.bar(data_df, x='country', y='value', title="Valores por país")

# Mostrar la gráfica de barras
fig_bar.show()

NameError: name 'data' is not defined

# Paqueterias


Una paquetería en Python es como una aplicación que instalas en tu teléfono. Así como necesitas aplicaciones para realizar diferentes tareas (como enviar mensajes o editar fotos).

Python necesita paqueterías para realizar tareas específicas, como analizar datos o crear gráficos. Estas paqueterías contienen código preescrito que facilita y acelera el desarrollo de proyectos.


In [17]:
import pandas as pd 
import plotly.express as px
import plotly.io as pio
import os


In [18]:
pd.set_option('display.max_colwidth', 80)

In [19]:
# Obtener el directorio de trabajo actual
base_dir = os.getcwd()

# Especificar el nombre del archivo y construir la ruta del archivo
file_name = 'spotify_25.csv'
file_path = os.path.join(base_dir, 'datasets', file_name)

# Verificar si el archivo existe y cargarlo
if os.path.exists(file_path):
    spotify_df = pd.read_csv(file_path)
    print("Archivo cargado exitosamente.")
    display(spotify_df.head())  # Mostrar las primeras filas del DataFrame
else:
    print(f"Archivo no encontrado: {file_path}")


Archivo cargado exitosamente.


Unnamed: 0,title,rank,date,artist,url,region,chart,trend,streams,year
0,Purple Rain,1,2017-02-17,Prince,https://open.spotify.com/track/54X78diSLoUDI3joC2bjMz,Argentina,viral50,SAME_POSITION,,2017
1,"City Of Stars - From ""La La Land"" Soundtrack",1,2017-01-28,"Ryan Gosling, Emma Stone",https://open.spotify.com/track/0LtVx5vsq9nfpGsWgjUin6,Mexico,viral50,SAME_POSITION,,2017
2,Sleep Talking,1,2017-10-24,Charlotte Lawrence,https://open.spotify.com/track/0bOH2yZkaVSg2OdegIlp2J,Brazil,viral50,SAME_POSITION,,2017
3,Despacito (Featuring Daddy Yankee),1,2017-01-30,Luis Fonsi,https://open.spotify.com/track/4aWmUDTfIPGksMNLV2rQP2,Uruguay,top200,SAME_POSITION,33967.0,2017
4,Despacito - Remix,1,2017-04-21,"Luis Fonsi, Daddy Yankee, Justin Bieber",https://open.spotify.com/track/5CtI0qwDJkDQGwXD1H1cLb,Peru,top200,SAME_POSITION,98818.0,2017


### ¿Qué es un DataFrame?

Un **dataframe** es una estructura de datos muy común en análisis de datos y programación, especialmente en lenguajes como Python y R. Se puede imaginar como una **hoja de cálculo** de Excel o una **tabla** en una base de datos, donde:

- **Cada fila** representa un registro o entrada (por ejemplo, la información de un estudiante).
- **Cada columna** representa una característica o variable (por ejemplo, nombre, edad, calificaciones).


In [20]:

spotify_df.describe()

Unnamed: 0,rank,streams,year
count,136453.0,122225.0,136453.0
mean,86.521469,91833.43,2018.860589
std,60.432829,351413.2,1.45705
min,1.0,1001.0,2017.0
25%,32.0,4013.0,2017.0
50%,80.0,10206.0,2019.0
75%,139.0,39595.0,2020.0
max,200.0,17223240.0,2021.0


La función `describe()` se usa en un **dataframe** para obtener un resumen **estadístico** rápido de los datos.

**¿Qué hace?**
- **Cuenta** los registros.
- Muestra el **valor medio** (mean), el **desvío estándar** (std) y otros **percentiles** como el 25%, 50% y 75%.
- Proporciona **mínimo** y **máximo** de los valores.


In [21]:
spotify_df

Unnamed: 0,title,rank,date,artist,url,region,chart,trend,streams,year
0,Purple Rain,1,2017-02-17,Prince,https://open.spotify.com/track/54X78diSLoUDI3joC2bjMz,Argentina,viral50,SAME_POSITION,,2017
1,"City Of Stars - From ""La La Land"" Soundtrack",1,2017-01-28,"Ryan Gosling, Emma Stone",https://open.spotify.com/track/0LtVx5vsq9nfpGsWgjUin6,Mexico,viral50,SAME_POSITION,,2017
2,Sleep Talking,1,2017-10-24,Charlotte Lawrence,https://open.spotify.com/track/0bOH2yZkaVSg2OdegIlp2J,Brazil,viral50,SAME_POSITION,,2017
3,Despacito (Featuring Daddy Yankee),1,2017-01-30,Luis Fonsi,https://open.spotify.com/track/4aWmUDTfIPGksMNLV2rQP2,Uruguay,top200,SAME_POSITION,33967.0,2017
4,Despacito - Remix,1,2017-04-21,"Luis Fonsi, Daddy Yankee, Justin Bieber",https://open.spotify.com/track/5CtI0qwDJkDQGwXD1H1cLb,Peru,top200,SAME_POSITION,98818.0,2017
...,...,...,...,...,...,...,...,...,...,...
136448,"10,000 Hours (with Justin Bieber)",131,2021-06-05,Dan + Shay,https://open.spotify.com/track/2wrJq5XKLnmhRXHIAf9xBa,South Korea,top200,MOVE_DOWN,1651.0,2021
136449,eight(Prod.&Feat. SUGA of BTS),21,2021-03-17,IU,https://open.spotify.com/track/0pYacDCZuRhcrwGUA5nTBe,South Korea,top200,MOVE_UP,3404.0,2021
136450,Spaceman,190,2021-03-17,Nick Jonas,https://open.spotify.com/track/1Tf0qifzTHdDC9RnTW9Di3,South Korea,top200,MOVE_DOWN,1028.0,2021
136451,Lovemonth,41,2021-04-13,YUKIKA,https://open.spotify.com/track/5KnAca7g0lgwzCNA64WE9d,South Korea,viral50,MOVE_DOWN,,2021


# Analizando datos de Taylor Swift en Spotify Charts 🎶📊

Vamos a explorar un poco los datos de Taylor Swift en los **Spotify Charts**!  
Descubriremos cómo se mueven sus canciones en la plataforma 🔍✨


In [22]:
ts_df = spotify_df[spotify_df['artist'].str.contains('Taylor Swift', case=False, na=False)]

In [23]:
ts_top200 = ts_df[ts_df['chart'] == 'top200']
num_canciones = ts_top200['title'].nunique()
print("Número total de canciones de Taylor Swift en top200:", num_canciones)


Número total de canciones de Taylor Swift en top200: 161


In [24]:
top10_streams = (ts_df[ts_df['streams'].notna()]
                 .groupby('title', as_index=False)['streams'].sum()
                 .sort_values(by='streams', ascending=False)
                 .head(10))
print("\nListado TOP 10 de canciones por streams:")
top10_streams



Listado TOP 10 de canciones por streams:


Unnamed: 0,title,streams
59,"I Don’t Wanna Live Forever (Fifty Shades Darker) - From ""Fifty Shades Darker...",1188882000.0
74,ME! (feat. Brendon Urie of Panic! At The Disco),604471200.0
124,You Need To Calm Down,603204200.0
69,Look What You Made Me Do,598212300.0
158,willow,376388900.0
72,Lover,341541800.0
128,cardigan,285012000.0
6,All Too Well (10 Minute Version) (Taylor's Version) (From The Vault),255513200.0
0,...Ready For It?,249985800.0
32,Delicate,239631300.0


### Indentado 📝

El **indentado** es usar **espacios** o **tabulaciones** al inicio de una línea de texto para **organizar** y **visualizar mejor** la estructura, especialmente en código.

Ejemplo:
```python
if True:
    print("¡Indentado!")
```

In [None]:

veces_posicion1 = ts_top200[ts_top200['rank'] == 1].shape[0]
print("\nTotal de veces que Taylor Swift estuvo en la posición 1:", veces_posicion1)


In [27]:
filtered_df = spotify_df[
    (spotify_df['title'] == "All I Want for Christmas Is You") &
    (spotify_df['region'] == "Global") &
    (spotify_df['chart'] == "top200") &
    (spotify_df['artist'] == "Mariah Carey")
]


fig = px.bar(filtered_df, x='date', y='streams',
             title="Apariciones de 'All I Want for Christmas Is You' en el top 200 de Spotify",
             color_discrete_sequence=['#FF0000'])  # Color rojo para Navidad

# Actualizar el eje y para mostrar valores en millones
fig.update_yaxes(ticksuffix=" streams", tickformat=".2s")

# Mostrar la gráfica
fig.show()

Esta canción muestra un comportamiento **estacional**. Un científico de datos puede abordarlo de la siguiente manera:

- **Identificar Periodicidad**:  
  Observar si los picos de streams se repiten de manera anual o en fechas específicas, como durante la temporada navideña.

- **Modelado con Serie Temporal**:  
  Emplear modelos que integran la estacionalidad para pronosticar tendencias.  
  - **ARIMA** 
  - **Prophet de Facebook**


In [28]:
latam_countries = ['Argentina', 'Brazil', 'Chile', 'Colombia', 'Mexico', 'Peru', 'Uruguay']
latam_unique_artists_df = spotify_df[spotify_df['region'].isin(latam_countries)].groupby('region')['artist'].nunique().reset_index()

fig_choropleth = px.choropleth(latam_unique_artists_df,
                               locations="region",
                               locationmode="country names",
                               color="artist",
                               hover_name="region",
                               title="Diversidad de artistas en LATAM",
                               projection="natural earth")

fig_choropleth.show()