# Elección de Datasets Potenciales
---
## Intrucciones

Deberás entregar el primer avance de tu proyecto final. 
Identificarás 3 datasets potenciales con las siguientes características: 

1.   Al menos 2000 filas, 
2.   Al menos 15 columnas. 

Posterior a esto crearás un notebook donde cargarás los datos utilizando la librería pandas y finalmente describirás las variables que sean más interesantes teniendo en cuenta el contexto comercial y analítico del problema que se quiera resolver.

In [None]:
# Llibrerías a utilizar
import pandas as pd
import numpy as np

## Dataset 1: Video Game Sales with Ratings

---
### Descripción del Dataset
Este dataset incluye datos de más de 100.000 videojuegos de distintas plataformas desde 1980 hasta 2016. Dentro de la data que contiene está la plataforma, año de lanzamiento, ventas totales, puntaje de crítica, desarrollado, rating, entre otros.

*Fuente:*

[Kaggle: Video Game Sales with Ratings](https://www.kaggle.com/datasets/rush4ratio/video-game-sales-with-ratings)

### Descripción de Variables
| Columna | Descripción |
| --- | --- |
| Rank | Ranking de las ventas promedio |
| Name | Nombre del videojuego |
| Platform | Plataforma de lanzamiento del videojuego (PC, PS4, etc.) |
| Year | Año de lanzamiento del videojuego |
| Genre | Género del videojuego |
| Publisher | Editor del videojuego |
| NA_Sales | Ventas en Norteamérica (en millones) |
| EU_Sales | Ventas en Europa (en millones) |
| JP_Sales | Ventas en Japón (en millones) |
| Other_Sales | Ventas en el resto del mundo (en millones) |
| Global_Sales | Ventas totales a nivel mundial. |
| Critic_score | Puntaje agregado del staff de Metacritic |
| Criticcount | Número de críticas usadas para obtener el puntaje del staff |
| User_score | Puntaje asignado por los suscriptores de Metacritic |
| Usercount | Número de usuarios que dieron puntaje de crítica |
| Developer | Desarrollador |
| Rating | Rating asignado por la ESRB |


### Variables de interés
Dentro de las variables descritas, las más interesantes dentro del dataset serían las críticas de usuarios y las críticas del staff de Metacritic, con sus respectivas cantidades para determinar el valor final. La razón de esto es que, en términos racionales, es esperable que las ventas se vean influenciadas por esto.

### Contexto Comercial y Análitico del Problema
Teniendo en cuenta el dataset, el problema a resolver sería predecir las ventas de videojuegos, ya sea a nivel de plataforma, editor y/o desarrollador. Esto mediante el uso de otras variables como las ventas pasadas en el tiempo y las críticas asociadas de Metacritic.


In [None]:
# Importamos el dataset
vgamesales_url = 'https://raw.githubusercontent.com/jbeltrang/datasets-ch/main/Video_Games_Sales_as_at_22_Dec_2016.csv'
vgamesales = pd.read_csv(vgamesales_url)
vgamesales

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8,322.0,Nintendo,E
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,,,,,,
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8,192.0,Nintendo,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16714,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,Tecmo Koei,0.00,0.00,0.01,0.00,0.01,,,,,,
16715,LMA Manager 2007,X360,2006.0,Sports,Codemasters,0.00,0.01,0.00,0.00,0.01,,,,,,
16716,Haitaka no Psychedelica,PSV,2016.0,Adventure,Idea Factory,0.00,0.00,0.01,0.00,0.01,,,,,,
16717,Spirits & Spells,GBA,2003.0,Platform,Wanadoo,0.01,0.00,0.00,0.00,0.01,,,,,,


## Dataset 2: Cost of Living

---
### Descripción del Dataset
Este dataset incluye datos de distintos países referente al costo de vida. Dentro de sus columnas incluye datos sobre el costos asociado al consumo de distintos bienes de consumo básicos para vivir, tasa de interés hipotecario, entre otros.

*Fuentes:* 

[Human Development Reports: HDI](https://hdr.undp.org/data-center/human-development-index#/indicies/HDI)

[Kaggle: Global Cost of Living](https://www.kaggle.com/datasets/mvieira101/global-cost-of-living?select=cost-of-living_v2.csv)

### Descripción de variables

| Columna | Descripción |
| --- | --- |
| city | Nombre de la ciudad |
| country | Nombre del país |
| x1 | Plato en restaurante barato (USD) |
| x2 | Plato para 2 personas, restaurante precio promedio, tres platos (USD) |
| x3 | Comida en McDonald’s (o equivalente a un combo) (USD) |
| x4 | Cerveza local (0.5 litros) (USD) |
| x5 | Cerveza importada (0.33 litros) (USD) |
| x6 | Cappuccino (regular) (USD) |
| x7 | Coca-Cola/Pepsi (0.33 litros) (USD) |
| x8 | Agua (0.33 litros) (USD) |
| x9 | Leche (regular), (1 litro) (USD) |
| x10 | Pan blanco (500g) (USD) |
| x11 | Arroz blanco (1kg) (USD) |
| x12 | Huevos (12) (USD) |
| x13 | Queso (1kg) (USD) |
| x14 | Filetillo de pollo (1kg) (USD) |
| x15 | Carne (1kg) (USD) |
| x16 | Manzana (1kg) (USD) |
| x17 | Banana (1kg) (USD) |
| x18 | Naranja (1kg) (USD) |
| x19 | Tomate (1kg) (USD) |
| x20 | Papas (1kg) (USD) |
| x21 | Cebolla (1kg) (USD) |
| x22 | Lechuga (1 cabeza) (USD) |
| x23 | Agua (1.5 litros) (USD) |
| x24 | Botella de vino (Rango medio de precio) (USD) |
| x25 | Cerveza local (0.5 litros, de supermercado) (USD) |
| x26 | Cerveza importada (0.33 litros, de supermercado) (USD) |
| x27 | Cigarros, cajetilla de 20 ud. (Marlboro) (USD) |
| x28 | Ticket de transporte público (USD) |
| x29 | Pase mensual de transporte público (Precio regular) (USD) |
| x30 | Taxi (Tarifa normal) (USD) |
| x31 | Taxi 1km (Tarifa normal) (USD) |
| x32 | Taxi 1 hora esperando (Tarifa normal) (USD) |
| x33 | Gasolina (1 litro) (USD) |
| x34 | Volkswagen Golf 1.4 90 KW Trendline (o auto nuevo equivalente) (USD) |
| x35 | Toyota Corolla Sedan 1.6l 97kW Comfort (o auto nuevo equivalente) (USD) |
| x36 | Gastos básicos (Electricidad, Calefacción, Aire acondicionado, Agua, Basura) para departamento de 85m2 (USD) |
| x37 | 1 min. de plan prepago de telefonía (USD) |
| x38 | Internet (60 Mbps o más, Datos ilimitados, Cable/ADSL) (USD) |
| x39 | Gym, Suscripción mensual (USD) |
| x40 | Arriendo de cancha de tenis (1 hora) (USD) |
| x41 | Cine, 1 asiento (USD) |
| x42 | Kindergarten, todo el día, privado, mensual para 1 niño (USD) |
| x43 | Escuela primaria internacional, anual para 1 niño (USD) |
| x44 | 1 par de jeans (Levis 501 o Similar) (USD) |
| x45 | 1 Vestido de verano de una cadena reconocida (Zara, H&M, …) (USD) |
| x46 | 1 par de zapatillas de running Nike (Rango Medio) (USD) |
| x47 | 1 par de zapatos de trabajo de hombre (USD) |
| x48 | Apartmento (1 dormitorio) en el centro de la ciudad (USD) |
| x49 | Apartmento (1 dormitorio) fuera del centro de la ciudad (USD) |
| x50 | Apartmento (3 dormitorios) en el centro de la ciudad (USD) |
| x51 | Apartmento (3 dormitorios) fuera del centro de la ciudad (USD) |
| x52 | Precio por metro cuadrado para comprar un apartamento en el centro de la ciudad (USD) |
| x53 | Precio por metro cuadrado para comprar un apartamento fuera del centro de la ciudad (USD) |
| x54 | Salario neto mensual (después de impuestos) (USD) |
| x55 | Tasa de interés hipotecario en porcentajes (%), Anual, por 20 años tasa fija |
| data_quality | 0 si Numbeo considera que más contribuyentes son necesarios para mejorar la calidad de la data, de lo contrario 1 |
| Human Development Index (HDI)  (Value) 2021 | Índice de Desarrollo Humano (2021) |

### Variables de interés
En general, todas las variables desde X1 hasta x26 son interesantes, ya que representan una canasta básica de alimentos estandarizada a términos generales en una buena cantidad de países. El resto de las variables desde x27 a x55 aportan en términos generales lo que representan los gastos asociados a transporte, vivienda y salud, además de incluir el salario neto mensual estimado. En términos de tratamiento de data, se podría establecer una variable que permita categorizar y agrupar las variables que resulten más relevantes para el problema a resolver, permitiendo transformar y agrupar en un dataframe las columnas preprocesadas y consolidadas.

### Contexto Comercial y Analítico del Problema
Considerando el dataset escogido, el propósito asociado sería establecer cómo los ingresos netos y el costo de vida se asocian al índice de desarrollo humano (IDH). Para esto, resulta necesario hacer un cruce de data con la información proveniente de Human Development Reports, para obtener el indicador mencionado. Dónde, finalmente se buscará predecir el IDH usando las variables de costo de vida.





In [None]:
# Importamos los datasets
living_cost_url = "https://raw.githubusercontent.com/jbeltrang/datasets-ch/main/cost-of-living_v2.csv"
living_cost = pd.read_csv(living_cost_url)

hdi_url = "https://raw.githubusercontent.com/jbeltrang/datasets-ch/main/Human_Development_Index.csv"
hdi = pd.read_csv(hdi_url,sep=';')

# Separamos la daata que vamos a utilizar
hdi = hdi[["Country", "Human Development Index (HDI)  (Value) 2021"]]

# Unimos los datasets según país 
living_cost = living_cost.set_index('country').join(hdi.set_index('Country'))

living_cost

Unnamed: 0,city,x1,x2,x3,x4,x5,x6,x7,x8,x9,...,x48,x49,x50,x51,x52,x53,x54,x55,data_quality,Human Development Index (HDI) (Value) 2021
Afghanistan,Kabul,1.69,5.65,3.11,,,0.93,0.23,0.13,0.60,...,108.92,64.97,228.81,146.89,694.92,355.93,195.86,13.88,1,0478
Afghanistan,Herat,1.69,6.21,2.82,2.26,,0.56,0.40,0.11,0.38,...,62.15,39.55,112.99,79.10,480.78,248.42,152.54,10.30,0,0478
Afghanistan,Mazar-e Sharif,1.69,7.81,2.99,,,0.45,0.34,0.16,0.45,...,67.80,33.90,112.99,56.50,282.49,112.99,225.99,,0,0478
Afghanistan,Jalalabad,,,,,,,,,,...,90.40,,,,,,,9.40,0,0478
Afghanistan,Shibirghan,1.69,7.81,2.99,,,0.45,0.34,0.16,0.45,...,,,,,,,,,0,0478
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Zimbabwe,Masvingo,7.00,40.00,6.00,1.30,2.0,2.20,0.72,0.47,1.61,...,60.00,,300.00,150.00,,582.52,,15.00,0,0593
Zimbabwe,Hwange,9.25,20.00,6.75,1.50,,2.25,0.50,,1.75,...,,,,,,,,,0,0593
Zimbabwe,Victoria Falls,,,,,,,,,,...,,,,,,,,,0,0593
Zimbabwe,Redcliff,7.00,40.00,6.00,1.30,2.0,2.20,0.72,0.47,1.61,...,,,,,,,,15.00,0,0593


## Dataset 3: Spotify

---
### Descripción del Dataset
El siguiente dataset muestra información sobre canciones de la plataforma de música mediante streaming llamada Spotify. Contiene canciones de distinto género con un total de 125 géneros distintos, además de información referente a la duración de la canción, artista, clave, instrumentalismo, etc.

*Fuente:*

[Kaggle: Spotify Tracks Dataset](https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset)

### Descripción de variables

| Columna | Descripción |
| --- | --- |
| track_id | ID de la canción |
| artists | Nombre de los artistas que participan en la canción. sí es más de uno, aparencen separados por ";" |
| album_name | Nombre del álbum |
| track_name | Nombre de la canción |
| popularity | Valor de 0 a 100 que representa la popularidad de la canción en base a reproducciones actuales recurrentes |
| duration_ms | Duración de la canción en milisegundos |
| explicit | Si la canción contiene letra explícita o no |
| danceability | Valor que describe que tan bailable es la canción según un algoritmo que evalúa distintas variables. 0.0 es poco bailable y 1.0 is es lo más bailable |
| energy | Variables de 0.0 a 1.1 que evalúa que tanta energía describe la canción |
| key | Llave musical de la canción, siendo 0 Do, 1 Re bemol, 2 Re, etc. Si no se detecta llave, el valor es -1 |
| loudness | Decibeles máximos de ruido de la canción |
| mode | Escala mayor o menor asociada a la canción. Siendo 1 mayor y 0 menor |
| speechiness | valor de 0.0 a 1.0 que representa que tan vocal es la canción |
| acousticness | Valor de 0.0 a 1.0 que representa que tan acústica es la canción |
| instrumentalness | Variabel que indica que tan instrumental es el tema. Minetras más cercano sea a 1.0, es más probable que sea instrumental |
| liveness | Detecta la presencia de público en la canción |
| valence | Valor de 0.0 a 1.0 que representa la positividad de la canción |
| tempo | tempo de la canción en beats por minuto (BPM) |
| time_signature | Estimación de la signatura de compás de la canción |
| track_genre | Género de la canción |

### Variables de interés
Dentro de las variables del dataset, las más interesantes serían las variables numéricas que describen la canción, como liveness, valence, instrumentalness, acousticness o speechness. Esto debido a que sirven como variables para describir a una canción en particular. También es interesante considerar la duración de la canción, ya que es una variable que es visible desde el punto de vista del usuario, no como las anteriores que son un tanto más interpretativas y/o subjetivas.

### Contexto Comercial y Análitico del Problema
Teniendo en cuenta el dataset escogido, el desafío que surje a partir de esto sería encontrar una forma de predecir la popularidad que podría alcanzar una canción considerando el resto de las variables que describen la canción en particular.

In [None]:
# Importamos el dataset
spotify_url = "https://raw.githubusercontent.com/jbeltrang/datasets-ch/main/spotify.csv"
spotify = pd.read_csv(spotify_url)
spotify

Unnamed: 0.1,Unnamed: 0,track_id,artists,album_name,track_name,popularity,duration_ms,explicit,danceability,energy,...,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre
0,0,5SuOikwiRyPMVoIQDJUgSV,Gen Hoshino,Comedy,Comedy,73,230666,False,0.676,0.4610,...,-6.746,0,0.1430,0.0322,0.000001,0.3580,0.7150,87.917,4,acoustic
1,1,4qPNDBW1i3p13qLCt0Ki3A,Ben Woodward,Ghost (Acoustic),Ghost - Acoustic,55,149610,False,0.420,0.1660,...,-17.235,1,0.0763,0.9240,0.000006,0.1010,0.2670,77.489,4,acoustic
2,2,1iJBSr7s7jYXzM8EGcbK5b,Ingrid Michaelson;ZAYN,To Begin Again,To Begin Again,57,210826,False,0.438,0.3590,...,-9.734,1,0.0557,0.2100,0.000000,0.1170,0.1200,76.332,4,acoustic
3,3,6lfxq3CG4xtTiEg7opyCyx,Kina Grannis,Crazy Rich Asians (Original Motion Picture Sou...,Can't Help Falling In Love,71,201933,False,0.266,0.0596,...,-18.515,1,0.0363,0.9050,0.000071,0.1320,0.1430,181.740,3,acoustic
4,4,5vjLSffimiIP26QG5WcN2K,Chord Overstreet,Hold On,Hold On,82,198853,False,0.618,0.4430,...,-9.681,1,0.0526,0.4690,0.000000,0.0829,0.1670,119.949,4,acoustic
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113995,113995,2C3TZjDRiAzdyViavDJ217,Rainy Lullaby,#mindfulness - Soft Rain for Mindful Meditatio...,Sleep My Little Boy,21,384999,False,0.172,0.2350,...,-16.393,1,0.0422,0.6400,0.928000,0.0863,0.0339,125.995,5,world-music
113996,113996,1hIz5L4IB9hN3WRYPOCGPw,Rainy Lullaby,#mindfulness - Soft Rain for Mindful Meditatio...,Water Into Light,22,385000,False,0.174,0.1170,...,-18.318,0,0.0401,0.9940,0.976000,0.1050,0.0350,85.239,4,world-music
113997,113997,6x8ZfSoqDjuNa5SVP5QjvX,Cesária Evora,Best Of,Miss Perfumado,22,271466,False,0.629,0.3290,...,-10.895,0,0.0420,0.8670,0.000000,0.0839,0.7430,132.378,4,world-music
113998,113998,2e6sXL2bYv4bSz6VTdnfLs,Michael W. Smith,Change Your World,Friends,41,283893,False,0.587,0.5060,...,-10.889,1,0.0297,0.3810,0.000000,0.2700,0.4130,135.960,4,world-music
