In [70]:
import pandas as pd
import statistics as stats
import warnings
warnings.filterwarnings("ignore")
import numpy as np
from scipy.stats import f_oneway, norm, f, chi2, chi2_contingency
import statsmodels.api as sm
from statsmodels.formula.api import ols
import math

In [71]:
df = pd.read_excel('../Excels/MASTERTABLA.xlsx')

In [72]:
df.head()

Unnamed: 0.1,Unnamed: 0,key,country_id,country,artist,song,year,lyrics_long,unic_words,vecinos_participantes,...,influ_ranking,influ_score,reput_ranking,reput_sci_tech,reput_cult,reput_peace_secur,reput_world_order,reput_planet_climate,reput_props_equal,reput_health_wellbeing
0,0,412011,41,North Macedonia,Vlatko Ilievski,Rusinka (Русинкa),2011,789,44,4,...,,,46.0,19.0,55.0,135.0,54.0,65.0,74.0,34.0
1,1,262009,26,France,Patricia Kaas,Et s'il fallait le faire,2009,1208,122,5,...,3.0,95.26,11.0,24.0,14.0,53.0,16.0,3.0,17.0,23.0
2,2,522002,52,Spain,Rosa,Europe's Living a Celebration,2002,1355,102,1,...,7.0,78.72,18.0,40.0,30.0,70.0,15.0,9.0,34.0,22.0
3,3,402013,40,Montenegro,Who See,Igranka (Игранка),2013,2058,190,3,...,,,71.0,48.0,61.0,128.0,41.0,91.0,71.0,134.0
4,4,412007,41,North Macedonia,Karolina (2),Mojot svet (Мојот свет),2007,896,49,4,...,,,46.0,19.0,55.0,135.0,54.0,65.0,74.0,34.0


In [73]:
df.columns

Index(['Unnamed: 0', 'key', 'country_id', 'country', 'artist', 'song', 'year',
       'lyrics_long', 'unic_words', 'vecinos_participantes', 'love_song',
       'top1word', 'top2word', 'top3word', 'top4word', 'top5word',
       'estruc_resum', 'finalista', 'puntos_corregidos', 'propo_max_puntos',
       'clasificacion', 'order_act', 'idioma1', 'idioma2', 'idioma3', 'views',
       'likes', 'links', 'estilos', 'shazams', 'duracion_spoty',
       'duracion_eurovision', 'GDP', 'orden_relativo_GDP', 'influ_ranking',
       'influ_score', 'reput_ranking', 'reput_sci_tech', 'reput_cult',
       'reput_peace_secur', 'reput_world_order', 'reput_planet_climate',
       'reput_props_equal', 'reput_health_wellbeing'],
      dtype='object')

# ¿Diferencia de medias de puntos según PAÍS?

In [74]:
lista_corregida = []
for propo in df.propo_max_puntos:
    if math.isnan(propo):
        lista_corregida.append(0)
    else:
        lista_corregida.append(propo)
df.propo_max_puntos = lista_corregida # Corrijo los puntos con Nan = 0

In [9]:
grupos=df.country.unique() # Los grupos distintos que quiero testear. Ver si hay diferencia de media de puntos por PAÍS

In [23]:
data = {g: df.propo_max_puntos[df.country==g] for g in grupos}

data # Diccionario con clave = país, valor = todas las propos de puntos 

{'North Macedonia': 0      0.000000
 4      0.144841
 9      0.000000
 78     0.108796
 106    0.111111
 127    0.126126
 193    0.000000
 355    0.000000
 370    0.000000
 452    0.000000
 477    0.000000
 523    0.310976
 549    0.000000
 578    0.000000
 607    0.000000
 710    0.140873
 711    0.000000
 774    0.086806
 805    0.000000
 811    0.000000
 Name: propo_max_puntos, dtype: float64,
 'France': 1      0.212302
 24     0.011261
 196    0.093254
 540    0.000000
 615    0.175214
 616    0.023504
 638    0.107724
 648    0.158915
 663    0.037698
 670    0.168605
 691    0.361111
 699    0.063333
 700    0.018750
 708    0.534188
 712    0.134921
 750    0.004505
 763    0.008333
 803    0.092593
 806    0.041667
 807    0.029915
 812    0.255952
 Name: propo_max_puntos, dtype: float64,
 'Spain': 2      0.281250
 5      0.017094
 6      0.270000
 23     0.085317
 26     0.109127
 30     0.005952
 361    0.166667
 431    0.077381
 625    0.031250
 659    0.045635
 686    0.000

#### H0: no hay diferencia de medias, H1: hay al menos 1 grupo con diferencia de medias

In [40]:
f_score, p_value = f_oneway(*list(data.values()))

f_score, p_value

(4.864138496551031, 4.1131692326935207e-22)

#### P-value de 4.1131692326935207e-22, no aceptamos H0 de igualdad de medias. Hay diferencia entre países.

# ¿Diferencia de medias de puntos según LYRICS_LONG?

In [75]:
df.drop(['Unnamed: 0', 'key', 'country_id','artist', 'song', 'year','clasificacion','influ_ranking'],
                axis=1, inplace=True)

In [45]:
grupos=df.lyrics_long.unique()

In [46]:
data = {g: df.propo_max_puntos[df.lyrics_long==g] for g in grupos}

In [47]:
f_score, p_value = f_oneway(*list(data.values()))

f_score, p_value

(0.8827407102221381, 0.8673152099225407)

#### P-value de 0.8673152099225407, aceptamos H0 de igualdad de medias. NO hay diferencia según la longitud de la canción.

# ¿Diferencia de medias de puntos según UNIC_WORDS?

In [48]:
# DEFINO LOS GRUPOS
grupos = df.unic_words.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.unic_words==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(0.7185359894006376, 0.9884527360000015)

#### P-value de 0.9884527360000015, aceptamos H0 de igualdad de medias. NO hay diferencia según cantidad de palabras únicas.

# ¿Diferencia de medias de puntos según VECINOS_PARTICIPANTES?

In [49]:
# DEFINO LOS GRUPOS
grupos = df.vecinos_participantes.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.vecinos_participantes==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(3.9126792341055148, 3.2383465489737635e-05)

#### P-value de 3.2383465489737635e-05, no aceptamos H0 de igualdad de medias. 
#### Hay diferencia según vecinos participantes ¿Mucha? -> Feature Importances.

# ¿Diferencia de medias de puntos según LOVE_SONG?

In [53]:
# DEFINO LOS GRUPOS
grupos = df.love_song.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.love_song==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(0.2149571052151022, 0.8066218076621867)

#### P-value de 0.8066218076621867, aceptamos H0 de igualdad de medias. NO hay diferencia según si la canción es de amor o no.

# ¿Diferencia de medias de puntos según TopXwords?

In [54]:
# DEFINO LOS GRUPOS
grupos = df.top1word.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.top1word==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.0812319266315964, 0.21505231118604684)

In [55]:
# DEFINO LOS GRUPOS
grupos = df.top2word.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.top2word==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.1363724393595684, 0.09844530444268441)

In [56]:
# DEFINO LOS GRUPOS
grupos = df.top3word.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.top3word==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.2366888280699102, 0.01598411707225454)

In [57]:
# DEFINO LOS GRUPOS
grupos = df.top4word.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.top4word==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.0893949270078613, 0.19357596722868317)

In [58]:
# DEFINO LOS GRUPOS
grupos = df.top5word.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.top5word==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.0676041879942477, 0.2542394961748323)

#### Tenemos p-values superiores a 0'05 en todas menos en top3word (que es de 0'016 y al 99% aceptaríamos H0 también). Aceptaríamos la H0 de la igualdad de medias según las 1ª, 2ª, 3ª, 4ª y 5ª palabra más usada en las canciones.

# ¿Diferencia de medias de puntos según ESTRUCTURA?

In [63]:
#HAY POCOS DATOS, PERO VAMOS A ECHAR UN OJO.
df2 = df[df.estruc_resum != 'UNKNOWN']

# DEFINO LOS GRUPOS
grupos = df2.estruc_resum.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df2.propo_max_puntos[df2.estruc_resum==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(0.9291720004648392, 0.5701535767818893)

#### P-value de 0.5701535767818893, aceptamos H0 de igualdad de medias. No hay diferencias significativas según estructura.

# ¿Diferencia de medias de puntos según ORDEN_ACTUACIÓN?

In [81]:
df2 = df[df.finalista == 'SI']

# DEFINO LOS GRUPOS
grupos = df2.order_act.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df2.propo_max_puntos[df2.order_act==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(2.6150821545631318, 3.2840140679963695e-05)

#### P-value de 3.2840140679963695e-05, no aceptamos H0 de igualdad de medias. 
#### Hay diferencia según orden de actuación,  pero solo tenemos el orden de los finalistas.
#### Tenemos 2 opciones: Analizar solo los finalistas o no tener en cuenta esta variable. 
#### Decidiremos según el peso de la variable -> Feature Importances

# ¿Diferencia de medias de puntos según IDIOMA?

In [90]:
lista_corregida = []
for idioma in df.idioma1:
    if  type(idioma) != str and math.isnan(idioma):
        lista_corregida.append('UNKNOWN')
    else:
        lista_corregida.append(idioma)
df.idioma1 = lista_corregida # Corregimos los NaN

In [91]:
# DEFINO LOS GRUPOS
grupos = df.idioma1.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.idioma1==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(8.857059798792434, 3.108737845707387e-61)

#### P-value de 3.108737845707387e-61, no aceptamos H0 de igualdad de medias. 
#### Hay diferencia según el idioma (en al menos 1 grupo, bastante obvio en verdad), pero ¿cuanta? -> Feature Importances

# ¿Diferencia de medias de puntos según VIEWS en Youtube?

In [None]:
# Definimos varios grupos según views: [0-100k], [100k-500k], [500k, 1M], [1M-2M], [+2M]

In [135]:
grupos_views = []
for v in df.views:
    if v < 100000:
        grupos_views.append('-100K')
    elif v < 500000:
        grupos_views.append('100-500K')
    elif v < 1000000:
        grupos_views.append('500k-1M')
    elif v < 2000000:
        grupos_views.append('1M-2M')
    elif v > 2000000:
        grupos_views.append('+2M')
df['grupo_views'] = grupos_views

In [137]:
# DEFINO LOS GRUPOS
grupos = df.grupo_views.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.grupo_views==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(44.89679010132497, 4.382697943679727e-34)

#### P-value de 4.382697943679727e-34, no aceptamos H0 de igualdad de medias. Hay diferencia en la media de puntos según las visualizaciones en YouTube.

# ¿Diferencia de medias de puntos según LIKES en Youtube?

In [140]:
# Correjimos el dato. Hay valores como str.

In [168]:
lista_corregida = []
for e in df.likes:
    if 'M' in e:
        lista_corregida.append((int(e.replace(' M',"").split(',')[0]))*1000000 + (int(e.replace(' M',"").split(',')[1]))*100000)
    else:
        lista_corregida.append(int(e))
df.likes = lista_corregida

In [None]:
# Definimos varios grupos según likes: [0-1k], [1k-5k], [5k, 10k], [10k-50k], [+50k]

In [197]:
grupos_likes = []
for v in df.likes:
    if v < 1000:
        grupos_likes.append('-1K')
    elif v < 5000:
        grupos_likes.append('1-5K')
    elif v < 10000:
        grupos_likes.append('5k-10k')
    elif v < 50000:
        grupos_likes.append('10k-50k')
    elif v > 50000:
        grupos_likes.append('+50k')
df['grupo_likes'] = grupos_likes

In [198]:
# DEFINO LOS GRUPOS
grupos = df.grupo_likes.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.grupo_likes==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(51.169992712117285, 1.9082415647254428e-38)

#### P-value de 1.9082415647254428e-38, no aceptamos H0 de igualdad de medias. Hay diferencia en la media de puntos según los likes en YouTube.

# ¿Diferencia de medias de puntos según ESTILOS?

In [178]:
# DEFINO LOS GRUPOS
grupos = df.estilos.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.estilos==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.0076582680578, 0.45298703184253064)

#### P-value de 0.45298703184253064, aceptamos H0 de igualdad de medias. NO hay diferencia en la media de puntos según los estilos. 

# ¿Diferencia de medias de puntos según SHAZAMS?

In [180]:
# Definimos varios grupos según shazams: [0], [0-1k], [1k-10k], [10k-100k],[+100k]

In [199]:
grupos_shazams = []
for v in df.shazams:
    if v == 0:
        grupos_shazams.append('0')
    elif v < 1000:
        grupos_shazams.append('0-1k')
    elif v < 10000:
        grupos_shazams.append('3k-10k')
    elif v < 100000:
        grupos_shazams.append('10k-100k')
    elif v > 100000:
        grupos_shazams.append('+100k')
df['grupo_shazams'] = grupos_shazams

In [200]:
# DEFINO LOS GRUPOS
grupos = df.grupo_shazams.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.grupo_shazams==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(47.11873603429891, 1.2168547861362296e-35)

#### P-value de 1.2168547861362296e-35, no aceptamos H0 de igualdad de medias. Hay diferencia en la media de puntos según los shazams. 

# ¿Diferencia de medias de puntos según DURACIÓN?

In [214]:
# Corregimos el dato: convertimos a segundos
lista_corregida = []
for e in df.duracion_eurovision:
    if type(e) == float:
        lista_corregida.append(180)
    else:
        lista_corregida.append(int(e.split(':')[0])*60 + int(e.split(':')[1]))
df.duracion_eurovision = lista_corregida

In [215]:
# DEFINO LOS GRUPOS
grupos = df.duracion_eurovision.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.duracion_eurovision==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(1.3049774885151995, 0.13854202270049623)

#### P-value de 0.0.13854202270049623, aceptamos H0 de igualdad de medias. NO hay diferencia en la media de puntos según la duración de las canciones. 

# ¿Diferencia de medias de puntos según GDP?

In [228]:
# Corregimos el dato, hay paises sin orden registrado.
lista_corregida = []
for e in df.orden_relativo_GDP:
    if math.isnan(e):
        lista_corregida.append(max(list(sorted(df.orden_relativo_GDP.unique()))) + 1)
    else:
        lista_corregida.append(int(e))
df.orden_relativo_GDP = lista_corregida

In [229]:
# DEFINO LOS GRUPOS
grupos = df.orden_relativo_GDP.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df.propo_max_puntos[df.orden_relativo_GDP==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(2.289970118885957, 6.825147423918337e-06)

#### P-value de 6.825147423918337e-06, no aceptamos H0 de igualdad de medias. Hay diferencia en la media de puntos según el GDP  (obvio, si por país había diferencias. ¿Información redundante?). ¿Cuanto es el peso? -> Feature importances.

# ¿Diferencia de medias de puntos según INFLU_SCORE?

In [237]:
# Selecciono datos
df2 = df[df.influ_score>0]

# DEFINO LOS GRUPOS
grupos = df2.influ_score.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df2.propo_max_puntos[df2.influ_score==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(5.450620475899199, 1.1826196448829346e-16)

#### P-value de 1.1826196448829346e-16, no aceptamos H0 de igualdad de medias. Hay diferencia en la media de puntos según el ranking de influencia  (obvio, si por país había diferencias. ¿Información redundante?). ¿Cuanto es el peso? -> Feature importances.

# ¿Diferencia de medias de puntos según REPUT_RANKING?

In [236]:
# Selecciono datos
df2 = df[df.reput_ranking>0]

# DEFINO LOS GRUPOS
grupos = df2.reput_ranking.unique() 

# PARTO EL DATA SEGÚN LOS GRUPOS
data = {g: df2.propo_max_puntos[df2.reput_ranking==g] for g in grupos}

# ANOVA
f_score, p_value = f_oneway(*list(data.values()))
f_score, p_value

(4.627794441954957, 3.2714025148511657e-19)

#### P-value de 3.2714025148511657e-19, no aceptamos H0 de igualdad de medias. Hay diferencia en la media de puntos según el ranking de reputación del país (obvio, si por país había diferencias. ¿Información redundante?). ¿Cuanto es el peso? -> Feature importances.

### Hacemos Feature Importances en el notebook de Machine Learning
### Vemos que el peso de vecinos_participantes, idioma, orden_actuación, GDP, influencia y reputación son muy reducidos y explican poco porcentaje de la varianza de los puntos. 
### Tomamos País, views (en YouTube), likes (en YouTube) y shazams como variables clave: explican juntas el 83% de la varianza de los puntos.