# Dado Cargado

Daniel parece estar ganando muchas partidas. Al ser *Data Scientist junior*  tienes muchas *sospechosas* de sus amados dados 

<div align="center">
    <img width="250" height="250" src="https://photos.demandstudios.com/getty/article/244/134/200325635-001.jpg" alt="dados">
</div>
 
Así que has estado registrando el resultado de cada lanzamiento, y están en `loaded_500.txt`.

Hay que responder la pregunta más simple que surge: ¿*Daniel* está sacando demasiados seises?

Respondamos la pregunta con rigor.

1. Visualiza los datos. Asegúrate de que lo entendamos.
2. Reducir o cuantificar los datos
3. Plantear nuestra hipótesis (y visualizar)
4. Calcular

In [1]:
import pandas as pd
import scipy.stats as ss
import numpy as np
import matplotlib.pyplot as plt
import math


data = np.loadtxt("loaded_500.txt")

### Visualización

In [None]:
unique, counts = np.unique(data, return_counts=True)
print(unique, counts)
plt.hist(data, bins=20);

### Reducir o cuantificar datos

In [None]:
num_seis = (data == 6).sum()
num_total = data.size

### Plantear nuestra Hipótesis

In [None]:
from scipy.stats import binom
n = np.arange(num_total)
prob_n = binom.pmf(n, num_total, 1/6)
plt.plot(n, prob_n, label="Prob num")
plt.axvline(num_total / 6, ls="--", lw=1, label="Media num")
plt.axvline(num_seis, ls=":", color="#ff7272", label="Obs num")
plt.xlabel(f"Num seis obtenidos {num_total} lanzamientos")
plt.ylabel("Probabilidad")
plt.legend();

In [None]:
d = binom(num_total, 1/6)
plt.plot(n, d.sf(n))
plt.axvline(num_seis, ls="--")
sf = d.sf(num_seis)
plt.axhline(sf, ls="--")
plt.xlabel("Num sixes")
plt.ylabel("SF");
print(f"Solo {sf * 100:.1f}% de las veces con un dado justo se obtendrían tantos seis o más")

In [2]:
# EJERCICIO CLASE

In [3]:
np.random.seed(1234)

In [4]:
poblacion1=ss.poisson.rvs(loc=18,mu=35,size=450000)
poblacion2=ss.poisson.rvs(loc=18,mu=15,size=150000)

In [5]:
España=np.concatenate((poblacion1,poblacion2))

In [13]:
granada1=ss.poisson.rvs(loc=18,mu=34,size=4500)
granada2=ss.poisson.rvs(loc=18,mu=14,size=1500)
Granada=np.concatenate((granada1,granada2))

In [8]:
#ver si estadistiamente la media de granada
# es la misma que la media de españa

In [14]:
print(España.mean())
print(Granada.mean())

47.985978333333335
46.95783333333333


In [15]:
# test hipotesis

# hipotesis 1
# mu españa = mu granada

# alternativa mu españa != mu granada1


In [19]:
ss.ttest_1samp(Granada,España.mean())

# devuelve p valor y estadístico
# el p valor es lo importante
# p valor, como de grande debe ser para que el valor este dentro del
# intervalo de confianza

# pvalue=8.47356023412064e-15
# al ser menor que alfa = 0,05, se deshecha
# por defecto alfa es 0.05, si no nos dan otro

# Granada no tiene la misma media que España

TtestResult(statistic=-7.780131854750806, pvalue=8.47356023412064e-15, df=5999)

In [20]:
estadistico,pvalor=ss.ttest_1samp(Granada,España.mean())

In [23]:
if pvalor<0.05: print('Hipótesis rechazada')
else: print('aceptado')

Hipótesis rechazada


In [24]:
madrid1=ss.poisson.rvs(loc=18,mu=37,size=120)
madrid2=ss.poisson.rvs(loc=18,mu=13,size=80)
Madrid=np.concatenate((madrid1,madrid2))

In [25]:
Madrid.mean()

45.41

In [30]:
# madrid y Granada tienen la misma edad poblacional?
# t-test indeendiente, se le pasan los dos arrays

ss.ttest_ind(Granada, Madrid, equal_var=False)

# equal_var, indicamso si la varianza es igual o no
# primero compara si las varianzas son iguales. si son iguales aplica una formula
# y si es diferente aplica otra

# pvalue > 0.05, estadísticamente se acepta lahipótesis

Ttest_indResult(statistic=1.6869225843906763, pvalue=0.09312085117099499)

In [38]:
# test pareado
#
#

peso_precovid=ss.norm.rvs(scale=30, loc=100, size=1000)
peso_postcovid=peso_precovid+ss.norm.rvs(scale=30, loc=1.25, size=1000)

In [39]:
pesos=pd.DataFrame({'peso_precovid':peso_precovid,
              'peso_postcovid':peso_postcovid,
              'Diferencia':peso_postcovid-peso_precovid})

In [36]:
pesos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
peso_precovid,1000.0,99.278055,30.229202,5.219488,79.233481,100.943298,119.161739,214.124235
peso_postcovid,1000.0,101.913768,43.416679,-27.871394,74.017232,101.609266,130.908974,222.923795
Diferencia,1000.0,2.635713,30.22451,-97.819922,-17.260879,2.138902,22.278744,99.742487


In [53]:
ss.ttest_rel(peso_precovid,peso_postcovid)

#ttest relacionado, el peso pre y post estan relacionados

# por defecto calcula si son iguales o no

# nos dice qie son distintos al ser pvalue >0.05

TtestResult(statistic=-1.3382530224914322, pvalue=0.18111847559923502, df=999)

In [54]:
ss.ttest_rel(peso_precovid,peso_postcovid, alternative='two-sided')

# two sided hipotesis nula pre = post.
# es lo mismo que no poner alternative

TtestResult(statistic=-1.3382530224914322, pvalue=0.18111847559923502, df=999)

In [57]:
# una vez sabemos que es distinto, para saber si ha subido o bajado vemos las alternativas

# REVISAR HIPOTESIS NULA Y ALTERNATIVA
 
# alternative: 'less': hipotesis nula pre >= post y alternativa pre < post

# alternative='greater'. hipotesis nula,pre <= post, y alternativa pre > post


ss.ttest_rel(peso_precovid,peso_postcovid, alternative="greater")

# pvalue>0.05, NO SE ACEPTA LA NULA, Y ACEPTAMOS LA ALTERNATIVA(QUE ES MAYOR)

TtestResult(statistic=-1.3382530224914322, pvalue=0.9094407622003825, df=999)

### ANOVA

In [60]:
Peliculas=['IJ', 'Bat', 'Marvel', 'Seño_Anillos', 'Tenet']
# preguntar a 1000 personas: pelicula vista

pelicula_vista=np.random.choice(a=Peliculas
                                ,p=[0.1,0.2,0.2,0.15,0.35]
                                ,size=1000)
voto_Edad=ss.poisson.rvs(loc=9, mu=25,size=1000)

In [61]:
df=pd.DataFrame({'Pelicula':pelicula_vista, 'Edad':voto_Edad})

In [67]:
grupos=df.groupby('Pelicula').groups

# te dice los índices en el que está cada película

In [70]:
Bat=voto_Edad[grupos['Bat']]
IJ=voto_Edad[grupos['IJ']]
Marvel=voto_Edad[grupos['Marvel']]
Señor_Anillos=voto_Edad[grupos['Seño_Anillos']]
Tenet=voto_Edad[grupos['Tenet']]
# saca la edad de todos los que han visto cada película a través de su índice

In [72]:
ss.f_oneway(Bat,IJ,Marvel,Señor_Anillos,Tenet)

# hipótesis de que la media de todos es igual
# hipotesis alterntiva, la media de alguno de ellos es diferente

# pvalue >0.05, se rechaza la hipótesis nula

F_onewayResult(statistic=1.0093642089136272, pvalue=0.40151343701871656)

In [76]:
# para saber cual/es difiere/n

import statsmodels.api as sm
from statsmodels.formula.api import ols

In [79]:
modelo=ols('Edad~Pelicula', data=df).fit()
# .fit ajusta Edad y Pelicula

In [82]:
##### REVISAR VIDEO

sm.stats.anova_lm(modelo,typ=2)

Unnamed: 0,sum_sq,df,F,PR(>F)
Pelicula,92.605033,4.0,1.009364,0.401513
Residual,22821.793967,995.0,,


In [88]:
# cambiamos la edad de espectadores de IJ

In [83]:
IJ_Edad=ss.poisson.rvs(loc=18, mu=35, size=1000)
voto_Edad=np.where(pelicula_vista=='IJ', IJ_Edad, voto_Edad)

In [84]:
df1=pd.DataFrame({'Pelicula':pelicula_vista, 'Edad':voto_Edad})

In [85]:
modelo=ols('Edad~Pelicula', data=df1).fit()

In [87]:
sm.stats.anova_lm(modelo,typ=2)

#alguno es diferente

Unnamed: 0,sum_sq,df,F,PR(>F)
Pelicula,30931.715697,4.0,323.57174,2.610843e-178
Residual,23779.160303,995.0,,
