# Práctica 1 - Las leyes de la probabilidad

# Problema - ¿Quién ganará las elecciones?

Tres partidos se presentan a las elecciones presidenciales de un cierto país. Para conocer el estado de opinión de la población y las expectitivas de cada uno, el gobierno encarga una encuesta electoral a una empresa de sociométrica justo antes de la campaña electoral. También pretenden usar el estudio para conocer quién hace mejor campaña electoral.

Carga el fichero `elections.csv` con los resultados de la encuesta. Trataremos de responder a las dos cuestiones.

In [None]:
import io
import numpy as np
import pandas as pd

In [None]:
from google.colab import files

uploaded = files.upload()

Saving elections.csv to elections (1).csv


In [None]:
path = io.BytesIO(uploaded['elections.csv'])
df = pd.read_csv(path)
df = df.drop(columns=df.columns[0])
df

Unnamed: 0,votes_for_A,votes_for_B,votes_for_C,gender,p_changes_vote
0,0,1,0,1,0.062710
1,0,0,1,0,0.409047
2,0,0,1,1,0.210734
3,0,0,1,1,0.304020
4,1,0,0,0,0.317170
...,...,...,...,...,...
3495,1,0,0,0,0.307702
3496,0,0,1,1,0.438484
3497,0,0,1,1,0.034694
3498,0,0,0,0,0.000000


Supondremos que género = 1 es femenino y género = 0 es masculino.

## Parte 1: Interpretación directa de la encuesta

Basándote únicamente en lo declarado por los entrevistados, calcula las probabilidades de voto de cada uno de los partidos. Para cada partido, calcula la probabilidad de voto si se es mujer o si se es hombre. Tomando un voto del partido A al azar, ¿cuál es la probabilidad de que provenga de una mujer? ¿Y si el voto es del partido C?

In [None]:
# Probabilidad votar a los diferentes partidos
prob_votar_A = df.votes_for_A.mean()
print('P(Votar A) =', prob_votar_A)
prob_votar_B = df.votes_for_B.mean()
print('P(Votar B) =', prob_votar_B)
prob_votar_C = df.votes_for_C.mean()
print('P(Votar C) =', prob_votar_C)

P(Votar A) = 0.398
P(Votar B) = 0.15542857142857142
P(Votar C) = 0.2517142857142857


A partir de aquí supondremos que las mujeres están marcadas con un 1 y los hombres con un 0.

In [None]:
# Probabilidad votar a los diferentes partidos siendo mujer
prob_votar_A_mujer = df[df.gender == 1].votes_for_A.mean()
print('P(Votar A | Mujer) =', prob_votar_A_mujer)
prob_votar_B_mujer = df[df.gender == 1].votes_for_B.mean()
print('P(Votar B | Mujer) =', prob_votar_B_mujer)
prob_votar_C_mujer = df[df.gender == 1].votes_for_C.mean()
print('P(Votar C | Mujer) =', prob_votar_C_mujer)

P(Votar A | Mujer) = 0.39646978954514595
P(Votar B | Mujer) = 0.18329938900203666
P(Votar C | Mujer) = 0.42023082145281737


In [None]:
# Probabilidad votar a los diferentes partidos siendo hombre
prob_votar_A_hombre = df[df.gender == 0].votes_for_A.mean()
print('P(Votar A | Hombre) =', prob_votar_A_hombre)
prob_votar_B_hombre = df[df.gender == 0].votes_for_B.mean()
print('P(Votar B | Hombre) =', prob_votar_B_hombre)
prob_votar_C_hombre = df[df.gender == 0].votes_for_C.mean()
print('P(Votar C | Hombre) =', prob_votar_C_hombre)

P(Votar A | Hombre) = 0.3991119881598421
P(Votar B | Hombre) = 0.13517513566847558
P(Votar C | Hombre) = 0.1292550567340898


Ahora hay que ver si tomamos un voto del partido A al azar, ¿cuál es la probabilidad de que provenga de una mujer? ¿Y si el voto es del partido C? Hay que condicionar la probabilidad al revés:

In [None]:
# Probabilidad que sea mujer si ha votado a los diferentes partidos
prob_mujer_votando_A = df[df.votes_for_A == 1].gender.mean()
print('P(Mujer | Votar A) =', prob_mujer_votando_A) 
prob_mujer_votando_C = df[df.votes_for_C == 1].gender.mean()
print('P(Mujer | Votar C) =', prob_mujer_votando_C)

P(Mujer | Votar A) = 0.4192390524048816
P(Mujer | Votar C) = 0.70261066969353


En esta última parte podemos observar que los partidos A y B son aproximadamente igual de votados por hombres y mujeres. En cambio, el partido C es mucho más votado por mujeres.

## Parte 2: Volatilidad del voto

La columna `p_changes_vote` muestra la probabilidad de que el encuestado termine votando algo distinto a lo declarado. Úsala para determinar la fiabilidad de la encuesta. ¿Es igual de volátil el voto femenino que el masculino?

In [None]:
# Probabilidad cambio de voto
prob_cambio = df.p_changes_vote.mean()
print('P(Cambio) =', prob_cambio)

P(Cambio) = 0.2035741446074997


Podemos determinar entonces la fiabilidad de la encuesta como su complementario:

In [None]:
fiabilidad = 1 - prob_cambio
print('Fiabilidad =', fiabilidad)

Fiabilidad = 0.7964258553925003


Ahora queremos ver si es igual de volátil el voto femenino que el masculino:

In [None]:
# Probabilidad cambio de voto según el género
prob_cambio_mujer = df[df.gender == 1].p_changes_vote.mean()
print('P(Cambio | Mujer) =', prob_cambio_mujer)
prob_cambio_hombre = df[df.gender == 0].p_changes_vote.mean()
print('P(Cambio | Hombre) =', prob_cambio_hombre)

P(Cambio | Mujer) = 0.24032119719052802
P(Cambio | Hombre) = 0.17687044038707536


Aparentemente el voto femenino es ligeramente más volátil que el masculino. Habría que hacer un test de diferencia de medias para poder confirmarlo o no.

## Parte 3: Análisis de campaña

### a) 
Suponiendo que los resultados finales son 

* partido A -> 38.77%,
* partido B -> 15.04%,
* partido C -> 29.16%,

calcula la probabilidad de que, tomado un voto del partido A, éste provenga de un entrevistado que declaró querer votar al partido A. Haz lo mismo con los partidos B y C.

Queremos calcular la probabilidad de, que tomado un voto de cierto partido, éste provenga de un entrevistado que declaró querer votar a ese partido:

In [None]:
# Guardamos los datos en variables
resultados_A = 0.3877
resultados_B = 0.1504
resultados_C = 0.2916

Primero vamos a calcular la probabilidad de cambio de voto de cada partido:

In [None]:
# Probabilidad cambio de voto según el partido
prob_cambio_votando_A = df[df.votes_for_A == 1].p_changes_vote.mean()
print('P(Cambio | Votar A) =', prob_cambio_votando_A)
prob_cambio_votando_B = df[df.votes_for_B == 1].p_changes_vote.mean()
print('P(Cambio | Votar B) =', prob_cambio_votando_B)
prob_cambio_votando_C = df[df.votes_for_C == 1].p_changes_vote.mean()
print('P(Cambio | Votar C) =', prob_cambio_votando_C)

P(Cambio | Votar A) = 0.3569249459646924
P(Cambio | Votar B) = 0.04998602776637449
P(Cambio | Votar C) = 0.21353082553067504


Así pues, tienen una fiabilidad media de:

In [None]:
fiabilidad_A = 1 - prob_cambio_votando_A
print('Fiabilidad A =', fiabilidad_A)
fiabilidad_B = 1 - prob_cambio_votando_B
print('Fiabilidad B =', fiabilidad_B)
fiabilidad_C = 1 - prob_cambio_votando_C
print('Fiabilidad C =', fiabilidad_C)

Fiabilidad A = 0.6430750540353076
Fiabilidad B = 0.9500139722336255
Fiabilidad C = 0.786469174469325


Vamos a calcular la probabilidad de, que tomado un voto del partido A, éste provenga de un entrevistado que declaró querer votar al partido A:

In [None]:
# Contemos los que dijeron votar a A, multiplicándolos por el factor de fiabilidad
votos_posibles_A = len(df[df.votes_for_A == 1]) * fiabilidad_A

# Contemos el número de votos final
votos_finales_A = len(df) * resultados_A

# Probabilidad
prob_A_A = votos_posibles_A / votos_finales_A

print("P(Dijo votaré A | Habiendo votado A) =", prob_A_A)

P(Dijo votaré A | Habiendo votado A) = 0.6601595860357298


Hagamos lo mismo para el partido B:

In [None]:
# Contemos los que dijeron votar a B, multiplicándolos por el factor de fiabilidad
votos_posibles_B = len(df[df.votes_for_B == 1]) * fiabilidad_B

# Contemos el número de votos final
votos_finales_B = len(df) * resultados_B

# Probabilidad
prob_B_B = votos_posibles_B / votos_finales_B

print("P(Dijo votaré B | Habiendo votado B) =", prob_B_B)

P(Dijo votaré B | Habiendo votado B) = 0.9817773573235036


Y para el C:

In [None]:
# Contemos los que dijeron votar a C, multiplicándolos por el factor de fiabilidad
votos_posibles_C = len(df[df.votes_for_C == 1]) * fiabilidad_C

# Contemos el número de votos final
votos_finales_C = len(df) * resultados_C

# Probabilidad
prob_C_C = votos_posibles_C / votos_finales_C

print("P(Dijo votaré B | Habiendo votado B) =", prob_C_C)

P(Dijo votaré B | Habiendo votado B) = 0.6788941237580592


### b) 
Suponiendo que el estado reparte 10 millones de euros en subvenciones a cada partido en función de sus resultados electorales y que cada partido invirtió en la campaña las cantidades siguientes

* partido A -> 3.8 millones,
* partido B -> 1.47 millones,
* partido C -> 2.31 millones,

calcula cuánto esperaban ganar con las subvenciones y termina deduciendo quién hizo mejor campaña electoral.

In [None]:
# Guardamos los datos en variables
inversion_A = 3800000
inversion_B = 1470000
inversion_C = 2310000

subvencion = 10000000

Vamos a ver lo que esperaba ganar cada partido, teniendo en cuenta los resultados de la encuesta y la fiabilidad de sus posibles votantes:

In [None]:
# Ganancias esperadas por partido
ganancias_esperadas_A = subvencion * prob_votar_A * fiabilidad_A
print('Ganancias esperadas por el partido A:', round(ganancias_esperadas_A, 2))
ganancias_esperadas_B = subvencion * prob_votar_B * fiabilidad_B
print('Ganancias esperadas por el partido B:', ganancias_esperadas_B)
ganancias_esperadas_C = subvencion * prob_votar_C * fiabilidad_C
print('Ganancias esperadas por el partido C:', ganancias_esperadas_C)

Ganancias esperadas por el partido A: 2559438.715060524
Ganancias esperadas por el partido B: 1476593.1454145492
Ganancias esperadas por el partido C: 1979655.264878501


Para ver qué partido lo hizo mejor, calculemos lo que ganaron realmente:

In [None]:
# Ganancias por partido
ganancias_A = subvencion * resultados_A
print('Ganancias del partido A:', ganancias_A)
ganancias_B = subvencion * resultados_B
print('Ganancias del partido B:', ganancias_B)
ganancias_C = subvencion * resultados_C
print('Ganancias del partido C:', round(ganancias_C, 1))

Ganancias del partido A: 3877000.0
Ganancias del partido B: 1504000.0
Ganancias del partido C: 2916000.0


Parece que el partido que mejor lo ha hecho es el A. Pero hay que tener en cuenta la inversión inicial de cada partido:

In [None]:
# Ganancias finales por los partidos
profit_A = (ganancias_A - inversion_A) / inversion_A * 100
print('Beneficio A =', round(profit_A, 2), '%')
profit_B = (ganancias_B - inversion_B) / inversion_B * 100
print('Beneficio B =', round(profit_B, 2), '%')
profit_C = (ganancias_C - inversion_C) / inversion_C * 100
print('Beneficio C =', round(profit_C, 2), '%')

Beneficio A = 2.03 %
Beneficio B = 2.31 %
Beneficio C = 26.23 %


El partido que mejor ha hecho su campaña es el C, ya que en teniendo en cuenta la inversión inicial, podemos ver que es el que más provecho le ha sacado a cada euro invertido.