# Probabilidades

## Objetivos:

Aplicar el enfoque frecuentista para calcular probabilidades simples, conjuntas y condicionales para apoyar la toma de decisiones. Utilizando Python como herramienta de apoyo.

## Actividad 1

1. Clasifica cada uno de los siguientes experimentos como Aleatorio o Determinista.

| Experimento | Suceso | Clasificación |
|-------------|--------|----------------|
| Jugar un boleto en un juego de lotería | Ganar algún premio en la lotería | **Aleatorio** |
| Calcular un ángulo interior de un cuadrado cualquiera | El ángulo es recto |**Determinista** |
| Determinar la cantidad de lluvia que caerá la próxima vez que llueva | Caen entre 20 y 50 mm de agua | **Aleatorio**|
| Calcular el número de días que tiene el mes de diciembre | Tiene 31 días |**Determinista** |
| Determinar el país del equipo ganador en el próximo campeonato mundial | El país es Chile |**Aleatorio** |
| Lanzar un dado de seis caras | El resultado es 6 |**Aleatorio** |

2. La siguiente tabla resume el tipo de parentesco con el(la) jefe de hogar obtenido en la Encuesta Nacional de Empleo (ENE), realizada el año 2018 entre los meses de septiembre a noviembre.



<center>

| Parentesco            | Frecuencia |
| ----------------------|:----------:|
| Conviviente           | 49         |            
| Cónyuge               | 141        |            
| Hermano(a) o Cuñado(a)| 16         |            
| Hijo(a) o Hijastro(a) | 347        |            
| Jefe(a) de Hogar      | 335        |            
| Nieto(a)              | 75         |            
| No Pariente           | 4          |            
| Otro Pariente         | 18         |            
| Padres o Suegros      | 16         |      
| Yerno o Nuera         | 11         |  
| **Total General**     | **1012**   |

Si se le preguntase a cualquiera de las personas ya encuestadas su parentesco con el(la) jefe(a) de hogar, ¿cuál sería el resultado más probable? ¿Y el menos probable? Justifique su respuesta.

Para calcular las probabilidades dividiremos cada frecuencia absoluta en el total de datos, aplicando la fórmula:

$$P(A) = \frac{Casos \ favorables}{Casos \ totales}$$

In [None]:
import pandas as pd

# Creamos la tabla con frecuencias como DF
tabla1 = pd.DataFrame({
    'Parentesco': ['Conviviente', 'Cónyuge', 'Hermano(a) o Cuñado(a)',
                   'Hijo(a) o Hijastro(a)', 'Jefe(a) de Hogar', 'Nieto(a)',
                   'No Pariente', 'Otro Pariente', 'Padres o Suegros',
                   'Yerno o Nuera'],
    'Frecuencia': [49, 141, 16, 347, 335, 75, 4, 18, 16, 11]
})

# Calculamos las probabilidades y lo agregamos como nueva columna al DF
total = 1012
tabla1['Probabilidad %'] = (tabla1['Frecuencia'] / total) * 100

round(tabla1, 1)

Unnamed: 0,Parentesco,Frecuencia,Probabilidad %
0,Conviviente,49,4.8
1,Cónyuge,141,13.9
2,Hermano(a) o Cuñado(a),16,1.6
3,Hijo(a) o Hijastro(a),347,34.3
4,Jefe(a) de Hogar,335,33.1
5,Nieto(a),75,7.4
6,No Pariente,4,0.4
7,Otro Pariente,18,1.8
8,Padres o Suegros,16,1.6
9,Yerno o Nuera,11,1.1


El resultado más probable es que el parentesco sea Hijo(a) o Hijastro(a), ya que es el que ocurre con más frecuencia. La probabilidad es:

 $$(347 / 1012)\cdot 100 = 34,3\%$$

El resultado menos probable es No Pariente, ya que tiene la menor frecuencia, siendo la probabilidad:

$$(4 / 1012)\cdot 100 = 0,4\%$$

## Actividad 2

El Instituto de Seguridad Laboral recopiló información sobre los accidentes laborales fatales ocurridos en Chile entre los años 2007 y 2016, clasificándolos por grupo etario, género y región donde ocurrieron. La **<a href="https://docs.google.com/spreadsheets/d/1HBf8V23teQNaeaGkWksi0d-HxZGohUgO/export?format=xlsx
">base de datos</a>** de esta actividad incluye un registro por cada accidente reportado.

1. Construye una tabla de frecuencias absolutas que muestre la cantidad total de accidentes fatales, por grupo de edad y género. Luego, responde las siguientes preguntas utilizando la fórmula:

$$P(A) = \frac{Casos \ favorables}{Casos \ totales}$$

Antes de crear la tabla de frecuencia importaremos la base de datos en un DF y exploraremos sus primeras cinco filas.

In [None]:
import pandas as pd
df_2 = pd.read_excel('Base7_2.xlsx')

#primeras cinco filas
df_2.head()

Unnamed: 0,ID,REGION,GRUPO,GENERO
0,1,Región de Arica y Parinacota,35 a 39,Hombre
1,2,Región de Tarapacá,20 a 24,Hombre
2,3,Región de Tarapacá,20 a 24,Hombre
3,4,Región de Tarapacá,20 a 24,Hombre
4,5,Región de Tarapacá,25 a 29,Hombre


In [None]:
#Creamos la tabla de frecuencias absolutas
tabla2_1 = pd.crosstab(df_2['GRUPO'], df_2['GENERO'], margins= True)

tabla2_1

GENERO,Hombre,Mujer,All
GRUPO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
15 a 19,9,1,10
20 a 24,33,0,33
25 a 29,49,4,53
30 a 34,42,1,43
35 a 39,67,5,72
40 a 44,53,9,62
45 a 49,61,2,63
50 a 54,47,3,50
55 a 59,27,5,32
60 a 64,28,0,28


2. Al seleccionar un registro al azar, ¿cuál es la probabilidad de que corresponda a una mujer? ¿Y de que corresponda a un hombre? ¿Cómo se podría explicar esta diferencia?

In [None]:
#Calculamos las probabilidades solicitadas
p_masculino = (440 / 471) * 100
#Forma alternativa
#p_masculino = tabla2_1['Hombre']['All']/tabla2_1['All']['All']*100

p_femenino = (31 / 471) * 100
#Forma alternativa
#p_femenino = tabla2_1['Mujer']['All']/tabla2_1['All']['All']*100

print(f'Género masculino: {p_masculino:.1f}%\nGénero femenino: {p_femenino:.1f}%')

Género masculino: 93.4%
Género femenino: 6.6%


El porcentaje de accidentes fatales ocurridos a hombres es 93,4%, mientras que a mujeres es solo un 6,6% del total. Esta diferencia se podría explicar por la sobrerrepresentación de hombres en sectores de mayor riesgo como la construcción, minería o transporte, donde las condiciones laborales suelen ser más peligrosas.

3.  Si se escoge el registro de un accidente al azar, ¿cuál es la probabilidad que sea el de:  

$\hspace{1.5cm}$ a)  una persona de entre 40 y 49 años?

$\hspace{1.5cm}$ b) una persona de a lo más 34 años?

$\hspace{1.5cm}$ c) un hombre de al menos 40 años?

$\hspace{1.5cm}$ d) una mujer de 70 años o más?

In [None]:
#Inciso a) una persona de entre 40 y 49 años

persona_40a49 = 62 + 63
#Forma alternativa
#persona_40a49 = tabla2_1.loc[['40 a 44','45 a 49'], 'All'].sum()

total = 471
prob_40a49 = (persona_40a49 / total) * 100


print(f'{prob_40a49:.1f}%')

26.5%


a) La probabilidad que sea de una persona entre 40 y 49 años es 26,5%.

In [None]:
#Inciso b) una persona de a lo más 34 años
persona_alomas34 = 10 + 33 + 53 + 43
#Forma alternativa
#persona_alomas34 = tabla2_1.loc[['15 a 19',	'20 a 24', '25 a 29', '30 a 34'], 'All'].sum()

prob_alomas34 = (persona_alomas34 / total) * 100

print(f'{prob_alomas34:.1f}%')

29.5%


b) La probabilidad que sea de una persona de a lo más 34 años es 29,5%.

In [None]:
#Inciso c) un hombre de al menos 40 años

hombre_almenos40 = 53 + 61 + 47 + 27 + 28 + 15 + 4 + 5
#Forma alternativa
#hombre_almenos40 = tabla2_1.loc[['40 a 44', '45 a 49', '50 a 54', '55 a 59',
#                                 '60 a 64', '65 a 69', '70 a 74', '75 a 79'], 'Hombre'].sum()

prob_almenos40 = (hombre_almenos40 / total) * 100

print(f'{prob_almenos40:.1f}%')

51.0%


c) La probabilidad que sea de un hombre de al menos 40 años es 51,0%.

In [None]:
#Inciso d) una mujer de 70 años o más

mujer_70omas = 1 + 0
#Forma alternativa
#mujer_70omas = tabla2_1.loc[['70 a 74', '75 a 79'], 'Mujer'].sum()

prob_70omas = (mujer_70omas / total) * 100

print(f'{prob_70omas:.1f}%')

0.2%


d) La probabilidad que sea de una mujer de 70 años o más es 0,2%.

4. Si se escoge aleatoriamente el registro de un accidente y este resulta ser de una mujer, ¿cuál es la probabilidad que sea del grupo de 35 a 39 años?

In [None]:
#Probabilidad condicional
mujer_35a39 = 5
total_mujeres = 31
prob_35a39_mujer = (mujer_35a39 / total_mujeres) * 100

#Forma alternativa
#prob_35a39_mujer=tabla2_1['Mujer']['35 a 39']/tabla2_1['Mujer']['All']*100

print(f'{prob_35a39_mujer:.1f}%')

16.1%


Si se escoge aleatoriamente el registro de un accidente y este resulta ser de una mujer, la probabilidad que sea del grupo de 35 a 39 años es 16,1%.

5. Si se escoge aleatoriamente el registro de un accidente y este resulta ser de un hombre, ¿cuál es la probabilidad que tenga 55 años o más?

In [None]:
#Probabilidad condicional
hombre_55omas = 27 + 28 + 15 + 4 + 5
total_hombres = 440
prob_55omas_hombre = (hombre_55omas / total_hombres) * 100

#Forma alternativa
#prob_55omas_hombre=tabla2_1['Hombre'][['55 a 59','60 a 64','65 a 69',
#                                       '70 a 74','75 a 79']].sum()/tabla2_1['Hombre']['All']*100

print(f'{prob_55omas_hombre:.1f}%')

18.0%


Si se escoge aleatoriamente el registro de un accidente y este resulta ser de un hombre, la probabilidad que tenga 55 años o más es 18,0%.

## Actividad 3

Una empresa de tecnología ha recolectado datos de los tickets ingresados en su sistema de soporte técnico durante el último mes. Cada ticket incluye el tipo de solicitud (Fallo de hardware, Fallo de software, Fallo de red o Requerimiento funcional), la urgencia (Alta, Media o Baja) y el estado (Resuelto o Pendiente).

Importa la **<a href="https://docs.google.com/spreadsheets/d/1x0Zxj-juwv0BXkLIDtKziTNihsL8AVjo/export?format=xlsx
">base de datos</a>** y responde las siguientes preguntas:

1. Si se selecciona un ticket al azar, ¿cuál es la probabilidad de que sea una solicitud de tipo Fallo de red?

In [1]:
#Importamos la base de datos en df_3
import pandas as pd
df_3 = pd.read_excel('Base7_3.xlsx')
df_3.head()

Unnamed: 0,Tipo de solicitud,Urgencia,Estado
0,Fallo de red,Baja,Resuelto
1,Fallo de software,Baja,Resuelto
2,Fallo de software,Media,Resuelto
3,Fallo de red,Media,Pendiente
4,Fallo de software,Media,Resuelto


In [2]:
#value_counts(True) permite calcular la proporción de cada categoría
#con respecto al total de datos
tipo_solicitud_1 = df_3['Tipo de solicitud'].value_counts(True)

#Creamos un nuevo DF con el tipo de solicitud en formato porcentual
tabla3_1 = pd.DataFrame({
    'Probabilidad (%)': tipo_solicitud_1 * 100
})

round(tabla3_1,1)

Unnamed: 0_level_0,Probabilidad (%)
Tipo de solicitud,Unnamed: 1_level_1
Fallo de software,40.0
Fallo de red,32.0
Fallo de hardware,19.7
Requerimiento funcional,8.3


Si se selecciona un ticket al azar la probabilidad de que corresponda a una solicitud de tipo Fallo de red es 32,0%.

2. ¿Cuál es la probabilidad de que un ticket seleccionado al azar sea del tipo Falla de software y tenga urgencia baja?

In [3]:
#Probabilidad conjunta: usamos normalize='all' para dividir cada frecuencia en el total de registros.
tabla3_3 = pd.crosstab(df_3['Tipo de solicitud'], df_3['Urgencia'], normalize= 'all') * 100

round(tabla3_3, 1)

Urgencia,Alta,Baja,Media
Tipo de solicitud,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fallo de hardware,2.7,3.3,13.7
Fallo de red,2.7,9.3,20.0
Fallo de software,5.0,9.7,25.3
Requerimiento funcional,1.0,2.7,4.7


La probabilidad de que un ticket sea de tipo Falla de software y tenga urgencia baja es 9,7%.

3. Si se selecciona un ticket al azar, ¿cuál es la probabilidad de que sea de tipo Fallo de hardware o que aún esté pendiente?


In [4]:
#Creamos la tabla normalizando por el total de datos
tabla3_6 = pd.crosstab(df_3['Tipo de solicitud'], df_3['Estado'], margins = True, normalize= 'all') * 100

round(tabla3_6, 1)

Estado,Pendiente,Resuelto,All
Tipo de solicitud,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fallo de hardware,6.0,13.7,19.7
Fallo de red,6.7,25.3,32.0
Fallo de software,9.7,30.3,40.0
Requerimiento funcional,2.7,5.7,8.3
All,25.0,75.0,100.0


In [5]:
# Calculamos la probabilidad de que un ticket sea de tipo "Fallo de hardware"
# o tenga estado "Pendiente", sumando ambas probabilidades y restando la conjunta.
prob_hardware_o_pendiente = 19.7 + 25 - 6
print(prob_hardware_o_pendiente)

38.7


Si se selecciona un ticket al azar, la probabilidad de que un ticket sea de tipo Fallo de hardware o que aún esté pendiente es 38,7%.

4. ¿Cuál es la probabilidad de que un ticket esté resuelto, dado que es de tipo Fallo de hardware?

In [6]:
# Probabilidad condicional: usamos normalize='index' para dividir cada frecuencia en el total de cada fila.
tabla3_4 = pd.crosstab(df_3['Tipo de solicitud'], df_3['Estado'], normalize= 'index') * 100

round(tabla3_4, 1)

Estado,Pendiente,Resuelto
Tipo de solicitud,Unnamed: 1_level_1,Unnamed: 2_level_1
Fallo de hardware,30.5,69.5
Fallo de red,20.8,79.2
Fallo de software,24.2,75.8
Requerimiento funcional,32.0,68.0


La probabilidad de que un ticket esté resuelto, dado que es de tipo Fallo de hardware es 69,5%.

5. Si se selecciona un ticket al azar, ¿cuál es la probabilidad de que sea una solicitud de urgencia alta?

In [7]:
#Proporción por tipo de urgencia
urgencia_3 = df_3['Urgencia'].value_counts(True)

#Creamos un nuevo DF con el tipo de urgencia en formato porcentual
tabla3_2 = pd.DataFrame({
    'Probabilidad (%)': urgencia_3 * 100
})

round(tabla3_2,1)

Unnamed: 0_level_0,Probabilidad (%)
Urgencia,Unnamed: 1_level_1
Media,63.7
Baja,25.0
Alta,11.3


Si se selecciona un ticket al azar la probabilidad de que sea una solicitud de urgencia alta es 11,3%.

6. ¿Cuál es la probabilidad de que un ticket sea de tipo Fallo de red y esté pendiente?

In [8]:
#Probabilidad conjunta: usamos normalize='all' para dividir cada frecuencia en el total de registros.
tabla3_5 = pd.crosstab(df_3['Tipo de solicitud'], df_3['Estado'], normalize= 'all') * 100

round(tabla3_5, 1)

Estado,Pendiente,Resuelto
Tipo de solicitud,Unnamed: 1_level_1,Unnamed: 2_level_1
Fallo de hardware,6.0,13.7
Fallo de red,6.7,25.3
Fallo de software,9.7,30.3
Requerimiento funcional,2.7,5.7


La probabilidad de que un ticket sea de tipo Fallo de red y esté pendiente es 6,7%.

7. ¿Cuál es la probabilidad de que un ticket tenga urgencia alta, dado que es de tipo Fallo de red?

In [9]:
#Probabilidad condicional: usamos normalize='index' para dividir por el total de cada fila.
tabla3_7 = pd.crosstab(df_3['Tipo de solicitud'], df_3['Urgencia'], normalize= 'index') * 100

round(tabla3_7, 1)

Urgencia,Alta,Baja,Media
Tipo de solicitud,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fallo de hardware,13.6,16.9,69.5
Fallo de red,8.3,29.2,62.5
Fallo de software,12.5,24.2,63.3
Requerimiento funcional,12.0,32.0,56.0


La probabilidad de que un ticket tenga urgencia alta, dado que es de tipo Fallo de red es 8,3%.

8. ¿Cuál es la probabilidad de que un ticket esté resuelto, dado que tiene urgencia baja?

In [10]:
#Probabilidad condicional: usamos normalize='index' para dividir por el total de cada fila.
tabla3_8 = pd.crosstab(df_3['Urgencia'], df_3['Estado'], normalize= 'index') * 100

round(tabla3_8, 1)

Estado,Pendiente,Resuelto
Urgencia,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta,29.4,70.6
Baja,16.0,84.0
Media,27.7,72.3


La probabilidad de que un ticket esté resuelto, dado que tiene urgencia baja es 84,0%.

9. ¿Cuál es la probabilidad de que un ticket sea de tipo Requerimiento funcional o esté resuelto?

In [11]:
#Creamos la tabla normalizando por el total de datos
tabla3_9 = pd.crosstab(df_3['Tipo de solicitud'], df_3['Estado'], margins = True, normalize= 'all') * 100

round(tabla3_9, 1)

Estado,Pendiente,Resuelto,All
Tipo de solicitud,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fallo de hardware,6.0,13.7,19.7
Fallo de red,6.7,25.3,32.0
Fallo de software,9.7,30.3,40.0
Requerimiento funcional,2.7,5.7,8.3
All,25.0,75.0,100.0


In [12]:
#Calculamos la probabilidad de que un ticket sea de tipo "Requerimiento funcional"
#o tenga estado " Resuelto", sumando ambas probabilidades y restando la conjunta.
prob_requerimiento_o_resuelto = 8.3 + 75 - 5.7
print(prob_requerimiento_o_resuelto)

77.6


La probabilidad de que un ticket sea de tipo Requerimiento funcional o esté resuelto es 77,6%.

## Actividad 4

Un equipo de administración de redes analizó más de 200 incidentes registrados, clasificando el tipo de falla (Conexión, DNS, Firewall, Latencia), el día de la semana en que ocurrió, y si fue causada por error humano o no.

Importa la **<a href="https://drive.google.com/uc?export=download&id=1MsQUDY51dL6a2s1O4h1i_uucAhliqOIF
">base de datos</a>** y responde las siguientes preguntas:

In [None]:
import pandas as pd
df_4 = pd.read_csv('Base7_4.csv')
df_4.head()

Unnamed: 0,Falla,Día_semana,Causa_error
0,Firewall,Lunes,Humano
1,Conexión,Lunes,Otro
2,Conexión,Jueves,Otro
3,Conexión,Martes,Otro
4,Firewall,Miércoles,Otro


1. Según los datos, ¿qué tipo de falla presenta la mayor probabilidad de ocurrencia?

In [None]:
#Proporción por tipo de falla
falla_4 = df_4['Falla'].value_counts(True)

#Creamos un nuevo DF con el tipo de falla en formato porcentual
tabla4_1 = pd.DataFrame({
    'Probabilidad (%)': falla_4 * 100
})

round(tabla4_1,1)

Unnamed: 0_level_0,Probabilidad (%)
Falla,Unnamed: 1_level_1
Conexión,36.2
Firewall,22.8
DNS,21.8
Latencia,19.2


La falla con mayor probabilidad de ocurrencia es por Conexión, con un 36,2% de probabilidad.

2. Un integrante del equipo de redes afirma que es más probable que se presenten incidentes los días viernes, por lo que sugiere asignar más personal ese día. ¿Tiene razón en su afirmación? Justifica tu respuesta.

In [None]:
#Proporción por día de la semana
dia_incidente = df_4['Día_semana'].value_counts(True)

#Creamos un nuevo DF con los incidentes por día de la semana en formato porcentual
tabla4_2 = pd.DataFrame({
    'Probabilidad (%)': dia_incidente * 100
})

round(tabla4_2,1)

Unnamed: 0_level_0,Probabilidad (%)
Día_semana,Unnamed: 1_level_1
Lunes,24.3
Martes,18.8
Viernes,18.4
Miércoles,14.9
Jueves,14.3
Domingo,5.2
Sábado,4.1


El integrante del equipo de redes está equivocado, ya que es más probable que los incidentes ocurran los días lunes (24,3%) que los días viernes (18,4%). Si se busca reforzar personal considerando solo cantidad de incidentes, el lunes sería la mejor opción.

3. Considerando que hay mayor probabilidad de que ocurran fallas los lunes, ¿cuál es la falla más común durante este día de la semana?

In [None]:
#Probabilidad condicional: usamos normalize='index' para dividir por el total de cada fila
tabla4_3 = pd.crosstab(df_4['Día_semana'], df_4['Falla'], normalize= 'index') * 100

round(tabla4_3, 1)

Falla,Conexión,DNS,Firewall,Latencia
Día_semana,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Domingo,34.6,23.1,21.2,21.2
Jueves,35.7,23.1,21.0,20.3
Lunes,34.6,20.2,26.3,18.9
Martes,36.7,21.3,20.2,21.8
Miércoles,42.3,24.2,14.8,18.8
Sábado,29.3,19.5,31.7,19.5
Viernes,35.3,21.7,27.2,15.8


La falla más común durante los lunes es por Conexión, con 34,6% de probabilidad.

4. El equipo de redes está evaluando en qué día de la semana suelen producirse más errores humanos para diseñar mejores estrategias de capacitación y prevención. Si se produce un error humano, ¿cuál es el día más probable en que haya ocurrido?

In [None]:
#Probabilidad condicional: usamos normalize='columns' para dividir por el total de cada columna
tabla4_4 =  pd.crosstab(df_4['Día_semana'], df_4['Causa_error'], normalize= 'columns') * 100

round(tabla4_4, 1).sort_values(by = 'Humano')

Causa_error,Humano,Otro
Día_semana,Unnamed: 1_level_1,Unnamed: 2_level_1
Sábado,4.9,3.8
Domingo,6.2,4.8
Miércoles,14.3,15.2
Jueves,15.0,14.0
Viernes,15.0,19.9
Martes,19.2,18.6
Lunes,25.4,23.8


Si se produce un error humano, es más probable de que haya ocurrido un día lunes, con 25,4% de probabilidad. Esto sugiere que los lunes podrían ser más propensos a errores, posiblemente por carga operativa o falta de concentración al inicio de la semana.

5. Se ha detectado que muchas configuraciones incorrectas en los firewalls generan interrupciones de servicio. Para evaluar si este tipo de falla está efectivamente asociado a errores humanos, el equipo decide revisar los registros. Dado que la falla registrada es de tipo Firewall, ¿cuál es la probabilidad de que haya sido causada por error humano?

In [None]:
#Probabilidad condicional: usamos normalize='index' para dividir por el total de cada fila
tabla4_5 =  pd.crosstab(df_4['Falla'], df_4['Causa_error'], normalize= 'index') * 100

round(tabla4_5, 1)

Causa_error,Humano,Otro
Falla,Unnamed: 1_level_1,Unnamed: 2_level_1
Conexión,30.4,69.6
DNS,28.9,71.1
Firewall,31.6,68.4
Latencia,32.3,67.7


Dado que la falla registrada es de tipo Firewall, la probabilidad de que sea causada por error humano es de 31,6%. Esto indica que casi un tercio de estas fallas se deben a errores humanos, como recomendación, podría ser útil reforzar la capacitación del equipo técnico.

6. El equipo de redes busca identificar momentos críticos en los que ocurren fallas importantes, especialmente aquellas relacionadas con la conexión. ¿Es más probable que una falla ocurra un viernes y sea por Conexión, o que ocurra un sábado y sea por Latencia? Justifica tu respuesta.


In [None]:
#Probabilidad conjunta: usamos normalize='all' para dividir cada frecuencia en el total de registros.
tabla4_6 =  pd.crosstab(df_4['Día_semana'], df_4['Falla'], normalize= 'all') * 100

round(tabla4_6, 1)

Falla,Conexión,DNS,Firewall,Latencia
Día_semana,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Domingo,1.8,1.2,1.1,1.1
Jueves,5.1,3.3,3.0,2.9
Lunes,8.4,4.9,6.4,4.6
Martes,6.9,4.0,3.8,4.1
Miércoles,6.3,3.6,2.2,2.8
Sábado,1.2,0.8,1.3,0.8
Viernes,6.5,4.0,5.0,2.9


La probabilidad de que una falla ocurra un viernes y sea por conexión es de 6,5%, mientras que la probabilidad de que ocurra un sábado y sea por latencia es de 0,8%, por lo tanto, es más probable que la falla ocurra un viernes y sea por conexión.

7. El equipo de redes ha notado que los domingos suelen ser más exigentes, ya que hay menos personal disponible y cualquier error puede generar retrasos importantes. Además, una parte de las fallas registradas se deben a errores humanos, muchas veces por carga o distracción. Para dimensionar este riesgo, quieren saber: ¿Cuál es la probabilidad de que una falla haya sido causada por error humano o que haya ocurrido un domingo?

In [None]:
#Creamos la tabla normalizando por el total de datos
tabla4_7 = pd.crosstab(df_4['Día_semana'], df_4['Causa_error'], margins = True, normalize= 'all') * 100

round(tabla4_7, 1)

Causa_error,Humano,Otro,All
Día_semana,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domingo,1.9,3.3,5.2
Jueves,4.6,9.7,14.3
Lunes,7.8,16.5,24.3
Martes,5.9,12.9,18.8
Miércoles,4.4,10.5,14.9
Sábado,1.5,2.6,4.1
Viernes,4.6,13.8,18.4
All,30.7,69.3,100.0


In [None]:
#Calculamos la probabilidad de que la falla haya ocurrido un domingo o debido a error humano,
# sumando ambas probabilidades y restando la conjunta.
prob_domingo_o_humano = 5.2 + 30.7 - 1.9
print(prob_domingo_o_humano)

34.0


La probabilidad de que una falla haya sido causada por error humano o que haya ocurrido un domingo es 34,0%.