# Taller 2 - Mat281: El poder de la información

### Segunda Guerra mundial (1939-1945)

Alan Turing, un matemático, lógico y criptógrafo británico, desempeñó un papel crucial en la Segunda Guerra Mundial al contribuir significativamente a la derrota de las potencias del Eje a través de sus innovaciones en el campo de la criptografía. Su trabajo en Bletchley Park, la sede de desciframiento de códigos del Reino Unido, fue fundamental para romper el código Enigma, un sistema de cifrado utilizado por los nazis para proteger sus comunicaciones militares.

El código Enigma era considerado indescifrable debido a su complejidad y la vasta cantidad de combinaciones posibles. Sin embargo, Turing diseñó una máquina llamada "Bombe", que automatizaba el proceso de descifrado y permitía a los criptógrafos británicos leer mensajes encriptados por Enigma. Esto dio a los Aliados una ventaja estratégica al poder anticipar movimientos y tácticas alemanas, lo que se cree que acortó la guerra y salvó innumerables vidas.

La labor de Turing puso en relieve la importancia de la información en la guerra. El acceso a inteligencia precisa y oportuna permitió a los Aliados tomar decisiones informadas y reaccionar rápidamente a las estrategias enemigas. La información, especialmente cuando es interceptada y descifrada, puede ser un factor determinante en el resultado de los conflictos. La capacidad de romper los códigos enemigos no solo permitió a los Aliados prevenir ataques, sino que también les dio la oportunidad de engañar y desinformar al enemigo, maximizando su ventaja en el campo de batalla.

### Una pequeña introducción al análisis de diagnóstico (Sin GLM)

Un análisis de diagnóstico estadístico es un proceso utilizado para evaluar la adecuación de un modelo estadístico en relación con los datos que se analizan. Su objetivo principal es identificar posibles problemas o inconsistencias en el modelo, como supuestos no cumplidos, errores sistemáticos, o datos atípicos que podrían afectar la validez de las conclusiones.

* [Pregibon](https://www.jstor.org/stable/2240841)
* [Una tarea que incluye Pregibon](https://www.overleaf.com/read/vnndpmgtjszm#efc1ca)
* [Cemento Portland (Woods, Steinour y Starke, 1932)](http://dx.doi.org/10.1021/ie50275a002)
* [Cemento Portland (Woods, Steinour y Starke, 1932) Osorio](file:///C:/Users/kzep/Downloads/MAT468_slides-04.pdf)

## Un pequeño repaso a aspectos de procesamiento de datos en python:

In [1]:
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt

Si es un archivo local, siempre prefiera csv con respecto a los archivos de excel!
* [Medium](https://medium.com/@ashwinaishvaryavardhan/read-csv-vs-read-excel-in-pandas-when-to-use-which-and-why-3d6291e1d3bd)
* [Linkedin](https://www.linkedin.com/pulse/do-you-read-excel-files-python-1000x-fasterway-parvez-shah-onkhe/) 

Ojo con los Nan

In [31]:
A = pd.Series([1, 2], dtype=np.int64).reindex([0, 1, 2])
A.head()

0    1.0
1    2.0
2    NaN
dtype: float64

In [5]:
A.describe()

count    2.000000
mean     1.500000
std      0.707107
min      1.000000
25%      1.250000
50%      1.500000
75%      1.750000
max      2.000000
dtype: float64

Como eliminar nan

In [8]:
A.dropna()

0    1.0
1    2.0
dtype: float64

Como detectar nan

In [9]:
A.isna()

0    False
1    False
2     True
dtype: bool

Como filtrar nan

In [10]:
A[A.isna()]

2   NaN
dtype: float64

Transformemos la serie en un dataframe

In [33]:
A.to_frame()

Unnamed: 0,0
0,1.0
1,2.0
2,


Note que podemos iterar las filas

In [30]:
for index, row in A.iterrows():
    print(row )

0    1.0
Name: 0, dtype: float64
0    2.0
Name: 1, dtype: float64
0   NaN
Name: 2, dtype: float64


Ojo que si no se redefine A, no se guardan los cambios sobre el dataframe, por lo que esta cosa deberia tirar error

In [35]:
A = A.to_frame()
for index, row in A.iterrows():
    print(row )

0    1.0
Name: 0, dtype: float64
0    2.0
Name: 1, dtype: float64
0   NaN
Name: 2, dtype: float64


llenar Na

In [42]:
A = A.fillna(0)
A

Unnamed: 0,0
0,1.0
1,2.0
2,0.0


Filas columnas duplicadas

In [40]:
B = pd.DataFrame([[0, 1, 2], [3, 4, 5]], columns=["A", "A", "B"])
B

Unnamed: 0,A,A.1,B
0,0,1,2
1,3,4,5


In [38]:
B.index.is_unique


True

In [39]:
B.columns.is_unique

False

In [51]:
B.columns

Index(['A', 'A', 'B'], dtype='object')

In [53]:
A["A"] = "000"

In [56]:
A.columns.tolist()

[0, 'A']

#### Los famosos Groupby


Esta función en Pandas se utiliza para agrupar datos en un DataFrame según una o más columnas. Esto es útil para realizar operaciones de agregación, como sumar, contar o calcular la media de los datos en cada grupo.

Pasos para usar groupby
1. Seleccionar la columna o columnas para agrupar: Puedes agrupar por una o más columnas.
2. Aplicar una función de agregación: Después de agrupar, puedes aplicar funciones como sum(), mean(), count(), etc.

   
##### Ejemplo


In [63]:
# Crear un DataFrame de ejemplo
data = {
    'Departamento': ['IT', 'HR', 'IT', 'Marketing', 'HR', 'IT'],
    'Empleado': ['Juan', 'Ana', 'Andrés', 'Luis', 'Joaquín', 'Sofia'],
    'Salario': [70000, 50000, 80000, 60000, 55000, 75000]
}

df = pd.DataFrame(data)

# Agrupar por 'Departamento' y calcular la suma de los salarios
suma_salarios = df.groupby('Departamento')['Salario'].sum()

# Mostrar el resultado
print(suma_salarios)

Departamento
HR           105000
IT           225000
Marketing     60000
Name: Salario, dtype: int64


#### Los Join


Los joins se utilizan para combinar dos o más DataFrames en función de una o más columnas clave. 

1. Inner Join: Devuelve solo las filas que tienen coincidencias en ambos DataFrames.
3. Outer Join: Devuelve todas las filas de ambos DataFrames, llenando con NaN donde no hay coincidencias.
4. Left Join: Devuelve todas las filas del DataFrame de la izquierda y las filas coincidentes del DataFrame de la derecha. 
5. Right Join: Devuelve todas las filas del DataFrame de la derecha y las filas coincidentes del DataFrame de la izquierda.
 


###### Ejemplo 

In [62]:
# Crear DataFrames de ejemplo
df1 = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['Juan', 'Ana', "Andrés", 'Luis']
})
print("Tabla original:\n", df1)
df2 = pd.DataFrame({
    'EmpleadoID': [3, 4, 5, 6],
    'Salario': [80000, 60000, 70000, 50000]
})

# Inner Join
inner_join = pd.merge(df1, df2, on='EmpleadoID', how='inner')
print("Inner Join:\n", inner_join)

# Outer Join
outer_join = pd.merge(df1, df2, on='EmpleadoID', how='outer')
print("\nOuter Join:\n", outer_join)

# Left Join
left_join = pd.merge(df1, df2, on='EmpleadoID', how='left')
print("\nLeft Join:\n", left_join)

# Right Join
right_join = pd.merge(df1, df2, on='EmpleadoID', how='right')
print("\nRight Join:\n", right_join)

Tabla original:
    EmpleadoID Nombre
0           1   Juan
1           2    Ana
2           3  Pedro
3           4   Luis
Inner Join:
    EmpleadoID Nombre  Salario
0           3  Pedro    80000
1           4   Luis    60000

Outer Join:
    EmpleadoID Nombre  Salario
0           1   Juan      NaN
1           2    Ana      NaN
2           3  Pedro  80000.0
3           4   Luis  60000.0
4           5    NaN  70000.0
5           6    NaN  50000.0

Left Join:
    EmpleadoID Nombre  Salario
0           1   Juan      NaN
1           2    Ana      NaN
2           3  Pedro  80000.0
3           4   Luis  60000.0

Right Join:
    EmpleadoID Nombre  Salario
0           3  Pedro    80000
1           4   Luis    60000
2           5    NaN    70000
3           6    NaN    50000


Finalmente, otro tip para realizar busquedas:

In [64]:
df[df["Empleado"]=="Juan"]

Unnamed: 0,Departamento,Empleado,Salario
0,IT,Juan,70000
