# Named Tuples y procesamiento de secuencias


------------------------

## (0) Nóminas

Observa el fichero `nominas.csv`. Tiene los datos de nómina de una empresa, en un formato llamado *csv* (averigua lo que es si no lo sabes). Tu trabajo es obtener, a partir de ese fichero, los siguientes datos:

1. Comprueba que no haya repetidos
2. El coste total de nóminas.
3. Cuantos empleados tiene cada departamento
4. Una lista de `named tuples` que representan un departamento y su coste total.
5. El sueldo promedio
6. El sueldo mínimo
7. El sueldo máximo
8. Un `set` con los empleados que tienen el sueldo mayor o igual a la media.

Usa Divide & Vencerás

Para ello, ten en cuenta lo siguiente:

1. Tras leer el fichero, tienes los datos separados por saltos de linea (un empleado en cada linea).
2. Intenta convertir esa cadena gigante en una lista de cadenas con los componentes del empleado separado por comas
3. Crea una named tuple que representa a un empleado. Convierte cada una de esas lineas en una instancia de dicha tupla: tendrás un alista de tuplas. ¿Cómo te aseguras que ninguna está repetido?
4. Procesa esa lista, usando `for` o las funciones de alto nivel que hemos creado para obtener 3, 4, 5, 6, 7.
5. Crea una función que recibe una lista de empleados y un sueldo de corte, y devuelve un set con todos los que tienen un sueldo mayor o igual a ese. usala para responder a 7

In [64]:
from collections import namedtuple
def make_employee(name,surname,departament,salary):
    Empleado = namedtuple('Empleado', 'Nombre Apellido Departamento Salario')
    new_employed = Empleado(name, surname,departament,salary)
    return new_employed

In [129]:

def open_file(text_file: str) -> str:
    """
    Abre mediante with open el fichero cuyo nombre te pasan
    por parámetro y devuelve su contenido como una cadena
    """
    # Con with open abrimos el archivo
    # y con as file le damos un 'alias'
    # para referirnos en adelante
    with open(text_file, 'r', encoding='utf-8') as file:
        # Leemos el contenido y lo metemos
        # en una variable para devolverla
        content = file.read()
    return content
    

In [66]:
def to_lines(paragraph):
    return paragraph.split('\n')

In [145]:
def has_repated(string_list):
    repeated = False
    if   len(set(string_list)) == len(string_list):
        repeated = False
    else:
        repeated = True
    return repeated

    

In [67]:
def to_tuplas(string_list):
    new_tuple_list = []
    for element in string_list[1:]:
        cutted =  []
        cutted = element.split(',')
        employ = make_employee(cutted[0],cutted[1],cutted[2],int(cutted[3]))
        new_tuple_list.append(employ)
        
       
    return new_tuple_list

In [68]:
def suma_nominas(tuplas):
    min = tuplas[0].Salario
    max = tuplas[0].Salario
    sum = 0
    for tupla in tuplas:
        if tupla.Salario < min:
            min = tupla.Salario
        if tupla.Salario > max:
            max = tupla.Salario
        sum = sum + tupla.Salario
        
    return sum, min, max

In [138]:
def dep_analizador(datos_empleados):
    gasto_departamento = namedtuple('Gasto','Departamento, Gasto')
    gastos_dict = dict()
    return_list = []
    for datos in datos_empleados[1:]:
        if datos.Departamento in gastos_dict:
            gastos_dict[datos.Departamento] += datos.Salario
        else:
            gastos_dict[datos.Departamento] = datos.Salario
    for element in gastos_dict:
        newtupla =  gasto_departamento(element, gastos_dict[element])
        return_list.append(newtupla)
    return return_list

In [143]:
def cuenta_empleados(datos_empleados):
    empleados_departamento = namedtuple('Empleados','Departamento, numeroempleados')
    cuenta_dict = dict()
    return_list = []
    for datos in datos_empleados[1:]:
        if datos.Departamento in cuenta_dict:
            cuenta_dict[datos.Departamento] += 1
        else:
            cuenta_dict[datos.Departamento] = 1
    for element in cuenta_dict:
        newtupla=  empleados_departamento(element, cuenta_dict[element])
        return_list.append(newtupla)
    print(return_list)
    return return_list

In [136]:
def empleados_from(emploeers, sueldo_promedio):
    newlist = []
    for tupla in emploeers:
        if tupla.Salario > sueldo_promedio:
            newlist.append(tupla)
    return set(newlist)

In [133]:
def calculate_salaries(file):
    # Primero sacamos el contenido del achivo
    contenido = open_file(file)
    
    
 
    separated = to_lines(contenido)
    
  

    lolels = to_tuplas(separated)
    
    total_nominas, sueldo_minimo, sueldo_maximo = suma_nominas(lolels)
    
    empleados_por_departamento = cuenta_empleados(lolels)
    numero_empleados = len(lolels)

    coste_departamento = dep_analizador(lolels)

    sueldo_promedio = total_nominas/ numero_empleados
    
    salarios_mas_altos = empleados_from(lolels, sueldo_promedio)

    


    return None





In [146]:
calculate_salaries('nominas.csv')

[Empleados(Departamento='Desarrollo', numeroempleados=5), Empleados(Departamento='Dirección', numeroempleados=14), Empleados(Departamento='Marketing', numeroempleados=16), Empleados(Departamento='Ventas', numeroempleados=14), Empleados(Departamento='Administración', numeroempleados=10)]


In [150]:
new_name = 'andres'
new_surname = 'marquez'
new_department = 'Ventas'
new_salary = 999999
employee = new_name,new_surname,new_department,new_salary
print(employee)
a, b, c, d = employee
print(a)
print(b)
print(c)
print(d)

('andres', 'marquez', 'Ventas', 999999)
andres
marquez
Ventas
999999


## (1) Base de datos de dicts

Tienes que organizar estos datos de mejor manera. Un fichero de texto o una lista no es adecuado. Lee el fichero y transforma esos datos en un diccionario, llamado `base_de_datos` con la siguintes características:

1. La clave es el nombre del departamento
2. El valor para cada departamento es un `set`  de empleados de dicho departamento.

**Tareas**

1. Crea una función `make_db` que recib eel nombre del fichero y devuelve la *base de datos* (el `dict`). Si se produce algún error, devuelve una excepción.
2. Crea una función `employees_per_department` que recibe la base de datos y el nombre del departamento. Si el departamento existe, devuelve el número de empleados. Si no existe, lanza un `ValueError`.
3. Crea la función `total_cost` que recib ela base de datos y el nombre del departamento. Si el departamento existe, devuelve el coste total de dicho departamento. Si no existe, devuelve un `ValueError`.
4. 


## Conclusiones

1. ¿Te ha salido? Enhorabuena, has resuelto algo más complejo que una prueba de acceso real para programador jr.
2. Mira el fichero  `nomina.py`:
   1. ¿Qué pasaría si no tuviese el truco del `if __name__ == "__main__":` y alguien lo *importase*?
   2. Averigua qué es eso de pandas que se usa en el script.