<h1 align ="center"><img src="https://media.giphy.com/media/YjPhjzR0z8qpqtPFyx/giphy.gif" style = "height:38px"/> Procesamiento de los Datasets con Pandas <img src="https://media.giphy.com/media/A8ZKGHwM5lWpSqd8rX/giphy.gif" style = "height:38px"/></h1 >


Las tarjetas de FiguRace se generan a partir de un conjunto de datos que deberán ser preparados previamente. Como parte del proyecto se deberá desarrollar un cuaderno de Jupyter Notebook que extraiga los datos necesarios para el juego de alguno de los datasets provistos y muestre en forma detallada el proceso realizado con los mismos . En el Anexo II se detallan los datasets que deberán utilizar para la aplicación y las modificaciones necesarias para luego guardarlo en un nuevo archivo en formato CSV. El juego deberá cargar esos archivos CSV para funcionar


<table>
<tr>
<td> <h5 align="center"><img src="https://media.giphy.com/media/F3IsWfsR1JMyNmL44Z/giphy.gif" style = "height:38px" /> Spotify 2010 - 2019 Top 100 <img  src="https://media.giphy.com/media/F3IsWfsR1JMyNmL44Z/giphy.gif" style = "height:38px" /></h5> </td> <td> <h5 align="center"><img src="https://media.giphy.com/media/W55QKlBohHZS9RGOWJ/giphy.gif" style = "height:38px" /> FIFA-21 Complete <img  src="https://media.giphy.com/media/W55QKlBohHZS9RGOWJ/giphy.gif" style = "height:38px" /></h5> </td><td> <h5 align="center"><img src="https://media.giphy.com/media/YOk7USZ9k8yF4R0yn3/giphy.gif" style = "height:38px" /> Lagos Argentina - Hoja 1 <img  src="https://media.giphy.com/media/YOk7USZ9k8yF4R0yn3/giphy.gif" style = "height:38px" /></h5> </td>


</tr>
<tr>
<td>
 
Deberá adaptar los datos de la siguiente forma: <br>

- Poner en `title case` los géneros musicales excepto las siglas EDM, DFW, UK, R&B y LGBTQ+ que deben ir en mayúsculas. Por ejemplo `dfw rap` debe ser transformado a `DFW Rap`.<br>

- Considerar también la excepción `k-pop` que debe ser transformada a `K-Pop`.<br>

- Se utilizarán como datos de las tarjetas `Top Genre`, `Year Released`, `BPM`, `Top Year` y `Artist Type`. Como dato a adivinar se utilizará `Artist`. Descartar el resto de las columnas.<br>

- El archivo resultante deberá tener las siguientes columnas (en este orden específico): `Top Genre`, `Artist Type`, `Year Released`, `Top Year`, `BPM` y `Artist`<br>

</td>
<td>
 
Deberá adaptar los datos de la siguiente forma:<br>

- Reemplazar `Potential` por la siguiente escala conceptual:<br>
  - Regular: Menos de 60<br>
  - Bueno: Entre 60 y 79 (inclusive)<br>
  - Muy bueno: Entre 80 y 89 (inclusive)<br>
  - Sobresaliente: Desde 90 en adelante.<br>
- Reemplazar el valor de `Position` por las posiciones en español. Por ejemplo `LB|CB` debe ser reemplazado por `Defensor izquierdo|Defensor central`<br>
- Se utilizarán como datos de las tarjetas: `Age`, `Nationality`, `Position`, `Team` y `Potential`. Como dato a adivinar se utilizará `Name`. Descartar el resto de las columnas.<br>
- El archivo resultante deberá tener las siguientes columnas (en este orden específico): `Team`, `Nationality`, `Position`, `Age`, `Potential` y `Name`.<br>
 
</td>
 <td>
 

Deberá adaptar los datos de la siguiente forma:<br>

- Transformar las coordenadas en la columna `Coordenadas` a grados decimales.<br>
- Se utilizarán como datos de las tarjetas: `Ubicación`, `Superficie (km²)`, `Profundidad máxima (m)`, `Profundidad media (m)`, `Coordenadas`. Como dato a adivinar se utilizará `Nombre`. Descartar el resto de las columnas.<br>
- El archivo resultante deberá tener las siguientes columnas (en este orden específico): `Ubicación`, `Superficie (km²)`, `Profundidad máxima (m)`, `Profundidad media (m)`, `Coordenadas` y `Nombre`.<br>
 
</td>
</tr>
 
</table>

- Importamos las librerias 
- `POTENTIAL_TABLE_FIFA` es un diccionario en el que almacenamos 

In [28]:
import os
import pandas as pd

POTENTIAL_TABLE_FIFA = {
    90: 'Sobresaliente',
    80: 'Muy bueno',
    60: 'Bueno',
    -1: 'Regular'
}

POSITION_TABLE_FIFA = {
    'ST': 'Delantero',
    'CM': 'Volante',
    'CDM': 'Medio centro defensivo',
    'LB': 'Lateral izquierdo',
    'GK': 'Portero',
    'LM': 'Volante izquierdo',
    'RM': 'Volante derecho',
    'CAM': 'Volante ofensivo',
    'LW': 'Extremo izquierdo',
    'LWB': 'Lateral izquierdo ofensivo',
    'CB': 'Defensor central',
    'RB': 'Lateral derecho',
    'RW': 'Extremo derecho',
    'RWB': 'Lateral ofensivo derecho',
    'CF': 'Media punta'
}

UPPER_GENDERS_SPOTIFY = ["EDM", "DFW", "UK", "R&B", "LGBTQ+"]

In [29]:
def potential_replace(potential:str):
    compare_potential = int(potential)
    for potential_player in POTENTIAL_TABLE_FIFA:
        if compare_potential >= potential_player:
            potential = POTENTIAL_TABLE_FIFA[potential_player]
            break
    return potential

In [30]:
def position_replace(position:str):
    positions = position.split('|')
    position = '|'.join([POSITION_TABLE_FIFA[acronym] for acronym in positions])
    return position

In [31]:
def upper_words(sentence:str):
    """Procesa una frase dependiendo de la consigna"""
    genders = sentence.split()
    for index,gender in enumerate(genders):
        genders[index] = ( gender.upper() if gender.upper() in UPPER_GENDERS_SPOTIFY else gender.title())
    sentence = " ".join(genders)
    return sentence

In [32]:
def rebase_coord(coord: str, n_decimals: int = 5) -> str:
    sign = -1 if 'S' in coord or 'O' in coord else 1
    degree, coord = coord[:-2].split('°')
    min, sec = coord.split('\'')
    dd = sign * (int(degree) + int(min)/60 + int(sec)/3600)
    return str(round(dd, n_decimals)) + '°'

In [33]:
def transform_coords(coords:str) -> str:
    latitude, longitude = coords.split()
    coords = rebase_coord(latitude) + ' ' + rebase_coord(longitude)
    return coords

In [34]:

DATASETS = {                  
    'FIFA-21_Complete.csv':{
        'order': ["team", "nationality", "position", "age", "potential" ,"name"],
        'translation': ['Equipo', 'Nacionalidad', 'Posición', 'Edad', 'Potencial', 'Nombre'],
        'functions': {
            "potential": potential_replace,
            "position": position_replace
            } ,
        'name':"fifa.csv"     
    },
    'Lagos_Argentina - Hoja_1.csv':{
        'order': ["Ubicación", "Superficie (km²)", "Profundidad máxima (m)", "Profundidad media (m)", "Coordenadas"],
        'functions': {
            "Coordenadas": transform_coords
            },  
        "name":'lakes.csv'  
    },
    'Spotify_2010-2019_Top_100.csv':{
        'order': ["top genre", "artist type", "year released", "top year", "bpm" ,"artist"],
        'translation': ['Top genero', 'Tipo artista', 'Año lanzamiento','Mejor año', 'BPM', 'Artista'],
        'functions': {
            "top genre":upper_words
            },
        'name':'spotify.csv'       
    }
}


In [35]:
PATH_BASE = os.path.dirname(os.getcwd())
PATH_SOURCE = os.path.join(PATH_BASE,"base_datasets")
PATH_PROSSED = os.path.join(PATH_BASE,"processed_datasets")

In [36]:
def process_dataset(file_name:str):
    if file_name not in DATASETS:
        return
    file_path = os.path.join(PATH_SOURCE,file_name)
    config = DATASETS[file_name]
    processed_path = os.path.join(PATH_PROSSED,config['name'])
    
    with open(file_path, mode = 'r',encoding="UTF-8") as file :
        df = pd. read_csv (file, sep = None,engine="python",usecols = (config['order']))
        df.dropna(how="all" ,inplace=True)
        df = df[config['order']] 
        for columna,function in config['functions'].items():  
            df[columna] = df[columna].apply(function) 
        if 'translation' in config:
            df.rename(
                {   
                    column_name:translation_name
                    for column_name,translation_name in zip(config['order'],config['translation'])
                },
                inplace=True,
                axis= 1
            )                  
        df.to_csv(processed_path, mode='w',index=False)            
    
names_files = os.listdir(PATH_SOURCE)
for file_name in names_files: 
    process_dataset(file_name)