# Mapear times para regiões e estados

Os dados de universidades e regiões foram gerados quase que manualmente, caso encontre incosistência nos dados pode criar um Issue no repositório.

## Dependências

In [1]:
# encoding: utf-8

import os
import sys

# to import utils
sys.path.append('../')

import pandas as pd
import utils

## Buscar dados como Dataframe Panda

In [2]:
df_competidor = utils.load_csv(os.path.join(utils.OUTPUT_PATH, 'competidores.csv'))
utils.print_info(df_competidor)

    ano                      time                     competidor  reserva  \
0  2016                ufpe - 0xe  lucas almeida pereira de lima        0   
1  2016                ufpe - 0xe                duhan caraciolo        0   
2  2016                ufpe - 0xe        mario henrique da silva        0   
3  2016  unicamp - veni vidi codi        guilherme bueno andrade        0   
4  2016  unicamp - veni vidi codi        matheus de souza ataide        0   

   classificado  posicao medalha  
0             1        1    gold  
1             1        1    gold  
2             1        1    gold  
3             1        2    gold  
4             1        2    gold  


In [3]:
def get_universidades_data():
    df = utils.load_csv(utils.UNIVERSIDADES_PATH)
    df['sigla'] = [s.upper() for s in df['sigla']]
    return df

df_universidade = get_universidades_data()
utils.print_info(df_universidade)

                                   universidade     sigla estado
0                       ACADEMIA DA FORÇA AÉREA       AFA     SP
1  ACADEMIA DA POLÍCIA CIVIL DO ESTADO DA BAHIA  ACADEPOL     BA
2   ACADEMIA DE POLÍCIA MILITAR DO BARRO BRANCO     APMBB     SP
3       ACADEMIA DE POLÍCIA MILITAR DOM JOÃO VI   APMDJVI     RJ
4                   ACADEMIA DE POLÍCIA MILITAR       APM     BA


In [4]:
df_regioes = utils.load_csv(utils.REGIOES_PATH)
utils.print_info(df_regioes)

     estado sigla    regiao
0      Acre    AC     Norte
1   Alagoas    AL     Norte
2     Amapá    AP     Norte
3  Amazonas    AM     Norte
4     Bahia    BA  Nordeste


## Limpar e criar novas colunas na tabela competidores

In [5]:
def add_estado_column(df_competidor, df_universidade):
    df_competidor['estado'] = [df_universidade.loc[df_universidade['sigla'] == e]['estado'].iloc[0]
                               for e in df_competidor['universidade']]
    return df_competidor


def add_regioes_column(df_competidor, df_regioes):
    df_competidor['regiao'] = [df_regioes.loc[df_regioes['sigla'] == e]['regiao'].iloc[0]
                               for e in df_competidor['estado']]
    return df_competidor

In [6]:
df_competidor = utils.add_universidade_column(df_competidor)
df_competidor = utils.add_time_column(df_competidor)
df_competidor = add_estado_column(df_competidor, df_universidade)
df_competidor = add_regioes_column(df_competidor, df_regioes)

## Salvar tabela preprocessada como CSV

In [7]:
utils.save_as_csv(df_competidor, os.path.join(utils.OUTPUT_PATH, 'pre_processado_competidores.csv'))

In [9]:
print('Universidades:')
for e in set(df_competidor.universidade):
    print(e)

Universidades:
UNICAMP
UFPR
UFRN
IME
UFCG
IME-USP
UFES
UFG
UFMG
UFBA
UFRJ
UECE
POLI-USP
ITA
USP-SC
USP-SP
UFSC
PUC-RIO
UFPE
UFU
UTFPR
UFRGS
UNIFEI
UFS
