<div style="border: 2px solid #255c8a; padding: 10px; background-color: #121212; border-radius: 5px; line-height: 1; width: 97%">
  <strong> ℹ️ Descrição:</strong> 
  Como segunda parte da análise exploratória de dados, vamos buscar por entradas repetidas no dataframe (isto é, linhas que possuem informações iguais), de forma a não darmos dados redundantes para o sistema, e influenciarmos negativamente suas decisões.
</div>

# Inicialização

**Bibliotecas**:

In [1]:
import os
import pandas as pd

**Leitura do Arquivo:**

In [2]:
current_path = os.path.dirname(os.getcwd())
csv_path = (current_path + '/Data/campeonatos_futebol_atualizacao.csv')

df = pd.read_csv(csv_path)

# Busca por dados duplicados

Aqui, aplicamos um filtro, junto da função duplicated(), para buscarmos dados que estejam repetidos no data frame original. Usamos a flag keep como False, para que todas as instâncias de itens repetidos sejam mostradas. 

In [3]:
filtro = df.duplicated(keep=False)
duplicados = df[filtro]
duplicados

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2
10076,5.0,5.0,1.0,0.0,3.0,7.0,1.0,4.0,17.0,13.0,...,,,,,41.0,59.0,Gaziantep BB,Yeni Malatyaspor,3-5-2,4-2-3-1
10172,5.0,5.0,1.0,0.0,3.0,7.0,1.0,4.0,17.0,13.0,...,,,,,41.0,59.0,Gaziantep BB,Yeni Malatyaspor,3-5-2,4-2-3-1
17985,3.0,4.0,1.0,2.0,4.0,2.0,1.0,6.0,14.0,5.0,...,7.0,15.0,2.0,1.0,49.0,51.0,Elche,Villarreal,4-4-2,4-3-3
17986,2.0,3.0,3.0,1.0,6.0,1.0,2.0,1.0,18.0,19.0,...,20.0,21.0,2.0,2.0,61.0,39.0,Getafe,Granada,4-4-2,4-2-3-1
17988,4.0,3.0,0.0,2.0,3.0,5.0,2.0,10.0,11.0,19.0,...,21.0,11.0,2.0,4.0,40.0,60.0,Valencia,Sevilla,3-5-2,4-3-3
17989,5.0,3.0,1.0,0.0,5.0,5.0,4.0,6.0,16.0,12.0,...,12.0,17.0,2.0,5.0,36.0,64.0,Mallorca,Real Sociedad,4-4-2,4-3-3
17990,2.0,3.0,3.0,2.0,2.0,8.0,3.0,4.0,13.0,12.0,...,14.0,16.0,2.0,0.0,49.0,51.0,Celta Vigo,Osasuna,5-3-2,4-3-3
17991,6.0,1.0,5.0,2.0,10.0,4.0,5.0,2.0,12.0,17.0,...,19.0,17.0,1.0,3.0,70.0,30.0,Barcelona,Rayo Vallecano,4-3-3,5-2-3
17992,6.0,4.0,1.0,0.0,12.0,1.0,9.0,1.0,12.0,12.0,...,12.0,13.0,2.0,3.0,77.0,23.0,Betis,Alaves,4-2-3-1,4-4-2
17993,10.0,2.0,4.0,2.0,12.0,2.0,12.0,2.0,10.0,15.0,...,17.0,14.0,0.0,9.0,54.0,46.0,Atletico de Madri,Levante,3-1-4-2,4-4-2


Com o retorno desta última função, podemos ver que temos 24 entradas repetidas no total. É interessante dizer que, como são poucas, é possível perceber que cada uma dessas entradas está repetida uma única vez (duas instâncias para cada linha). Assim, basta retirá-las do data frame, mas de forma a mantermos uma instância de cada entrada. Para tal, usamos a função drop_duplicates, que por padrão já realiza o trabalho de manter uma cópia única para cada entrada repetida. Então, estaremos apenas retirando 12 linhas no final.

In [4]:
df = df.drop_duplicates()

Apenas para termos certeza, podemos checar que todos os dados duplicados foram eliminados: 

In [5]:
filtro = df.duplicated()
duplicados = df[filtro]
duplicados

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2


# Salvando em novo arquivo

Podemos finalmente salvar os dados em um novo dataframe, não precisando mais nos preocupar com dados duplicados. 

Além disso, como mencionado em "[1] Análise Inicial", também podemos retirar a coluna de nome, visto que esta não irá interferir no resultado, e só era necessária para identificarmmos dados repetidos.

In [6]:
# Retirando as colunas string:

df = df.drop("Time 1", axis=1)
df = df.drop("Time 2", axis=1)

In [7]:
df.to_csv(current_path + '/Data/Pre-processamento/sem_duplicadas.csv',index=False)