# Eliminando dados duplicados

In [8]:
# Como parte da análise exploratória de dados, vamos buscar por linhas repetidas 
# (que possuam os mesmos valores em todas as colunas), para que o modelo final não seja 
# influenciado por esses dados duplicados. 

In [9]:
import os
import pandas as pd

current_path = os.path.dirname(os.getcwd())
csv_path = (current_path + '/Data/campeonatos_futebol_atualizacao.csv')

In [10]:
df = pd.read_csv(csv_path)
df.head()

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2
0,8.0,0.0,6.0,3.0,7.0,1.0,6.0,1.0,8.0,14.0,...,,,,,77.0,23.0,Glasgow Rangers,Livingston,4-3-3,4-3-3
1,0.0,2.0,0.0,2.0,0.0,4.0,3.0,4.0,19.0,14.0,...,,,,,44.0,56.0,Ross County,St.Johnstone,3-5-2,3-5-2
2,4.0,5.0,1.0,5.0,8.0,11.0,2.0,5.0,13.0,14.0,...,,,,,47.0,53.0,Dundee FC,St. Mirren,4-3-3,3-4-1-2
3,4.0,7.0,8.0,1.0,6.0,5.0,4.0,7.0,4.0,11.0,...,,,,,27.0,73.0,Hearts,Celtic,3-4-3,4-2-3-1
4,3.0,1.0,1.0,3.0,5.0,4.0,2.0,2.0,12.0,17.0,...,,,,,58.0,42.0,Aberdeen,Dundee U.,4-4-2,3-5-1-1


In [11]:
# Filtragem dos dados, buscando obter um dataframe com dados duplicados, 
# para checarmos que estes de fato existem nos dados originais. Usamos a flag
# keep como False para que todas as instâncias dos itens repetidos sejam apresentadas. 

filtro = df.duplicated(keep=False)
duplicados = df[filtro]
duplicados

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2
10076,5.0,5.0,1.0,0.0,3.0,7.0,1.0,4.0,17.0,13.0,...,,,,,41.0,59.0,Gaziantep BB,Yeni Malatyaspor,3-5-2,4-2-3-1
10172,5.0,5.0,1.0,0.0,3.0,7.0,1.0,4.0,17.0,13.0,...,,,,,41.0,59.0,Gaziantep BB,Yeni Malatyaspor,3-5-2,4-2-3-1
17985,3.0,4.0,1.0,2.0,4.0,2.0,1.0,6.0,14.0,5.0,...,7.0,15.0,2.0,1.0,49.0,51.0,Elche,Villarreal,4-4-2,4-3-3
17986,2.0,3.0,3.0,1.0,6.0,1.0,2.0,1.0,18.0,19.0,...,20.0,21.0,2.0,2.0,61.0,39.0,Getafe,Granada,4-4-2,4-2-3-1
17988,4.0,3.0,0.0,2.0,3.0,5.0,2.0,10.0,11.0,19.0,...,21.0,11.0,2.0,4.0,40.0,60.0,Valencia,Sevilla,3-5-2,4-3-3
17989,5.0,3.0,1.0,0.0,5.0,5.0,4.0,6.0,16.0,12.0,...,12.0,17.0,2.0,5.0,36.0,64.0,Mallorca,Real Sociedad,4-4-2,4-3-3
17990,2.0,3.0,3.0,2.0,2.0,8.0,3.0,4.0,13.0,12.0,...,14.0,16.0,2.0,0.0,49.0,51.0,Celta Vigo,Osasuna,5-3-2,4-3-3
17991,6.0,1.0,5.0,2.0,10.0,4.0,5.0,2.0,12.0,17.0,...,19.0,17.0,1.0,3.0,70.0,30.0,Barcelona,Rayo Vallecano,4-3-3,5-2-3
17992,6.0,4.0,1.0,0.0,12.0,1.0,9.0,1.0,12.0,12.0,...,12.0,13.0,2.0,3.0,77.0,23.0,Betis,Alaves,4-2-3-1,4-4-2
17993,10.0,2.0,4.0,2.0,12.0,2.0,12.0,2.0,10.0,15.0,...,17.0,14.0,0.0,9.0,54.0,46.0,Atletico de Madri,Levante,3-1-4-2,4-4-2


In [12]:
# Como o retorno da última função não foi nulo, usamos a função drop_duplicates para 
# retirar todos os itens que estão duplicados. Ela, por padrão, mantém a primeira instância
# de cada item repetido no data frame. 
  
df = df.drop_duplicates()

In [13]:
# Checando que realmente não há mais dados duplicados:

filtro = df.duplicated()
duplicados = df[filtro]
duplicados

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2


In [14]:
# Salvando esses novos dados em um dataframe separado

df.to_csv(current_path + '/Data/campeonatos_futebol_sem_duplicados.csv',index=False)

OBS: achei que foram poucos repetidos, pessoalmente esperava mais. Vou tentar dar uma olhada mais aprofundada depois