# Restricciones.

## ¿Qué son los valores duplicados?

Los valores duplicados se pueden diagnosticar cuando tenemos exactamente la misma infromación repetida en varias filas, para algunas o todas las columnas de nuestro dataframe.

Estos errores duplicados también pueden surgir debido a errores de diseño, ya sea en el proceso de negocios o en la canalización de datos.

Sin embargo , a menudo surgen del acto necesario de unirse y podrian tener valores duplicados.


---


Primero veamos como encontrar valores duplicados, esto lo podemos hacer usando el método `.duplicated()`, que devuelve una serie de valores booleanos que son verdaderos para valores duplicados y falsos para valores no duplicados.

Pra calibrar adecuadamente como encontramos datos duplicados , usaremos 2 argumentos del metodo `.duplicated()`.

El argumento `subset` nos permite establecer una lista de nombres de columna para verificar la duplicación.


---


El argumento `keep` nos permite mantener la primera aparicion de un valor duplicado estableciendo `first`  o la ultima aparicion de un valor duplicado estableciendo `last` o mantener todas las apariciones de valores duplicados configurandolo en `False`.

Los valores duplicados se pueden tratar facilmente, todo lo que se requiere es conservar uno de ellos y descartar los otros  y  podemos hacer esto usando el método `.drop_duplicated()` , que también incluye:

El argumento `subset` nos permite establecer una lista de nombres de columna para verificar la duplicación.


---



---


El argumento `keep` nos permite mantener la primera aparicion de un valor duplicado estableciendo `first`  o la ultima aparicion de un valor duplicado estableciendo `last` o mantener todas las apariciones de valores duplicados configurandolo en `False`.

Agregando el argumento `inplace=True` , que elimina los valores duplicados directamente dentro del DataFrame.


Recordemos que el método `groupby.agg()` permite agrupar por conjuntos de columnas comunes y valores estadisticos de retorno para columnas especifcas cuando realizamos alguna agregación.

A continuación haremos un ejemplo para encontrar valores repetidos.





In [1]:
import pandas as pd
ride_sharing = pd.read_csv("/content/ride_sharing_new.csv")

ride_sharing.head()

Unnamed: 0.1,Unnamed: 0,duration,station_A_id,station_A_name,station_B_id,station_B_name,bike_id,user_type,user_birth_year,user_gender
0,0,12 minutes,81,Berry St at 4th St,323,Broadway at Kearny,5480,2,1959,Male
1,1,24 minutes,3,Powell St BART Station (Market St at 4th St),118,Eureka Valley Recreation Center,5193,2,1965,Male
2,2,8 minutes,67,San Francisco Caltrain Station 2 (Townsend St...,23,The Embarcadero at Steuart St,3652,3,1993,Male
3,3,4 minutes,16,Steuart St at Market St,28,The Embarcadero at Bryant St,1883,1,1979,Male
4,4,11 minutes,22,Howard St at Beale St,350,8th St at Brannan St,4626,2,1994,Male


In [3]:
# Encontrar valores duplicados
duplicates = ride_sharing.duplicated(subset = 'bike_id', keep = False)

# Ordenar id duplicados
duplicated_rides = ride_sharing[duplicates].sort_values('bike_id')

# Imprmir columnas relevantes.
print(duplicated_rides[['bike_id','duration','user_birth_year']])

       bike_id    duration  user_birth_year
3638        11  12 minutes             1988
6088        11   5 minutes             1985
10857       11   4 minutes             1987
10045       27  13 minutes             1989
16104       27  10 minutes             1970
...        ...         ...              ...
8812      6638  10 minutes             1986
6815      6638   5 minutes             1995
8456      6638   7 minutes             1983
8300      6638   6 minutes             1962
8380      6638   8 minutes             1984

[25717 rows x 3 columns]


### Tratando valores duplicados.


In [None]:
# Elminar los duplicados completos en ride_sharing y almacena los resultados en ride_dup.
ride_dup = ride_sharing.drop_duplicates()

#Crear el diccionario de estadísticas que contiene la agregación mínima para user_birth_year y la agregación media durante la duración.
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby('bike_id').agg(statistics).reset_index()

# Find duplicated values again
duplicates = ride_unique.duplicated(subset = 'bike_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0