# Restricciones de rango de datos

* *60:00 min* | Última modificación: Agosto 11, 2021 | YouTube

In [3]:
import pandas as pd

## Rangos numéricos

Opciones:

* Borrado del registro.

* Conversión a nulo.

* Corrección al máximo o mínimo.

* Imputación como si fuere un valor nulo.

* Actualización a un valor preestablecido.

In [1]:
%%writefile /tmp/data.csv
personId,rangecol
1,1
2,3
3,2
4,10
5,0
6,1
7,10
8,9

Overwriting /tmp/data.csv


Los valores de la columna `rangecol` están restringidos al rango [1, 2, 3].

In [6]:
df = pd.read_csv('/tmp/data.csv')

#
# registros que no cumplen la restricción.
#
df[(df.rangecol < 1) | (df.rangecol > 3)].rangecol

1     0
3    10
4     0
7     9
Name: rangecol, dtype: int64

In [8]:
#
# Se convierten valores > 3 a 3 y valoes < 1 a 1
#
df.rangecol[df.rangecol > 3] = 3
df.rangecol[df.rangecol < 1] = 1
df

Unnamed: 0,personId,rangecol
0,1,1
1,2,1
2,3,2
3,4,3
4,5,1
5,6,1
6,7,1
7,8,3


In [9]:
df = pd.read_csv('/tmp/data.csv')

#
# Borrado de registros que no están en el rango
# mediante selección
#
df = df[(df.rangecol >= 1) & (df.rangecol <= 3)]
df

Unnamed: 0,personId,rangecol
0,1,1
2,3,2
5,6,1
6,7,1


In [11]:
df = pd.read_csv("/tmp/data.csv")

#
# Borrado de registros que no están en el rango
# usando la función drop()
#
df.drop(
    df[(df.rangecol < 1) | (df.rangecol > 3)].index,
    inplace=True,
)
df

Unnamed: 0,personId,rangecol
0,1,1
2,3,2
5,6,1
6,7,1


## Rangos de fecha

In [69]:
%%writefile /tmp/data.csv
eventId,eventDate
1,2012-01-10
2,1900-12-23
3,2018-09-17
4,2019-11-15
5,2020-04-23
6,2025-07-03
7,2020-02-17
8,2017-08-12
9,2015-06-24

Overwriting /tmp/data.csv


In [70]:
df = pd.read_csv('/tmp/data.csv')

display(
    df,
    df.dtypes
)

Unnamed: 0,eventId,eventDate
0,1,2012-01-10
1,2,1900-12-23
2,3,2018-09-17
3,4,2019-11-15
4,5,2020-04-23
5,6,2025-07-03
6,7,2020-02-17
7,8,2017-08-12
8,9,2015-06-24


eventId       int64
eventDate    object
dtype: object

In [71]:
#
# Cambio del tipo de dato de 'eventDate' a datetime
#
df.eventDate = pd.to_datetime(df.eventDate)

display(
    df,
    df.dtypes
)

Unnamed: 0,eventId,eventDate
0,1,2012-01-10
1,2,1900-12-23
2,3,2018-09-17
3,4,2019-11-15
4,5,2020-04-23
5,6,2025-07-03
6,7,2020-02-17
7,8,2017-08-12
8,9,2015-06-24


eventId               int64
eventDate    datetime64[ns]
dtype: object

Rango de fechas:

     1950-01-01
     Fecha actual

In [72]:
import datetime as dt

today = pd.to_datetime(dt.date.today())
today

Timestamp('2021-09-08 00:00:00')

In [73]:
#
# Verificación de restricciones
#
df[(df.eventDate < pd.to_datetime('1950-01-01')) | (df.eventDate > today)]

Unnamed: 0,eventId,eventDate
1,2,1900-12-23
5,6,2025-07-03


In [78]:
df.loc[
    df.eventDate < "1950-01-01",
    "eventDate",
] = pd.to_datetime("1950-01-01")


df.loc[
    df.eventDate > today, 
    "eventDate"
] = today

display(
    df,
    df.dtypes
)

Unnamed: 0,eventId,eventDate
0,1,2012-01-10
1,2,1950-01-01
2,3,2018-09-17
3,4,2019-11-15
4,5,2020-04-23
5,6,2021-09-08
6,7,2020-02-17
7,8,2017-08-12
8,9,2015-06-24


eventId               int64
eventDate    datetime64[ns]
dtype: object

## Unicidad

**Posibilidades**:

   * Registro completo duplicado.
   
   * Algunos campos duplicados, demas campos con valores diferentes
   
   
**Soluciones posibles**:

    * Borrado de los registros completamente duplicados.
    
    * Agregación para campos con valores diferentes.

In [80]:
%%writefile /tmp/data.csv
clientId,name,phone,companyId
1,Hersch Szymanowicz,+237 (561) 702-4118,3
2,Gaven Brito,+51 (870) 799-1508,7
3,Maressa Pavlishchev,+62 (350) 377-8621,4
4,Corine Dunseith,+63 (797) 344-2571,8
5,Ramon Lawrence,+66 (557) 865-3845,6
6,Ibbie Whitehouse,+98 (495) 896-6408,1
7,Neils Capelen,+86 (361) 914-8734,6
8,Thia Malkie,+46 (564) 145-8997,4
9,Missy Folomkin,+33 (962) 798-0776,7
10,Eleanor Gallamore,+86 (366) 702-2334,5
7,Neils Capelen,+86 (361) 914-8734,6
4,Corine Dunseith,+63 (797) 344-2571,8
2,Gaven Brito,+51 (870) 799-2308,2
5,Ramon Lawrence,+66 (557) 061-3844,5
4,Corine Dunseith,+63 (797) 344-2571,8

Overwriting /tmp/data.csv


In [81]:
df = pd.read_csv('/tmp/data.csv')

display(
    df,
    df.dtypes
)

Unnamed: 0,clientId,name,phone,companyId
0,1,Hersch Szymanowicz,+237 (561) 702-4118,3
1,2,Gaven Brito,+51 (870) 799-1508,7
2,3,Maressa Pavlishchev,+62 (350) 377-8621,4
3,4,Corine Dunseith,+63 (797) 344-2571,8
4,5,Ramon Lawrence,+66 (557) 865-3845,6
5,6,Ibbie Whitehouse,+98 (495) 896-6408,1
6,7,Neils Capelen,+86 (361) 914-8734,6
7,8,Thia Malkie,+46 (564) 145-8997,4
8,9,Missy Folomkin,+33 (962) 798-0776,7
9,10,Eleanor Gallamore,+86 (366) 702-2334,5


clientId      int64
name         object
phone        object
companyId     int64
dtype: object

In [82]:
#
# La función duplicaated() indica si el registro
# completo está duplicado.
#
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
12    False
13    False
14     True
dtype: bool

In [87]:
#
# Visualización de los registros duplicados
#
df[df.duplicated(keep='first')]

Unnamed: 0,clientId,name,phone,companyId
10,7,Neils Capelen,+86 (361) 914-8734,6
11,4,Corine Dunseith,+63 (797) 344-2571,8
14,4,Corine Dunseith,+63 (797) 344-2571,8


In [88]:
#
# Visualización de los registros duplicados
#
df[df.duplicated(keep='last')]

Unnamed: 0,clientId,name,phone,companyId
3,4,Corine Dunseith,+63 (797) 344-2571,8
6,7,Neils Capelen,+86 (361) 914-8734,6
11,4,Corine Dunseith,+63 (797) 344-2571,8


In [89]:
#
# Visualización de los registros duplicados
#
df[
    df.duplicated(
        subset=["clientId", "name"],
        keep="last",
    )
]

Unnamed: 0,clientId,name,phone,companyId
1,2,Gaven Brito,+51 (870) 799-1508,7
3,4,Corine Dunseith,+63 (797) 344-2571,8
4,5,Ramon Lawrence,+66 (557) 865-3845,6
6,7,Neils Capelen,+86 (361) 914-8734,6
11,4,Corine Dunseith,+63 (797) 344-2571,8


In [91]:
#
# Visualización de los registros duplicados
#
df[
    df.duplicated(
        subset=["clientId", "name"],
        keep=False,
    )
].sort_values(by=['clientId', 'name'])

Unnamed: 0,clientId,name,phone,companyId
1,2,Gaven Brito,+51 (870) 799-1508,7
12,2,Gaven Brito,+51 (870) 799-2308,2
3,4,Corine Dunseith,+63 (797) 344-2571,8
11,4,Corine Dunseith,+63 (797) 344-2571,8
14,4,Corine Dunseith,+63 (797) 344-2571,8
4,5,Ramon Lawrence,+66 (557) 865-3845,6
13,5,Ramon Lawrence,+66 (557) 061-3844,5
6,7,Neils Capelen,+86 (361) 914-8734,6
10,7,Neils Capelen,+86 (361) 914-8734,6


In [92]:
#
# Borrado de registros duplicados
#
df[df.duplicated()]

Unnamed: 0,clientId,name,phone,companyId
10,7,Neils Capelen,+86 (361) 914-8734,6
11,4,Corine Dunseith,+63 (797) 344-2571,8
14,4,Corine Dunseith,+63 (797) 344-2571,8


In [94]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,clientId,name,phone,companyId
0,1,Hersch Szymanowicz,+237 (561) 702-4118,3
1,2,Gaven Brito,+51 (870) 799-1508,7
2,3,Maressa Pavlishchev,+62 (350) 377-8621,4
3,4,Corine Dunseith,+63 (797) 344-2571,8
4,5,Ramon Lawrence,+66 (557) 865-3845,6
5,6,Ibbie Whitehouse,+98 (495) 896-6408,1
6,7,Neils Capelen,+86 (361) 914-8734,6
7,8,Thia Malkie,+46 (564) 145-8997,4
8,9,Missy Folomkin,+33 (962) 798-0776,7
9,10,Eleanor Gallamore,+86 (366) 702-2334,5
