# Eliminar Duplicados

In [4]:
import pandas as pd
import numpy as np

In [7]:
data1 = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"], "k2": [1, 1, 2, 3, 3, 4, 4]})

print(data1)

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
6  two   4


El método que vamos a emplear nos indica con un Verdadero o Falso si la fila está duplicada o no:

In [9]:
data2= data1.duplicated()

print(data2)

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool


Con drop_duplicates directamente eliminamos los duplicados:

In [11]:
data3= data1.drop_duplicates()

print(data3)

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4


Ambos métodos analizados consideran todas las columnas, alternativamente podemos especificar cualquier subset para detectar duplicados. Supongamos que tenemos una columna adicional, pero queremos eliminar duplicados considerando sólo la columna 1:

In [12]:
data1["v1"]= range(7)

print(data1)

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6


In [16]:
data4= data1.drop_duplicates(["k1"])

print(data4)

    k1  k2  v1
0  one   1   0
1  two   1   1


Para este último método, por defecto se mantiene la primera observación encontrada. Para dejar la última, agregamos la siguiente indicación:

In [20]:
data5= data1.drop_duplicates(["k1", "k2"], keep= "first")

print(data5)

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5


In [19]:
data6= data1.drop_duplicates(["k1", "k2"], keep= "last")

print(data6)

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
6  two   4   6


El método de remover duplicados puede usarse para dejar el primer registro de varios, con el que tenga el mayor valor asociado:

In [21]:
xlsx= pd.ExcelFile('examples\Inventario_202008.xlsx')

File1= pd.read_excel(xlsx)

print(File1.head())

   SISTEMA  SUCURS  LINEA_TIPO  OPERCTA  CODGARORIG  CODGAR  PRODGARANT  \
0        4       1           0   332877           0       0           0   
1        4       1           0   336444           0       0           0   
2        4       1           0   340698           0       0           0   
3        4       1           0   342689           0       0           0   
4        4       1           0   344224           0       0           0   

   GTIAPREFER  CODIDENT     NROIDENT  ...  LIMITE FLAG_USAR_ RATIO_PREV  \
0         0.0        11  27278296038  ...       0          0          0   
1         0.0        11  27361059811  ...       0          0          0   
2         0.0        11  27112138469  ...       0          0          0   
3         0.0        11  27180636833  ...       0          0          0   
4         0.0        11  27282101926  ...       0          0          0   

  SALDO_EAD PREVISION_ CTA_ACTIVO  CTA_SDO_NO  PPOPEESN9  PVAINCON9  PVAPVCON9  
0         0      

Seleccionamos las columnas a usar:

In [23]:
File8= File1[["NROIDENT", "CODSIT"]]

print(File8)

           NROIDENT CODSIT
0       27278296038      1
1       27361059811      1
2       27112138469      1
3       27180636833      1
4       27282101926      1
...             ...    ...
125816  27379426714      5
125817  27270473747      5
125818  27303624746      3
125819  27350652472      5
125820  30711163790      1

[125821 rows x 2 columns]


Ordenamos de forma ascendente por Nroident y descendente por CODSIT:

In [25]:
File9= File8.sort_values(by= ["NROIDENT", "CODSIT"], ascending= False)

Eliminamos duplicados:

In [None]:
File10= File9.drop_duplicates(["NROIDENT"])

# Reemplazar Valores

## Series

In [21]:
data7= pd.Series([1., -999., 2., -999., -1000., 3.])

print(data7)

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64


Hagamos de cuenta que queremos reemplazar el -999 con NaN, hacemos lo siguiente:

In [23]:
data8= data7.replace(-999, np.nan)

print(data8)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64


También podemos reemplazar varios valores al mismo tiempo:

In [24]:
data9= data7.replace([-999, -1000], np.nan)

print(data9)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64


Si queremos un reemplazo distinto para cada valor:

In [25]:
data10= data7.replace([-999, -1000], [np.nan, 0])

print(data10)

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64


El argumento también puede ser un diccionario

In [26]:
data11= data7.replace({-999: np.nan, -1000:0})

print(data11)

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64


## DataFrame

### Reemplazamos un valor exacto por otro

Extraemos las columnas que necesitamos (notar que no extraemos la columna con la que vamos a operar):

In [1]:
File2= File1[["SUCURS", "OPERCTA", "NROIDENT", "NOMBRE", "DEUDA", "PRODUC_SFB", "DIASATR"]]

NameError: name 'File1' is not defined

Reemplazamos, al hacerlo se genera una serie:

In [2]:
File3= File1["CODSIT"].replace(["2A", "2B", "2C"], "2")

NameError: name 'File1' is not defined

Concatenamos la tabla original con la serie. La serie adopta el nombre que había perdido.

In [None]:
File4= pd.concat([File2, File3], axis= 1)  

Filtramos sólo para controlar que esté bien:

In [20]:
File5= File4[File4["CODSIT"] == "2"]

print(File5.head())

       SUCURS  OPERCTA     NROIDENT                           NOMBRE  \
231         1   451231  20413694885           ANDINO, LEONARDO DAVID   
236         1   454227  20305958744           OYARZUN, ROBERTO DARIO   
238         1   454281  27316218119     CASTRO, VIRHUEZ JESICA MABEL   
242         1   454601  20055200190              SANCHEZ JUAN CARLOS   
13262       5   221619  30710235534  VIRTUAL GASNET INTERNACIONAL SA   

           DEUDA  PRODUC_SFB  DIASATR CODSIT  
231    242789.71         692        0      2  
236    152447.12         692        0      2  
238     94053.69         692        0      2  
242    493943.87         692        0      2  
13262   17088.53         103      123      2  


### Reemplazamos símbolos

In [8]:
xlsx1= pd.ExcelFile("examples\Maestro_Actividad.xlsx")

Maestro= pd.read_excel(xlsx1)

print(Maestro)

     Grupo                        Descripción de la actividad       Agrup_0
0      1.1                                Cultivos temporales  Agropecuario
1      1.2                                  Cultivos perennes  Agropecuario
2      1.3  Producción de semillas y de otras formas de pr...  Agropecuario
3      1.4                                   Cría de animales  Agropecuario
4      1.6           Servicios de apoyo agrícolas y pecuarios  Agropecuario
..     ...                                                ...           ...
218   95.2  Reparación de efectos personales y enseres dom...     Servicios
219   96.0                        Servicios personales n.c.p.     Servicios
220   97.0  Servicios de hogares privados que contratan se...     Servicios
221   99.8                 Otros trabajadores del transporte.     Servicios
222   99.0  Servicios de organizaciones y órganos extrater...     Servicios

[223 rows x 3 columns]


In [9]:
Maestro['Grupo'] = Maestro['Grupo'].astype(str)

Maestro['Grupo'] = (Maestro['Grupo'].replace('\.','', regex=True))

print(Maestro)

    Grupo                        Descripción de la actividad       Agrup_0
0      11                                Cultivos temporales  Agropecuario
1      12                                  Cultivos perennes  Agropecuario
2      13  Producción de semillas y de otras formas de pr...  Agropecuario
3      14                                   Cría de animales  Agropecuario
4      16           Servicios de apoyo agrícolas y pecuarios  Agropecuario
..    ...                                                ...           ...
218   952  Reparación de efectos personales y enseres dom...     Servicios
219   960                        Servicios personales n.c.p.     Servicios
220   970  Servicios de hogares privados que contratan se...     Servicios
221   998                 Otros trabajadores del transporte.     Servicios
222   990  Servicios de organizaciones y órganos extrater...     Servicios

[223 rows x 3 columns]


# Reenombramos Indices de Filas y Columnas

In [45]:
data12= pd.DataFrame(np.arange(12).reshape((3,4)), 
                     index= ["Ohio", "Colorado", "New York"], 
                     columns= ["one", "two", "three", "four"])

print(data12)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11


Empezamos modificando el índice de las columnas:

In [46]:
data13= data12.rename(index= str.title, columns= str.upper)

print(data13)

          ONE  TWO  THREE  FOUR
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11


Ahora vamos a reemplazar Ohio por Indiana y THREE por peekaboo:

In [48]:
data14= data12.rename(index={"Ohio": "Indiana"}, columns= {"three": "peekaboo"})

print(data14)

          one  two  peekaboo  four
Indiana     0    1         2     3
Colorado    4    5         6     7
New York    8    9        10    11
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11


Si queremos modificar el objeto original, procedemos de la siguiente manera:

In [49]:
data12.rename(index= {"Ohio": "Indiana"}, inplace= True) #Si no ponemos el "inplace", crea un objeto nuevo

print(data12)

          one  two  three  four
Indiana     0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11
