## SettingWithCopyWarning

Es una advertencia muy comun cuando empezamos a hacer modificacion de los datos de manera incorrecta, lo ideal es evitarla, y sucede cuando hacemos indexacion encadenada.

Las buenas practicas dicen de evitar estas indexacion en cadena, y hacerlas con los metodos `.loc` o `.iloc`

Veamos unos ejemplos

In [1]:
# cargamos df de playas

import pandas as pd
datos = pd.read_csv('playas_estacionamiento.csv')
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,31,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


In [2]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,31,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


In [3]:
# esto es indexacion encadenada, no hacerlo !!
datos["Capacidad automoviles"][0] = 99

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [4]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,99,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


In [5]:
datos.loc[0,"Capacidad automoviles"] = 0
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,0,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


### Casos comunes

##### Ejemplo 1

In [6]:
# queremos reemplazar los valores nulos en capacidad bicicletas, por cero

datos['capacidad bicicletas'].isna().sum()

22

In [7]:
datos[datos['capacidad bicicletas'].isna()]["capacidad bicicletas"] = 0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [8]:
datos['capacidad bicicletas'].isna().sum()

22

In [9]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,0,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


In [10]:
datos.loc[datos['capacidad bicicletas'].isna(),'capacidad bicicletas'] = 0

In [11]:
datos['capacidad bicicletas'].isna().sum()

0

In [12]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,0,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,0.0
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


#### Ejemplo 2

In [14]:
# queremos analizar mas en detalle una porcion o slice de nuetro dataframe
# supongamos que queremos analizar las filas con capacidad de automoviles mayores a 25

capacidad_25 = datos.loc[datos['Capacidad automoviles']>25,:]

In [15]:
capacidad_25.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
6,04-05-004-059,27 DE abril 0642,0093/2017,10-mar.-22,42,8.0
7,04-05-007-057,27 DE abril 0643,630/2015,22-oct.-20,51,16.0
8,04-05-004-053,27 DE abril 0674,0078/2017,30-jun.-20,31,8.0


In [17]:
# hacemos nuestros analisis y encontramos que hay valores sin sentido y queremos cambiarlos
# por ejemplo

capacidad_25.loc[7,'capacidad bicicletas'] = 8


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


In [18]:
capacidad_25.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
6,04-05-004-059,27 DE abril 0642,0093/2017,10-mar.-22,42,8.0
7,04-05-007-057,27 DE abril 0643,630/2015,22-oct.-20,51,8.0
8,04-05-004-053,27 DE abril 0674,0078/2017,30-jun.-20,31,8.0


In [19]:
# el problema surge de la linea 
# capacidad_25 = datos.loc[datos['Capacidad automoviles']>25,:]


capacidad_25 = datos.loc[datos['Capacidad automoviles']>25,:].copy()
capacidad_25.loc[7,'capacidad bicicletas'] = 8


In [20]:
capacidad_25.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
6,04-05-004-059,27 DE abril 0642,0093/2017,10-mar.-22,42,8.0
7,04-05-007-057,27 DE abril 0643,630/2015,22-oct.-20,51,8.0
8,04-05-004-053,27 DE abril 0674,0078/2017,30-jun.-20,31,8.0


#### Ejemplo 3

Consulta clase: supongamos que quiero hacer value_count() de la columna B, para todos los casos en que el valor en la columna A sea igual a 1

In [34]:
import random 
import numpy as np
import pandas as pd

In [35]:
dicc = {}

In [36]:
dicc['A'] = np.random.randint(0,3,50)

In [37]:
dicc['B'] = [random.choice('oso gato perro caballo'.split()) for i in range(50)]

In [38]:
datos = pd.DataFrame(dicc)

In [39]:
datos

Unnamed: 0,A,B
0,2,oso
1,0,gato
2,1,oso
3,2,perro
4,2,oso
5,2,perro
6,2,gato
7,1,gato
8,2,oso
9,2,oso


In [40]:
datos['B'].value_counts()

oso        17
caballo    11
perro      11
gato       11
Name: B, dtype: int64

In [41]:
datos.loc[datos['A']==1,'B']

2         oso
7        gato
12    caballo
15       gato
18       gato
26    caballo
32      perro
36      perro
40    caballo
46        oso
Name: B, dtype: object

In [42]:
indices = datos.loc[datos['A']==1,'B'].index

In [43]:
datos.loc[indices]

Unnamed: 0,A,B
2,1,oso
7,1,gato
12,1,caballo
15,1,gato
18,1,gato
26,1,caballo
32,1,perro
36,1,perro
40,1,caballo
46,1,oso


In [44]:
datos.loc[datos['A']==1,'B'].value_counts()

caballo    3
gato       3
perro      2
oso        2
Name: B, dtype: int64

In [45]:
# como NO hacerlo

datos[datos['A']==1]["B"] = 'leon'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [46]:
datos

Unnamed: 0,A,B
0,2,oso
1,0,gato
2,1,oso
3,2,perro
4,2,oso
5,2,perro
6,2,gato
7,1,gato
8,2,oso
9,2,oso


In [47]:
# como hacerlo
datos.loc[datos['A']==1,'B'] = 'leon'


In [48]:
datos

Unnamed: 0,A,B
0,2,oso
1,0,gato
2,1,leon
3,2,perro
4,2,oso
5,2,perro
6,2,gato
7,1,leon
8,2,oso
9,2,oso
