## SettingWithCopyWarning

Es una advertencia muy comun cuando empezamos a hacer modificacion de los datos de manera incorrecta, lo ideal es evitarla, y sucede cuando hacemos indexacion encadenada.

Las buenas practicas dicen de evitar estas indexacion en cadena, y hacerlas con los metodos `.loc` o `.iloc`

Veamos unos ejemplos

In [1]:
# cargamos df de playas

import pandas as pd
datos = pd.read_csv('playas_estacionamiento.csv')

In [2]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,31,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


In [5]:
# esto es indexacion encadenada, no hacerlo !!
datos["Capacidad automoviles"][0] = 99

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [6]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,99,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


In [8]:
# forma correcta
datos.loc[0,'Capacidad automoviles'] = 0

In [9]:
datos.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,0,8.0
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
2,04-03-053-006,25 DE mayo 0342,776/2015,28-feb.-18,13,
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
4,06-11-038-012,27 DE ABRIL 1900 / Ing. Lopez 98,0466/2017,30-dic.-17,24,8.0


### Casos comunes

##### Ejemplo 1

In [10]:
# queremos reemplazar los valores nulos en capacidad bicicletas, por cero

datos['capacidad bicicletas'].isna().sum()

22

In [13]:
datos[datos['capacidad bicicletas'].isna()]['capacidad bicicletas'] = 0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [14]:
datos['capacidad bicicletas'].isna().sum()

22

In [17]:
datos.loc[datos['capacidad bicicletas'].isna(),"capacidad bicicletas"] = 0

In [18]:
datos['capacidad bicicletas'].isna().sum()

0

In [None]:
#datos.loc[datos['capacidad bicicletas'].isna(),"capacidad bicicletas"].copy()

#### Ejemplo 2

In [19]:
datos.head(1)

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
0,04-02-003-031,12 DE octubre 81,772/2015,14-may.-18,0,8.0


In [20]:
# queremos analizar mas en detalle una porcion o slice de nuetro dataframe
# supongamos que queremos analizar las filas con capacidad de automoviles mayores a 25

capacidad_25 = datos.loc[datos["Capacidad automoviles"]>25]

In [21]:
capacidad_25.head()

Unnamed: 0,NOMENCLATURA,Dirección,Resolución habilitacion,Vencimiento habilitacion,Capacidad automoviles,capacidad bicicletas
1,04-03-046-023,25 DE mayo 0337,0465/2017,30-dic.-17,33,8.0
3,01-25-033-040,25 DE mayo 0955,1090/2007,14-jun.-15,27,8.0
6,04-05-004-059,27 DE abril 0642,0093/2017,10-mar.-22,42,8.0
7,04-05-007-057,27 DE abril 0643,630/2015,22-oct.-20,51,16.0
8,04-05-004-053,27 DE abril 0674,0078/2017,30-jun.-20,31,8.0


In [23]:
# hacemos nuestros analisis y encontramos que hay valores sin sentido y queremos cambiarlos
# por ejemplo

capacidad_25.loc[7,"capacidad bicicletas"] = 8

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


In [24]:
capacidad_25.loc[7]

NOMENCLATURA                   04-05-007-057
Dirección                   27 DE abril 0643
Resolución habilitacion             630/2015
Vencimiento habilitacion          22-oct.-20
Capacidad automoviles                     51
capacidad bicicletas                       8
Name: 7, dtype: object

In [25]:
# el problema surge de la linea 
# capacidad_25 = datos.loc[datos['Capacidad automoviles']>25,:]

capacidad_25 = datos.loc[datos['Capacidad automoviles']>25,:].copy()

In [26]:
capacidad_25.loc[7,"capacidad bicicletas"] = 8

In [27]:
# Ejemplo

In [28]:
import numpy as np
import random

In [29]:
dicc = {}

In [34]:
dicc['A'] = np.random.randint(0,3,50)

In [35]:
dicc['B'] = [random.choice('oso gato mono perro'.split()) for i in range(50)]

In [36]:
df = pd.DataFrame(dicc)

In [38]:
#df

In [40]:
df["B"].value_counts()

oso      17
mono     12
gato     11
perro    10
Name: B, dtype: int64

In [44]:
df.loc[df['A']==1,'B'].index

Int64Index([0, 2, 3, 6, 8, 10, 12, 14, 16, 17, 19, 25, 26, 28, 29, 32, 36, 40,
            41, 46],
           dtype='int64')

In [45]:
indices = df.loc[df['A']==1,'B'].index

In [46]:
df.loc[indices]

Unnamed: 0,A,B
0,1,oso
2,1,perro
3,1,perro
6,1,gato
8,1,gato
10,1,perro
12,1,mono
14,1,perro
16,1,oso
17,1,gato


In [47]:
df.loc[df['A']==1,'B'].value_counts()

oso      8
perro    5
gato     5
mono     2
Name: B, dtype: int64