<a href="https://colab.research.google.com/github/Danangellotti/Ciencia_de_Datos_UGR_24/blob/main/u3_limpieza_parte.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# UNIDAD III - Limpieza y preparación

El notebook esta basado en el contenido del libro Python for Data Analysis.
[Chapter 7 Data Cleaning and Preparation. (Wes McKinney)](https://wesmckinney.com/book/data-cleaning)



# Inicializaciones

## Importamos dependencias

In [None]:
import numpy as np
import pandas as pd


### Parametros por defecto

In [None]:
np.random.seed(12345)

# Datos faltantes / perdidos

Mucha veces ocurre que en un conjunto de datos existentes, no existe un dato en particular. A esto nos refericmos como datos faltantes o no disponibles o **NA** (_not available_). Por lo general los datos faltantes pueden deberse a que no existen los datos, o no se pudieron medir, o no se pudieron medir correctamente.

Ante la ausencia de datos pandas utiliza el valor especial np.NaN (proveniente de `numpy`). Este valor puede aparecer en datasets y series, y representa ausencia de información.



In [None]:
float_data = pd.Series([1.2, -3.5, np.nan, None, 0])
float_data

0    1.2
1   -3.5
2    NaN
3    NaN
4    0.0
dtype: float64

`isna()` retorna una serie booleana con True donde hay valores nulos (`NaN` o `None`)

In [None]:
float_data.isna()

0    False
1    False
2     True
3     True
4    False
dtype: bool

Las series con `dtype` `object` tambien puede tener valores nulos

In [None]:
string_data = pd.Series(["aardvark", np.nan, None, "avocado"])
string_data

0    aardvark
1         NaN
2        None
3     avocado
dtype: object

In [None]:
string_data.isna()

0    False
1     True
2     True
3    False
dtype: bool

Si existen valores nulos, pandas trata de armar una serie float, podemos forzar a que sea de entereos usando el `dtype` 'Int64'

In [None]:
int_data = pd.Series([1, 2, None], dtype="Int64")
int_data

0       1
1       2
2    <NA>
dtype: Int64

In [None]:
int_data.isna()

0    False
1    False
2     True
dtype: bool

## Como encontramos valores NA

In [None]:
data = pd.Series([1, np.nan, 3.5, np.nan, None, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    NaN
5    7.0
dtype: float64

In [None]:
df = pd.DataFrame([data, data, data])
df.columns = ["A", "B", "C", "D", "E", "F"]
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,,3.5,,,7.0
1,1.0,,3.5,,,7.0
2,1.0,,3.5,,,7.0


In [None]:
# donde estan los na
df.isna()

Unnamed: 0,A,B,C,D,E,F
0,False,True,False,True,True,False
1,False,True,False,True,True,False
2,False,True,False,True,True,False


In [None]:
# que columnas tinen todos NA?
df.isna().all()

A    False
B     True
C    False
D     True
E     True
F    False
dtype: bool

In [None]:
# que columnas tienen al menos algun NA
df.isna().any()


A    False
B     True
C    False
D     True
E     True
F    False
dtype: bool

In [None]:
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,,3.5,,,7.0
1,1.0,,3.5,,,7.0
2,1.0,,3.5,,,7.0


In [None]:
#que renglones tienen todos NA
df.isna().all(axis=1)

0    False
1    False
2    False
dtype: bool

In [None]:
# que renglon tienen al menos algun NA
df.isna().any(axis=1)

0    True
1    True
2    True
dtype: bool

In [None]:
df


Unnamed: 0,A,B,C,D,E,F
0,1.0,,3.5,,,7.0
1,1.0,,3.5,,,7.0
2,1.0,,3.5,,,7.0


In [None]:

# sumar NAs para saber cuantos NA hay en un eje
df.isna().sum()

A    0
B    3
C    0
D    3
E    3
F    0
dtype: int64

In [None]:
# cuantos na hay en cada fila
df.isna().sum(axis="columns")

0    3
1    3
2    3
dtype: int64

In [None]:
# info tambien muestra datos de non nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       0 non-null      float64
 2   C       3 non-null      float64
 3   D       0 non-null      float64
 4   E       0 non-null      float64
 5   F       3 non-null      float64
dtypes: float64(6)
memory usage: 272.0 bytes


## Filtrar datos perdidos (dropna)

Existe dos metodos utiles para manipular datos perdidos o no disponibles

* dropna() -> sirve para **quitar** datos cuando hay datos "no disponibles" (NA o perdidos)
* fillna() -> sirve para **completar** cuando hay datos perdidos


`dropna` retorna un nuevo dataframe filtrando los valores null

In [None]:
data = pd.Series([1, np.nan, 3.5, np.nan, None, 7])
data.dropna()

0    1.0
2    3.5
5    7.0
dtype: float64

Existen muchas opciones para controlar el comportamiento de [`dropna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) en series y en dataframe

In [None]:
# armamos un dataset con varios datos NA
data = pd.DataFrame([[1., 6.5, 3.],
                     [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan],
                     [np.nan, 6.5, 3.]])

data.columns = ["A", "B", "C"]

data

Unnamed: 0,A,B,C
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
# quita todos los renglones con algun NA (not available)
data.dropna()

Unnamed: 0,A,B,C
0,1.0,6.5,3.0


Con `how` definimos como quitar.
* "any" quita el row si al menos hay algun NA. (default)
* "all" quita solo si todos son NA

In [None]:
data.dropna(how="all")

Unnamed: 0,A,B,C
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


`axis` indica que eliminar.

* 'index' o 0 : remueve renglones
* 'columns' o 1 : remueve columnas.


In [None]:
# agregamos una columna toda NA
data["D"] = np.nan

# mostramos
data

Unnamed: 0,A,B,C,D
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [None]:
# removemos la unica columna que tiene todos sus valores NA
data.dropna(axis="columns", how="all")

Unnamed: 0,A,B,C
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


El parámetro `tresh` indica desde cuando opera `dropna`. `dropna` funciona cuando la cantidad de NA son mayor o igual a `tresh`

In [None]:
df = pd.DataFrame(np.random.standard_normal((7, 3)))
df

Unnamed: 0,0,1,2
0,-0.204708,0.478943,-0.519439
1,-0.55573,1.965781,1.393406
2,0.092908,0.281746,0.769023
3,1.246435,1.007189,-1.296221
4,0.274992,0.228913,1.352917
5,0.886429,-2.001637,-0.371843
6,1.669025,-0.43857,-0.539741


In [None]:
# agregamos algunos ceros
df.iloc[0:4, 1] = np.nan
df.iloc[0:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.204708,,
1,-0.55573,,
2,0.092908,,0.769023
3,1.246435,,-1.296221
4,0.274992,0.228913,1.352917
5,0.886429,-2.001637,-0.371843
6,1.669025,-0.43857,-0.539741


In [None]:
df.dropna()


Unnamed: 0,0,1,2
4,0.274992,0.228913,1.352917
5,0.886429,-2.001637,-0.371843
6,1.669025,-0.43857,-0.539741


In [None]:
# quita cuando hay dos o mas
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.092908,,0.769023
3,1.246435,,-1.296221
4,0.274992,0.228913,1.352917
5,0.886429,-2.001637,-0.371843
6,1.669025,-0.43857,-0.539741


In [None]:
# dropear cuando hay nan en la serie 2
df.dropna(subset=[2])


Unnamed: 0,0,1,2
2,1.30672,,-0.30135
3,0.498791,,1.320566
4,0.507965,-0.653438,0.18698
5,-0.391725,-0.272293,-0.017141
6,0.680321,0.635512,-0.757177


## Llenar datos perdidos (fillna)

`fillna` se puede usar para llenar / completar los datos perdidos.

In [None]:
# armamos dataframe de ejemplo
df = pd.DataFrame(np.random.standard_normal((7, 3)))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.476985,,
1,-0.577087,,
2,0.523772,,1.34381
3,-0.713544,,-2.370232
4,-1.860761,-0.860757,0.560145
5,-1.265934,0.119827,-1.063512
6,0.332883,-2.359419,-0.199543


`fillna` retorna un DataFrame llenando cualquier valor NA con el valor especificado

In [None]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.476985,0.0,0.0
1,-0.577087,0.0,0.0
2,0.523772,0.0,1.34381
3,-0.713544,0.0,-2.370232
4,-1.860761,-0.860757,0.560145
5,-1.265934,0.119827,-1.063512
6,0.332883,-2.359419,-0.199543


Podemos hacer que funcione con ciertos valores para cada columna

In [None]:
# usar 0.5 para la segunda columna y 0.0 para la última
df.fillna({1: 0.5, 2: 7})

Unnamed: 0,0,1,2
0,0.476985,0.5,7.0
1,-0.577087,0.5,7.0
2,0.523772,0.5,1.34381
3,-0.713544,0.5,-2.370232
4,-1.860761,-0.860757,0.560145
5,-1.265934,0.119827,-1.063512
6,0.332883,-2.359419,-0.199543


In [None]:
# renobramos las columnas
df.columns = ["A", "B", "C"]
df

Unnamed: 0,A,B,C
0,0.476985,,
1,-0.577087,,
2,0.523772,,1.34381
3,-0.713544,,-2.370232
4,-1.860761,-0.860757,0.560145
5,-1.265934,0.119827,-1.063512
6,0.332883,-2.359419,-0.199543


In [None]:
# Lo mas comun es tener series con nombres de strings
df.fillna({"B": 0.5, "C": 0})

Unnamed: 0,A,B,C
0,0.476985,0.5,0.0
1,-0.577087,0.5,0.0
2,0.523772,0.5,1.34381
3,-0.713544,0.5,-2.370232
4,-1.860761,-0.860757,0.560145
5,-1.265934,0.119827,-1.063512
6,0.332883,-2.359419,-0.199543


El parámetro `method` permite definir con que valores completa.
* `ffill` completa el valor con el último valor del eje 'yendo hacia adelante'.
* `bfill` completa el valor con el último valor del eje 'yendo hacia atras'.


In [None]:
df = pd.DataFrame(np.random.standard_normal((6, 3)), columns=["A", "B", "C"])
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,A,B,C
0,-1.541996,-0.970736,-1.30703
1,0.28635,0.377984,-0.753887
2,0.331286,,0.069877
3,0.246674,,1.004812
4,1.327195,,
5,0.022185,,


In [None]:
df.fillna(method="ffill")

Unnamed: 0,A,B,C
0,-1.541996,-0.970736,-1.30703
1,0.28635,0.377984,-0.753887
2,0.331286,0.377984,0.069877
3,0.246674,0.377984,1.004812
4,1.327195,0.377984,1.004812
5,0.022185,0.377984,1.004812


In [None]:
## llenar pero hasta 2
df.fillna(method="ffill", limit=2)

Unnamed: 0,A,B,C
0,-1.541996,-0.970736,-1.30703
1,0.28635,0.377984,-0.753887
2,0.331286,0.377984,0.069877
3,0.246674,0.377984,1.004812
4,1.327195,,1.004812
5,0.022185,,1.004812


In [None]:
# forward fill avanzando de columna a coluna por el mismo index
df.fillna(method="ffill", axis="columns")

Unnamed: 0,A,B,C
0,-1.541996,-0.970736,-1.30703
1,0.28635,0.377984,-0.753887
2,0.331286,0.331286,0.069877
3,0.246674,0.246674,1.004812
4,1.327195,1.327195,1.327195
5,0.022185,0.022185,0.022185


Podemos ffill y bfill para completar datos de solo ciertas columnas usando indexación de los dataframe

In [None]:
df["B"]


0   -0.970736
1    0.377984
2         NaN
3         NaN
4         NaN
5         NaN
Name: B, dtype: float64

In [None]:
df["B"].fillna(method="ffill")

0   -0.970736
1    0.377984
2    0.377984
3    0.377984
4    0.377984
5    0.377984
Name: B, dtype: float64

Podemos usar los valores estadísticos para completar los NAs.

Por ejemplo, completar los NA de una `Serie`| con su **media**.

In [None]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])

data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

Como completar los NAs con las **medias** en un `DataFrame`

In [None]:
# generamos el dataframe de ejemplo
dff = pd.DataFrame(np.random.randn(10, 3), columns=list("ABC"))

dff.iloc[3:5, 0] = np.nan

dff.iloc[4:6, 1] = np.nan

dff.iloc[5:8, 2] = np.nan

dff

Unnamed: 0,A,B,C
0,0.86258,-0.010032,0.050009
1,0.670216,0.852965,-0.955869
2,-0.023493,-2.304234,-0.652469
3,,-1.33261,1.074623
4,,,1.001543
5,-0.503087,,
6,-0.726213,0.222896,
7,-1.157719,0.816707,
8,1.010737,1.824875,-0.997518
9,0.850591,-0.131578,0.912414


In [None]:
# mean() retona una serie con los valores de media de cada columna / serie
dff.mean()

A    0.122951
B   -0.007626
C    0.061819
dtype: float64

In [None]:
# fillna, completa los NAs usando un valor distinto para cada serie matcheando
#  por el nombre de la serie
dff.fillna(dff.mean())

Unnamed: 0,A,B,C
0,0.86258,-0.010032,0.050009
1,0.670216,0.852965,-0.955869
2,-0.023493,-2.304234,-0.652469
3,0.122951,-1.33261,1.074623
4,0.122951,-0.007626,1.001543
5,-0.503087,-0.007626,0.061819
6,-0.726213,0.222896,0.061819
7,-1.157719,0.816707,0.061819
8,1.010737,1.824875,-0.997518
9,0.850591,-0.131578,0.912414


## Transformar inplace

In [None]:
# armamos dataframe de ejemplo
df = pd.DataFrame(np.random.standard_normal((6, 3)))
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.589488,1.5817,-0.528735
1,0.457002,0.929969,-1.569271
2,-1.022487,,0.220487
3,-0.193401,,-1.648985
4,-2.252797,,
5,0.70211,,


In [None]:
df.dropna(thresh=2, inplace=True)


In [None]:
df

Unnamed: 0,0,1,2
0,-0.589488,1.5817,-0.528735
1,0.457002,0.929969,-1.569271
2,-1.022487,,0.220487
3,-0.193401,,-1.648985


In [None]:
df.fillna(method="ffill") # vs inplace=True

Unnamed: 0,0,1,2
0,0.188211,2.169461,-0.114928
1,2.003697,0.02961,0.795253
2,0.11811,0.02961,0.58497
3,0.152677,0.02961,-0.56254
4,-0.032664,0.02961,-0.56254
5,-0.036264,0.02961,-0.56254


In [None]:
df

Unnamed: 0,0,1,2
0,0.188211,2.169461,-0.114928
1,2.003697,0.02961,0.795253
2,0.11811,,0.58497
3,0.152677,,-0.56254
4,-0.032664,,
5,-0.036264,,


# Transformaciones

## Quitar duplicados

A continuación un conjunto de funciones de pandas utiles para poder transformar los datos con el fin de limpiarlos y preparlos.

In [None]:
k1 = ["one", "two"] * 3 + ["two"]
k2 = [1, 1, 2, 3, 3, 4, 4]

data = pd.DataFrame({"k1": k1,
                     "k2": k2})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


El método `duplicate` sirve para encontrar renglones repetidos que tengan valores repetidos en todas o algunas columnas. Si hay varios duplicados, mantiene el primero y marca el resto como duplicados.

In [None]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

`drop_duplicates` sirve para elimnar los duplicados. Si hay varios duplicados, mantiene el primero y elimina el resto como duplicados.

In [None]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


El analisis de duplicados se puede hacer con un sub-conjunto de columnas.

In [None]:
# de esta manera se pueden agregar columnas al dataframe
data["v1"] = [0, 1, 2, 3, 4, 5, 6]

data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [None]:
data.drop_duplicates(subset=["k1"])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


Podemos elegir quedarnos con los últimos duplicados

In [None]:
data.drop_duplicates(subset=["k1"], keep='last')

Unnamed: 0,k1,k2,v1
4,one,3,4
6,two,4,6


## Quitar ejes

Método `drop`


In [None]:
k1 = ["one", "two"] * 3 + ["two"]
k2 = [1, 1, 2, 3, 3, 4, 4]
v1 = [0, 1, 2, 3, 4, 5, 6]

data = pd.DataFrame({"k1": k1,
                     "k2": k2,
                     "v1": v1 })
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


Eliminar renglones por su `index`

In [None]:
data.drop(index=[0,2,4,6])

Unnamed: 0,k1,k2,v1
1,two,1,1
3,two,3,3
5,two,4,5


Eliminar columnas

In [None]:
data.drop(columns=["v1"])

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


## Remplazar valores

In [None]:
data = pd.Series([1., -999., 2., -999., -1000., 3. ,2, 4, 7])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
6       2.0
7       4.0
8       7.0
dtype: float64

Otra manera de realizar transformaciones es con [`replace`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html)

Supongamos que detectamos valores extremos que no corresponde a una medición con sentido.

In [None]:
# podemos reemplazar de aun valor
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
6       2.0
7       4.0
8       7.0
dtype: float64

In [None]:
# si pasamos una lista podemos reemplazar varios valores en unico valor
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [None]:
# podemos reemplazar varios valores y asignar un con una lista el valor
# por el cual reemplazar
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [None]:
# Lo mismo de arriba se puede hacer con un diccionario (similiar a map).
# A diferencia de 'map', 'replace' no acepta una funcion como argumento
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

## Transformar valores con funciones

Que pasa si tenemos que generar o reemplazar con un valor que no es siempre el mismo.

In [None]:
data = pd.DataFrame({"food": ["bacon", "pulled pork", "bacon",
                              "pastrami", "corned beef", "bacon",
                              "pastrami", "honey ham", "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


Como agregar una columna

In [None]:
data["nuevo1"] = [1,2,3,4,5,6,7,8,9]

data["nuevo2"] = 2

data["nuevo3"] = np.random.randint(1, 20, size=9)

data

Unnamed: 0,food,ounces,nuevo1,nuevo2,nuevo3
0,bacon,4.0,1,2,7
1,pulled pork,3.0,2,2,9
2,bacon,12.0,3,2,7
3,pastrami,6.0,4,2,12
4,corned beef,7.5,5,2,2
5,bacon,8.0,6,2,2
6,pastrami,3.0,7,2,18
7,honey ham,5.0,8,2,1
8,nova lox,6.0,9,2,14


Supongamos que tenemos que agregar una columna animal determinada por la informacion de su alimento.

Para estos casos se puede usar `map` de Series` que retorna un valor dependendiendo si se le pasa una función o un diccionario

In [None]:
meat_to_animal = {
  "bacon": "pig",
  "pulled pork": "pig",
  "pastrami": "cow",
  "corned beef": "cow",
  "honey ham": "pig",
  "nova lox": "salmon"
}

In [None]:
data["animal"] = data["food"].map(meat_to_animal)
data

Unnamed: 0,food,ounces,nuevo1,nuevo2,nuevo3,animal
0,bacon,4.0,1,2,14,pig
1,pulled pork,3.0,2,2,1,pig
2,bacon,12.0,3,2,8,pig
3,pastrami,6.0,4,2,4,cow
4,corned beef,7.5,5,2,18,cow
5,bacon,8.0,6,2,13,pig
6,pastrami,3.0,7,2,15,cow
7,honey ham,5.0,8,2,13,pig
8,nova lox,6.0,9,2,11,salmon


map() también acepta una función como parametro

In [None]:
# reemplazar valores fuera de rango
data = pd.Series([1., -999., 2., -999., -1000., 3. ,2, 4, 7])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
6       2.0
7       4.0
8       7.0
dtype: float64

In [None]:
def filtro(x):
    if x <= -999:
      return np.nan

    return x

data.map(filtro)


0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
6    2.0
7    4.0
8    7.0
dtype: float64

## Transformar con mask mask, where

In [None]:
data <= -999


0    False
1     True
2    False
3     True
4     True
5    False
6    False
7    False
8    False
dtype: bool

In [None]:
data.mask(data <= -999, 8)  # reemplaza donde la condicion sea True

0    1.0
1    8.0
2    2.0
3    8.0
4    8.0
5    3.0
6    2.0
7    4.0
8    7.0
dtype: float64

In [None]:
data.where(data > -999, np.nan)  # remplaza donde la condicion sea False

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
6    2.0
7    4.0
8    7.0
dtype: float64

## Renombrar indices y columnas

In [None]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


Podemos cambiarlo obteniendo el indice y luego modificarlo

In [None]:
# Este es el indice original
data.index

Index(['Ohio', 'Colorado', 'New York'], dtype='object')

In [None]:
def transform(x):
    return x[:4].upper()

data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [None]:
# map retorna un nuevo index. Ahora actualizamos el nuevo indice
data.index = data.index.map(transform)
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


Con `rename` podemos cambiar los indices y las columnas de manera más concisa y flexible. Ver documentación [rename](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html)  

In [None]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [None]:
# o podemos pasar un diccionario
data.rename(index={"Ohio": "Indiana"},
            columns={"three": "peekaboo"})

Unnamed: 0,one,two,peekaboo,four
Indiana,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [None]:
# podemos pasar funciones para que realicen el cambio
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


`rename` no modifica los valores del dataframe, para eso podemos usar la opcion `inplace=True`

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [None]:
# usamos inplace, para modificar el data
data.rename(index={"Ohio": "Indiana"},
            columns={"three": "peekaboo"}, inplace=True)
data

Unnamed: 0,one,two,peekaboo,four
Indiana,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11
