## Funciones vectorizadas con `Series`

Tenemos la siguiente `Serie`

In [5]:
import pandas as pd

In [6]:
serie_1 = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

Recuerdas cómo utilizamos map para aplicar una función elemento por elemento a un arreglo. Podemos utilizar funciones vectorizadas para hacer esto mismo con Series y DataFrames de pandas. Esto resulta sumamente eficiente pues pandas está construido para funcionar de esta manera. Primero que nada, veamos cómo es posible aplicar operaciones aritméticas a Series de pandas y son aplicadas elemento por elemento. Por ejemplo: **La primera columna son las posiciones, la segunda es el resultado de la suma mas la serie**

In [7]:
serie_1 + 10

0    11
1    12
2    13
3    14
4    15
5    16
6    17
7    18
8    19
9    20
dtype: int64

In [8]:
serie_1 * 10

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64

In [9]:
(serie_1 + 10) * 100

0    1100
1    1200
2    1300
3    1400
4    1500
5    1600
6    1700
7    1800
8    1900
9    2000
dtype: int64

In [10]:
serie_1 * 60 / 100

0    0.6
1    1.2
2    1.8
3    2.4
4    3.0
5    3.6
6    4.2
7    4.8
8    5.4
9    6.0
dtype: float64

Podemos también aplicar funciones de manera vectorizada a una Serie de pandas. Esto quiere decir que, sin necesidad de utilizar map la función se aplica automáticamente a cada elemento. Vamos a utilizar una librería llamada `numpy` para probar algunas de estas funciones vectorizadas.

In [11]:
import numpy as np

In [12]:
np.power(serie_1, 2)

0      1
1      4
2      9
3     16
4     25
5     36
6     49
7     64
8     81
9    100
dtype: int64

In [13]:
np.sqrt(serie_1)

0    1.000000
1    1.414214
2    1.732051
3    2.000000
4    2.236068
5    2.449490
6    2.645751
7    2.828427
8    3.000000
9    3.162278
dtype: float64

## Agregaciones

Las agregaciones entonces aplican una función a todo el arreglo entero y regresan un único valor que es la agregación o reducción del arreglo.

`pandas` ya tiene incluidas bastantes de éstas. Así que podemos llamarlas con tan sólo usar un método de nuestra `Serie`:

In [22]:
serie1 = pd.Series([1, 2, 3, 4, 5])

In [21]:
# sum suma todos los elementos de nuestro arreglo:
serie1.sum()

np.int64(15)

In [None]:
# min y max nos dan el valor minimo, respectivamente de nuestro arreglo:
serie1.min()

np.int64(1)

In [24]:
serie1.max()

np.int64(5)

In [26]:
# count nos da el conteo total del número de elementos en nuestro arreglo:
serie1.count()

np.int64(5)

Tenemos el siguiente Dataset:

In [27]:
datos = {
    'precio': [34, 54, 223, 78, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 10, 2, 5, 45, 2],
    'productos_vendidos': [3, 45, 23, 76, 24, 6, 2]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [28]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pikame Mucho,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


Si aplicamos operaciones aritméticas a nuestro `DataFrame` la operación se aplicará elemento por elemento a nuestro `DataFrame` completo:

In [29]:
df * 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,3400,300,300
Cegatron,5400,600,4500
Pikame Mucho,22300,1000,2300
Lazarillo de Tormes,7800,200,7600
Stevie Wonder,5600,500,2400
Needle,1200,4500,600
El AyMeDuele,3400,200,200


In [30]:
(df + 100) / 2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,67.0,51.5,51.5
Cegatron,77.0,53.0,72.5
Pikame Mucho,161.5,55.0,61.5
Lazarillo de Tormes,89.0,51.0,88.0
Stevie Wonder,78.0,52.5,62.0
Needle,56.0,72.5,53.0
El AyMeDuele,67.0,51.0,51.0


También podemos aplicar funciones vectorizadas con el mismo resultado:

In [31]:
import numpy as np

In [32]:
np.power(df, 2)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1156,9,9
Cegatron,2916,36,2025
Pikame Mucho,49729,100,529
Lazarillo de Tormes,6084,4,5776
Stevie Wonder,3136,25,576
Needle,144,2025,36
El AyMeDuele,1156,4,4


In [33]:
np.sqrt(df)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,5.830952,1.732051,1.732051
Cegatron,7.348469,2.44949,6.708204
Pikame Mucho,14.933185,3.162278,4.795832
Lazarillo de Tormes,8.831761,1.414214,8.717798
Stevie Wonder,7.483315,2.236068,4.898979
Needle,3.464102,6.708204,2.44949
El AyMeDuele,5.830952,1.414214,1.414214


In [34]:
np.sin(df) + 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,100.529083,100.14112,100.14112
Cegatron,99.441211,99.720585,100.850904
Pikame Mucho,100.053053,99.455979,99.15378
Lazarillo de Tormes,100.513978,100.909297,100.566108
Stevie Wonder,99.478449,99.041076,99.094422
Needle,99.463427,100.850904,99.720585
El AyMeDuele,100.529083,100.909297,100.909297


In [35]:
df.sum()

precio                491
cantidad_en_stock      73
productos_vendidos    179
dtype: int64

Aunque podemos cambiar ese comportamiento usando axis=1 para hacerlo por fila:

In [36]:
df.sum(axis=1)

Pokemaster              40
Cegatron               105
Pikame Mucho           256
Lazarillo de Tormes    156
Stevie Wonder           85
Needle                  63
El AyMeDuele            38
dtype: int64

Todas las demás agregaciones funcionan también. El default (o `axis=0`) es hacerlo por columna, pero todas pueden funcionar por fila usando `axis=1`:

In [37]:
df.min()

precio                12
cantidad_en_stock      2
productos_vendidos     2
dtype: int64

In [38]:
df.min(axis=1)

Pokemaster              3
Cegatron                6
Pikame Mucho           10
Lazarillo de Tormes     2
Stevie Wonder           5
Needle                  6
El AyMeDuele            2
dtype: int64

In [39]:
df.max()

precio                223
cantidad_en_stock      45
productos_vendidos     76
dtype: int64

In [40]:
df.max(axis=1)

Pokemaster              34
Cegatron                54
Pikame Mucho           223
Lazarillo de Tormes     78
Stevie Wonder           56
Needle                  45
El AyMeDuele            34
dtype: int64

## Identificación y conteo de NaNs

Los NaNs se ven así:

In [41]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [42]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para contarlos podemos usar una función vectorizada llamada isna, que nos regresa esto:

In [43]:
df.isna()

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,False,False,False
Cegatron,False,False,False
Pikame Mucho,True,False,False
Lazarillo de Tormes,True,True,True
Stevie Wonder,False,False,False
Needle,False,False,False
El AyMeDuele,False,False,True


`isna` regresa True cuando encuentra un `NaN` y `False` cuando el valor es válido.

Después, podemos contar cuántos `NaNs` existen usando la agregación sum, que suma `1` por cada `True` y `0` por cada `False`:

In [44]:
df.isna().sum(axis=0)

precio                2
cantidad_en_stock     1
productos_vendidos    2
dtype: int64

In [45]:
# Con axis=0 nos regresa el conteo por columnas. Con axis=1 nos regresa el conteo por filas:
df.isna().sum(axis=1)

Pokemaster             0
Cegatron               0
Pikame Mucho           1
Lazarillo de Tormes    3
Stevie Wonder          0
Needle                 0
El AyMeDuele           1
dtype: int64

## Limpiando nans

Tenemos el siguiente dataset:

In [46]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [47]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para limpiar las filas que tengan mínimo 1 valor `NaN`, se utiliza `dropna(axis=0, how='any')`:

In [48]:
df.dropna(axis=0, how='any')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


Con el `axis=0` le estamos diciendo que queremos eliminar por filas. Con `how='any'` le decimos que queremos eliminar cualquier fila que tenga mínimo un `NaN`.

Si quisiéramos eliminar sólo las filas donde **todos** los valores sean NaN, podemos usar `axis='all'`:

In [49]:
df.dropna(axis=0, how='all')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


#### Limpiando NaNs por columnas

Vamos a agregar una columna:

In [50]:
df['descuento'] = np.nan

In [51]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Al igual que por filas, eliminar NaNs por columna también se puede hacer usando ´any´ y ´all´. La única diferencia es que ahora hay que usar axis=1 para que se haga la eliminación por columnas:

In [52]:
df.dropna(axis=1, how='any')

Pokemaster
Cegatron
Pikame Mucho
Lazarillo de Tormes
Stevie Wonder
Needle
El AyMeDuele


In [56]:
df_dropped = df.dropna(axis=1, how='all')

### Llenando NaNs con valores

Otra cosa que podemos hacer es llenar los valores NaN con algún otro valor.

Por ejemplo, digamos que tenemos este dataset:

In [57]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Lo primero que hay que hacer es eliminar filas y columnas donde todos los valores sean NaN, puesto que no nos sirven de nada:

In [58]:
df_no_nans = df.dropna(axis=0, how='all')
df_no_nans = df_no_nans.dropna(axis=1, how='all')

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Ahora, digamos que podemos asumir que si hay un valor NaN en "productos_vendidos" es porque no ha sido vendido aún. En ese caso podemos rellenar ese NaN usando fillna:

In [59]:
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan NaNs:

In [60]:
df_no_nans.dropna(axis=0)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


In [78]:
#df1 = pd.read_csv(netflix_titles = pd.read_csv("netflix_titles.csv"))

#df1

### Limpiando NaNs en un dataset real

Para leer un archivo .csv en pandas, usamos read_csv y le indicamos que el separador (el signo que delimita las columnas en el archivo .csv) es una coma:

In [21]:
df = pd.read_csv('Characters.csv', sep=';')

df

Unnamed: 0,Id,Name,Gender,Job,House,Wand,Patronus,Species,Blood status,Hair colour,Eye colour,Loyalty,Skills,Birth,Death
0,1,Harry James Potter,Male,Student,Gryffindor,"11"" Holly phoenix feather",Stag,Human,Half-blood,Black,Bright green,Albus Dumbledore | Dumbledore's Army | Order o...,Parseltongue| Defence Against the Dark Arts | ...,31 July 1980,
1,2,Ronald Bilius Weasley,Male,Student,Gryffindor,"12"" Ash unicorn tail hair",Jack Russell terrier,Human,Pure-blood,Red,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Wizard chess | Quidditch goalkeeping,1 March 1980,
2,3,Hermione Jean Granger,Female,Student,Gryffindor,"10¾"" vine wood dragon heartstring",Otter,Human,Muggle-born,Brown,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Almost everything,"19 September, 1979",
3,4,Albus Percival Wulfric Brian Dumbledore,Male,Headmaster,Gryffindor,"15"" Elder Thestral tail hair core",Phoenix,Human,Half-blood,Silver| formerly auburn,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Considered by many to be one of the most power...,Late August 1881,"30 June, 1997"
4,5,Rubeus Hagrid,Male,Keeper of Keys and Grounds | Professor of Care...,Gryffindor,"16"" Oak unknown core",,Half-Human/Half-Giant,Part-Human (Half-giant),Black,Black,Albus Dumbledore | Order of the Phoenix | Hogw...,Resistant to stunning spells| above average st...,6 December 1928,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
135,136,Wilhelmina Grubbly-Plank,Female,Substitute professor of Care of Magical Creatu...,,Unknown,Non-corporeal,Human,,Grey,,Hogwarts School of Witchcraft and Wizardry,,,
136,137,Fenrir Greyback,Male,,,Unknown,,Werewolf,,Grey,,Lord Voldemort | Death Eaters,Physical combat,Pre 1945,
137,138,Gellert Grindelwald,Male,Revolutionary leader(c. 1920s[6] – 1945),,"15"", Elder, Thestral tail hair core",,Human,Pure-blood or half-blood,Blond,Blue,Gellert Grindelwald's Acolytes,Duelling,1883,"March, 1998"
138,139,Dobby,Male,"Malfoy family's house-elf (? - 1993),\nHogwart...",,,,House elf,,Green,,,"A type of magic specific to house-elves, perfo...",28 June,"Late March, 1998"


In [22]:
df.shape

(140, 15)

In [23]:
df.head(5)

Unnamed: 0,Id,Name,Gender,Job,House,Wand,Patronus,Species,Blood status,Hair colour,Eye colour,Loyalty,Skills,Birth,Death
0,1,Harry James Potter,Male,Student,Gryffindor,"11"" Holly phoenix feather",Stag,Human,Half-blood,Black,Bright green,Albus Dumbledore | Dumbledore's Army | Order o...,Parseltongue| Defence Against the Dark Arts | ...,31 July 1980,
1,2,Ronald Bilius Weasley,Male,Student,Gryffindor,"12"" Ash unicorn tail hair",Jack Russell terrier,Human,Pure-blood,Red,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Wizard chess | Quidditch goalkeeping,1 March 1980,
2,3,Hermione Jean Granger,Female,Student,Gryffindor,"10¾"" vine wood dragon heartstring",Otter,Human,Muggle-born,Brown,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Almost everything,"19 September, 1979",
3,4,Albus Percival Wulfric Brian Dumbledore,Male,Headmaster,Gryffindor,"15"" Elder Thestral tail hair core",Phoenix,Human,Half-blood,Silver| formerly auburn,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Considered by many to be one of the most power...,Late August 1881,"30 June, 1997"
4,5,Rubeus Hagrid,Male,Keeper of Keys and Grounds | Professor of Care...,Gryffindor,"16"" Oak unknown core",,Half-Human/Half-Giant,Part-Human (Half-giant),Black,Black,Albus Dumbledore | Order of the Phoenix | Hogw...,Resistant to stunning spells| above average st...,6 December 1928,


In [24]:
df.isna().sum()

Id               0
Name             0
Gender           1
Job             19
House           39
Wand             8
Patronus        17
Species          0
Blood status    17
Hair colour     17
Eye colour      54
Loyalty         51
Skills          27
Birth           13
Death           98
dtype: int64

Cuando hay demasiados NANs en las columnas, se procura deshacer de esas columnas:
(ejemplos:)

df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])

df_2.isna().sum()

In [28]:
df_2=df.drop(columns=['Death'])
df_2.isna().sum()

Id               0
Name             0
Gender           1
Job             19
House           39
Wand             8
Patronus        17
Species          0
Blood status    17
Hair colour     17
Eye colour      54
Loyalty         51
Skills          27
Birth           13
dtype: int64

Tambien puedes rellenar los Nans por Unknown:

df_2['Regionname'] = df_2['Regionname'].fillna('Unknown')

df_2.isna().sum()

In [29]:
df_2['Birth']=df_2['Birth'].fillna('Unknown')

Ahora eliminemos las filas que contengan al menos un NaN:

df_dropped = df_2.dropna(axis=0, how='any')

df_dropped.isna().sum()

Guardemos el resultado:

df_dropped.to_csv('../../Datasets/melbourne_housing-no_nans.csv')

In [31]:
df_dropped=df_2.dropna(axis=0, how='any')
df_dropped.isna().sum()

Id              0
Name            0
Gender          0
Job             0
House           0
Wand            0
Patronus        0
Species         0
Blood status    0
Hair colour     0
Eye colour      0
Loyalty         0
Skills          0
Birth           0
dtype: int64

### Reindexando y renombrando columnas

Limpiemos nuestro dataset hasta que esté justo como lo dejamos en el Ejemplo pasado:<br>
df = pd.read_csv('../../Datasets/melbourne_housing-raw.csv')<br>
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])<br>
df_2['Regionname'] = df_2['Regionname'].fillna('Unknown')<br>
df_dropped = df_2.dropna(axis=0, how='any')<br>
df_dropped<br>

In [32]:
df_dropped

Unnamed: 0,Id,Name,Gender,Job,House,Wand,Patronus,Species,Blood status,Hair colour,Eye colour,Loyalty,Skills,Birth
0,1,Harry James Potter,Male,Student,Gryffindor,"11"" Holly phoenix feather",Stag,Human,Half-blood,Black,Bright green,Albus Dumbledore | Dumbledore's Army | Order o...,Parseltongue| Defence Against the Dark Arts | ...,31 July 1980
1,2,Ronald Bilius Weasley,Male,Student,Gryffindor,"12"" Ash unicorn tail hair",Jack Russell terrier,Human,Pure-blood,Red,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Wizard chess | Quidditch goalkeeping,1 March 1980
2,3,Hermione Jean Granger,Female,Student,Gryffindor,"10¾"" vine wood dragon heartstring",Otter,Human,Muggle-born,Brown,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Almost everything,"19 September, 1979"
3,4,Albus Percival Wulfric Brian Dumbledore,Male,Headmaster,Gryffindor,"15"" Elder Thestral tail hair core",Phoenix,Human,Half-blood,Silver| formerly auburn,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Considered by many to be one of the most power...,Late August 1881
6,7,Fred Weasley,Male,Student,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Beater,"1 April, 1978"
7,8,George Weasley,Male,Student,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Beater,"1 April, 1978"
8,9,Ginevra (Ginny) Molly Weasley,Female,Student,Gryffindor,Unknown,Horse,Human,Pure-blood,Red,Bright brown,Dumbledore's Army | Order of the Phoenix | Hog...,Chaser| Bat-Bogey hex,"11 August, 1981"
9,10,Dean Thomas,Male,Student,Gryffindor,Unknown,Unknown,Human,Muggle-born,Black,Brown,Dumbledore's Army | Hogwarts School of Witchcr...,Chaser,1 September 1979- 31 August 1980
14,15,Remus John Lupin,Male,Professor of Defence Against the Dark Arts,Gryffindor,"10¼"" Cypress unicorn hair",Wolf,Werewolf,Half-blood,Light brown flecked with grey,Green,Order of the Phoenix,Exceptionally gifted in Defence Against the Da...,"10 March, 1960"
16,17,Percy Ignatius Weasley,Male,Student|Prefect| Personal assistant to Barty ...,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Blue,Order of the Phoenix| Hogwarts School of Witch...,Intelligent| hard-working| a model student,"22 August, 1976"


Ahora, tenemos dos situaciones:

La primera es que nuestro índice no coincide con el número de filas que tenemos. En este caso, dado que nuestro índice es secuencial y numérico, y no tiene ningún significado además de eso, nos convendría que reflejara la cantidad de filas que tenemos en nuestro dataset.
Para lograr eso vamos a usar el método reset_index:

In [33]:
df_dropped.reset_index()

Unnamed: 0,index,Id,Name,Gender,Job,House,Wand,Patronus,Species,Blood status,Hair colour,Eye colour,Loyalty,Skills,Birth
0,0,1,Harry James Potter,Male,Student,Gryffindor,"11"" Holly phoenix feather",Stag,Human,Half-blood,Black,Bright green,Albus Dumbledore | Dumbledore's Army | Order o...,Parseltongue| Defence Against the Dark Arts | ...,31 July 1980
1,1,2,Ronald Bilius Weasley,Male,Student,Gryffindor,"12"" Ash unicorn tail hair",Jack Russell terrier,Human,Pure-blood,Red,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Wizard chess | Quidditch goalkeeping,1 March 1980
2,2,3,Hermione Jean Granger,Female,Student,Gryffindor,"10¾"" vine wood dragon heartstring",Otter,Human,Muggle-born,Brown,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Almost everything,"19 September, 1979"
3,3,4,Albus Percival Wulfric Brian Dumbledore,Male,Headmaster,Gryffindor,"15"" Elder Thestral tail hair core",Phoenix,Human,Half-blood,Silver| formerly auburn,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Considered by many to be one of the most power...,Late August 1881
4,6,7,Fred Weasley,Male,Student,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Beater,"1 April, 1978"
5,7,8,George Weasley,Male,Student,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Beater,"1 April, 1978"
6,8,9,Ginevra (Ginny) Molly Weasley,Female,Student,Gryffindor,Unknown,Horse,Human,Pure-blood,Red,Bright brown,Dumbledore's Army | Order of the Phoenix | Hog...,Chaser| Bat-Bogey hex,"11 August, 1981"
7,9,10,Dean Thomas,Male,Student,Gryffindor,Unknown,Unknown,Human,Muggle-born,Black,Brown,Dumbledore's Army | Hogwarts School of Witchcr...,Chaser,1 September 1979- 31 August 1980
8,14,15,Remus John Lupin,Male,Professor of Defence Against the Dark Arts,Gryffindor,"10¼"" Cypress unicorn hair",Wolf,Werewolf,Half-blood,Light brown flecked with grey,Green,Order of the Phoenix,Exceptionally gifted in Defence Against the Da...,"10 March, 1960"
9,16,17,Percy Ignatius Weasley,Male,Student|Prefect| Personal assistant to Barty ...,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Blue,Order of the Phoenix| Hogwarts School of Witch...,Intelligent| hard-working| a model student,"22 August, 1976"


Nuestro índice ya está correcto, pero ahora tenemos un columna llamada index que contiene el índice original. Como no queremos guardar esos datos, agregamos la opción drop=True para eliminar el índice anterior:

In [34]:
df_dropped.reset_index(drop=True)

Unnamed: 0,Id,Name,Gender,Job,House,Wand,Patronus,Species,Blood status,Hair colour,Eye colour,Loyalty,Skills,Birth
0,1,Harry James Potter,Male,Student,Gryffindor,"11"" Holly phoenix feather",Stag,Human,Half-blood,Black,Bright green,Albus Dumbledore | Dumbledore's Army | Order o...,Parseltongue| Defence Against the Dark Arts | ...,31 July 1980
1,2,Ronald Bilius Weasley,Male,Student,Gryffindor,"12"" Ash unicorn tail hair",Jack Russell terrier,Human,Pure-blood,Red,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Wizard chess | Quidditch goalkeeping,1 March 1980
2,3,Hermione Jean Granger,Female,Student,Gryffindor,"10¾"" vine wood dragon heartstring",Otter,Human,Muggle-born,Brown,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Almost everything,"19 September, 1979"
3,4,Albus Percival Wulfric Brian Dumbledore,Male,Headmaster,Gryffindor,"15"" Elder Thestral tail hair core",Phoenix,Human,Half-blood,Silver| formerly auburn,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Considered by many to be one of the most power...,Late August 1881
4,7,Fred Weasley,Male,Student,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Beater,"1 April, 1978"
5,8,George Weasley,Male,Student,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Beater,"1 April, 1978"
6,9,Ginevra (Ginny) Molly Weasley,Female,Student,Gryffindor,Unknown,Horse,Human,Pure-blood,Red,Bright brown,Dumbledore's Army | Order of the Phoenix | Hog...,Chaser| Bat-Bogey hex,"11 August, 1981"
7,10,Dean Thomas,Male,Student,Gryffindor,Unknown,Unknown,Human,Muggle-born,Black,Brown,Dumbledore's Army | Hogwarts School of Witchcr...,Chaser,1 September 1979- 31 August 1980
8,15,Remus John Lupin,Male,Professor of Defence Against the Dark Arts,Gryffindor,"10¼"" Cypress unicorn hair",Wolf,Werewolf,Half-blood,Light brown flecked with grey,Green,Order of the Phoenix,Exceptionally gifted in Defence Against the Da...,"10 March, 1960"
9,17,Percy Ignatius Weasley,Male,Student|Prefect| Personal assistant to Barty ...,Gryffindor,Unknown,Unknown,Human,Pure-blood,Red,Blue,Order of the Phoenix| Hogwarts School of Witch...,Intelligent| hard-working| a model student,"22 August, 1976"


Guardemos nuestros cambios:

In [35]:
df_dropped = df_dropped.reset_index(drop=True)

Los datos a continuacion son un ejemplo de renombre de columnas:

Ahora tenemos un problema con los nombres de las columnas: Tienen inconsistencias en la manera cómo están nombradas y algunas incluso tienen errores ortográficos. Vamos a cambiarles los nombres para tener consistencia:

column_name_mapping = {<br>
    'Suburb': 'suburb',<br>
    'Address': 'address',<br>
    'Rooms': 'rooms',<br>
    'Type': 'type',<br>
    'Price': 'price',<br>
    'Method': 'method',<br>
    'SellerG': 'seller_g',<br>
    'Date': 'date',<br>
    'Distance': 'distance',<br>
    'Postcode': 'post_code',<br>
    'Bedroom2': 'bedrooms',<br>
    'Bathroom': 'bathroom',<br>
    'Car': 'car',<br>
    'Landsize': 'land_size',<br>
    'CouncilArea': 'council_area',<br>
    'Lattitude': 'latitude',<br>
    'Longtitude': 'longitude',<br>
    'Regionname': 'region_name',<br>
    'Propertycount': 'property_count'<br>
}<br>

df_renamed = df_dropped.rename(columns=column_name_mapping)

df_renamed


![](sesion-5_postwork.png)