# The series Data Structure

El formato series es como un cruce entre una lista y un diccionario



In [None]:
import pandas as pd

In [None]:
students = ["Alice", "Jack", "Molly"]
students

['Alice', 'Jack', 'Molly']

In [None]:
# Aquí creo un objeto series. Nótese que se crea un índice
pd.Series(students) # Toca guardarlo en un objeto


0    Alice
1     Jack
2    Molly
dtype: object

In [None]:
numbers = [1,2,3]
pd.Series(numbers) # int64

0    1
1    2
2    3
dtype: int64

In [None]:
# Handling missing data:
students = ["Alice", "Jack", None]
pd.Series(students)

0    Alice
1     Jack
2     None
dtype: object

In [None]:
numbers = [1, 2, None]
pd.Series(numbers)  # Convierte el None a NaN. De igual manera los objetos son float64.

0    1.0
1    2.0
2    NaN
dtype: float64

In [None]:
import numpy as np
np.nan == np.nan

False

In [None]:
np.isnan(np.nan)

True

In [None]:
students_scores = {"Alice": "Physics",
                   "Jack": "Chemistry",
                   "Molly": "English"}
s = pd.Series(students_scores)
s
# La serie se crea y uno como índice los nombres. 

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [None]:
s.index

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [None]:
# Crearemos una lista de tuplas
students = [("Alice", "Blue"),("Jack","Green"), ("Molly","Purple")]
pd.Series(students)  # Nótese que aquí sí se genera automáticamente un índice

0      (Alice, Blue)
1      (Jack, Green)
2    (Molly, Purple)
dtype: object

In [None]:
# Puedo pasarle explícitamente un índice a la serie
s = pd.Series(["Alice","JJack","Molly"], index = ["Physics","Chemistry","English"])
s

Physics      Alice
Chemistry    JJack
English      Molly
dtype: object

In [None]:
students_scores = {"Alice": "Physics",
                   "Jack": "Chemistry",
                   "Molly": "English"}
s = pd.Series(students_scores, index = ["Alice","Molly","Sam"])
s

Alice    Physics
Molly    English
Sam          NaN
dtype: object

# Querying a Series 
Se le puede hacer consultas a una serie ya sea por su índice o por sus etiquetas
* Para hacer una consulta por el índice toca usar .loc


In [None]:
students_scores = {"Alice": "Physics",
                   "Jack": "Chemistry",
                   "Molly": "English",
                   "Sam":"History"}
s = pd.Series(students_scores)
s

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [None]:
s.iloc[3] # Referencio con respecto al índice

'History'

In [None]:
s.loc["Sam"]  #Aquí con respecto a la etiqueta Molly

'History'

loc y iloc no son métodos, son atributos. Por lo tanto, no hace falta ponerles ()

In [None]:
# .loc y .iloc hacen lo mismo que esto...
print(s[3])
print(s["Sam"])

History
History


In [None]:
class_code = {100 : "Chemistry",
              101 : "History",
              102 : "English",
              103 : "Physics"}
s = pd.Series(class_code)
s  # Aquí se puede observar que los índices empiezan en 100

100    Chemistry
101      History
102      English
103      Physics
dtype: object

In [None]:
# s[0] causará un error

In [None]:
grades = pd.Series([90, 80, 70, 60])
total = 0
for grade in grades:
  total += grade
print(total/len(grades))  # hicimos una media. Ese loop toma mucho tiempo...
print(np.mean(grades))

75.0
75.0


La librería numpy soporta un método de computación llamado vectorización. La vectorización funciona con la mayoría de funciones de numpy

In [None]:
# Hagamos lo anterior con el método de vectorización
total = np.sum(grades)
print(total/len(grades))

75.0


In [None]:
# Probando la velocidad:
numbers = pd.Series(np.random.randint(0,1000, 10000)) # 10mil números entre 0 y 1000
numbers.head()

0    373
1    841
2    482
3    852
4    268
dtype: int64

In [None]:
len(numbers)

10000

In [None]:
# Funciones máginas: se hacen con % y con tab al mismo tiempo!
%%timeit -n 1000
total = 0
for number in numbers:
  total += number
total/len(numbers)

1000 loops, best of 5: 1.42 ms per loop


In [None]:
# Ahora con vectorización
%%timeit -n 1000
total = np.sum(numbers)
total/len(numbers)
# Es mucho más rápidoooo

1000 loops, best of 5: 60.4 µs per loop


In [None]:
# Sumemos 2 unidades a cada número en numbers. Se hace con +=
numbers +=2
numbers.head()

0    375
1    843
2    484
3    854
4    270
dtype: int64

In [None]:
# DEPRECATED!!!!
# Esto también viene de numpy, para hacer iteraciones de una manera rápida.
for label, value in numbers.iteritems():
  numbers.set_value(label, value+2)  # Ya no existe eso...

AttributeError: ignored

In [None]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,1000,10000))
s+=2

10 loops, best of 5: 478 µs per loop


In [None]:
s = pd.Series([1, 2, 3])
s.loc["History"] = 102
s
# No hay problema. History se crea como un índice
s["History"] = 103 # Hace lo mismo.
s

0            1
1            2
2            3
History    103
dtype: int64

In [None]:
students_classes = pd.Series({"Molly":"Physics",
                             "Jack" : "Chemistry",
                             "Ana": "History"})

In [None]:
kelly_classes = pd.Series(["Philosophy","Arts","Math"], index = ["Kelly", "Kelly","Kelly"])
kelly_classes

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [None]:
all_students_classes =students_classes.append(kelly_classes) # Le estoy "pegando" los valores
all_students_classes

Molly       Physics
Jack      Chemistry
Ana         History
Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [None]:
students_classes

Molly      Physics
Jack     Chemistry
Ana        History
dtype: object

In [None]:
all_students_classes.loc["Kelly"] # Loc es para las etiquetas!

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

# The Data Frame data structure

El data frame es conceptualmente un objeto Series de dos dimensiones 

In [None]:
record1 = pd.Series({"Name":"Kelly",
                     "Class":"Physics",
                     "grade": 90})
record2 = pd.Series({"Name":"Jack",
                     "Class":"Chemistry",
                     "grade": 80})
record3 = pd.Series({"Name":"Hellen",
                     "Class":"Biology",
                     "grade": 86})

In [None]:
df = pd.DataFrame([record1,record2,record3], index = ["School1","School2","School3"])
df.head()

Unnamed: 0,Name,Class,grade
School1,Kelly,Physics,90
School2,Jack,Chemistry,80
School3,Hellen,Biology,86


In [None]:
# Ahora vamos a repetir la escuela 1
df = pd.DataFrame([record1,record2,record3], index = ["School1","School2","School1"])
df.head()

Unnamed: 0,Name,Class,grade
School1,Kelly,Physics,90
School2,Jack,Chemistry,80
School1,Hellen,Biology,86


In [None]:
df.loc["School2"]

Name          Jack
Class    Chemistry
grade           80
Name: School2, dtype: object

In [None]:
df.loc["School1"]

Unnamed: 0,Name,Class,grade
School1,Kelly,Physics,90
School1,Hellen,Biology,86


In [None]:
type(df.loc["School2"]) # Quedé ne el minuto 3:50

pandas.core.series.Series

In [None]:
type(df.loc["School1"])

pandas.core.frame.DataFrame

In [None]:
# el primero es una serie y el segundo es un dataframe. Esto puesto que School 1 tiene varios datos

In [None]:
# Obteniendo columnas
df.loc["School1","Name"]

School1     Kelly
School1    Hellen
Name: Name, dtype: object

In [None]:
df.T

Unnamed: 0,School1,School2,School1.1
Name,Kelly,Jack,Hellen
Class,Physics,Chemistry,Biology
grade,90,80,86


In [None]:
# Podemos hacer la selección de los datos transpuestos
df.T.loc["Name"]

School1     Kelly
School2      Jack
School1    Hellen
Name: Name, dtype: object

In [None]:
df["Name"]  # Me trae la columna de Name

School1     Kelly
School2      Jack
School1    Hellen
Name: Name, dtype: object

In [None]:
df["Name"]["School1"]

School1     Kelly
School1    Hellen
Name: Name, dtype: object

In [None]:
df.loc["School1"]["Name"]

School1     Kelly
School1    Hellen
Name: Name, dtype: object

.loc hace una selección de filas y recibe 2 parámetros: el índice de la fila y la lista del nombre de las columnas

# Slicing con dataframes

In [None]:
df.loc[:,["Name","grade"]]

Unnamed: 0,Name,grade
School1,Kelly,90
School2,Jack,80
School1,Hellen,86


la función drop me regresa una COPIA del dataframe original, con las filas removidas 

In [None]:
df.drop("School1")

Unnamed: 0,Name,Class,grade
School2,Jack,Chemistry,80


In [None]:
df

Unnamed: 0,Name,Class,grade
School1,Kelly,Physics,90
School2,Jack,Chemistry,80
School1,Hellen,Biology,86


Si coloco inplace hago que no me haga copia sino que lo haga directo en el dataframe. El segundo parámetro es el eje. Por defecto es el 0. Indica el eje de las filas.
IMPORTANTE: para remover una columna hacemos axis = 1.

Crearemos una copia con .copy

In [None]:
copy_Df = df.copy()
copy_Df.drop("Name",inplace = True, axis = 1)

In [None]:
copy_Df

Unnamed: 0,Class,grade
School1,Physics,90
School2,Chemistry,80
School1,Biology,86


In [None]:
del copy_Df["Class"]
copy_Df

Unnamed: 0,grade
School1,90
School2,80
School1,86


In [None]:
df["Ranking"] = None
df

Unnamed: 0,Name,Class,grade,Ranking
School1,Kelly,Physics,90,
School2,Jack,Chemistry,80,
School1,Hellen,Biology,86,


# Trabajando con un dataframe

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("/content/sample_data/california_housing_train.csv")

In [None]:
# Vemos las primeras 5 observaciones
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


## Renombrando nombres de columnas
df.rename(diccionario)

In [None]:
# Debo ponerle el argumento "columns" para que me lo coja
df_new = df.rename(columns = {"longitude":"longitud","latitude": "latitud",
                    "housing_median_age": "edad_promedio_casa", "total_rooms":"Habitaciones",
                    "total_bedrooms":"Cuartos", "population":"Población",
                    "households":"households", "median_income":"Mediana de ingreso",
                    })

In [None]:
df_new.head()

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


In [None]:
df.shape

(17000, 9)

In [None]:
# Mostrar las columnas que tiene el dataframe
df_new.columns

Index(['longitud', 'latitud', 'edad_promedio_casa', 'Habitaciones', 'Cuartos',
       'Población', 'households', 'Mediana de ingreso', 'median_house_value'],
      dtype='object')

In [None]:

df_new.rename(mapper = str.strip, axis = "columns")

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


## Probando cambiar el nombre de unas columnas de otra forma

In [None]:
cols = list(df.columns)
cols

['longitude',
 'latitude',
 'housing_median_age',
 'total_rooms',
 'total_bedrooms',
 'population',
 'households',
 'median_income',
 'median_house_value']

In [None]:
# Esto lo convierte en mayúsculas
cols = [x.upper().strip() for x in cols]

In [None]:
cols

['LONGITUDE',
 'LATITUDE',
 'HOUSING_MEDIAN_AGE',
 'TOTAL_ROOMS',
 'TOTAL_BEDROOMS',
 'POPULATION',
 'HOUSEHOLDS',
 'MEDIAN_INCOME',
 'MEDIAN_HOUSE_VALUE']

## Queriying a dataframe
IMPORTANTE: máscara booleana

In [None]:
edad_casa = df_new["edad_promedio_casa"] > 20
edad_casa

0        False
1        False
2        False
3        False
4        False
         ...  
16995     True
16996     True
16997    False
16998    False
16999     True
Name: edad_promedio_casa, Length: 17000, dtype: bool

Como se pueda preciar, entregó un vector booleano. Es de destacar que Pandas usa la vectorización para mejorar la eficiencia y velocidad de la consulta (en paralelo).

De igual manera, es un objeto Series, puesto que se aplica sólo sobre 1 columna a(vector).

IMPORTANTE!! para que esto sea útil, se debe usar la función ".where"

In [None]:
df_new.where(edad_casa).head(10)

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
0,,,,,,,,,
1,,,,,,,,,
2,,,,,,,,,
3,,,,,,,,,
4,,,,,,,,,
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0
7,-114.59,34.83,41.0,812.0,168.0,375.0,158.0,1.7083,48500.0
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
9,-114.6,34.83,46.0,1497.0,309.0,787.0,271.0,2.1908,48100.0


Nótese el NaN que se produce cuando un individuo no cumple con la condición. 
Para quitar eso usamos como función extra el dropna.

In [None]:
df_new.where(edad_casa).dropna().head()

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0
7,-114.59,34.83,41.0,812.0,168.0,375.0,158.0,1.7083,48500.0
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
9,-114.6,34.83,46.0,1497.0,309.0,787.0,271.0,2.1908,48100.0


Nótese que aquí el índice se mantuvo. Esto es, las primeras 5 observaciones no cumplían la condición y fueron eliminadas, se mantienen los índices de aquellas observaciones que sí cumplen.

Existe una manera más rápida de hacer esto y que me cambie el índice de una vez. Es parecido a la consulta en R.

In [None]:
df_new[df_new['edad_promedio_casa'] > 20].head()

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0
7,-114.59,34.83,41.0,812.0,168.0,375.0,158.0,1.7083,48500.0
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
9,-114.6,34.83,46.0,1497.0,309.0,787.0,271.0,2.1908,48100.0


# Combinando varias máscaras booleanas

## AND:
Para que funcione, cada consulta se debe colocar en paréntesis y se debe usar el & para hacer la "intersección"

In [None]:
# Aquí hagi la consulta
(df_new['edad_promedio_casa'] > 30)  & (df_new["median_house_value"] > 50000)

0        False
1        False
2        False
3        False
4        False
         ...  
16995     True
16996     True
16997    False
16998    False
16999     True
Length: 17000, dtype: bool

In [None]:
# Ahora lo vuelvo "utilizable"
consulta1 = df_new[(df_new['edad_promedio_casa'] > 30)  & (df_new["median_house_value"] > 50000)]
consulta1.head()

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
13,-114.61,34.83,31.0,2478.0,464.0,1346.0,479.0,3.212,70400.0
25,-115.32,32.82,34.0,591.0,139.0,327.0,89.0,3.6528,100000.0
28,-115.37,32.81,32.0,741.0,191.0,623.0,169.0,1.7604,68600.0
30,-115.38,32.82,38.0,1892.0,394.0,1175.0,374.0,1.9939,65800.0


In [None]:
# Arreglo el índice
indice = range(0, len(df_new[(df_new['edad_promedio_casa'] > 30)  & (df_new["median_house_value"] > 50000)]))
indice

range(0, 7716)

In [None]:
consulta1.dropna().head()

Unnamed: 0,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
13,-114.61,34.83,31.0,2478.0,464.0,1346.0,479.0,3.212,70400.0
25,-115.32,32.82,34.0,591.0,139.0,327.0,89.0,3.6528,100000.0
28,-115.37,32.81,32.0,741.0,191.0,623.0,169.0,1.7604,68600.0
30,-115.38,32.82,38.0,1892.0,394.0,1175.0,374.0,1.9939,65800.0


In [None]:
# Funciona!
consulta1.reset_index().head()

Unnamed: 0,index,longitud,latitud,edad_promedio_casa,Habitaciones,Cuartos,Población,households,Mediana de ingreso,median_house_value
0,8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
1,13,-114.61,34.83,31.0,2478.0,464.0,1346.0,479.0,3.212,70400.0
2,25,-115.32,32.82,34.0,591.0,139.0,327.0,89.0,3.6528,100000.0
3,28,-115.37,32.81,32.0,741.0,191.0,623.0,169.0,1.7604,68600.0
4,30,-115.38,32.82,38.0,1892.0,394.0,1175.0,374.0,1.9939,65800.0


## Más acerca de índices

In [None]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


In [None]:
# set_index me permite seleccionar una columna como índice
df["Serial number"] = df.index  # Esto me crea un índice
df.index

RangeIndex(start=0, stop=17000, step=1)

In [None]:
df = df.set_index("latitude")
df.head()

Unnamed: 0_level_0,longitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,Serial number
latitude,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
34.19,-114.31,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0,0
34.4,-114.47,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0,1
33.69,-114.56,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,2
33.64,-114.57,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0,3
33.57,-114.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0,4


In [None]:
df = df.reset_index()
df
# Esto me vuelve a dejar el índice como estaba

Unnamed: 0,latitude,longitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,Serial number
0,34.19,-114.31,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0,0
1,34.40,-114.47,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0,1
2,33.69,-114.56,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,2
3,33.64,-114.57,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0,3
4,33.57,-114.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0,4
...,...,...,...,...,...,...,...,...,...,...
16995,40.58,-124.26,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0,16995
16996,40.69,-124.27,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0,16996
16997,41.84,-124.30,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0,16997
16998,41.80,-124.30,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0,16998


## índices multinivel

In [None]:
df = df.set_index(["latitude","total_rooms"])

In [None]:
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,longitude,housing_median_age,total_bedrooms,population,households,median_income,median_house_value,Serial number
latitude,total_rooms,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
34.19,5612.0,-114.31,15.0,1283.0,1015.0,472.0,1.4936,66900.0,0
34.4,7650.0,-114.47,19.0,1901.0,1129.0,463.0,1.82,80100.0,1
33.69,720.0,-114.56,17.0,174.0,333.0,117.0,1.6509,85700.0,2
33.64,1501.0,-114.57,14.0,337.0,515.0,226.0,3.1917,73400.0,3
33.57,1454.0,-114.57,20.0,326.0,624.0,262.0,1.925,65500.0,4


In [None]:
df = df.reset_index()

In [None]:
# Habrán sitios que tengan la misma cantidad de habitaciones?
len(df["total_rooms"].unique())
# Existen 5533 distritos con números diferentes de habitaciones...

5533

AttributeError: ignored