# Analisis exploratorio de datos

### Indice
1.	Carga de información en un DataFrame
2.	Analizando utilizacion de memoria del dataframe
3.	Conversion de Datos y mejoras en uso de memoria
4.	Verificacion de Calidad de Datos
5.	Analizando propiedades especificas del set de datos
6.	Manejo de valores nulos


## 1) Carga de informacion en un DataFrame

In [122]:
import pandas as pd
df = pd.read_csv("datos/train.csv", sep=",")
pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs

In [79]:
df.sample(3)

Unnamed: 0,id,titulo,descripcion,tipodepropiedad,direccion,ciudad,provincia,antiguedad,habitaciones,garages,...,idzona,lat,lng,fecha,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
98320,210680,"naturaleza, confort y privacidad en un solo lugar","<p>ev1098.- envidiable vista panorámica, entre...",Casa,,Atizapán de Zaragoza,Edo. de México,12.0,3.0,3.0,...,55674.0,19.55,-99.3,2014-11-01 00:00:00,0.0,0.0,0.0,0.0,0.0,4690000.0
37914,239678,"bonita casa, ciudad satelite, nauc. recuperaci...",inmueble de remate bancario. no se aceptan cre...,Casa,C.EZEQUIEL MONTES 12,Naucalpan de Juárez,Edo. de México,20.0,4.0,2.0,...,55795.0,19.51,-99.25,2016-04-17 00:00:00,0.0,0.0,0.0,0.0,1.0,2060000.0
140147,25046,venta de casa en zapopan,"bugambilias primera seccion, ideal para remode...",Casa,Paseo de las Camelias 2159,Zapopan,Jalisco,26.0,4.0,,...,,,,2014-09-09 00:00:00,0.0,0.0,0.0,0.0,0.0,2890000.0


In [80]:
df.loc[0]

id                                                                       254099
titulo                                                        depto. tipo a-402
descripcion                   depto. interior de 80.15m2, consta de sala com...
tipodepropiedad                                                     Apartamento
direccion                                       Avenida Division del Norte 2005
ciudad                                                            Benito Juárez
provincia                                                      Distrito Federal
antiguedad                                                                  NaN
habitaciones                                                               2.00
garages                                                                    1.00
banos                                                                      2.00
metroscubiertos                                                           80.00
metrostotales                           

In [81]:
# dimensiones del DF
print(df.shape)
df.size # rows x col

(240000, 23)


5520000

### 2 Analizando utilizacion de memoria del dataframe

In [82]:
# veo info general
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null object
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null object
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240

In [83]:
# cantidad de elementos elementos no nulos en el data frame
df.count()

id                            240000
titulo                        234613
descripcion                   238381
tipodepropiedad               239954
direccion                     186928
ciudad                        239628
provincia                     239845
antiguedad                    196445
habitaciones                  217529
garages                       202235
banos                         213779
metroscubiertos               222600
metrostotales                 188533
idzona                        211379
lat                           116512
lng                           116512
fecha                         240000
gimnasio                      240000
usosmultiples                 240000
piscina                       240000
escuelascercanas              240000
centroscomercialescercanos    240000
precio                        240000
dtype: int64

### 3.	Conversion de Datos y mejoras en uso de memoria

#### provincia

In [84]:
df.loc[:,['provincia']].memory_usage()

Index             80
provincia    1920000
dtype: int64

In [85]:
df['provincia'].unique().size

33

In [86]:
df['provincia'].value_counts()

Distrito Federal         58790
Edo. de México           41607
Jalisco                  21238
Querétaro                16988
Nuevo León               15324
Puebla                   10421
San luis Potosí           8447
Yucatán                   7928
Morelos                   7337
Veracruz                  5762
Quintana Roo              4756
Chihuahua                 4590
Coahuila                  3695
Baja California Norte     3220
Sonora                    2988
Guanajuato                2860
Guerrero                  2678
Hidalgo                   2521
Michoacán                 2471
Tamaulipas                2303
Durango                   2275
Sinaloa                   1806
Aguascalientes            1753
Baja California Sur       1700
Nayarit                   1352
Chiapas                   1126
Colima                    1008
Tabasco                    994
Tlaxcala                   839
Oaxaca                     711
Campeche                   263
Zacatecas                   94
Name: pr

In [87]:
# creo una nueva serie en el df de tipo category (enum)
df['provincia'] = df['provincia'].astype('category')

In [88]:
df['provincia'].memory_usage()

241616

In [89]:
df['provincia'].dtype

CategoricalDtype(categories=['Aguascalientes', 'Baja California Norte',
                  'Baja California Sur', 'Campeche', 'Chiapas', 'Chihuahua',
                  'Coahuila', 'Colima', 'Distrito Federal', 'Durango',
                  'Edo. de México', 'Guanajuato', 'Guerrero', 'Hidalgo',
                  'Jalisco', 'Michoacán', 'Morelos', 'Nayarit', 'Nuevo León',
                  'Oaxaca', 'Puebla', 'Querétaro', 'Quintana Roo',
                  'San luis Potosí', 'Sinaloa', 'Sonora', 'Tabasco',
                  'Tamaulipas', 'Tlaxcala', 'Veracruz', 'Yucatán',
                  'Zacatecas'],
                 ordered=False)

#### Fechas

In [90]:
df.loc[0:0 , 'fecha']

0    2015-08-23 00:00:00
Name: fecha, dtype: object

In [106]:
# Seteamos la fecha al tipo datetime
df['fecha'] = pd.to_datetime(df['fecha'])
# generamos una nueva columna obteniendo el año y mes
df['year'] = df['fecha'].dt.year
df['month'] = df['fecha'].dt.month

In [119]:
df.dtypes

id                                     int64
titulo                                object
descripcion                           object
tipodepropiedad                     category
direccion                             object
ciudad                              category
provincia                           category
antiguedad                           float64
habitaciones                         float64
garages                              float64
banos                                float64
metroscubiertos                      float64
metrostotales                        float64
idzona                               float64
lat                                  float64
lng                                  float64
fecha                         datetime64[ns]
gimnasio                             float64
usosmultiples                        float64
piscina                              float64
escuelascercanas                     float64
centroscomercialescercanos           float64
precio    

#### tipodepropiedad

In [93]:
df['tipodepropiedad'].unique().size

25

In [94]:
df['tipodepropiedad'].value_counts()

Casa                             141717
Apartamento                       57341
Casa en condominio                19297
Terreno                            9945
Local Comercial                    3055
Oficina comercial                  1741
Bodega comercial                   1406
Edificio                           1396
Terreno comercial                  1326
Casa uso de suelo                   708
Quinta Vacacional                   395
Duplex                              343
Villa                               340
Inmuebles productivos urbanos       200
Rancho                              170
Local en centro comercial           165
Departamento Compartido             141
Otros                               134
Nave industrial                      76
Terreno industrial                   31
Huerta                               20
Lote                                  5
Garage                                1
Hospedaje                             1
Name: tipodepropiedad, dtype: int64

In [95]:
df['tipodepropiedad'] = df['tipodepropiedad'].astype('category')

In [96]:
df['tipodepropiedad'].dtype

CategoricalDtype(categories=['Apartamento', 'Bodega comercial', 'Casa',
                  'Casa en condominio', 'Casa uso de suelo',
                  'Departamento Compartido', 'Duplex', 'Edificio', 'Garage',
                  'Hospedaje', 'Huerta', 'Inmuebles productivos urbanos',
                  'Local Comercial', 'Local en centro comercial', 'Lote',
                  'Nave industrial', 'Oficina comercial', 'Otros',
                  'Quinta Vacacional', 'Rancho', 'Terreno',
                  'Terreno comercial', 'Terreno industrial', 'Villa'],
                 ordered=False)

#### ciudad

In [98]:
df['ciudad'].unique().size

876

In [99]:
df['ciudad'].value_counts()

Querétaro                        12646
Benito Juárez                    11014
Zapopan                          10360
San Luis Potosí                   7925
Mérida                            7162
Monterrey                         6946
Alvaro Obregón                    6633
Cuauhtémoc                        6614
Naucalpan de Juárez               6554
Miguel Hidalgo                    5795
Atizapán de Zaragoza              5783
Tlalpan                           5721
Huixquilucan                      5718
Coyoacán                          5293
Puebla                            4636
Guadalajara                       4006
San Andrés Cholula                3805
Cancún                            3779
Cuernavaca                        3775
Chihuahua                         3757
Tlalnepantla de Baz               3588
Cuautitlán Izcalli                3408
Tlajomulco de Zúñiga              3254
Gustavo A. Madero                 3141
Iztapalapa                        3093
Cuajimalpa de Morelos    

In [100]:
df['ciudad'] = df['ciudad'].astype('category')

In [101]:
df['ciudad'].dtype

CategoricalDtype(categories=['Abalá', 'Abasolo', 'Abejones', 'Acajete', 'Acambay',
                  'Acaponeta', 'Acapulco de Juárez', 'Acateno', 'Acatic',
                  'Acatzingo',
                  ...
                  'Zitácuaro', 'Zumpahuacán', 'Zumpango', 'otra', 'ácatlán',
                  'ácatlán de Juárez', 'ácaxochitlán', 'ácámbaro',
                  'áutlán de Navarro', 'áyotlán'],
                 ordered=False)

In [120]:
df.dtypes

id                                     int64
titulo                                object
descripcion                           object
tipodepropiedad                     category
direccion                             object
ciudad                              category
provincia                           category
antiguedad                           float64
habitaciones                         float64
garages                              float64
banos                                float64
metroscubiertos                      float64
metrostotales                        float64
idzona                               float64
lat                                  float64
lng                                  float64
fecha                         datetime64[ns]
gimnasio                             float64
usosmultiples                        float64
piscina                              float64
escuelascercanas                     float64
centroscomercialescercanos           float64
precio    


## 4.	Verificacion de Calidad de Datos

## 5) Analizando propiedades especificas del set de datos

In [18]:
# Revisemos alguna caterogia principal para ver como esta compuesta:
# Por ejemplo para provincia, la cantidad de inmuebles que hay

In [42]:
provincias = df['provincia']  #subset

In [43]:
provincias.value_counts()

Distrito Federal         58790
Edo. de México           41607
Jalisco                  21238
Querétaro                16988
Nuevo León               15324
Puebla                   10421
San luis Potosí           8447
Yucatán                   7928
Morelos                   7337
Veracruz                  5762
Quintana Roo              4756
Chihuahua                 4590
Coahuila                  3695
Baja California Norte     3220
Sonora                    2988
Guanajuato                2860
Guerrero                  2678
Hidalgo                   2521
Michoacán                 2471
Tamaulipas                2303
Durango                   2275
Sinaloa                   1806
Aguascalientes            1753
Baja California Sur       1700
Nayarit                   1352
Chiapas                   1126
Colima                    1008
Tabasco                    994
Tlaxcala                   839
Oaxaca                     711
Campeche                   263
Zacatecas                   94
Name: pr

In [None]:
# cantidad de cada tipo de propiedades

In [44]:
propiedades = df ['tipodepropiedad']

In [46]:
propiedades.value_counts()

Casa                             141717
Apartamento                       57341
Casa en condominio                19297
Terreno                            9945
Local Comercial                    3055
Oficina comercial                  1741
Bodega comercial                   1406
Edificio                           1396
Terreno comercial                  1326
Casa uso de suelo                   708
Quinta Vacacional                   395
Duplex                              343
Villa                               340
Inmuebles productivos urbanos       200
Rancho                              170
Local en centro comercial           165
Departamento Compartido             141
Otros                               134
Nave industrial                      76
Terreno industrial                   31
Huerta                               20
Lote                                  5
Garage                                1
Hospedaje                             1
Name: tipodepropiedad, dtype: int64

In [None]:
#precio promedio de las propiedades de cada provincia.

In [None]:
#Precio promedio de cada tipo de propiedades.

In [221]:
df['idzona'].value_counts()   #esto no se que es

50,003,995.00    2539
    84,312.00    2022
   334,898.00    1545
50,003,997.00    1409
50,003,998.00    1400
   275,358.00    1274
    55,795.00    1143
   286,309.00    1060
    23,815.00    1023
50,003,996.00    973 
    87,460.00    912 
    55,584.00    879 
    23,569.00    863 
    55,520.00    729 
    84,028.00    610 
50,002,774.00    606 
    23,191.00    599 
    84,338.00    590 
    24,481.00    590 
    55,519.00    587 
   275,308.00    579 
    24,823.00    575 
    23,734.00    566 
    55,552.00    537 
    23,365.00    533 
   339,455.00    513 
    23,837.00    510 
   343,015.00    503 
    55,678.00    475 
50,003,999.00    448 
                ...  
    87,478.00    1   
   116,169.00    1   
    93,754.00    1   
   130,040.00    1   
     1,331.00    1   
    71,688.00    1   
   105,566.00    1   
   105,568.00    1   
    79,916.00    1   
   126,518.00    1   
    72,809.00    1   
   122,515.00    1   
    47,689.00    1   
   127,554.00    1   
   122,523

In [211]:
df['mes'].value_counts()

12    42227
10    23306
11    21225
8     20897
9     20622
7     17510
6     17221
4     16466
5     16062
1     16009
3     14732
2     13723
Name: mes, dtype: int64

In [63]:
df['year'].value_counts()

2016    94038
2015    51470
2014    40572
2013    30386
2012    23534
Name: year, dtype: int64

In [67]:
df['fecha_datetime'].count()

240000

### 5)Verificacion de Calidad de Datos

In [192]:
# por ejemplo de la siguiente forma podemos ver los nulos si existen
df.isnull().any()

id                            False
titulo                         True
descripcion                    True
tipodepropiedad                True
direccion                      True
ciudad                         True
provincia                      True
antiguedad                     True
habitaciones                   True
garages                        True
banos                          True
metroscubiertos                True
metrostotales                  True
idzona                         True
lat                            True
lng                            True
fecha                         False
gimnasio                      False
usosmultiples                 False
piscina                       False
escuelascercanas              False
centroscomercialescercanos    False
precio                        False
fecha_datetime                False
year                          False
dtype: bool

In [196]:
df.isnull().sum()

id                                 0
titulo                          5387
descripcion                     1619
tipodepropiedad                   46
direccion                      53072
ciudad                           372
provincia                        155
antiguedad                     43555
habitaciones                   22471
garages                        37765
banos                          26221
metroscubiertos                17400
metrostotales                  51467
idzona                         28621
lat                           123488
lng                           123488
fecha                              0
gimnasio                           0
usosmultiples                      0
piscina                            0
escuelascercanas                   0
centroscomercialescercanos         0
precio                             0
fecha_datetime                     0
year                               0
dtype: int64

In [194]:
# metricas generales de las columnas o features numericos del data frame que podemos analizar via .describe
df.describe()

Unnamed: 0,id,antiguedad,habitaciones,garages,banos,metroscubiertos,metrostotales,idzona,lat,lng,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio,year
count,240000.0,196445.0,217529.0,202235.0,213779.0,222600.0,188533.0,211379.0,116512.0,116512.0,240000.0,240000.0,240000.0,240000.0,240000.0,240000.0,240000.0
mean,149969.382092,8.116114,2.902326,1.546874,2.132417,174.016774,176.765145,2423468.0,20.696818,-99.509221,0.062475,0.055092,0.087383,0.444142,0.396533,2530838.0,2014.675383
std,86634.579744,9.55383,0.896894,0.853507,0.912546,98.15295,94.427328,10567940.0,3.137884,9.744143,0.242017,0.22816,0.282397,0.496871,0.489179,2152552.0,1.358111
min,1.0,0.0,1.0,0.0,1.0,15.0,15.0,22.0,-100.886679,-125.859375,0.0,0.0,0.0,0.0,0.0,310000.0,2012.0
25%,74930.75,0.0,2.0,1.0,1.0,90.0,102.0,24890.0,19.359846,-100.977908,0.0,0.0,0.0,0.0,0.0,952772.5,2014.0
50%,149875.5,5.0,3.0,2.0,2.0,153.0,155.0,56383.0,19.543273,-99.240387,0.0,0.0,0.0,0.0,0.0,1850000.0,2015.0
75%,225016.5,10.0,3.0,2.0,3.0,240.0,238.0,87838.0,20.740005,-99.134777,0.0,0.0,0.0,1.0,1.0,3390000.0,2016.0
max,299999.0,80.0,10.0,3.0,4.0,439.0,439.0,50004000.0,83.026219,121.036,1.0,1.0,1.0,1.0,1.0,12525000.0,2016.0


### 6  Manejo de valores nulos

In [198]:
#Borrado o reemplazo por otro valor


## 7Manipulando el Data Frame


In [154]:
df['id'].unique()


array([254099,  53461, 247984, ..., 131932, 146867, 121958], dtype=int64)

# Preguntas del google doc

1)hay que ver si lo ids son unicos (y otras claves, tipo dirección)  [Jose]


In [29]:
df['id'].unique().size == df['id'].count()

True

In [113]:
df['direccion'].unique().size == df['direccion'].count()

False

In [None]:
# vamos a buscar cuales son las direcciones duplicadas

In [179]:
# esta funcion devueve las celdas duplicadas
def funes (data, limite):
    return data['valor'].sum() >= limite


In [None]:
df1 = df
df1['valor'] = 1

In [167]:
agrupados = df1.groupby(['direccion'])

In [168]:
agrupadosfiltrados = agrupados.filter(funes, limite=2)

In [181]:
repetidos =agrupadosfiltrados.groupby(['direccion']).agg({'valor':'sum'})

In [184]:
repetidos.reset_index(inplace=True)

In [199]:
print ("Ranking de direcciones mas repetidas")
repetidos.nlargest(5,'valor')

Ranking de direcciones mas repetidas


Unnamed: 0,direccion,valor
35,-,660
64,.,476
85,1,212
3817,Calle,194
10195,Norte de Mérida,136


In [201]:
#con esto accedo directamente
df.loc[df['direccion'].isin(["Providencia"]), :]

Unnamed: 0,id,titulo,descripcion,tipodepropiedad,direccion,ciudad,provincia,antiguedad,habitaciones,garages,...,lat,lng,fecha,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio,valor
21997,83330,casa en providencia con excelente ubicación,"esta casa se encuentra cerca de av. américas, ...",Casa,Providencia,Guadalajara,Jalisco,5.0,3.0,2.0,...,20.690476,-103.388226,2016-12-02 00:00:00,0.0,0.0,0.0,1.0,1.0,2970000.0,1
22346,127480,"casa sola en venta,providencia,axotla,álvaro o...",,Casa,Providencia,Alvaro Obregón,Distrito Federal,1.0,3.0,,...,19.357357,-99.175974,2013-09-12 00:00:00,0.0,0.0,0.0,1.0,0.0,6850000.0,1
26604,241261,departamento impecable,metros cuadrados \n\n- departamento 96 m2 \n- ...,Apartamento,Providencia,Benito Juárez,Distrito Federal,5.0,2.0,2.0,...,,,2015-03-14 00:00:00,0.0,0.0,0.0,1.0,1.0,3150000.0,1
29900,208529,departamento remodelado providencia!,"cochera con portón eléctrico para 1 auto, esta...",Apartamento,Providencia,Guadalajara,Jalisco,5.0,3.0,0.0,...,,,2015-01-25 00:00:00,0.0,0.0,0.0,0.0,0.0,1800000.0,1
30206,196875,moderno departamento super equipado en la del ...,"2 habitaciones, la principal con baño y vestid...",Apartamento,Providencia,Benito Juárez,Distrito Federal,5.0,2.0,,...,19.38748,-99.169865,2016-10-28 00:00:00,0.0,1.0,1.0,1.0,1.0,6200000.0,1
31200,179148,departamento en venta colonia del valle,excelente departamento muy bien ubicado en cal...,Apartamento,Providencia,Benito Juárez,Distrito Federal,20.0,3.0,1.0,...,,,2014-06-20 00:00:00,0.0,0.0,0.0,0.0,1.0,2180000.0,1
33839,206467,"del valle 100 3r 2 b 2 est. entrega inmediata,...",status en negociación. departamento en venta o...,Apartamento,Providencia,Benito Juárez,Distrito Federal,5.0,3.0,2.0,...,19.379509,-99.206879,2016-05-24 00:00:00,1.0,0.0,0.0,1.0,1.0,3300000.0,1
49378,33863,casa remodelada en providencia. amplios espaci...,"residencia ubicada en providencia, remodelada ...",Casa,Providencia,Guadalajara,Jalisco,5.0,4.0,3.0,...,,,2015-02-08 00:00:00,0.0,0.0,0.0,0.0,0.0,5490000.0,1
59076,48333,se vende casa en la del valle centro,se vende hermosa casa en letrán valle con 4 re...,Casa,Providencia,Benito Juárez,Distrito Federal,10.0,4.0,2.0,...,,,2015-12-13 00:00:00,0.0,0.0,0.0,0.0,0.0,5900000.0,1
62091,65733,"2 cajones, 120 m2, 3 rec, estudio 2.5 baños, 2...",departamento en exterior en venta o renta solo...,Apartamento,Providencia,Benito Juárez,Distrito Federal,5.0,3.0,2.0,...,19.426914,-99.16004,2016-07-13 00:00:00,1.0,0.0,0.0,1.0,1.0,3685000.0,1


In [198]:
print ("Cantidad de direcciones repetidas")
repetidos["valor"].sum()

Cantidad de direcciones repetidas


63009

3)procesar descripción.[Jose]
 *** podríamos validar que si dice 3 baños tenga 3 baños.  (nose)
 *** determinar si esta en una esquina en base a la descripcion  (y agregamos una columna mas si no nose )


4) hacer ranking de palabras de la descripción, para luego hacer un estudio con esos inmuebles.
  *** largo de la descricion.[Jose]


6) relacion entre el precio y la fecha de publicion.  (filtrar año y mes de publicacion)
si hay alguna relacion, la recomendacion para el usuario es cuando les conviene comprar.[Jose]

In [228]:
# generamos nuevas columnas seteando el tipo datetime
df['fecha_datetime'] = pd.to_datetime(df['fecha'])
# generamos una nueva columna obteniendo el año, esto los usuaremos en visualizacion.
df['year'] = df['fecha_datetime'].dt.year
df['month'] = df['fecha_datetime'].dt.month


In [216]:
#comencemos viendo los precios promedios por año
df.groupby('year').agg({'precio':'mean'})

Unnamed: 0_level_0,precio
year,Unnamed: 1_level_1
2012,2032517.56
2013,2125061.05
2014,2364594.65
2015,2634569.73
2016,2801614.15


In [227]:
# cantidad de publicaciones por año
# df.groupby('year')['id'].count()  
df['year'].value_counts()

2016    94038
2015    51470
2014    40572
2013    30386
2012    23534
Name: year, dtype: int64

In [None]:
# comparemos el precio por mes


In [274]:
 df.groupby('month').agg({'precio':['mean','count','sum']})

Unnamed: 0_level_0,precio,precio,precio
Unnamed: 0_level_1,mean,count,sum
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,2380728.28,16009,38113079010.0
2,2395430.2,13723,32872488649.0
3,2498691.19,14732,36810718600.0
4,2546977.1,16466,41938524984.0
5,2457124.77,16062,39466338047.0
6,2520843.26,17221,43411441832.0
7,2551788.47,17510,44681816100.0
8,2517020.83,20897,52598184194.0
9,2558958.43,20622,52770840815.0
10,2512789.45,23306,58563070853.0


In [266]:
ada.columns

MultiIndex(levels=[['precio'], ['mean', 'count']],
           codes=[[0, 0], [0, 1]])

In [268]:
ada.head(10)

Unnamed: 0_level_0,month,precio,precio
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count
0,1,2380728.28,16009
1,2,2395430.2,13723
2,3,2498691.19,14732
3,4,2546977.1,16466
4,5,2457124.77,16062
5,6,2520843.26,17221
6,7,2551788.47,17510
7,8,2517020.83,20897
8,9,2558958.43,20622
9,10,2512789.45,23306


In [212]:
df.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio', 'valor', 'fecha_datetime',
       'year'],
      dtype='object')

In [10]:
df.index

RangeIndex(start=0, stop=240000, step=1)

In [11]:
type(df.index)

pandas.core.indexes.range.RangeIndex