# Introducción

Ya sabemos cómo leer archivos con pandas y cómo realizar una exploración básica del contenido. En esta sesión vamos a aprender algunas técnicas más avanzadas de Exploración de Datos. También vamos a ver los principios de la Limpieza de Datos, que usamos para dejar nuestros conjuntos de datos listos para ser reestructurados, analizados y visualizados.

La Exploración y la Limpieza van totalmente de la mano. No puedes limpiar sin explorar primero, y gran parte de las técnicas de exploración que usamos tienen como objetivo justamente encontrar inconsistencias, errores, redundancias, etc, en nuestro conjunto de datos para poder deshacernos de ellas.

# Objetivos

1. Leer archivos en formato CSV.
1. Utilizar técnicas más avanzadas de exploración de datos.
1. Utilizar la exploración para encontrar inconsistencias, errores y redundancias.
1. Usar algunas técnicas básicas de limpieza de datos.




La sesión pasada aprendimos a leer archivos en formato JSON. El formato JSON, que es muy parecido a los diccionarios de Python, es sólo uno de los tantos formatos con los que nos vamos a topar.

Los CSVs pertenecen a una clase de formatos donde las columnas de nuestra tabla se delimitan usando lo que se llama un separador. CSV significa Comma-Separated Values y como bien imaginarás significa que se una una coma (,) para separar las columnas.

En un archivo de texto donde cada fila de nuestra tabla tiene su propia línea y donde los valores de cada columna se delimitan usando una coma (,). Leer archivos .csv usando pandas es muy fácil. Lo único que tienes que hacer es lo siguiente:


In [5]:
import pandas as pd


In [6]:
df = pd.read_csv('../Datasets/melbourne_housing-raw.csv', sep=',')

pandas tiene un muy conveniente método llamado read_csv que nos permite leer archivos .csv directamente. Ése mismo método también puede ayudarnos a leer otros formatos con columnas delimitadas por otros separadores. Por ejemplo, podemos leer .tsv ('tab-separated values'), que son archivos donde cada columna está delimitada por un tab (indentación). Sólo basta con llamar el método con el argumento sep=\t.

In [7]:
df

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.80140,144.99580,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.00,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.81140,145.01160,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.00,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19735,Windsor,201/152 Peel St,2,u,560000.0,PI,hockingstuart,29/07/2017,4.6,3181.0,...,1.0,1.0,,585.0,,Whittlesea,-37.67681,145.00323,Southern Metropolitan,4380.0
19736,Wollert,60 Saltlake Bvd,3,h,525300.0,S,Stockdale,29/07/2017,25.5,3750.0,...,2.0,2.0,,333.0,,Darebin,-37.75884,145.00264,Northern Metropolitan,2940.0
19737,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,...,2.0,2.0,1999.0,199.0,140.00,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
19738,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,...,2.0,1.0,2011.0,238.0,118.00,Hume,-37.70322,144.88236,Western Metropolitan,6543.0


# Análisis Exploratorio de Datos

Muy bien, empecemos nuestra exploración con las técnicas que ya conocemos primero:

In [8]:
df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


In [9]:
df.shape

(19740, 21)

In [10]:
df.dtypes

Suburb            object
Address           object
Rooms              int64
Type              object
Price            float64
Method            object
SellerG           object
Date              object
Distance         float64
Postcode         float64
Bedroom2         float64
Bathroom         float64
Car              float64
Landsize         float64
BuildingArea     float64
YearBuilt        float64
CouncilArea       object
Lattitude        float64
Longtitude       float64
Regionname        object
Propertycount    float64
dtype: object

In [11]:
df.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19740 entries, 0 to 19739
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         19740 non-null  object 
 1   Address        19740 non-null  object 
 2   Rooms          19740 non-null  int64  
 3   Type           19740 non-null  object 
 4   Price          15396 non-null  float64
 5   Method         19740 non-null  object 
 6   SellerG        19740 non-null  object 
 7   Date           19740 non-null  object 
 8   Distance       19732 non-null  float64
 9   Postcode       19732 non-null  float64
 10  Bedroom2       15327 non-null  float64
 11  Bathroom       15327 non-null  float64
 12  Car            15327 non-null  float64
 13  Landsize       14944 non-null  float64
 14  BuildingArea   8617 non-null   float64
 15  YearBuilt      9351 non-null   float64
 16  CouncilArea    15296 non-null  object 
 17  Lattitude      15448 non-null  float64
 18  Longti

In [13]:
df.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,19740.0,15396.0,19732.0,19732.0,15327.0,15327.0,15327.0,14944.0,8617.0,9351.0,15448.0,15448.0,19732.0
mean,2.947163,1054957.0,9.861509,3106.533904,2.900568,1.548509,1.578065,583.91709,196.806973,1874.165655,-37.811892,144.996632,7509.802706
std,0.981048,645255.7,5.554233,88.429928,1.007491,0.713385,0.972221,3785.423175,561.558007,393.354888,0.072708,0.096178,4419.678648
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1.0,-38.18255,144.43162,249.0
25%,2.0,630000.0,6.1,3046.0,2.0,1.0,1.0,166.0,94.0,1930.0,-37.85686,144.939323,4407.0
50%,3.0,880000.0,9.2,3101.0,3.0,1.0,2.0,420.0,132.0,1965.0,-37.808965,145.0009,6567.0
75%,4.0,1301000.0,12.6,3147.0,3.0,2.0,2.0,663.0,199.0,1997.0,-37.761897,145.05471,10331.0
max,12.0,9000000.0,47.4,3978.0,30.0,12.0,26.0,433014.0,40468.0,2106.0,-37.41381,145.52635,21650.0


Ok, algunas cosas importantes:

1. El dataset tiene 19740 filas y 21 columnas
1. Podemos observar que la información que tiene el dataset es básicamente cierta descripción de las propiedades, su locación y tipo y fecha de venta.
1. Hay varias columnas float64, rooms es int64, y el resto son object.
1. Tenemos algunos Nans en el dataset.

¿NaNs? ¿Que quiero decir con eso? Bueno, los NaNs son valores Not a Number que básicamente son valores nulos en nuestro dataset. Estos valores pueden causar muchos problemas, ya que son valores nulos en columnas numéricas pero no podemos realizar operaciones matemáticas con ellos (son valores Not a Number, así que las matemáticas están fuera de las posibilidades). En esta sesión vamos a aprender a lidiar con estos valores, pero antes tenemos que aprender algo llamado funciones vectorizadas, que nos ayudará mucho durante esta exploración.

# Aritmética con Series y Funciones vectorizadas

¿Recuerdas nuestras funciones map y filter? A esas funciones les pasábamos nosotros una función y una lista y nos regresaban una lista con los resultados de aplicarle la función a cada uno de los elementos en orden. Las funciones vectorizadas funcionan muy parecido, pero están optimizadas para funcionar con arreglos de pandas y de numpy (si quieres saber más sobre numpy lee esto). Si tomas un arreglo de pandas (es decir, una Serie) y le aplicas una función vectorizada, la función se aplica a todo el arreglo elemento por elemento y te regresa un arreglo del mismo tamaño con el resultado de la aplicación.

Aplicar funciones de manera vectorizada a una Serie de pandas es facílisimo, incluso más fácil que usar la fución map. Primero veamos que podemos realizar una operación aritmética con una Serie y la operación se aplicará automáticamente a todo el arreglo "elemento por elemento":

In [14]:
serie = pd.Series([1,2,3,4,5])

In [15]:
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [16]:
serie * 10

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [17]:
(serie + 100) / 2

0    50.5
1    51.0
2    51.5
3    52.0
4    52.5
dtype: float64

No tenemos que usar map, ni que declarar una función, ni que usar lambda. Basta con una simple operación matemática. pandas además está optimizado para funcionar de esta manera, así que la velocidad de aplicación es mucho mayor que la combinación de map con listas.

Otra manera de aplicar estas transformaciones es usando funciones vectorizadas. Esto lo podemos hacer usando algunas funciones de numpy, por ejemplo. Numpy es otra librería que es muy común entre los científicos de datos. Ofrece muchas herramientas para realizar cálculos numéricos a altas velocidades. No usaremos mucho esta librería en este módulo, pero es importante entender que se pueden utilizar funciones de numpy para aplicar funciones de manera vectorizada a Series de pandas. Para importar numpy hacemos lo siguente:

In [18]:
import numpy as np

In [19]:
np.power(serie, 3)

0      1
1      8
2     27
3     64
4    125
dtype: int64

# Agregaciones

Hay una variación de estas funciones vectorizadas llamadas agregaciones (o reducciones) que lo que hacen es tomar un arreglo, atravesarlo "elemento por elemento" y regresar un solo número que es un "resumen" del arreglo. Este "resumen" es justamente la agregación o reducción. Podemos aplicar estas funciones usando numpy o directamente desde una Serie o DataFrame de pandas. Para efectos prácticos, vamos a utilizar nosotros los métodos que vienen integrados directamente en pandas. Por ejemplo, podemos sumar todos los valores de una Serie de esta manera:

In [20]:
serie.sum()

15

O podemos contar el número de elementos en una Serie así:


In [21]:
serie.count()

5

Podemos obtener el valor más pequeño de la Serie:

In [22]:
serie.min()

1

O el valor más grande:

In [23]:
serie.max()

5

# Funciones vectorizadas y Agregaciones con DataFrames

Tanto las funciones vectorizadas como las agregaciones pueden ser aplicadas a DataFrames completos.

Vemos primero las agregaciones. al aplicar una agregación a un DataFrame, lo que obtenemos de regreso es el resultado de aplicar la función a cada una de las columnas (que al final de cuentas son Series, ¿lo recuerdas?). Por ejemplo, tenemos este DataFrame:

In [24]:
df2 = pd.DataFrame(
    {
        'precio': [34,54,223,78,56,12,34],
        'cantidad_en_stock':[3,6,10,2,5,45,2],
        'productos_vendidos':[3,45,23,76,24,6,2]
    }, index=['Pokemaster', 'Cegatron', 'Pikame Mucho', 'Lazarillo de Tormes', 'Stevie Wonder', 'Needle', 'El AyMeDuele']
)


In [25]:
df2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pikame Mucho,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


In [26]:
df2.shape

(7, 3)

In [27]:
df2.dtypes

precio                int64
cantidad_en_stock     int64
productos_vendidos    int64
dtype: object

In [28]:
df2.describe()

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
count,7.0,7.0,7.0
mean,70.142857,10.428571,25.571429
std,70.570127,15.501152,27.011461
min,12.0,2.0,2.0
25%,34.0,2.5,4.5
50%,54.0,5.0,23.0
75%,67.0,8.0,34.5
max,223.0,45.0,76.0


In [29]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Pokemaster to El AyMeDuele
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   precio              7 non-null      int64
 1   cantidad_en_stock   7 non-null      int64
 2   productos_vendidos  7 non-null      int64
dtypes: int64(3)
memory usage: 224.0+ bytes


Mira qué pasa cuando le aplicamos la agregación sum:


In [30]:
df2.sum()

precio                491
cantidad_en_stock      73
productos_vendidos    179
dtype: int64

pandas toma cada una de las columnas, suma todos los valores dentro de cada columna y nos regresa el resultado de las sumas en una nueva Serie, donde el índice son los nombres de las columnas en el DataFrame y los valores son las sumas.


In [31]:
df2.min()

precio                12
cantidad_en_stock      2
productos_vendidos     2
dtype: int64

In [32]:
df2.max()

precio                223
cantidad_en_stock      45
productos_vendidos     76
dtype: int64

Ahora veamos qué pasa cuando aplicamos funciones vectorizadas a nuestro DataFrame:


In [33]:
df2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pikame Mucho,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


In [34]:
df2 * 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,3400,300,300
Cegatron,5400,600,4500
Pikame Mucho,22300,1000,2300
Lazarillo de Tormes,7800,200,7600
Stevie Wonder,5600,500,2400
Needle,1200,4500,600
El AyMeDuele,3400,200,200


In [35]:
df2 / 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,0.34,0.03,0.03
Cegatron,0.54,0.06,0.45
Pikame Mucho,2.23,0.1,0.23
Lazarillo de Tormes,0.78,0.02,0.76
Stevie Wonder,0.56,0.05,0.24
Needle,0.12,0.45,0.06
El AyMeDuele,0.34,0.02,0.02


# NaNs
Como ya dijimos, los NaNs (Not a Number) son valores nulos en nuestro conjunto de datos. Son valores que por alguna razón no se encuentran en nuestro dataset. A la hora de coleccionar nuestros datos, al momento de transcribirlos o de almacenarlos, algo pasó que algunos de esos datos faltan en el dataset final. pandas está diseñado para lidiar con estos datos fácilmente.

Veamos un DataFrame con valores NaN (estamos usando el objeto de numpy np.nan para crear valores Nan):

In [36]:
datos = {
        'precio': [34,54,np.nan,np.nan,56,12,34],
        'cantidad_en_stock':[3,6,np.nan,np.nan,5,45,2],
        'productos_vendidos':[3,45,23,np.nan,24,6,2]
    }
indices=['Pokemaster', 'Cegatron', 'Pikame Mucho', 'Lazarillo de Tormes', 'Stevie Wonder', 'Needle', 'El AyMeDuele']

In [37]:
df3 = pd.DataFrame(datos , index=indices)
df3

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


Como puedes ver, a este DataFrame le faltan datos. Los valores NaN que contiene son valores nulos, y nos nos dicen nada útil, en realidad. Podríamos asumir cosas acerca de por qué faltan estos datos, pero no serían más que suposiciones.

Ahora, ¿qué pasa con estos datos nulos? Su presencia puede ser problemática para algunos de los análisis que queremos realizar.

En este caso nuestro dataset es muy pequeño y podemos visualizarlo todo de un solo vistazo. Pero vamos a imaginar que nuestro dataset ese mucho más grande y que necesitamos saber si hay NaNs y cuántos. Para lograr esto podemos usar una función vectorizada llamada isna. isna checa cada valor en nuestro DataFrame, lo transforma en True cuando el valor es igual a NaN y a False cuando no lo es:

In [38]:
df3.isna()

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,False,False,False
Cegatron,False,False,False
Pikame Mucho,True,True,False
Lazarillo de Tormes,True,True,True
Stevie Wonder,False,False,False
Needle,False,False,False
El AyMeDuele,False,False,False


Ok, ¿y ahora qué hacemos con esto? Podemos usar la agregación sum para hacer un conteo de nuestros valores nulos. Si recuerdas, sum sumaba todos los valores de cada columna y regresaba el total por columna. Si sumas valores booleanos, los Trues cuentan como 1 y los False cuentan como 0. Esto significa que aplicando la función, obtendremos el total de valores nulos en cada columna:

In [39]:
df3.isna().sum()

precio                2
cantidad_en_stock     2
productos_vendidos    1
dtype: int64

De esta manera podemos saber si hay columnas que tienen demasiados valores nulos como para ser utilizadas.

También podemos obtener el número de NaNs que hay en cada fila pasándole un argumento a sum. Podemos indicarle a sum el eje en el cual queremos realizar la operación. En el caso de pandas eje se refiere a la dimensión de la estructura de datos. A estos ejes se les llama axis. Vamos a entender mejor los ejes más adelante cuando veamos aritmética de Series; por el momento basta con saber que si le pasamos axis=1 a sum, nos regresa la suma de NaNs por ìndice:

In [40]:
df3.isna().sum(axis='columns')

Pokemaster             0
Cegatron               0
Pikame Mucho           2
Lazarillo de Tormes    3
Stevie Wonder          0
Needle                 0
El AyMeDuele           0
dtype: int64

In [41]:
df3.isna().sum(axis='index')

precio                2
cantidad_en_stock     2
productos_vendidos    1
dtype: int64

La decisión de qué hacer con los NaNs depende mucho del contexto. Vamos a ver 3 cosas básicas que podemos realizar para limpiar estos datos indeseables:

1. Eliminar filas con NaNs
1. Eliminar columnas con NaNs
1. Llenar los NaNs con algún valor.

# Eliminar filas con `NaNs`

Usando el método dropna, la eliminación de filas con `NaNs` se vuelve muy sencillo. Sólo basta con llamar `dropna` y todas las filas que contienen `NaNs` son eliminadas:

In [42]:
df_limpiar= df3.copy()

In [43]:
df_limpiar

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [44]:
df_limpiar.dropna()

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [45]:
df_limpiar

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


Esta operación no modifica el `DataFrame` original, así que si queremos que el cambio persista tenemos que asignarlo a un nuevo DataFrame:

In [46]:
df_dropped = df_limpiar.dropna()

In [47]:
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


En caso de que queramos eliminar solamente las filas donde TODOS los valores sean `NaN`, podemos pasarle el argumento `how='all'`:

In [48]:
df_limpiar

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [49]:
df_dropped = df_limpiar.dropna(how = "all")
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


El valor default es how='any', que elimina las filas donde haya mínimo un NaN.


# Eliminar columnas con `NaNs`

Ahora, ¿qué pasa si quisiéramos eliminar `NaNs` por columna? Vamos a agregar una columna a nuestro `DataFrame` que contenga puros `NaNs`:

In [50]:
import numpy as np

In [51]:
df_limpiar

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [52]:
# Agrega la columna descuento al dataframe con valores NaN
df_limpiar['Descuento'] = np.NaN
df_limpiar

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,Descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,45.0,6.0,
El AyMeDuele,34.0,2.0,2.0,


Si te fijas, sólo bastó con llamar df['descuento'] = np.nan para conseguir una columna completa de NaNs. Esto tiene que ver con la aritmética de Series. Cuando asigno un solo valor a una Serie, automáticamente toda la Serie toma ese valor.

Para eliminar columnas donde haya NaNs, llamamos también dropna pero con el argumento axis=1:

In [53]:
df_limpiar.dropna(axis=1, how='all')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [54]:
df_limpiar.dropna(axis='columns', how='all')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


# Llenar valores nulos con un valor 

Digamos que tenemos un `DataFrame` que se vea asi

In [55]:
df_limpiar

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,Descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,45.0,6.0,
El AyMeDuele,34.0,2.0,2.0,


Nuestra primera acción deberia de ser elimar las filas y columnas donde los valores sean `NaN`, porque no nos sirven de nada:

In [56]:
df_dropped = df_limpiar.dropna(axis='index', how='all')
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,Descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,,23.0,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,45.0,6.0,
El AyMeDuele,34.0,2.0,2.0,


In [57]:
df_dropped = df_limpiar.dropna(axis='columns', how='all')

In [58]:
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


Ahora, ¿qué debemos hacer con valores nulos que nos quedan? Digamos que nuestro análisis más importante tiene que ver con la columna 'precio', entonces esa columna es muy importante que esté limpia. Pero digamos que nuestra 'productos_vendidos' no es tan importante. Tal vez si hay un `NaN` en productos vendidos podemos asumir que no hay ningún producto vendido hasta ahora. En ese caso, podríamos llenar el/los NaN de la columna 'productos_vendidos' con `0s`. Eso se hace con el método `fillna`:

In [59]:
df_dropped 

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [60]:
df_dropped = df_limpiar.dropna(axis = 1, how = 'all')

In [61]:
df_dropped['productos_vendidos'].fillna(0)

Pokemaster              3.0
Cegatron               45.0
Pikame Mucho           23.0
Lazarillo de Tormes     0.0
Stevie Wonder          24.0
Needle                  6.0
El AyMeDuele            2.0
Name: productos_vendidos, dtype: float64

Seleccionamos la columna donde queremos llenar los `NaNs` con `0` y llamamos el métodos fillna(0). En este caso sólo estamos obteniendo de regreso la columna rellenada. Para tenerla en nuestro `DataFrame` podemos reasignarla a la misma columna:

In [62]:
df_dropped['productos_vendidos2'] = df_dropped['productos_vendidos'].fillna(0)

In [63]:
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,productos_vendidos2
Pokemaster,34.0,3.0,3.0,3.0
Cegatron,54.0,6.0,45.0,45.0
Pikame Mucho,,,23.0,23.0
Lazarillo de Tormes,,,,0.0
Stevie Wonder,56.0,5.0,24.0,24.0
Needle,12.0,45.0,6.0,6.0
El AyMeDuele,34.0,2.0,2.0,2.0


In [64]:
df_dropped = df_dropped.drop(columns = ['productos_vendidos'])


In [65]:
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos2
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,0.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


In [66]:
df_cleaned = df_dropped.rename(columns = {'productos_vendidos2': 'productos_vendidos'})
df_cleaned

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,,23.0
Lazarillo de Tormes,,,0.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,45.0,6.0
El AyMeDuele,34.0,2.0,2.0


# Aplicación en nuestro dataset original

Vamos a ver cómo funciona esto en nuestro dataset que teníamos al principio:

In [67]:
df.head(5)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


In [68]:
df.shape

(19740, 21)

Primero hacemos conteo de NaNs:


In [69]:
df.isna().sum()

Suburb               0
Address              0
Rooms                0
Type                 0
Price             4344
Method               0
SellerG              0
Date                 0
Distance             8
Postcode             8
Bedroom2          4413
Bathroom          4413
Car               4413
Landsize          4796
BuildingArea     11123
YearBuilt        10389
CouncilArea       4444
Lattitude         4292
Longtitude        4292
Regionname           8
Propertycount        8
dtype: int64

Tenemos un total de filas de 19740, así que el hecho de que tengamos alrededor de 11000 valores NaNs en las columnas BuildingArea y YearBuilt no son una buena señal. Tal vez después cambiemos nuestra decisión, pero por el momento vamos a simplemente eliminarlas

In [70]:
df_2 = df.copy()
df_2.head(5)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


In [71]:
df_2.isna().sum()

Suburb               0
Address              0
Rooms                0
Type                 0
Price             4344
Method               0
SellerG              0
Date                 0
Distance             8
Postcode             8
Bedroom2          4413
Bathroom          4413
Car               4413
Landsize          4796
BuildingArea     11123
YearBuilt        10389
CouncilArea       4444
Lattitude         4292
Longtitude        4292
Regionname           8
Propertycount        8
dtype: int64

In [72]:
#Codigo para eliminar columnas
df_3 = df_2.drop(columns=['BuildingArea', 'YearBuilt'])

In [73]:
df_3.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price            4344
Method              0
SellerG             0
Date                0
Distance            8
Postcode            8
Bedroom2         4413
Bathroom         4413
Car              4413
Landsize         4796
CouncilArea      4444
Lattitude        4292
Longtitude       4292
Regionname          8
Propertycount       8
dtype: int64

Ok, ahora tenemos que decidir qué vamos a hacer con el resto de los NaNs. Presiento que no es muy grave no tener valores en 'Regionname', ya que es poco probable que usemos esa columna para nuestro análisis. Por lo tanto voy a llenar los NaNs con el valor Unknown:

In [74]:
df_3['Regionname'] = df_3['Regionname'].fillna('Unknown')

In [75]:
df_3.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price            4344
Method              0
SellerG             0
Date                0
Distance            8
Postcode            8
Bedroom2         4413
Bathroom         4413
Car              4413
Landsize         4796
CouncilArea      4444
Lattitude        4292
Longtitude       4292
Regionname          0
Propertycount       8
dtype: int64

El resto de las columnas voy a considerarlas esenciales, así que vamos a eliminar todas las filas donde todavía tengamos NaNs:


In [76]:
df_3 = df_3.dropna(axis = 0, how = 'any')

In [77]:
df_3.isna().sum()

Suburb           0
Address          0
Rooms            0
Type             0
Price            0
Method           0
SellerG          0
Date             0
Distance         0
Postcode         0
Bedroom2         0
Bathroom         0
Car              0
Landsize         0
CouncilArea      0
Lattitude        0
Longtitude       0
Regionname       0
Propertycount    0
dtype: int64

In [78]:
df_3.head(10)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0
10,Abbotsford,129 Charles St,2,h,941000.0,S,Jellis,7/05/2016,2.5,3067.0,2.0,1.0,0.0,181.0,Yarra,-37.8041,144.9953,Northern Metropolitan,4019.0
11,Abbotsford,124 Yarra St,3,h,1876000.0,S,Nelson,7/05/2016,2.5,3067.0,4.0,2.0,0.0,245.0,Yarra,-37.8024,144.9993,Northern Metropolitan,4019.0
14,Abbotsford,98 Charles St,2,h,1636000.0,S,Nelson,8/10/2016,2.5,3067.0,2.0,1.0,2.0,256.0,Yarra,-37.806,144.9954,Northern Metropolitan,4019.0
17,Abbotsford,6/241 Nicholson St,1,u,300000.0,S,Biggin,8/10/2016,2.5,3067.0,1.0,1.0,1.0,0.0,Yarra,-37.8008,144.9973,Northern Metropolitan,4019.0
18,Abbotsford,10 Valiant St,2,h,1097000.0,S,Biggin,8/10/2016,2.5,3067.0,3.0,1.0,2.0,220.0,Yarra,-37.801,144.9989,Northern Metropolitan,4019.0


El resto de las columnas voy a considerarlas esenciales, así que vamos a eliminar todas las filas donde todavía tengamos NaNs:


In [79]:
df_3.shape

(11646, 19)

Y ahora vemos cuántas filas nos han quedado:


In [80]:
df_3.tail()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
19731,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,3.0,2.0,2.0,1970.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
19734,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,2.0,1.0,1.0,2010.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
19737,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,3.0,2.0,2.0,1999.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
19738,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,3.0,2.0,1.0,2011.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0
19739,Yarraville,10/127 Somerville Rd,3,t,645000.0,SP,Jas,29/07/2017,6.3,3013.0,2.0,1.0,1.0,1980.0,Hume,-37.69815,144.88019,Western Metropolitan,6543.0


## Reindexando

Ahora, algo pasó con nuestro dataset después de eliminar los NaNs y es que nuestro índice ya no corresponde con el número de filas en nuestro dataset:

In [81]:
def revisar_secuencia_index():
    indices_actuales = df_3.index
    #Crear una secuencia esperada (por ejemplo, una secuencia numérica)
    secuencia_esperada = pd.Index(range(indices_actuales.min(), indices_actuales.max() + 1))

    # Comparar
    if indices_actuales.equals(secuencia_esperada):
        print("La secuencia de índices es la esperada.")
    else:
        print("La secuencia de índices ha cambiado.")

In [82]:
revisar_secuencia_index()

La secuencia de índices ha cambiado.


Esto sucede porque eliminamos filas pero las filas que se mantuvieron siguen teniendo el mismo índice que antes. Hay veces que eso es lo que queremos (cuando nuestro índice son, nombres, etiquetas, letras, etc), pero en este caso, nos convendría que nuestro índice coincidiera con la posición de la fila en el dataset. Podemos corregir esto usando el método reset_index de la siguiente manera:


In [83]:
df_3.reset_index()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11641,19731,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,3.0,2.0,2.0,1970.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
11642,19734,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,2.0,1.0,1.0,2010.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
11643,19737,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,3.0,2.0,2.0,1999.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
11644,19738,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,3.0,2.0,1.0,2011.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0


Como ves, el índice ahora corresponde con el número de filas que tenemos. El único problema es que ahora tenemos una columna llamada índice que contiene los índices anteriores. Una vez más, hay veces que queremos eso (cuando la información contenida ahí era relevante y no queremos deshacernos de ella), pero en este caso, en realidad no nos interesa mantener esa columna. Para resetear el índice y eliminarlo al mismo tiempo, usamos reset_index(drop=True):


In [84]:
df_3.reset_index(drop = True)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11641,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,3.0,2.0,2.0,1970.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
11642,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,2.0,1.0,1.0,2010.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
11643,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,3.0,2.0,2.0,1999.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
11644,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,3.0,2.0,1.0,2011.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0


In [85]:
df_3.reset_index()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11641,19731,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,3.0,2.0,2.0,1970.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
11642,19734,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,2.0,1.0,1.0,2010.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
11643,19737,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,3.0,2.0,2.0,1999.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
11644,19738,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,3.0,2.0,1.0,2011.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0


# Renombrando columnas

Además del índice, otros identificadores que tenemos que nos interesa mantener siempre limpios y claros son los nombres de nuestras columnas. En el caso de nuestro dataset, los nombres no son suficientemente homogéneos. Tenemos cosas como Regionname (segunda palabra con minúscula) y otras como CouncilArea (segunda palabra con mayúscula). Además, hay errores ortográficos (lattitude, longtitude). Y creo también que prefiero que los nombres sigan la convención de nombramiento de Python (snake_case). Voy a renombrar mis columnas entonces para que sigan las mismas convenciones.

Normalmente renombramos columnas cuando los nombres:

1. No son lo suficientemente claros
1. No representan la información que contiene esa columna.
1. Tienen información basura.
1. Tienen errores ortográficos.
1. No siguen la convención que hemos decidido que deberían de tener.
1. Son demasiado largos o difíciles de escribir.

Cambiemos entonces nuestros nombres de columnas. Primero creamos un mapa de los nombres viejos a los nombres nuevos:

In [86]:
df_3.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'CouncilArea', 'Lattitude', 'Longtitude', 'Regionname',
       'Propertycount'],
      dtype='object')

In [87]:
column_name_mapping = {
    'Suburb':'suburb',
    'Address':'address',
    'Rooms': 'rooms',
    'Type': 'type',
    'Price' : 'price',
    'Method': 'method',
    'SellerG':'seller_g',
    'Date':'date',
    'Distance':'distance',
    'Postcode': 'postcode',
    'Bedroom2': 'bedrooms',
    'Bathroom': 'bathroom',
    'Car':'car',
    'Landsize': 'land_size',
    'CouncilArea': 'council_area',
    'Lattitude':'latitude',
    'Longtitude':'longiude',
    'Regionname':'region_name',
    'Propertycount':'property_count'
}

Y ahora usamos el método rename para cambiar los nombres:


In [88]:
df_rename = df_3.rename(columns= column_name_mapping)
df_3.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


Eso es todo amigos