## Ejemplo 7: Reindexando y renombrando columnas

### 1. Objetivos:
    - Limpiar un poco más nuestro dataset asignándole un índice y nombres de columnas apropiadas
 
---
    
### 2. Desarrollo:

Limpiemos nuestro dataset hasta que esté justo como lo dejamos en el Ejemplo pasado:

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('../../Datasets/melbourne_housing-raw.csv')

In [None]:
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])

In [None]:
df_2['Regionname'] = df_2['Regionname'].fillna('Unknown')

In [None]:
df_dropped = df_2.dropna(axis=0, how='any')

In [None]:
df_dropped

Ahora, tenemos dos situaciones:

1. La primera es que nuestro índice no coincide con el número de filas que tenemos. En este caso, dado que nuestro índice es secuencial y numérico, y no tiene ningún significado además de eso, nos convendría que reflejara la cantidad de filas que tenemos en nuestro dataset.

Para lograr eso vamos a usar el método `reset_index()`:

In [None]:
...

Nuestro índice ya está correcto, pero ahora tenemos un columna llamada `index` que contiene el índice original. Como no queremos guardar esos datos, agregamos la opción `drop=True` para eliminar el índice anterior:

In [None]:
...

Guardemos nuestros cambios en otra variable:

In [None]:
...

df_dropped

Ahora tenemos un problema con los nombres de las columnas: Tienen inconsistencias en la manera cómo están nombradas y algunas incluso tienen errores ortográficos. Vamos a cambiarles los nombres para tener consistencia haciendo uso de la función `df.rename(columns=nuevos_nombres)`

In [None]:
nuevos_nombres = {
    'Suburb': 'suburb',
    'Address': 'address',
    'Rooms': 'rooms',
    'Type': 'type',
    'Price': 'price',
    'Method': 'method',
    'SellerG': 'seller_g',
    'Date': 'date',
    'Distance': 'distance',
    'Postcode': 'post_code',
    'Bedroom2': 'bedrooms',
    'Bathroom': 'bathroom',
    'Car': 'car',
    'Landsize': 'land_size',
    'CouncilArea': 'council_area',
    'Lattitude': 'latitude',
    'Longtitude': 'longitude',
    'Regionname': 'region_name',
    'Propertycount': 'property_count'
}

In [None]:
...

df_nuevo

Finalmente guardamos nuestros resultados en un archivos CSV:

In [None]:
...

¡Listo! Nuestro dataset va agarrando forma.

---
---

## Reto 7: Limpiando un dataset

### 1. Objetivos:
    - Aplicar todo lo que aprendimos el día de hoy a un dataset real
 
### 2. Desarrollo:

#### a) Limpieza de datos en el mundo real

Hasta ahora hemos estado realizando ejercicios con datasets dummy (falsos). Ahora vamos a aplicar todo lo que hemos aprendido el día de hoy a un dataset real.

El dataset se encuentra en la carpeta [Datasets](../../Datasets/Readme.md) en la raíz del repositorio. El nombre el dataset es 'Datasets/new_york_times_bestsellers-raw.csv'.

Lee el dataset usando pandas y realiza las siguientes tareas:

1. Ve a este el archivo `Readme.md` de la carpeta `Datasets` para conocer más sobre el dataset y los datos que contiene.
2. Explora tu dataset para entender su estructura
3. Identifica los `NaNs` en el dataset y dónde se encuentran
4. Elimina los `NaNs` de tu dataset
5. Resetea tu índice para que sea compatible con el nuevo dataset
6. Cambia los nombres de las columnas para que tengan consistencia y no haya errores ortográficos
7. Realiza agregaciones (min, man, mean, etc) de las siguientes columnas para conocer mejor la distribución de tus datos:

   - a) rank
   - b) rank_last_week
   - c) week_in_list
    
Si tienes dudas en algún momento, por favor pídele a la experta que te oriente. Todas las tareas que hay que realizar ya las hemos hecho en otros retos; puedes ir a revisar esos otros ejercicios para recordar.

¡Mucha suerte!