# Limpieza I

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Cambiar-el-nombre-de-las-columnas" data-toc-modified-id="Cambiar-el-nombre-de-las-columnas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Cambiar el nombre de las columnas</a></span></li><li><span><a href="#Duplicados" data-toc-modified-id="Duplicados-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Duplicados</a></span></li><li><span><a href="#Variables-redundantes" data-toc-modified-id="Variables-redundantes-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Variables redundantes</a></span></li><li><span><a href="#Cambio-del-tipo-de-columna" data-toc-modified-id="Cambio-del-tipo-de-columna-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Cambio del tipo de columna</a></span><ul class="toc-item"><li><span><a href="#Floats-que-deberían-ser-Integers" data-toc-modified-id="Floats-que-deberían-ser-Integers-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span><em>Floats</em> que deberían ser <em>integers</em></a></span></li><li><span><a href="#Strings-que-deberían-ser-decimales" data-toc-modified-id="Strings-que-deberían-ser-decimales-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span><em>Strings</em> que deberían ser decimales</a></span></li></ul></li><li><span><a href="#Orden-columnas" data-toc-modified-id="Orden-columnas-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Ordenar columnas</a></span><ul class="toc-item"><li><span><a href="#Cambiar-una-columna-al-índice:" data-toc-modified-id="Cambiar-una-columna-al-índice:-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Cambiar una columna al índice</a></span></li><li><span><a href="#Cambiar-el-orden-de-nuestras-columnas" data-toc-modified-id="Cambiar-el-orden-de-nuestras-columnas-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Cambiar el orden de nuestras columnas</a></span></li></ul></li></ul></div>

In [1]:
import pandas as pd

La limpieza de datos (también lo encontraréis como *data cleansing*, *data cleaning* o *data scrubbing*) es el proceso de analizar datos para encontrar valores incorrectos, corruptos y faltantes y eliminarlos para que sean adecuados para la entrada del análisis de datos. 

Si bien no hay reglas establecidas a seguir para la limpieza de datos, a lo largo de los próximos días veremos los principales "cambios" que tenemos que llevar a cabo en nuestro *DataFrame* para alcanzar nuestro objetivo. 

**Los principales motivos por los que podemos tener nuestros datos "sucios" podrían ser:**

- Los datos se recopilan de varias fuentes estructuradas y no estructuradas y luego se combinan, dando lugar a valores duplicados y mal etiquetados.


- Error de entrada manual / errores tipográficos.


- Capitalización incorrecta.


- Categorías / clases mal etiquetadas.

> Siempre debemos recordar que lo más importante es la calidad de nuestros datos! 

In [3]:
df = pd.read_csv("../files/WDICountry2.csv", index_col = 0)
df.head(2)

Unnamed: 0,Country Name,m2016,f2016,index_,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,...,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Unnamed: 30,mean_age,total2016
0,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,...,2020 (expected),,,Yes,,,2018.0,,37,622308
1,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,...,2020 (expected),,,Yes,,,2018.0,,57,4771070


Como vemos no podemos ver el total de las columnas que tenemos en el *DataFrame*. Recordamos que tenemos un método de Pandas que nos va a permitir visualizar todas las columnas 👇: 

In [4]:
pd.options.display.max_columns = None

In [5]:
# yujuu! ya podemos ver todas las columnas

df.head(2)

Unnamed: 0,Country Name,m2016,f2016,index_,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,National accounts base year,National accounts reference year,SNA price valuation,Lending category,Other groups,System of National Accounts,Alternative conversion factor,PPP survey year,Balance of Payments Manual in use,External debt Reporting status,System of trade,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Unnamed: 30,mean_age,total2016
0,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,,37,622308
1,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,,57,4771070


## Cambiar el nombre de las columnas

Como podemos ver, nuestras columnas están en mayúsculas y minúsculas, tienen espacios etc. Esto puede resultar algo incómodo cuando trabajemos con ellas. Es por esto que debemos acostumbrarnos a homogeneizar el nombre de las columnas. 

Si recordamos, cuando vimos Pandas aprendimos el método `.rename()` que nos permitía cambiar el nombre de las columnas de nuestro *DataFrame* usando un diccionario. 

Su sintaxis era: 

```python
    MiDataFrame.rename(columns, inplace)
```

Donde: 

- `columns`: será un diccionario donde las *keys* serán el nombre de las columnas antiguas y los *values* los nombres de las columnas nuevas. 
- `inplace`: si es `True` lo que haremos será guardar los cambios en el *DataFrame* original. 

Vamos a poner todos los nombres de las columnas en minúscula (usando el método `.lower()`) y sustituiremos los espacios por barras bajas (usando el método `.replace()`). Recordamos que tenemos 32 columnas, hacer esto una a una puede resultar algo tedioso, por lo que haremos un *dict comprehension*.  

In [51]:
# crearemos un diccionario con el dict comprehension

nuevas_columnas = {col: col.replace(" ", "_").lower() for col in df.columns}
nuevas_columnas

{'Country Name': 'country_name',
 'm2016': 'm2016',
 'f2016': 'f2016',
 'index_': 'index_',
 'Country Code': 'country_code',
 'Short Name': 'short_name',
 'Table Name': 'table_name',
 'Long Name': 'long_name',
 '2-alpha code': '2-alpha_code',
 'Currency Unit': 'currency_unit',
 'Special Notes': 'special_notes',
 'Region': 'region',
 'Income Group': 'income_group',
 'WB-2 code': 'wb-2_code',
 'National accounts base year': 'national_accounts_base_year',
 'National accounts reference year': 'national_accounts_reference_year',
 'SNA price valuation': 'sna_price_valuation',
 'Lending category': 'lending_category',
 'Other groups': 'other_groups',
 'System of National Accounts': 'system_of_national_accounts',
 'Alternative conversion factor': 'alternative_conversion_factor',
 'PPP survey year': 'ppp_survey_year',
 'Balance of Payments Manual in use': 'balance_of_payments_manual_in_use',
 'External debt Reporting status': 'external_debt_reporting_status',
 'System of trade': 'system_of_trade

In [52]:
# aplicamos el método rename

df.rename(columns = nuevas_columnas, inplace = True)

In [53]:
# chequeamos que se han hecho los cambios

df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,country_code,short_name,table_name,long_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,ppp_survey_year,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,unnamed:_30,mean_age,total2016
0,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,,37,622308
1,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,,57,4771070


## Duplicados

Es probable que muchos no se den cuenta inmediatamente de la importancia de encontrar y eliminar los datos duplicados. Sin embargo, es importante darse cuenta de que los datos duplicados pueden crear un caos que, a la larga, podría hacernos llegar a conclusiones erróneas, lo que sería una gran pérdida de tiempo. 

Identificar y eliminar o fusionar estos registros duplicados de una base de datos es una parte clave para realizar un buen análisis de datos. Las principales ventajas de eliminar los duplicados son:

- Desarrollará una versión completa de la verdad de nuestros datos que nos permitirá basar las decisiones estratégicas en datos precisos.

- Se ahorra tiempo al no enviar comunicaciones idénticas varias veces a la misma persona.

- Nuestro análisis se vuelven más precisos. 

> En Pandas tenemos el método `duplicated` que nos va a permitir conocer si tenemos algún valor duplicado en nuestro *DataFrame*.

La sintaxis: 

```python
    MiDataFrame.duplicated(subset, keep)
```

Donde: 

- `subset`: de la subcolumna o secuencia de etiquetas, es opcional. Considera sólo determinadas columnas para identificar los duplicados, por defecto utiliza todas las columnas.

- `keep`: por defecto "first". Otros valores que puede tomar: 

    - `first` : marca los duplicados como Verdaderos excepto la primera ocurrencia.
    - `last` : marca los duplicados como Verdaderos excepto la última ocurrencia.
    - `False` : marca todos los duplicados como Verdaderos.

 📌 **NOTA** Nos devuelve una *Serie* de booleanos.


In [54]:
# chequeamos si hay valores nulos basándonos en todas las columnas

df.duplicated() # como siempre esto nos puede resultar algo difícil de interpretar

0      False
1      False
2      False
3      False
4      False
       ...  
225    False
226    False
227    False
228    False
229    False
Length: 230, dtype: bool

In [None]:
# podemos incluir un sum() para que nos de el conteo de las filas que están duplicadas

df.duplicated().sum() # en total tenemos 1 filas duplicadas. 

In [56]:
# si quisieramos por ejemplo chequear si hay valores repetidos en función de dos columas (index y country_code8

df.duplicated(["index_", "country_code"]).sum()

32

In [57]:
# si quisieramos extraer los valores exactos duplicados: 

df[df.duplicated(["index_", "country_code"])].head(2)

Unnamed: 0,country_name,m2016,f2016,index_,country_code,short_name,table_name,long_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,ppp_survey_year,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,unnamed:_30,mean_age,total2016
1,Aruba,,18,0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,,57,4771070
26,Bolivia,295.0,2878,28,BOL,Bolivia,Bolivia,Plurinational State of Bolivia,BO,Bolivian Boliviano,,Latin America & Caribbean,Lower middle income,BO,1990,,Value added at basic prices (VAB),IBRD,HIPC,Country uses the 1993 System of National Accou...,1960–85,,BPM6,Actual,General trade system,,Enhanced General Data Dissemination System (e-...,2012,"Demographic and Health Survey, 2008","Integrated household survey (IHS), 2016",,2013.0,2010.0,2018.0,,64,8951334


Ya hemos identificado los valores duplicados, ¿cómo los eliminamos ahora?

En Pandas tenemos el método `drop_duplicated()` que nos va a permitir eliminar los duplicados. 

```python
    MiDataFrame.drop_duplicates(subset, inplace, ignore_index)
```

Donde: 

- `subset`: de la subcolumna o secuencia de etiquetas, es opcional. Considera sólo ciertas columnas para identificar duplicados, por defecto usa todas las columnas.

- `inplace`: por defecto `False`. Si se eliminan los duplicados en su lugar o se devuelve una copia.

- `ignore_index`: por defecto `False`. Será como un `.reset_index()` si lo dejamos a `False`. 

In [58]:
df.drop_duplicates(subset = ["index_", "country_code"], inplace = True)

Ya hemos eliminado los duplicados, veamos si seguimos con alguno: 

In [59]:
# genial!! Ya hemos quitado los duplicados!!!! 

df.duplicated(["index_", "country_code"]).sum()

0

## Variables redundantes

De la misma forma que tener filas que contienen información redundante, tener columnas que nos están dando la misma información nos puede dar los mismos problemas. 

In [60]:
# volvamos a ver nuestro dataframe: 

df.sample(2)

Unnamed: 0,country_name,m2016,f2016,index_,country_code,short_name,table_name,long_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,ppp_survey_year,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,unnamed:_30,mean_age,total2016
159,Pakistan,642.0,3481.0,183,PAK,Pakistan,Pakistan,Islamic Republic of Pakistan,PK,Pakistani rupee,Fiscal year end: June 30; reporting period for...,South Asia,Lower middle income,PK,2005/06,,Value added at basic prices (VAB),Blend,,Country uses the 2008 System of National Accou...,,,BPM6,Actual,General trade system,Budgetary central government,Enhanced General Data Dissemination System (e-...,2017,Pakistan Maternal Mortality Survey\nOther Data...,"Integrated household survey (IHS), 2014/15",,2010.0,2006.0,2018.0,,36,6311130
92,Isle of Man,,,108,IMN,Isle of Man,Isle of Man,Isle of Man,IM,Pound sterling,Fiscal year end: March 31; reporting period fo...,Europe & Central Asia,High income,IM,Original chained constant price data are resca...,2015.0,Value added at basic prices (VAB),,,Country uses the 2008 System of National Accou...,,,,,,,,2016,,,Yes,,,,,80,2389123


Si evaluamos los valores únicos de las columnas que hacen referencia al país vemos que todas tienen el mismo número de elementos únicos. Si lo pensamos bien, estas columnas nos están dando la misma información. 

**¿Tiene sentido tenerlas todas en nuestro *DataFrame*?** 

En realidad no, por lo que podríamos proceder a eliminar todas menos una. Pero...🤔, ¿cuál eliminamos? En realidad no hay una fórmula para saber cuál eliminar. Pero nos podríamos quedar con la que más detalle nos aporte. 

In [61]:
len(df.short_name.unique())

198

In [62]:
len(df.table_name.unique())

198

In [63]:
len(df.long_name.unique())

198

In [64]:
len(df.country_code.unique())

198

En este caso nos quedaremos con la variable `short_name`. Eliminemos el resto! 

Recordemos en Pandas tenemos el método `.drop()` que nos permite eliminar las columnas que le especifiquemos. 

In [65]:
df.drop(["table_name", "long_name", "country_code"], axis = 1, inplace = True)

In [66]:
# chequeemos si se han eliminado las columnas

df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,ppp_survey_year,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,unnamed:_30,mean_age,total2016
0,Aruba,,18,0,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,,37,622308
2,Afghanistan,532.0,4635,2,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018.0,,80,3607857


 📌 Por otro lado, nos puede pasar que nos encontremos con alguna columna que todos sus valores sean nulos. Estas columnas no son reduntantes, pero son inútiles. 
 
Veamos como podemos calcular el porcentaje de nulos que tenemos en nuestras columnas: 

- Sacar el número de nulos que tenemos en nuestro *DataFrame* usando el método `isnull()`.
- Sacar el número total de filas que tenemos en nuestro *DataFrame* usando el método `shape()`.

In [67]:
df.isnull().sum() * 100 / df.shape[0]

country_name                                           0.000000
m2016                                                 11.111111
f2016                                                  8.585859
index_                                                 0.000000
short_name                                             0.000000
2-alpha_code                                           1.010101
currency_unit                                          0.000000
special_notes                                         70.707071
region                                                 0.000000
income_group                                           0.000000
wb-2_code                                              0.505051
national_accounts_base_year                            3.030303
national_accounts_reference_year                      64.141414
sna_price_valuation                                    4.545455
lending_category                                      33.838384
other_groups                            

Si nos fijamos tenemos 2 columnas que tienen el 100% de los valores como nulos (`ppp_survey_year` y `unnamed:_30`) por lo que podemos eliminarlas sin miedo. 

In [68]:
df.drop(["ppp_survey_year", "unnamed:_30"], axis = 1, inplace = True)

In [69]:
# chequeemos si las hemos eliminado correctamente

df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
0,Aruba,,18,0,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,37,622308
2,Afghanistan,532.0,4635,2,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018.0,80,3607857


Como hemos dicho, para saber cual es la relevancia de las columnas no hay ninguna fórmula. Pero recordemos algo: 

> La importancia de nuestras variables dependerá en gran parte de la pregunta que nos estemos haciendo. 

## Cambio del tipo de columna

A veces puede ocurrir que al crear los datos o al importarlos estos tengan "asociado" un tipo de dato que no es correcto. Esto nos puede pasar mucho con las fechas (que lo ideal es que estén en formato datetime), con números (que deberían ser *integers* pero son *floats*  o incluso pueden llegar a ser *strings*). 

Veamos como podemos cambiar este tipo de datos. 

In [70]:
# recordemos el dataframe

df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
0,Aruba,,18,0,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018.0,37,622308
2,Afghanistan,532.0,4635,2,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018.0,80,3607857


In [71]:
# y los tipos de datos que tenemos

df.dtypes

country_name                                          object
m2016                                                 object
f2016                                                 object
index_                                                 int64
short_name                                            object
2-alpha_code                                          object
currency_unit                                         object
special_notes                                         object
region                                                object
income_group                                          object
wb-2_code                                             object
national_accounts_base_year                           object
national_accounts_reference_year                     float64
sna_price_valuation                                   object
lending_category                                      object
other_groups                                          object
system_of_national_accou

Identifiquemos posibles errores: 

- Las columnas de `national_accounts_reference_year`, `latest_industrial_data` y `latest_trade_data` están como *floats*  pero son años, por lo que deberíamos convertirlas a *integers*.

- Las columnas `m2016`, `f2016` paracen como *strings*, pero deberían ser decimales. Esto está ocurriendo porque los decimales en vez de ser puntos son comas. 


En Pandas tenemos el método `astype()`. El método se utiliza para convertir una columna de Pandas a un tipo de dato especificado. 

Su sintaxis es la siguiente: 

```python
    df[columna].astype(dtype, copy=True, errors='raise')
```

Donde: 

- `dtype`: utilice un numpy.dtype tipo de Python o para convertir el objeto pandas completo en el mismo tipo. 

- `copy`: Devuelve una copia cuando `copy = True` (tenga mucho cuidado al establecer `copy = False` ya que los cambios en los valores pueden propagarse a otros objetos Pandas).

- `errors`: controlar la generación de excepciones en datos no válidos para el tipo de datos proporcionado.

    - `raise`: permitir que se generen excepciones.
    - `ignore`: suprimir excepciones. En caso de error, devuelve el objeto original.

### *Floats* que deberían ser *integers*

In [72]:
df["national_accounts_reference_year"] = df["national_accounts_reference_year"].astype('Int64', errors = "ignore") 

In [73]:
df.sample(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
105,Kazakhstan,101,273,119,Kazakhstan,KZ,Kazakh tenge,,Europe & Central Asia,Upper middle income,KZ,Original chained constant price data are resca...,2005,Value added at basic prices (VAB),IBRD,,Country uses the 1993 System of National Accou...,1987–95,BPM6,Actual,General trade system,Consolidated central government,Special Data Dissemination Standard (SDDS),2020 (expected),"Multiple Indicator Cluster Survey, 2015","Expenditure survey/budget survey (ES/BS), 2017",,2006-2007,2013.0,2018.0,32,3549011
122,Lithuania,43,17,142,Lithuania,LT,Euro,A simple multiplier is used to convert the nat...,Europe & Central Asia,High income,LT,Original chained constant price data are resca...,2015,Value added at basic prices (VAB),,Euro area,Country uses the 2008 System of National Accou...,1990–95,BPM6,,Special trade system,Consolidated central government,Special Data Dissemination Standard Plus (SDDS...,2020 (expected). Population figures compiled f...,,"Income survey (IS), 2015",Yes,2010,2014.0,2018.0,41,1864893


In [74]:
# si chequeamos ahora el tipo de los valores de la columna ya no serán floats, ahora son integers! 

df["national_accounts_reference_year"].dtypes

Int64Dtype()

📌 Si nos fijamos ahora los valores NaN son un poco diferentes: 

```python
df["national_accounts_reference_year"][0]

# output:
<NA>
```

La diferencia con los NaN que estabamos acostumbradas a ver es que estos son los valores nulos de Pandas. Pero podremos operar con ellos de la misma forma. 

In [75]:
# no hace falta que lo hagamos columna a columna, lo podemos hacer con varias columnas a la vez

df[['latest_industrial_data', 'latest_trade_data']] = df[['latest_industrial_data', 'latest_trade_data']].astype("Int64", errors = "ignore")

In [76]:
# chequeemos si se ha cambiado el tipo de la columna latest_industrial_data

df["latest_industrial_data"].dtypes

Int64Dtype()

In [77]:
# y que ha pasado con latest_trade_data

df['latest_trade_data'].dtypes

Int64Dtype()

## *Strings* que deberían ser decimales

In [78]:
df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
0,Aruba,,18,0,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018,37,622308
2,Afghanistan,532.0,4635,2,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018,80,3607857


In [79]:
df[["m2016", 'f2016']] = df[["m2016", 'f2016']].replace(r',', ".", regex=True)

In [80]:
df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
0,Aruba,,1.8,0,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018,37,622308
2,Afghanistan,53.2,4.635,2,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018,80,3607857


Ahora siguen siendo strings, los cambiamos a float:

In [None]:
df[['m2016','f2016']].dtypes

In [None]:
df = df.astype({'m2016': 'float64', 'f2016': 'float64'}, copy=True, errors='raise')

In [None]:
df[['m2016','f2016']].dtypes

## Ordenar columnas

En este sentido nos referimos a dos cosas: 

- Cambiar una columna al índice
- Cambiar el orden de nuestras columnas

### Cambiar una columna al índice: 

Por un lado tenemos la columna `index`, que es una columna con valores únicos que nos va a ayudar a indentificar mejor las entradas en nuestro *DataFrame*. En este caso, cuando tenemos este tipo de columnas lo ideal es pasar esta columna al índice usando el método `set_index()`.

In [81]:
df.head(2)

Unnamed: 0,country_name,m2016,f2016,index_,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
0,Aruba,,1.8,0,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018,37,622308
2,Afghanistan,53.2,4.635,2,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018,80,3607857


In [82]:
df.set_index("index_", inplace = True)

In [83]:
# si chequeamos ahora nuestro dataset ya tendremos la columna de "index" como índice. 

df.head(2)

Unnamed: 0_level_0,country_name,m2016,f2016,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016
index_,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
0,Aruba,,1.8,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018,37,622308
2,Afghanistan,53.2,4.635,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018,80,3607857


## Cambiar el orden de nuestras columnas

Lo podemos hacer utilizando el método `.reindex()` de Pandas.

```python
    pd.MiDataFrame.reindex(columns=nombre_columnas) 
``` 
Donde:

- `columns`: es una lista con el nombre de las columnas reorganizadas.


In [84]:
# primero convierto el nombre de mis columnas en una lista: 

lista_columnas = df.columns.to_list()
print(lista_columnas)

['country_name', 'm2016', 'f2016', 'short_name', '2-alpha_code', 'currency_unit', 'special_notes', 'region', 'income_group', 'wb-2_code', 'national_accounts_base_year', 'national_accounts_reference_year', 'sna_price_valuation', 'lending_category', 'other_groups', 'system_of_national_accounts', 'alternative_conversion_factor', 'balance_of_payments_manual_in_use', 'external_debt_reporting_status', 'system_of_trade', 'government_accounting_concept', 'imf_data_dissemination_standard', 'latest_population_census', 'latest_household_survey', 'source_of_most_recent_income_and_expenditure_data', 'vital_registration_complete', 'latest_agricultural_census', 'latest_industrial_data', 'latest_trade_data', 'mean_age', 'total2016']


In [85]:
# definimos el nuevo orden de nuestras columnas

nuevo_orden =['country_name', 'short_name', '2-alpha_code', 'currency_unit', 'special_notes', 'region', 
              'income_group', 'wb-2_code', 'national_accounts_base_year', 'national_accounts_reference_year',
              'sna_price_valuation', 'lending_category', 'other_groups', 'system_of_national_accounts',
              'alternative_conversion_factor', 'balance_of_payments_manual_in_use', 'external_debt_reporting_status', 
              'system_of_trade', 'government_accounting_concept', 'imf_data_dissemination_standard', 'latest_population_census',
              'latest_household_survey', 'source_of_most_recent_income_and_expenditure_data', 'vital_registration_complete',
              'latest_agricultural_census', 'latest_industrial_data', 'latest_trade_data', 'mean_age',
              'total2016', 'm2016', 'f2016']

In [86]:
# aplicamos el método reindex

df2 = df.reindex(columns=nuevo_orden)

In [87]:
# chequeamos si se ha cambiado el orden

df2.head(2)

Unnamed: 0_level_0,country_name,short_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,mean_age,total2016,m2016,f2016
index_,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
0,Aruba,Aruba,AW,Aruban florin,,Latin America & Caribbean,High income,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,BPM6,,General trade system,,Enhanced General Data Dissemination System (e-...,2020 (expected),,,Yes,,,2018,37,622308,,1.8
2,Afghanistan,Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2016,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,BPM6,Actual,General trade system,Consolidated central government,Enhanced General Data Dissemination System (e-...,1979,"Demographic and Health Survey, 2015","Integrated household survey (IHS), 2016/17",,,,2018,80,3607857,53.2,4.635


**Antes de cerrar el jupyter guardemos los cambios hechos para seguir trabajando con este jupyter en las siguientes lecciones:**

In [88]:
df.to_csv('datos/WDICountry_limpio.csv')

## EJERCICIOS

En los ejercicios de las clases invertidas de limpieza vamos a trabajar con el dataset `south.csv` que tenéis en el apartado Datos - Limpieza en el Gitbook. 

- 1️⃣ Haz un pequeño anális exploratorio del dataset.

    - ¿Cuántas filas y columnas tenemos?
    - ¿Cuales son los principales estadísticos de nuestras columnas numéricas?
    - ¿Qué información nos da este dataset?


- 2️⃣ Pon el nombre de las columnas todo en minúscula y quita los espacios. Usa una dict comprehension.

- 3️⃣ Chequea si hay duplicados en el DataFrame. En caso de que lo haya, elimina todos los duplicados en función de la fecha.

- 4️⃣ Saca el porcentaje de valores nulos que tenemos por columna. ¿Hay alguna variable que tenga más de un 90% de valores nulos?
     
    - Si es así, ¿Qué harías con esa columna?

- 5️⃣ En general en este DataFrame los tipos están bien asignados. Sin embargo hay una columna a la que podríamos cambiarle el tipo del dato. ¿Qué columna es? Cuando la identifiques cámbiala. 

- 6️⃣ Cambia el orden de las columnas y pon las columnas de 'region', 'state', 'station', 'station_code', 'latitude', 'longitude' en primer lugar.