# Converting data types

Cuando en un DataFrame tenemos variables de tipo string, pero estas variables deben ser categóricas, lo ideal es realizar la conversión a tipo categórica ya que con esto nos ahorramos espacio en memoria. Para esto disponemos del método **astype()** que nos permite realizar la conversión de un tipo de variable a otra.

In [11]:
import pandas as pd
import numpy as np
#Cargamos el conjunto de datos
tips = pd.read_csv('tips.csv')

#Vemos el tipo de dato de cada una de las variables
print(tips.dtypes)

total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size            int64
dtype: object


En este caso las variables **smoker** y **sex** son de tipo **object** es la forma de indicar que se tratan de tipo **string**. Estas dos variables toman dos posibles valores, por lo que ambas, deberían ser de tipo categóricas.

In [3]:
#Convertimos a tipo categórica ambas variables
tips.sex = tips.sex.astype('category')
tips.smoker = tips.smoker.astype('category')

#Vemos el tipo de dato de cada una de las variables
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day             object
time            object
size             int64
dtype: object


# Working with numeric data

Si esperamos que una variable tome un valor numérico (**int** o **float**), pero sin embargo son del tipo **object**, podemos hacer uso de la función **pd.to_numeric()** para convertir una columna a tipo de dato numérico. Si al aplicar una función está nos retorna un error, podemos estar seguros de que existe algún valor de tipo no numérico en nuestra columna. Para resolver este problema podemos intentar analizar los datos y ver estos valores e intentar tomar una decisión simplemente hacer uso del argumneto **coerce** de la función **pd.to_numeric()**, si este argumento toma el valor de **True** lo que hace es transformar a tipo numérico aquellos valores que pueda y aquellos que no pueda los pondrá a valor **NaN**. 

# String parsing with regular expressions

Las expresiones regulares se trata de una herramienta muy potente que nos permite encontrar patrones en strings. Cuando estamos trabajando con datos, en muchas ocasiones es necesario escribir expresiones regulares que nos permitan machear determinados valores. Por ejemplo, en un campo que indique números de teléfono debemos de chequear para ver si todos los valores son válidos, los mismo podría pasar para una columna que contenga emails o que contenga DNIs.
El módulo usado por parte de Python para trabajar con expresiones regulares se trata del módulo **re**. Puesto que el patrón a buscar normalmente se usará para múltiples filas, lo mejor es compilar la expresión regular, para ello contamos con **re.compile()**.

In [4]:
#Importamos el módulo re
import re

#Nos creamos una expresión regular que nos permite machear el patron xxx-xxx-xxx siendo x un número entero entre 0 y 9
prog = re.compile('\d{3}-\d{3}-\d{3}')

#Vemos si este patrón es seguido por un string determinado 
result = prog.match('676-407-606')

Esto nos retorna un dato de tipo **Match**, para ver si el patrón es encontrado o no pasamos a tipo booleano con el constructor **bool**.

In [6]:
print(bool(result))

True


# Extracting numerical values from strings

Extraer valores numéricos de strings es una tarea muy común. Cuando deseamos encontrat varios valores numéricos en un string podemos hacer uso de la función **re.findall()**. A esta función le pasamos la expresión regular y el string y nos retorna los valores que son macheados según la expresión regular.

In [7]:
#Introducimos nuestra expresión regular que nos permite extraer números de strings
matches = re.findall('\d+', 'Rocio tiene 15 años y Juan tiene 5')

#Mostramos el resultado
print(matches)

['15', '5']


# Pattern matching

In [9]:
#Escribir una expresión regular que nos detecte un número decima de dos digitos con dollar al inicio
result = bool(re.match(pattern = '\$\d*\.\d{2}', string = '$123.45'))

#Mostramos el resultado
print(result)

True


In [10]:
#Escribir una expresión que nos permite detectar una letra mayúscula seguida de un valor arbitrario de números o letras
result = bool(re.match(pattern = '[A-Z]\w*', string = 'Australia12'))

#Vemos el resultado 
print(result)

True


# Custom functions to clean data

El conjunto de datos tips,dispone de la columna sex, esta columna toma dos posibles valores, **Female** y **Male**, el objetivo no es otro reescribir de forma que cuando aparezca **Female** tome el valor de 1 y cuando aparezca **Male** tome el valor de 0.

In [12]:
#Nos creamos la función
def recode_sex(sex_value):
    '''Function that recode the column sex to values 1 if the sex is Female, 0 if the sex is Male otherwise NaN value'''
    if sex_value == 'Female':
        return 1
    elif sex_value == 'Male':
        return 0
    else:
        return np.nan

In [13]:
#Cargamos los datos
tips = pd.read_csv('tips.csv')

#Aplicamos la función
tips['sex_recode'] = tips.sex.apply(recode_sex)

#Mostramos el resultado 
print(tips.head())

   total_bill   tip     sex smoker  day    time  size  sex_recode
0       16.99  1.01  Female     No  Sun  Dinner     2           1
1       10.34  1.66    Male     No  Sun  Dinner     3           0
2       21.01  3.50    Male     No  Sun  Dinner     3           0
3       23.68  3.31    Male     No  Sun  Dinner     2           0
4       24.59  3.61  Female     No  Sun  Dinner     4           1


# Lambda functions

Las funciones lambda se tratan de funciones que nos permite realizar operaciones en una sola línea, lo que nos permite que nuestro código sea más legible. A continuación vamos a proceder a cargar un nuevo conjunto de datos **tips2.csv** este conjunto de datos contiene la misma información que tips, pero con una columna adicional llamada **total_dollar** que contiene el contenido de total_bill pero con un dollar al inicio, el objetivo es eliminar este símbolo de dollar de dos formas distintas haciendo uso de funciones **lambda**.

In [14]:
#Cargamos y mostramos los datos
tips2 = pd.read_csv('tips2.csv')
print(tips2.head())

   total_bill   tip     sex smoker  day    time  size totall_dollar
0       16.99  1.01  Female     No  Sun  Dinner     2        $16.99
1       10.34  1.66    Male     No  Sun  Dinner     3        $10.34
2       21.01  3.50    Male     No  Sun  Dinner     3        $21.01
3       23.68  3.31    Male     No  Sun  Dinner     2        $23.68
4       24.59  3.61  Female     No  Sun  Dinner     4        $24.59


In [17]:
#Eliminamos el signo de dollar haciendo uso del método replace()
tips2['total_dollar_replace'] = tips2.totall_dollar.apply(lambda x: x.replace('$', ""))

#Eliminamos el signo de dollar a partir de expresión regular
tips2['total_dollar_regex'] = tips2.totall_dollar.apply(lambda x: re.findall('\d+\.\d+', x)[0])

In [18]:
#Mostramos el resultado
print(tips2.head())

   total_bill   tip     sex smoker  day    time  size totall_dollar  \
0       16.99  1.01  Female     No  Sun  Dinner     2        $16.99   
1       10.34  1.66    Male     No  Sun  Dinner     3        $10.34   
2       21.01  3.50    Male     No  Sun  Dinner     3        $21.01   
3       23.68  3.31    Male     No  Sun  Dinner     2        $23.68   
4       24.59  3.61  Female     No  Sun  Dinner     4        $24.59   

  total_dollar_replace total_dollar_regex  
0                16.99              16.99  
1                10.34              10.34  
2                21.01              21.01  
3                23.68              23.68  
4                24.59              24.59  


# Dropping duplicate data

Los datos duplicados pueden causar una gran cantidad de problemas. Desde un punto de vista del rendimiento, pueden ocupar espacio en memoria de forma no necesaria. Para eliminar columnas repetidas, Python dispone de la función **drop_duplicates()**, esta función elimina filas repetidas en un dataframe.

In [20]:
#Cargamos los datos
df = pd.read_csv('practica_duplicados.csv')

#Vemos el conjunto de datos
print(df)

        Equipo  Champions
0  Real Madrid         13
1  Real Madrid         13
2       Milan           7
3    Liverpool          5
4    Barcelona          5


In [21]:
#Eliminamos duplicados
df = df.drop_duplicates()

#MOstramos el resultado 
print(df)

        Equipo  Champions
0  Real Madrid         13
2       Milan           7
3    Liverpool          5
4    Barcelona          5


# Filling missing data

Cuando estamos tratando con conjuntos de datos, en la gran mayoría de las situaciones nos encontraremos con observaciones en las que tenemos valores perdidos. La forma de tratar estos valores perdidos es algo bastante amplio y existen una gran cantidad de técnicas para tratar este tema. Python a la hora de realizar la imputación de valores de perdidos dispone de la función **dropna()**, esta función lo que hace es eliminar todas las observaciones que contengan algún valor perdido, esta opción puede ser óptima en casos donde tengamos pocas observaciones con pocos valores perdidos, pero en situaciones donde tenemos una porcentaje considerable de observaciones con valores perdidos no es aconsejable. Por otro lado Python dispone de la función **fillna()** esta función permite completar los valores perdidos por el valor que le pasamos como argumento a esta función, esta opción pasa a ser óptima siempre y cuando estemos seguros de que los valores que estamos sustituyendo son adecuados. Estas formas son las más sencillas sin embargo existe una gran cantidad de literatura que nos permite tratar la imputación de una manera más sofisticada.

In [22]:
#Cargamos los datos
airquality = pd.read_csv('airquality.csv')

#Vemos los columna que disponen de valores perdidos
print(airquality.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 6 columns):
Ozone      116 non-null float64
Solar.R    146 non-null float64
Wind       153 non-null float64
Temp       153 non-null int64
Month      153 non-null int64
Day        153 non-null int64
dtypes: float64(3), int64(3)
memory usage: 7.2 KB
None


Podemos ver como las columnas Ozone y Solar.R disponen de valores perdidos

In [23]:
#Calculamos la media de la variable Ozone
mean_ozone = airquality.Ozone.mean()

#Imputamos los valores perdidos por la media
airquality['Ozone'] = airquality.Ozone.fillna(mean_ozone)

#Vemos una vez más la info de airquality
print(airquality.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 6 columns):
Ozone      153 non-null float64
Solar.R    146 non-null float64
Wind       153 non-null float64
Temp       153 non-null int64
Month      153 non-null int64
Day        153 non-null int64
dtypes: float64(3), int64(3)
memory usage: 7.2 KB
None


# Testing your data with asserts

El método **assert** nos permite chequear para ver si ciertas situaciones en nuestro conjunto de datos se cumplen. En caso de que la condición aplicada en assert sea cierta este método no retornará nada, pero en caso de que dicha condición sea falsa retornará un error. El método **all()** nos retorna **True** o **False** en caso de que todos los valores cumplen esta condición. Para el caso de un dataframe un solo **all()** retornará una lista de True y False una para cada columna, si hacemos un **all()** anidado nos retornará un único True o False ya que se aplicará sobre todo el conjunto de datos.

In [33]:
#Cargamos los datos
ebola = pd.read_csv('ebola.csv')

#Vemos si nuestro conjunto de datos tiene algún valor no nulo
assert pd.notnull(ebola).all().all()

AssertionError: 

In [35]:
#Vemos si nuestro conjunto de datos tiene valores menores que 0 
assert (ebola >= 0).all().all()

AssertionError: 

Puesto que en ambos casos aparecen un error, esto nos indica que disponemos de valores perdidos y que tenemos valores negativos.