# Conversión de tipos de datos 

## astype()

El método `astype()` de pandas te permite convertir tipos de datos.

Al igual que con otros métodos de pandas, existe para DataFrames y Series.

Al usarlo, debes especificar entre paréntesis el tipo de datos al cual deseas convertirlo. Por ejemplo, `df['column'] = df['column']`.`astype('int')` convertiría la columna `'column'` al tipo de datos entero.

## Conversión a tipo entero

In [3]:
import pandas as pd

data = {
    'StockCode': ['10001', '10002', '10003', '10004', '10005', '10006'],
    'Description': ['Mug', 'T-shirt', 'Notebook', 'Invalid Code', 'Float code', 'Pen'],
    'Quantity': [10, 5, 8, 1, 3, 6],
    'UnitPrice': [2.5, 15.0, 4.2, 1.0, 6.75, 1.5]
}

# Convert the dictionary to a pandas DataFrame
df = pd.DataFrame(data)

#1. Convert 'StockCode' to integer type 'int'
df['StockCode'] = df['StockCode'].astype('int')

#2. Validate the change by executing the info() method on the dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   StockCode    6 non-null      int64  
 1   Description  6 non-null      object 
 2   Quantity     6 non-null      int64  
 3   UnitPrice    6 non-null      float64
dtypes: float64(1), int64(2), object(1)
memory usage: 324.0+ bytes


## Conversión de string a valores númericos

En los casos sencillos como el anterior, el método astype() funciona de maravilla. Pero `astype()` puede convertir strings a números, solo si el formato del string coincide exactamente con el tipo de datos al que estás convirtiendo. 

Por ejemplo, 
- convertir el string '1.0' -> flotante si se puede.
- convertir el string '1' -> entero si se puede. 
- convertir el string '1.0' (en formato de flotante) -> entero no se puede.

Ejecuta el código y observa el error cuando intentamos convertir strings de la col1 que representan valores flotantes en enteros:

In [4]:
import pandas as pd

# crear un dataframe con 2 columnas
d = {'col1': ['1.0', '2.0'], 'col2': ['3', '4']}
df = pd.DataFrame(data=d)

# convertir la segunda columna 'col2' a int
df['col1'] = df['col1'].astype('int')

#verificar el data type de las columnas utilizando el metodo '.dtypes'
print(df.dtypes)

ValueError: invalid literal for int() with base 10: '1.0'

Como puedes ver. El resultado arroja un error. 

Para solventar este problema, usaremos un método más flexible llamado `to_numeric()`

## Convertir Strings a entero con el metodo "to_numeric"



In [5]:
import pandas as pd

d = {'col1': ['1.0', '2.0'], 'col2': ['3', '4']}
df = pd.DataFrame(data=d)

df['col1'] = pd.to_numeric(df['col1'])
print(df.dtypes)

col1    float64
col2     object
dtype: object


No obstante, de forma predeterminada, `to_numeric()` no puede convertir strings con caracteres no numéricos o decimales en números. Pero para eso esta el parametro `errors=`.

El parámetro `errors=` te permite decidir qué hacer si pandas encuentra un valor que no puede convertir:

* errors='raise' (por defecto): se detiene y lanza un error (igual que astype()).
* errors='coerce': reemplaza los valores no numéricos con NaN (muy útil para limpieza de datos).
* errors='ignore': deja los valores originales sin intentar convertirlos.

In [6]:
import pandas as pd

d = {'col1': ['1.0', 'B.0'], 'col2': ['3', '4']}
df = pd.DataFrame(data=d)

df['col2'] = df['col2'].astype('int')
df['col1'] = pd.to_numeric(df['col1'], errors='coerce')

print(df.dtypes)
print(df)

col1    float64
col2      int64
dtype: object
   col1  col2
0   1.0     3
1   NaN     4


## Conversión de flotante a entero

Antes de hacer esta conversión es recomendable evaluar si se va a perder información, para ello se usa `np.array_equal()`, este metodo se usa con la librería Numpy y es para comparar dos listas de nùmeros, si el resultado es `True` es porque si se pueden cambiar de flotante a entero, pero si el resultado es `Flase` se va a perder información, por lo que no es recomendable hacer dicha conversión.

In [7]:
import numpy as np
import pandas as pd

d = {'col1': [1.0, 2.0, 3.0, 4.0], 'col2': [5.0, 6.01, 7.0, 8.0]}
df = pd.DataFrame(data=d)

# comprueba si es seguro convertir 'col1' con np.array_equal
print(np.array_equal(df['col1'], df['col1'].astype('int')))

True


Como el resultado es `True`, si es recomendable hacer la conversión de flotante a entero.

Ahora evaluaremos la segunda columna:

In [8]:
import numpy as np
import pandas as pd

d = {'col1': [1.0, 2.0, 3.0, 4.0], 'col2': [5.0, 6.01, 7.0, 8.0]}
df = pd.DataFrame(data=d)

# comprueba si es seguro convertir 'col1' con np.array_equal
print(np.array_equal(df['col2'], df['col2'].astype('int')))

False


Como su resultado es `False` no es recomendable hacer dicha conversión, porque perderiamos algunos datos.