[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Tipos de datos de *Pandas*.

*Pandas* toma como base a *Numpy* y lo extiende para poder realizar operaciones de análisis de datos, por lo que es compatible con elementos como:

* ```np.nan```.
* ```np.inf```.

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

## Convenciones de nombres.

En este capítulo se hará referencia al paquete ```pandas``` como ```pd```,  al paquete ```numpy``` como ```np```y  a los  *dataframes* instanciados de  ```pd.DataFrame``` como ```df```.

## Tipos de datos de *Pandas*.

*Pandas* extiende y a su vez restringe los tipos de datos de *Python* y de *Numpy* a los siguientes:

* ```object``` el cual representa a una cadena de caracteres.
* ```int64``` es el tipo para números enteros. 
* ```float64``` es el tipo para números de punto flotante.
* ```bool``` es el tipo para valores booleanos.
* ```datetime64``` es el tipo usado para gestionar fechas y horas.
* ```timedelta64``` es el tipo de diferencias de tiempo. 
* ```category``` es un tipo de dato que contiene una colección finita de posibles valores (no se estudiará en este curso).

**Ejemplo:**

* A continuación se creará el *dataframe* ```datos``` que define las columnas.
    * *nombres* de tipo ```object```.
    * *fechas* de tipo ```datetime64```.
    * *saldo* de tipo ```float64```.
    * *al corriente* de tipo ```bool```.

In [None]:
datos = pd.DataFrame({'nombres':('Juan Pérez',
                                 'María Sánchez'
                                 , 'Jorge Vargas',
                                 'Rodrigo Martínez'),
            'fechas':(datetime(1995,12,21), 
                      datetime(1989,1,13), 
                      datetime(1992,9,14), 
                      datetime(1993,7,8)),
            'saldo': (2500, 
                      5345, 
                      np.nan, 
                      11323.2),
            'al corriente':(True, 
                            True, 
                            False, 
                            True)})

In [None]:
datos

## El atributo ```df.dtypes```.

Este atributo es una serie de *Pandas* que contienen la relación de los tipos de datos de cada columna del *dataframe*.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

**Ejemplo:**

* A partir del *dataframe* ```datos``` se obtendrá el tipo de datos de cada columna. 

In [None]:
datos.dtypes

## El método ```df.astype()```.

Este método permite regresar los datos contenidos en un dataframe de *Pandas* a un tipo de dato específico. 

```
df.astype(<tipo>)
```

Donde:

* ```<tipo>``` es un tipo de dato soportado por *Pandas*.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

**Ejemplos:**

* La siguiente celda convertirá el contenido del *dataframe* ```datos``` a ```str```, lo cual dará por resultado elementos de tipo ```object```.

In [None]:
datos

In [None]:
datos.astype(str)

In [None]:
datos.astype(str).dtypes

In [None]:
datos.dtypes

* La siguiente celda intentará convertir el contenido de la columna ```datos['saldo']``` a ```int64```. Sin embargo, algunos de sus contenidos no pueden ser convertidos a ese tipo de datos y se generará una excepciónde tipo ```IntCastingNaNError```.

In [None]:
datos['saldo'].astype("int64")

## La función ```pd.to_datetime()```.

Esta función permite crear una columna de tipo ```datetime64``` a partir de un *dataframe* con columnas cuyos encabezados sean:

* ```year``` (obligatorio)
* ```month``` (obligatorio)
* ```day``` (obligatorio)
* ```hour```
* ```minutes```
* ```seconds```

```
pd.to_datetime(<df>)
```

Donde:

* ```<df>``` es un *dataframe* con los identificadores de las columnas  dispuesto en el formato descrito.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

**Ejemplo:**

* La siguiente celda creará al *dataframe* ```fechas``` con las columnas:
    * ```year```
    * ```month```
    * ```day```
    * ```hour```
    * ```minutes```
    * ```seconds```

In [None]:
fechas = pd.DataFrame({'year': [1997, 1982, 1985],
                       'month': [1, 12, 3],
                       'day': [14, 5, 21],
                       'hour':[17, 0, 4],
                       'minutes':[45, 39, 28],
                      'seconds':[11.1803, 23.74583, 3.8798]})

In [None]:
fechas

* A continuacion se creará la serie ```nuevas_fechas```, compuesta por elementos de tipo ```datetime64``` al aplicar la función ```pd.to_datetime()``` al *dataframe* ```fechas```.

In [None]:
nuevas_fechas = pd.to_datetime(fechas)

In [None]:
nuevas_fechas

In [None]:
type(nuevas_fechas)

## La función ```pd.to_numeric()```.

Esta función transforma al contenido de  un *dataframe* o serie a un formato numérico.

**Ejemplo:**

* La siguiente celda transformará la serie ```nuevas_fechas``` a formato numérico.

In [None]:
pd.to_numeric(nuevas_fechas)

In [None]:
pd.to_datetime(pd.to_numeric(nuevas_fechas))

## La función ```pd.to_timedelta()```.

Esta función convertirá valores numéricos a formato ```timedelta64``` usando nanosegundos como referencia.

**Ejemplo:**

* La siguiente celda generará al *dataframe* ```datos``` que contiene una secuencia de 20 números.

In [None]:
datos = pd.DataFrame(np.arange(2811154301025,
                               2811154301125, 5).reshape(10, 2))

In [None]:
datos

* Se aplicará la función ```pd.to_timedelta()``` a ```datos[1]```.

In [None]:
pd.to_timedelta(datos[1])

* La siguiente celda intentará ejecutar la función ```pd.to_timedelta()``` al *dataframe* ```nuevas_fechas``` el cual contiene objetos de tipo ```datetime```, desencadenando una excepción de tipo ```TypeError```.

In [None]:
pd.to_timedelta(nuevas_fechas)

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>