<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/09_tipos_de_datos_de_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tipos de datos de *Pandas*.

*Pandas* toma como base a *Numpy* y lo extiende para poder realizar operaciones de análisis de datos, por lo que es compatible con elementos como:

* ```np.NaN```.
* ```np.Inf```.

In [1]:
import pandas as pd
import numpy as np

import datetime

## Tipos de datos de *Pandas*.

Pandas extiende y a su vez restringe los tipos de datos de *Python* y de *Numpy* a los siguientes:

* ```object``` el cual representa a una cadena de caracteres.
* ```int64``` es el tipo para números enteros.
* ```float64``` es el tipo para números de punto flotante.
* ```bool``` es el tipo para valores booleanos.
* ```datetime64``` es el tipo usado para gestionar fechas y horas.
* ```timedelta``` es el tipo de diferencias de tiempo.
* ```category``` es un tipo de dato que contiene una colección finita de posibles valores (no se estudiará en este curso).

In [4]:
datos = pd.DataFrame({
            'nombres':('Juan Pérez',
                       'María Sánchez',
                       'Jorge Vargas',
                       'Rodrigo Martínez'),
            'fechas':(datetime.datetime(1995,12,21),
                      datetime.datetime(1989,1,13),
                      datetime.datetime(1992,9,14),
                      datetime.datetime(1993,7,8)),
            'saldo': (2500,
                      5345,
                      np.nan,
                      11323.2),
            'al corriente':(True,
                            True,
                            False,
                            True)})
datos

Unnamed: 0,nombres,fechas,saldo,al corriente
0,Juan Pérez,1995-12-21,2500.0,True
1,María Sánchez,1989-01-13,5345.0,True
2,Jorge Vargas,1992-09-14,,False
3,Rodrigo Martínez,1993-07-08,11323.2,True


## El atributo ```dtypes```.

Este atributo regresa un listado de los tipos de datos de cada columna de un dataframe.

In [5]:
datos.dtypes

Unnamed: 0,0
nombres,object
fechas,datetime64[ns]
saldo,float64
al corriente,bool


## El método ```astype()```.

Transforma los tipos de datos de las columnas a un tipo de dato específico.

```
<serie|dataframe>.astype('<tipo>')
```

Si se intenta convertir a un tipo no compatible, p.e. un texto `'cero'` a `int` lanzará un error.

**Ejemplos:**

In [6]:
datos.astype(str).dtypes

Unnamed: 0,0
nombres,object
fechas,object
saldo,object
al corriente,object


## La función ```pd.to_datetime()```.

Esta función permite crear una *Serie* de tipo ```datetime64``` a partir de un *Dataframe* cuyas columnas tienen encabezados:

* ```year``` (obligatorio)
* ```month``` (obligatorio)
* ```day``` (obligatorio)
* ```hour```
* ```minutes```
* ```seconds```

```
pd.to_datetime(<dataframe>)
```

**Ejemplo:**

In [7]:
# Creamos un dataframe cuyos encabezados sean year, month, etc.
fechas = pd.DataFrame({'year': [1997, 1982, 1985],
                       'month': [1, 12, 3],
                       'day': [14, 5, 21],
                       'hour':[17, 0, 4],
                       'minutes':[45, 39, 28],
                      'seconds':[11.1803, 23.74583, 3.8798]})
fechas

Unnamed: 0,year,month,day,hour,minutes,seconds
0,1997,1,14,17,45,11.1803
1,1982,12,5,0,39,23.74583
2,1985,3,21,4,28,3.8798


In [11]:
# convertir el dataframe 'fechas' a una serie de tipo datetime64
fechas_s = pd.to_datetime(fechas)
fechas_s

Unnamed: 0,0
0,1997-01-14 17:45:11.180300
1,1982-12-05 00:39:23.745830
2,1985-03-21 04:28:03.879800


In [13]:
# El objeto resultante es una Series
print(type(fechas_s))

# El tipo de la Serie es datetime
print(fechas_s.dtypes)

<class 'pandas.core.series.Series'>
datetime64[ns]


## La función ```pd.to_numeric()```.

Esta función transforma al contenido de  un dataframe o serie a un formato numérico.

**Ejemplo:**

In [14]:
s = pd.Series(['apple', '1.0', '2', -3])
pd.to_numeric(s, errors='coerce')

Unnamed: 0,0
0,
1,1.0
2,2.0
3,-3.0


## La función ```pd.to_timedelta()```.

Esta función convertirá valores numéricos a formato ```timedelta``` usando nanosegundos como referencia.

**Ejemplo:**

* La siguiente celda generará un dataframe que contiene una secuencia de 20 números.

In [15]:
datos = pd.DataFrame(np.arange(2811154301025, 2811154301125, 5).reshape(10, 2))

In [16]:
datos

Unnamed: 0,0,1
0,2811154301025,2811154301030
1,2811154301035,2811154301040
2,2811154301045,2811154301050
3,2811154301055,2811154301060
4,2811154301065,2811154301070
5,2811154301075,2811154301080
6,2811154301085,2811154301090
7,2811154301095,2811154301100
8,2811154301105,2811154301110
9,2811154301115,2811154301120


* Se aplicará la función ```pd.to_timedelta()``` a ```datos[1]```.

In [17]:
pd.to_timedelta(datos[1])

Unnamed: 0,1
0,0 days 00:46:51.154301030
1,0 days 00:46:51.154301040
2,0 days 00:46:51.154301050
3,0 days 00:46:51.154301060
4,0 days 00:46:51.154301070
5,0 days 00:46:51.154301080
6,0 days 00:46:51.154301090
7,0 days 00:46:51.154301100
8,0 days 00:46:51.154301110
9,0 days 00:46:51.154301120
