# Tipos de Datos en Pandas

Así como python tiene sus propios tipos de datos incorporados (integers, strings, listas, etc), pandas trae 2 nuevos tipos de datos que serán la estructura principal del análisis, y estos tipos de datos son: las **series** y los **dataframes**.

Para ayudarte a entender a estos dos nuevos elementos, vamos a imaginar una tabla de datos, como esta que ves en pantalla. 

![tabla.png](attachment:tabla.png)

Las tablas normales como la de la imagen, tienen columnas y filas.

En pandas vamos a trabajar esencialmente con datos organizados como tablas. La principal diferencia es que a las tablas de pandas les llamamos **dataframes**, y a las columnas de pandas les llamamos **series**.

Entonces series y dataframes serán los **nuevos tipos de datos** que incorporamos a nuestra colección.

### Importemos Pandas

Ya que en este cuaderno vamos a trabajar con Pandas, es importante que nos acostumbremos a colocar las importaciones en la primera celda operativa del cuaderno

In [1]:
import pandas as pd

Ahora, vamos a crear un conjunto de datos en python (no en pandas aún). Lo que vamos a crear es un **diccionario** con dos pares de *clave:valor*, pero los valores van a estar compuestos por **listas**.

In [None]:
datos = {"nombre": ["Pedro", "Juan", "Lorena"], "edad": [25, 39, 33]}
datos

##### DataFrames

Ahora vamos a usar **pandas** para abrir ese diccionario, pero convertido en un dataframe, usando el método **DataFrame()** de Pandas, y almacenándolo en la variable ```df```.

In [None]:
df = pd.DataFrame(datos)
df

Comprobemos qué tipo de datos es ```df```

In [None]:
type(df)

Un **DataFrame** es como una tabla completa en una hoja de cálculo, con filas y columnas. De hecho, Pandas es conocido como *el Excel de Python*.

##### Series

El segundo tipo de datos que incorpora Pandas, son las **series**. Las series son las columnas de los DataFrames.

En el caso de ```df``` tenemos 2 series (la serie *nombre* y la serie *edad*), ya que la primera columna, aunque parece una serie más, solo se trata de los índices de cada registro o fila de nuestro dataframe.

Podemos acceder a las series de nuestro objeto dataframe, usando el sistema de **corchetes**, o el de notación de **punto**.

In [None]:
df["nombre"]

In [None]:
df.nombre

Comprobemos qué tipo de datos es ```df.nombre```

In [None]:
type(df.nombre)

Hagamos un pequeño repaso y comparemos un poco estos dos elementos.

Un **DataFrame** es una tabla *bidimensional*, con *etiquetas en filas y columnas*, y si tomamos cualquier columna de un DataFrame por separado, vamos a tener entonces una **serie** que es el segundo elemento de pandas.

Las series son un array de *una sola dimensión*, con *etiquetas para sus elementos*.

###### Atributos y Dimensiones

Tanto los dataframes como las series tienen cada uno de ellos un conjunto de atributos y de dimensiones que podemos explorar y que es conveniente que conozcamos para poder manipularlos mejor.

Por ejemplo, en relación a sus dimensiones, un **DataFrame** tiene **dos dimensiones**, que son el *alto* y el *ancho*, identificados por las filas y las columnas.

Mientras que una **serie** tiene solamente **una dimensión** que son sus filas, porque la columna siempre va a ser una.

![dimensiones.png](attachment:dimensiones.png)

En cuanto a sus atributos principales, un **DataFrame** tiene **tres atributos** principales que son sus *índices (o filas)*, sus *columnas* y sus *valores*.

Las **series** tienen solo **dos de estos atributos**, o sea, el *índice )o las filas)* y los *valores*.

![atributos.png](attachment:atributos.png)

En las proximas lecciones vamos a ver las series y los dataframes en profundidad.