# Introducción a los tipos de datos con pandas

**pandas** es una librería que esta construida sobre **numpy** que permite la manipulación de datasets de manera mas amigable y facíl para el usuario, de tal forma que permita al programador centrarse en la tarea y no en el código.

Esta librería cuanta con tres Objetos claves para funcionar

- Pandas Series object
- Pandas Dataframe object
- Pandas Index Object

# Seris object

El objeto **Series** es el objeto mas cercano al numpy array, es decir que nos permite generar un vector de de elementos, todos del mismo tipo lo cual ahcen referencia a una información en especifico.

La principal diferencia es que al igual que numpy los objetos **series** tienen un index pero este es implicito, es decir que podemos verlo y manipularlo de forma directa y no indirecta como en numpy

In [1]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Podemos ver en el código anterior, que al imprimir el objeto series, a la derecha salen los indices, que por defecto inician en 0,1,...,3 y al frente de cada uno el valor que almacena en dicha posición

de igual forma podemos ver los indices o los valores por separado

In [2]:
print(data.values)
print(data.index)

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)


Y al igual que con los elemetnos de un numpy array podemos acceder a través de slicing

In [4]:
print(data[1])
print('*'*20)
print(data[1:3])

0.5
********************
1    0.50
2    0.75
dtype: float64


Como se menciono el indice de un objeto **Series** es por defecto un conteno que empieza desde 0 hasta n - 1, donde n es la cantidad de elementos en el Objeto, este comportamiento es posible cambiarlo con ayuda del parámetro *index* al momento de crear el Objeto

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Y de la misma forma podriamos acceder a los indices ahora usando los valores definidos

In [6]:
data['b']

0.5

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data[5]

0.5

Esta funcionalidad de los indices nos permiten crear **Series** a partir de diccionarios, ya que estos son arreglos de elementos de la forma clave valor

In [8]:
population_dict = {
    'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135
}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [9]:
population['California']

38332521

Una de las caracteristicas de los indices (así cambien de valor) es que podemos seguir usando los que ya conocemos de slicing de numpy arrays

In [10]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

## Formas de construir un objeto de tipo Series

Existen al igual que los numpy array, diversas formas de generar nuevos objetos de tipo Series, ya vimos la forma de crearlos usando listas de Python y diccionarios, veamos otras formas de generarlos

In [11]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [12]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [13]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [14]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

# Pandas DataFrame Object

Si el objeto **series** es un arreglo de una dimesión, entonces el **Dataframe** es un arreglo de dos dimensiones, donde cada dimesión es objeto **series** los cuales todos comparten el mismo indice y recuerda que cada serie es de un solo tipo de dato al igual que un arreglo de numpy

> Recuerda que dentro de las series, podemos definir el nombre de indice para cada elemento, donde por defecto inicia en 0 y termina en n -1, siendo n el tamaño del arrglo

se puede pensar en un **Dataframe** como un dataset como un CSV o una hoja excel, que contiene datos y podemos operar con ellos, generar nuevas columnas, filas, etc.

Adicionalmente se agrega una nueva caracterisitca que no tenian ni los numpy arrays o las Series, y es el nombre de las columnas que contienen cada series, veamos esta y otras caracteristicas de los **dataframes**.

In [15]:
area_dict = {
    'California': 423967, 
    'Texas': 695662, 
    'New York': 141297,
    'Florida': 170312, 
    'Illinois': 149995
}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [17]:
# CONSTRUCCIÓN DEL DATAFRAME
states = pd.DataFrame({
    'population': population,
    'area': area
})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [18]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [19]:
states.columns

Index(['population', 'area'], dtype='object')

Podemos acceder a los elementos de una sola columna, como si fuera un diccionario y solo obtener los elementos relacionados a esa llave o columna

In [20]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

## Construyendo Dataframes

Podemos construir **dataframes** de diversas formas, vamos a presentar algunas de ellas

In [22]:
# podemos crearlo a aprtir de un solo objeto Series
print(type(population))
pd.DataFrame(population, columns=['population'])

<class 'pandas.core.series.Series'>


Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [23]:
# A partir de una lista de diccionarios
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Debes de tener en cuenta que si pasas indices, estos deben de coincidir, si poralguna razón algún valor no encaja con la descripción de datos, dichos valores se llenrán el tipo de dato null o nan, según corresponda

In [24]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [26]:
# un diccionario cuya clave es el nombre de la columna y su valor una Serie
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [27]:
# A partir de un arreglo numpy de dos dimensiones
import numpy as np

pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.809765,0.125315
b,0.206403,0.961227
c,0.160241,0.367413


In [28]:
# apartir de un arreglo numpy estructurado
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [29]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# The Pandas Index Object

El objeto **Index** es muy similar a un numpy array, salvo que los items una vez creado, son inmutables, es decir que no podemos cambiar su valor despues de declararlos, veamos la forma de uso.

In [30]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [32]:
ind[1]

3

In [33]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [34]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [35]:
ind[1] = 0

TypeError: Index does not support mutable operations

Otra caracteristica del objeto es que nos permite ejecutar las operaciones de conjuntos que vienen en Python

In [36]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [37]:
indA & indB # intersection

  indA & indB # intersection


Int64Index([3, 5, 7], dtype='int64')

In [38]:
indA | indB # union

  indA | indB # union


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [39]:
indA ^ indB # symmetric difference

  indA ^ indB # symmetric difference


Int64Index([1, 2, 9, 11], dtype='int64')