# Manipulación de Datos con Pandas

Pandas es un paquete más reciente construido sobre NumPy que proporciona una implementación eficiente de un `DataFrame`. Los `DataFrame`s son esencialmente arrays multidimensionales con etiquetas de filas y columnas adjuntas, a menudo con tipos heterogéneos y/o datos faltantes. Además de ofrecer una interfaz de almacenamiento conveniente para datos etiquetados, Pandas implementa varias operaciones de datos potentes familiares para usuarios tanto de frameworks de bases de datos como de programas de hojas de cálculo.

Como hemos visto, la estructura de datos `ndarray` de NumPy proporciona características esenciales para el tipo de datos limpios y bien organizados que típicamente se ven en tareas de computación numérica. Aunque cumple muy bien este propósito, sus limitaciones se vuelven evidentes cuando necesitamos más flexibilidad (por ejemplo, adjuntar etiquetas a los datos, trabajar con datos faltantes, etc.) y cuando intentamos operaciones que no se mapean bien a la difusión elemento por elemento (por ejemplo, agrupaciones, pivotes, etc.), cada una de las cuales es una parte importante del análisis de los datos menos estructurados disponibles en muchas formas en el mundo que nos rodea. Pandas, y en particular sus objetos `Series` y `DataFrame`, se construye sobre la estructura de arrays de NumPy y proporciona acceso eficiente a este tipo de tareas de "manipulación de datos" que ocupan gran parte del tiempo de un científico de datos.

In [None]:
import pandas
pandas.__version__


'2.2.2'

# Introducción a los Objetos de Pandas
A un nivel muy básico, los objetos de Pandas pueden considerarse como versiones mejoradas de los arrays estructurados de NumPy en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Como veremos a lo largo de este capítulo, Pandas proporciona una gran cantidad de herramientas útiles, métodos y funcionalidades sobre las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de lo que son estas estructuras. Por lo tanto, antes de continuar, echemos un vistazo a estas tres estructuras de datos fundamentales de Pandas: la `Series`, el `DataFrame` y el `Index`.

In [None]:
import numpy as np
import pandas as pd

## El Objeto Series de Pandas

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


In [None]:
data

Unnamed: 0,0
0,0.25
1,0.5
2,0.75
3,1.0


In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
data[1]

np.float64(0.5)

In [None]:
data[1:3]

Unnamed: 0,0
1,0.5
2,0.75


In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index= ['a', 'b', 'c', 'd'])
data

Unnamed: 0,0
a,0.25
b,0.5
c,0.75
d,1.0


In [None]:
data['b']

np.float64(0.5)

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index= [2, 5, 3, 7])
data

Unnamed: 0,0
2,0.25
5,0.5
3,0.75
7,1.0


In [None]:
data[5]

np.float64(0.5)

In [None]:
# Series como diccionarios especiales
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 1955286}
population = pd.Series(population_dict)
population

Unnamed: 0,0
California,38332521
Texas,26448193
New York,19651127
Florida,1955286


In [None]:
population['California']

np.int64(38332521)

In [None]:
population['California':'Florida']

Unnamed: 0,0
California,38332521
Texas,26448193
New York,19651127
Florida,1955286


## Construyendo Objetos Series

In [None]:
pd.Series([2, 4, 5])

Unnamed: 0,0
0,2
1,4
2,5


In [None]:
pd.Series(5, index=[100, 200, 300])

Unnamed: 0,0
100,5
200,5
300,5


In [None]:
pd.Series({2:'a', 1:'b', 3:'c'})

Unnamed: 0,0
2,a
1,b
3,c


## El Objeto DataFrame de Pandas

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

Unnamed: 0,0
California,423967
Texas,695662
New York,141297
Florida,170312
Illinois,149995


In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521.0,423967
Florida,1955286.0,170312
Illinois,,149995
New York,19651127.0,141297
Texas,26448193.0,695662


In [None]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [None]:
states.columns

Index(['population', 'area'], dtype='object')

In [None]:
states['area']

Unnamed: 0,area
California,423967
Florida,170312
Illinois,149995
New York,141297
Texas,695662


### Construccion de DataFrames

In [None]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,1955286


In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [None]:
pd.DataFrame([{'a':1, 'b':2}, {'b':3, 'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [None]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521.0,423967
Florida,1955286.0,170312
Illinois,,149995
New York,19651127.0,141297
Texas,26448193.0,695662


In [None]:
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.779707,0.031598
b,0.936472,0.542732
c,0.972421,0.347917


In [None]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [None]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Objeto Índice de Pandas

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [None]:
ind[1]

np.int64(3)

In [None]:
ind[::3]

Index([2, 7], dtype='int64')

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [None]:
ind[1] = 0

TypeError: Index does not support mutable operations

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA.intersection(indB)

Index([3, 5, 7], dtype='int64')

In [None]:
indA.union(indB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [None]:
indA.symmetric_difference(indB)

Index([1, 2, 9, 11], dtype='int64')