# Manipulación de datos con Pandas

In [1]:
import pandas
pandas.__version__

'2.2.2'

In [2]:
import pandas as pd

## Objetos Pandas

In [3]:
import numpy as np
import pandas as pd

Los objetos de Pandas pueden considerarse como versiones mejoradas de los arreglos estructurados de NumPy, en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Como veremos a lo largo de este capítulo, Pandas ofrece una gran cantidad de herramientas útiles, métodos y funcionalidad adicionales sobre las estructuras de datos básicas.

In [6]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data
# Arreglo unidemensional de datos indexados

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [7]:
data.values 
#

array([0.25, 0.5 , 0.75, 1.  ])

In [9]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
data[1]

0.5

In [11]:
data[1:3]

1    0.50
2    0.75
dtype: float64

## Series como un arreglo de NumPy

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [13]:
data['b']

0.5

In [14]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [15]:
data[5]

0.5

## Series as specialized dictionary

De esta manera, puedes pensar en una Serie de Pandas como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una Serie es una estructura que asigna claves tipadas a un conjunto de valores tipados.


In [16]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [17]:
population['California']

38332521

In [18]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

## Contruir series objeto

Los datos pueden ser una lista o un arreglo de NumPy, en cuyo caso el índice por defecto es una secuencia de enteros:

In [19]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [20]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [21]:


pd.Series({2:'a', 1:'b', 3:'c'})



2    a
1    b
3    c
dtype: object

In [22]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

# Objeto Dataframe Pandas

Al igual que el objeto Series mencionado en la sección anterior, el DataFrame puede considerarse tanto como una generalización de un arreglo de NumPy o como una especialización de un diccionario de Python. Ahora examinaremos cada una de estas perspectivas.

In [23]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area


California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [24]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [25]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [26]:
states.columns

Index(['population', 'area'], dtype='object')

In [27]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

## COnstruir objetos DataFrame

In [28]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [29]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [30]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [31]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


### Arreglos de dos dimensiones NUmpy

In [32]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.773793,0.825137
b,0.821929,0.268999
c,0.077658,0.792577


### Arreglo estructurado NumPy

In [33]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [34]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Objeto indexado Pandas

Los objetos Series y DataFrame contienen un índice explícito que te permite referenciar y modificar datos.

In [35]:
ind = pd.Index([2, 3, 5, 7, 11])
ind


Index([2, 3, 5, 7, 11], dtype='int64')

In [36]:
ind[1]

3

In [37]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [38]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [39]:
ind[1] = 0

TypeError: Index does not support mutable operations

### Index as ordered set

In [40]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [41]:
indA & indB  # intersection

Index([0, 3, 5, 7, 9], dtype='int64')

In [42]:
indA | indB  # union

Index([3, 3, 5, 7, 11], dtype='int64')

In [43]:
indA ^ indB  # symmetric difference

Index([3, 0, 0, 0, 2], dtype='int64')

# 3.02 Indexacion y selección

# Serie como diccionario

Al igual que un diccionario, el objeto Series proporciona una correspondencia de una colección de claves a una colección de valores:

In [44]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [45]:
data['b']

0.5

In [46]:
'a' in data

True

In [47]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [48]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [49]:
data['e'] = 1.25
data


a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

## Series como arreglos unidimensional

In [50]:
# slicing by explicit index
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [51]:
# slicing by implicit integer index
data[0:2]

a    0.25
b    0.50
dtype: float64

In [52]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [53]:
# fancy indexing
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

### Indexers: loc, iloc, and ix