# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas` si usamos pip o `poetry add pandas` si usamos poetry.

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.__version__

'2.2.3'

## Series

El tipo `Series` representa arreglos unidimensionales de datos indexados. Puede ser creado a partir de una secuencia:

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

<span style="color: purple; font-weight: bold;font-size: 16px;">
a
</span>

Observemos que un objeto `Series` contempla tanto la secuencia de valores como la secuencia de índices. Los valores se almacenan internamente como un arreglo de NumPy:

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Los índices se almacenan internamente como un objeto parecido a arreglo de tipo `pd.Index`:

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos usar operaciones similares a los arreglos de NumPy, pero para objetos `Series`.

In [6]:
data[1]

np.float64(0.5)

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [8]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Al calcular un subarreglo, los índices siguen correspondiendo a los valores del arreglo original.

Podemos pensar en los objetos `Series` como arreglos de NumPy generalizados. La inclusión de los índices de forma explícita en la estructura de los objetos nos permite, por ejemplo, usar otros tipos de valores no numéricos.

---

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
data['b']

np.float64(0.5)

In [11]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

---

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [13]:
data[5]

np.float64(0.5)

In [14]:
data.index

Index([2, 5, 3, 7], dtype='int64')

---

Podemos utilizar `Series` como una forma de diccionario:

In [15]:
población = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Chiapas': 5544000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
})
población

Sonora              2945000
Chihuahua           3742000
Chiapas             5544000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

En este ejemplo constuimos un objeto `Series` a partir de un diccionario, el índice se obtiene se las llaves del diccionario y los valores... de los valores.

In [16]:
población['Sonora']

np.int64(2945000)

In [17]:
población['Chihuahua':'La Habana']

Chihuahua    3742000
Chiapas      5544000
La Habana    3265832
dtype: int64

In [18]:
población['La Habana':'Chihuahua']

Series([], dtype: int64)

<span style="color: gray; font-weight: bold;font-size: 16px;">
Problema 1: Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?
</span>

In [19]:
dic={'a':2,'b':2,'c':3}
ser = pd.Series(dic,index=[1, 'b', 'd'])
ser

1    NaN
b    2.0
d    NaN
dtype: float64

<span style="color: blue; font-weight: bold;font-size: 16px;">
Parece ser que si especificamos ciertos indices, pd.Series trata de encontrar el valor correspondiente en el diccionario que ponemos, asi que en este caso trato de buscar que valor es correspondiente a las "llaves" o "indices" de 1 y "d", llaves que no existen en el diccionario que se usó de referencia, por lo que devuelve y asigna un valor NaN para dicho indice en la Serie 'data' definida, en cambio para el índice 'b', si se encuentra en el diccionario utilizado, por lo que se le asigna el valor correspondiente.
</span>

<span style="color: gray; font-weight: bold;font-size: 16px;">
Problema 2: Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico,ro adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?
<span>

In [20]:
num=2312.213
ser = pd.Series(num,index=[0, 'a', False])
ser

0        2312.213
a        2312.213
False    2312.213
dtype: float64

<span style="color: blue; font-weight: bold;font-size: 16px;">
Se repite el numero para todos los indices
</span>

## DataFrame

Recordemos la serie de población:

In [21]:
población

Sonora              2945000
Chihuahua           3742000
Chiapas             5544000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

Definamos ahora una serie similar, pero con la supericie de los territorios medida en kilómetros cuadrados:

In [22]:
superficie = pd.Series({
    'La Habana': 728,
    'Chiapas': 73311,
    'Santiago de Cuba': 6243,
    'Sonora': 179355,
    'Chihuahua': 247455,
})
superficie

La Habana              728
Chiapas              73311
Santiago de Cuba      6243
Sonora              179355
Chihuahua           247455
dtype: int64

Ahora vamos a crear una tabla (`DataFrame`) que contenga estas dos valiosas piezas de información:

In [23]:
territorios = pd.DataFrame({
    'población': población,
    'superficie': superficie,
})
territorios

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


Los DataFrames, al igual que las Series, tienen un atributo `index` con el índice de la tabla:

In [24]:
pruebita = pd.Series([5, 10, 2, 4, 6])

In [25]:
pruebita

0     5
1    10
2     2
3     4
4     6
dtype: int64

In [26]:
pruebita.sort_values()

2     2
3     4
0     5
4     6
1    10
dtype: int64

In [27]:
territorios.index

Index(['Chiapas', 'Chihuahua', 'La Habana', 'Santiago de Cuba', 'Sonora'], dtype='object')

Cuando escuchamos o leemos “índice de una tabla”, podemos pensar en sus renglones. En este caso, cada renglón representa un territorio.

También tenemos el atributo `columns` (columnas). En este caso, cada columna corresponde a cada medición asociada a los territorios.

In [28]:
territorios.columns

Index(['población', 'superficie'], dtype='object')

El tipo de objeto para las columnas también es `pd.Index`. Podemos pensar las tablas como arreglos bidimensionales de NumPy.

Observemos también que al construir la tabla, las serie `población` y la serie `superficie` tenían los mismos índices pero en orden distinto. Pandas se encarga de crear la tabla `territorios` emparejando correctamente las mediciones de acuerdo al *valor* de su índice, no la *posición* de este.

---

In [29]:
territorios['superficie']

Chiapas              73311
Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sonora              179355
Name: superficie, dtype: int64

In [30]:
territorios['población']

Chiapas             5544000
Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sonora              2945000
Name: población, dtype: int64

In [31]:
territorios.loc['La Habana']

población     3265832
superficie        728
Name: La Habana, dtype: int64

In [32]:
territorios.iloc[2]

población     3265832
superficie        728
Name: La Habana, dtype: int64

---

Distinta formas de crear DataFrames:

In [33]:
# A partir de una Serie
pd.DataFrame(población, columns=['población'])

Unnamed: 0,población
Sonora,2945000
Chihuahua,3742000
Chiapas,5544000
La Habana,3265832
Santiago de Cuba,2286360


In [34]:
# A partir de una lista de diccionarios
pd.DataFrame([{'a': i, 'b': 2 * i} for i in range(3)])

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [35]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4},
])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [36]:
# A partir de un diccionario con Series como valores
pd.DataFrame({
    'población': población,
    'superficie': superficie,
})

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


In [37]:
# A partir de una arreglo bidimensional de NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


<span style="color: gray; font-weight: bold;font-size: 16px;">
Problema 3: El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.
<span>

<span style="color: blue; font-weight: bold;font-size: 16px;">
a
</span>

In [38]:
np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [39]:
B=np.array([0,1],dtype=[('A', 'i8'), ('B', 'f8'),('C','bool')])
B

array([(0, 0., False), (1, 1.,  True)],
      dtype=[('A', '<i8'), ('B', '<f8'), ('C', '?')])

In [40]:
B[0]

np.void((0, 0.0, False), dtype=[('A', '<i8'), ('B', '<f8'), ('C', '?')])

In [41]:
B[1]

np.void((1, 1.0, True), dtype=[('A', '<i8'), ('B', '<f8'), ('C', '?')])

In [42]:
B[1][2]

np.True_

In [43]:
B[1]['C']

np.True_

## Index

Tanto los objetos DataFrame como Series contienen índices que nos permiten hacer referencia a la información que contienen.

La estructura de los índices podemos pensarla como un arreglo inmutable (no podemos modificar sus valores) o como un conjunto ordenado (o multiconjunto ya que un índice puede tener valores repetidos).

In [44]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [45]:
ind[1]

np.int64(3)

In [46]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [47]:
ind.size

5

In [48]:
ind.shape

(5,)

In [49]:
ind.ndim

1

In [50]:
ind.dtype

dtype('int64')

In [51]:
ind[1] = 0

TypeError: Index does not support mutable operations

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA.intersection(indB)

In [None]:
indA.union(indB)

In [None]:
indA.symmetric_difference(indB)

## Indexando y seleccionando datos

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

In [None]:
'a' in data

In [52]:
list(data.keys())

[2, 5, 3, 7]

In [53]:
list(data.items())

[(2, 0.25), (5, 0.5), (3, 0.75), (7, 1.0)]

In [54]:
data['e'] = 1.25

In [55]:
data

2    0.25
5    0.50
3    0.75
7    1.00
e    1.25
dtype: float64

In [56]:
data['a':'c']

KeyError: 'a'

In [None]:
data[0:2]

In [None]:
data[(data > 0.3) & (data < 0.8)]

In [None]:
(data > 0.3) & (data < 0.8)

In [None]:
data[['a', 'e']]

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data[1]

In [None]:
data[1:3]

In [None]:
data

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

In [57]:
data.iloc[1]

np.float64(0.5)

In [58]:
data.iloc[1:3]

5    0.50
3    0.75
dtype: float64

In [59]:
territorios

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


In [60]:
territorios['población']

Chiapas             5544000
Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sonora              2945000
Name: población, dtype: int64

In [61]:
territorios['superficie']

Chiapas              73311
Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sonora              179355
Name: superficie, dtype: int64

In [62]:
territorios.superficie is territorios['superficie']

True

In [63]:
territorios.población is territorios['población']

True

In [64]:
territorios['densidad'] = territorios['población'] / territorios['superficie']

In [65]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [66]:
territorios.values

array([[5.54400000e+06, 7.33110000e+04, 7.56230307e+01],
       [3.74200000e+06, 2.47455000e+05, 1.51219414e+01],
       [3.26583200e+06, 7.28000000e+02, 4.48603297e+03],
       [2.28636000e+06, 6.24300000e+03, 3.66227775e+02],
       [2.94500000e+06, 1.79355000e+05, 1.64199493e+01]])

In [67]:
territorios.T

Unnamed: 0,Chiapas,Chihuahua,La Habana,Santiago de Cuba,Sonora
población,5544000.0,3742000.0,3265832.0,2286360.0,2945000.0
superficie,73311.0,247455.0,728.0,6243.0,179355.0
densidad,75.62303,15.12194,4486.033,366.2278,16.41995


In [68]:
territorios.values[0]

array([5.54400000e+06, 7.33110000e+04, 7.56230307e+01])

In [69]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [70]:
territorios.iloc[:3,:2]

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728


In [71]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [72]:
territorios.loc[:'Santiago de Cuba', :'superficie']

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243


In [73]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [74]:
territorios.loc[territorios.densidad > 100, ['población', 'densidad']]

Unnamed: 0,población,densidad
La Habana,3265832,4486.032967
Santiago de Cuba,2286360,366.227775


In [75]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [76]:
territorios.iloc[0, 2]

np.float64(75.62303065024348)

In [77]:
territorios.iloc[0, 2] = 76

In [78]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,76.0
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [79]:
territorios[territorios.densidad > 80]

Unnamed: 0,población,superficie,densidad
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


In [80]:
territorios.densidad > 100

Chiapas             False
Chihuahua           False
La Habana            True
Santiago de Cuba     True
Sonora              False
Name: densidad, dtype: bool

In [81]:
territorios[territorios['superficie'] < 100000]

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,76.0
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


## Operando sobre datos

In [82]:
ran = np.random.RandomState(42)
ser = pd.Series(ran.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [83]:
df = pd.DataFrame(ran.randint(0, 10, (3,4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [84]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [85]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [86]:
superficie = pd.Series({
    'Alaska': 1723337, 
    'Texas': 695662,
    'California': 423967
}, name='superficie')

población = pd.Series({
    'California': 38332521, 
    'Texas': 26448193,
    'New York': 19651127
}, name='población')

In [87]:
población / superficie

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [88]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [89]:
A.index.union(B.index)

Index([0, 1, 2, 3], dtype='int64')

In [90]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [91]:
A = pd.DataFrame(ran.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [92]:
B = pd.DataFrame(ran.randint(0, 10, (3,3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [93]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [94]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [95]:
A.stack().index

MultiIndex([(0, 'A'),
            (0, 'B'),
            (1, 'A'),
            (1, 'B')],
           )

In [96]:
A.stack().mean()

np.float64(4.5)

In [97]:
fill = A.stack().mean()

In [98]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


In [99]:
A = ran.randint(10, size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [100]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [101]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [102]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [103]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [104]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [105]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [106]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int64

In [107]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## Manejo de datos faltantes

In [None]:
vals1 = np.array([1, None, 3, 4])
vals1

In [None]:
vals1.dtype

In [None]:
vals1.sum()

In [None]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

In [None]:
vals2.dtype

In [None]:
vals2.sum()

In [None]:
1 + np.nan

In [None]:
0 * np.nan

In [None]:
vals2.min()

In [None]:
vals2.max()

In [None]:
np.nansum(vals2)

In [None]:
np.nanmin(vals2)

In [None]:
np.nanmax(vals2)

<span style="color: gray; font-weight: bold;font-size: 16px;">
Problema 4: Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de 
<span> 
    
[la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

<span style="color: blue; font-weight: bold;font-size: 16px;">
a
</span>

---
<span style="color: gray; font-weight: bold;font-size: 16px;">
Problema 5: Pandas incluye funciones para la lectura de archivos CSV o Excel. 
Si participaste en el datatón carga los conjuntos de datos de tu trabajo en DataFrames 
de Pandas. Si no participaste en el datatón consulta los sitios de datos abiertos de 
algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro 
en Excel y carga los datos en un DataFrame de Pandas. En ambos casos los DataFrames 
resultantes debe tener asociada a cada columna el tipo de dato adecuado para trabajar con los datos.
<span> 


---

<span style="color: blue; font-weight: bold;font-size: 16px;">
a
</span>