# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas`.

In [2]:
import numpy as np
import pandas as pd

In [3]:
pd.__version__

'2.0.3'

## Series

El tipo `Series` representa arreglos unidimensionales de datos indexados. Puede ser creado a partir de una secuencia:

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Observemos que un objeto `Series` contempla tanto la secuencia de valores como la secuencia de índices. Los valores se almacenan internamente como un arreglo de NumPy:

In [5]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Los índices se almacenan internamente como un objeto parecido a arreglo de tipo `pd.Index`:

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos usar operaciones similares a los arreglos de NumPy, pero para objetos `Series`.

In [7]:
data[1]

0.5

In [8]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [9]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Al calcular un subarreglo, los índices siguen correspondiendo a los valores del arreglo original.

Podemos pensar en los objetos `Series` como arreglos de NumPy generalizados. La inclusión de los índices de forma explícita en la estructura de los objetos nos permite, por ejemplo, usar otros tipos de valores no numéricos.

---

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [11]:
data['b']

0.5

In [12]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

---

In [13]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [14]:
data[5]

0.5

---

Podemos utilizar `Series` como una forma de diccionario:

In [15]:
población = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Sinaloa': 3027000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
})
población

Sonora              2945000
Chihuahua           3742000
Sinaloa             3027000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

In [16]:
población.index

Index(['Sonora', 'Chihuahua', 'Sinaloa', 'La Habana', 'Santiago de Cuba'], dtype='object')

En este ejemplo constuimos un objeto `Series` a partir de un diccionario, el índice se obtiene se las llaves del diccionario y los valores... de los valores.

In [17]:
población['Sonora']

2945000

In [18]:
población['Chihuahua':'La Habana']

Chihuahua    3742000
Sinaloa      3027000
La Habana    3265832
dtype: int64

In [19]:
población['La Habana':'Chihuahua']

Series([], dtype: int64)

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

Se crea una serie con las claves del diccionario como etiquetas a las entradas de cada valos. Si además se proporciona el argumento index, estos se ordenerán según le especifiquemos. Y si por error se asigna un index que no se encuentre se generará un valor NaN.

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

Aquí se crea una Serie con un único valor, que sería el número que se pasó, y que tendría varias entradas, que serían los índices que se pasaron.

In [20]:
población = pd.Series("a", index=[1,2,3,4])
población

1    a
2    a
3    a
4    a
dtype: object

## DataFrame

Recordemos la serie de población:

In [21]:
población.index

Index([1, 2, 3, 4], dtype='int64')

In [22]:
población

1    a
2    a
3    a
4    a
dtype: object

Definamos ahora una serie similar, pero con la supericie de los territorios medida en kilómetros cuadrados:

In [23]:
superficie = pd.Series({
    'La Habana': 728,
    'Sinaloa': 58200,
    'Santiago de Cuba': 6243,
    'Sonora': 179355,
    'Chihuahua': 247455,
})
superficie

La Habana              728
Sinaloa              58200
Santiago de Cuba      6243
Sonora              179355
Chihuahua           247455
dtype: int64

Ahora vamos a crear una tabla (`DataFrame`) que contenga estas dos valiosas piezas de información:

In [24]:
territorios = pd.DataFrame({
    'población': población,
    'superficie': superficie,
})
territorios

Unnamed: 0,población,superficie
1,a,
2,a,
3,a,
4,a,
La Habana,,728.0
Sinaloa,,58200.0
Santiago de Cuba,,6243.0
Sonora,,179355.0
Chihuahua,,247455.0


Los DataFrames, al igual que las Series, tienen un atributo `index` con el índice de la tabla:

In [25]:
pruebita = pd.Series([5, 10, 2, 4, 6])

In [26]:
pruebita

0     5
1    10
2     2
3     4
4     6
dtype: int64

In [27]:
pruebita.sort_values()

2     2
3     4
0     5
4     6
1    10
dtype: int64

In [28]:
territorios.index

Index([1, 2, 3, 4, 'La Habana', 'Sinaloa', 'Santiago de Cuba', 'Sonora',
       'Chihuahua'],
      dtype='object')

Cuando escuchamos índice de una tabla, pensemos en sus renglones. En este caso, cada renglón representa un territorio.

También tenemos el atributo `columns` (columnas). En este caso, cada columna corresponde a cada medición asociada a los territorios.

In [29]:
territorios.columns

Index(['población', 'superficie'], dtype='object')

El tipo de objeto para las columnas también es `pd.Index`. Podemos pensar las tablas como arreglos bidimensionales de NumPy.

Observemos también que al construir la tabla, las serie población y la serie superficie tenían los mismos índices pero en orden distinto. Pandas se encarga de crear la tabla emparejando correctamente las mediciones de acuerdo al *valor* de su índice, no la *posición* de este.

---

In [30]:
territorios['superficie']

1                        NaN
2                        NaN
3                        NaN
4                        NaN
La Habana              728.0
Sinaloa              58200.0
Santiago de Cuba      6243.0
Sonora              179355.0
Chihuahua           247455.0
Name: superficie, dtype: float64

In [31]:
territorios['población']

1                     a
2                     a
3                     a
4                     a
La Habana           NaN
Sinaloa             NaN
Santiago de Cuba    NaN
Sonora              NaN
Chihuahua           NaN
Name: población, dtype: object

---

Distinta formas de crear DataFrames:

In [32]:
# A partir de una Serie
pd.DataFrame(población, columns=['población'])

Unnamed: 0,población
1,a
2,a
3,a
4,a


In [33]:
[{'a': i, 'b': 2 * i} for i in range(3)]

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [34]:
# A partir de una lista de diccionarios
pd.DataFrame([{'a': i, 'b': 2 * i} for i in range(3)])

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [35]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4},
])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [36]:
# A partir de un diccionario con Series como valores
pd.DataFrame({
    'población': población,
    'superficie': superficie,
})

Unnamed: 0,población,superficie
1,a,
2,a,
3,a,
4,a,
La Habana,,728.0
Sinaloa,,58200.0
Santiago de Cuba,,6243.0
Sonora,,179355.0
Chihuahua,,247455.0


In [37]:
# A partir de una arreglo bidimensional de NumPy
# A estos se le llaman arreglos estructurados de Numpy...
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.
Los arreglos de Numpy almecenan solo un tipo de datos, a diferencia de los arreglos en otros lenguajes de programación, sin embargo los arreglos estructurados permiten almacenar datos en varios tipos como en dicho ejemplo, donde se almacenan un dato entero y un flotante. Dicho ejemplo usa abreviaturas para definir que se tratan de un entero y un flotante de 8 bytes, pero también se pueden colocar los tipos de datos directamente... tales como "int" o "float"...

## Index

Tanto los objetos DataFrame como Series contienen índices explícitos que nos permiten hacer referencia a la información que contienen.

La estructura de los índices podemos pensarla como un arreglo inmutable (no podemos modificar sus valores) o como un conjunto ordenado (o multiconjunto ya que un índice puede tener valores repetidos).

In [38]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [39]:
ind[1]

3

In [40]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [41]:
ind.size

5

In [42]:
len(ind)

5

In [43]:
ind.shape

(5,)

In [44]:
ind.ndim

1

In [45]:
ind.dtype

dtype('int64')

In [46]:
#ind[1] = 0

In [47]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [48]:
indA.intersection(indB)

Index([3, 5, 7], dtype='int64')

In [49]:
indA.union(indB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [50]:
indA.symmetric_difference(indB)

Index([1, 2, 9, 11], dtype='int64')

## Indexando y seleccionando datos

In [51]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [52]:
data['b']

0.5

In [53]:
'a' in data

True

In [54]:
list(data.keys())

['a', 'b', 'c', 'd']

In [55]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [56]:
data['e'] = 1.25

In [57]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [58]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [59]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [60]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [61]:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [62]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [63]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [64]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [65]:
data[1]

'a'

In [66]:
data[1:3]

3    b
5    c
dtype: object

In [67]:
data.loc[1]

'a'

In [68]:
data.loc[1:3]

1    a
3    b
dtype: object

In [69]:
data.iloc[1]

'b'

In [70]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [71]:
territorios

Unnamed: 0,población,superficie
1,a,
2,a,
3,a,
4,a,
La Habana,,728.0
Sinaloa,,58200.0
Santiago de Cuba,,6243.0
Sonora,,179355.0
Chihuahua,,247455.0


In [72]:
territorios['población']

1                     a
2                     a
3                     a
4                     a
La Habana           NaN
Sinaloa             NaN
Santiago de Cuba    NaN
Sonora              NaN
Chihuahua           NaN
Name: población, dtype: object

In [73]:
territorios['superficie']

1                        NaN
2                        NaN
3                        NaN
4                        NaN
La Habana              728.0
Sinaloa              58200.0
Santiago de Cuba      6243.0
Sonora              179355.0
Chihuahua           247455.0
Name: superficie, dtype: float64

In [74]:
territorios.superficie is territorios['superficie']

True

In [75]:
territorios.población is territorios['población']

True

In [76]:
territorios['densidad'] = territorios['población'] / territorios['superficie']

In [77]:
territorios

Unnamed: 0,población,superficie,densidad
1,a,,
2,a,,
3,a,,
4,a,,
La Habana,,728.0,
Sinaloa,,58200.0,
Santiago de Cuba,,6243.0,
Sonora,,179355.0,
Chihuahua,,247455.0,


In [78]:
territorios.values

array([['a', nan, nan],
       ['a', nan, nan],
       ['a', nan, nan],
       ['a', nan, nan],
       [nan, 728.0, nan],
       [nan, 58200.0, nan],
       [nan, 6243.0, nan],
       [nan, 179355.0, nan],
       [nan, 247455.0, nan]], dtype=object)

In [79]:
territorios.T

Unnamed: 0,1,2,3,4,La Habana,Sinaloa,Santiago de Cuba,Sonora,Chihuahua
población,a,a,a,a,,,,,
superficie,,,,,728.0,58200.0,6243.0,179355.0,247455.0
densidad,,,,,,,,,


In [80]:
territorios.values[0]

array(['a', nan, nan], dtype=object)

In [81]:
territorios['superficie']

1                        NaN
2                        NaN
3                        NaN
4                        NaN
La Habana              728.0
Sinaloa              58200.0
Santiago de Cuba      6243.0
Sonora              179355.0
Chihuahua           247455.0
Name: superficie, dtype: float64

In [82]:
territorios.iloc[:3,:2]

Unnamed: 0,población,superficie
1,a,
2,a,
3,a,


In [83]:
territorios.loc[:'Santiago de Cuba', :'superficie']

Unnamed: 0,población,superficie
1,a,
2,a,
3,a,
4,a,
La Habana,,728.0
Sinaloa,,58200.0
Santiago de Cuba,,6243.0


In [84]:
territorios.loc[territorios.densidad > 100, ['población', 'densidad']]

Unnamed: 0,población,densidad


In [85]:
territorios

Unnamed: 0,población,superficie,densidad
1,a,,
2,a,,
3,a,,
4,a,,
La Habana,,728.0,
Sinaloa,,58200.0,
Santiago de Cuba,,6243.0,
Sonora,,179355.0,
Chihuahua,,247455.0,


In [86]:
territorios.iloc[0, 2]

nan

In [87]:
territorios.iloc[0, 2] = 90

In [88]:
territorios

Unnamed: 0,población,superficie,densidad
1,a,,90.0
2,a,,
3,a,,
4,a,,
La Habana,,728.0,
Sinaloa,,58200.0,
Santiago de Cuba,,6243.0,
Sonora,,179355.0,
Chihuahua,,247455.0,


In [89]:
territorios[territorios.densidad > 100]

Unnamed: 0,población,superficie,densidad


In [90]:
territorios.densidad > 100

1                   False
2                   False
3                   False
4                   False
La Habana           False
Sinaloa             False
Santiago de Cuba    False
Sonora              False
Chihuahua           False
Name: densidad, dtype: bool

## Operando sobre datos

In [91]:
ran = np.random.RandomState(42)
ser = pd.Series(ran.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [92]:
df = pd.DataFrame(ran.randint(0, 10, (3,4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [93]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [94]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [95]:
superficie = pd.Series({
    'Alaska': 1723337, 
    'Texas': 695662,
    'California': 423967
}, name='superficie')

población = pd.Series({
    'California': 38332521, 
    'Texas': 26448193,
    'New York': 19651127
}, name='población')

In [96]:
población / superficie

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [97]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [98]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [99]:
A = pd.DataFrame(ran.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [100]:
B = pd.DataFrame(ran.randint(0, 10, (3,3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [101]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [102]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [103]:
np.stack?


[1;31mSignature:[0m [0mnp[0m[1;33m.[0m[0mstack[0m[1;33m([0m[0marrays[0m[1;33m,[0m [0maxis[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m [0mout[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [1;33m*[0m[1;33m,[0m [0mdtype[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mcasting[0m[1;33m=[0m[1;34m'same_kind'[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Join a sequence of arrays along a new axis.

The ``axis`` parameter specifies the index of the new axis in the
dimensions of the result. For example, if ``axis=0`` it will be the first
dimension and if ``axis=-1`` it will be the last dimension.

.. versionadded:: 1.10.0

Parameters
----------
arrays : sequence of array_like
    Each array must have the same shape.

axis : int, optional
    The axis in the result array along which the input arrays are stacked.

out : ndarray, optional
    If provided, the destination to place the result. The shape must be
    correct, matching that of what stack would have ret

In [104]:
A.stack()

0  A     1
   B    11
1  A     5
   B     1
dtype: int32

In [105]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [106]:
A.stack().mean()

4.5

In [107]:
fill = A.stack().mean()

In [108]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


In [109]:
A = ran.randint(10, size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [110]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [111]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [112]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [113]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [114]:
df.subtract(df['R'], axis='rows')

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [115]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [116]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [117]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## Manejo de datos faltantes

In [118]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [119]:
for dtype in ['object', 'int']:
    print('dtype =', dtype)
    %timeit np.arange(1e6, dtype=dtype).sum()
    print()

dtype = object
58.3 ms ± 2.06 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int


1.65 ms ± 121 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)



In [120]:
vals1

array([1, None, 3, 4], dtype=object)

In [121]:
#vals1.sum()

In [122]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

array([ 1., nan,  3.,  4.])

In [123]:
vals2.dtype

dtype('float64')

In [124]:
1 + np.nan

nan

In [125]:
0 * np.nan

nan

In [126]:
vals2.sum()

nan

In [127]:
vals2.min()

nan

In [128]:
vals2.max()

nan

In [129]:
np.nansum(vals2)

8.0

In [130]:
np.nansum?

[1;31mSignature:[0m
[0mnp[0m[1;33m.[0m[0mnansum[0m[1;33m([0m[1;33m
[0m    [0ma[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mout[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mkeepdims[0m[1;33m=[0m[1;33m<[0m[0mno[0m [0mvalue[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0minitial[0m[1;33m=[0m[1;33m<[0m[0mno[0m [0mvalue[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0mwhere[0m[1;33m=[0m[1;33m<[0m[0mno[0m [0mvalue[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return the sum of array elements over a given axis treating Not a
Numbers (NaNs) as zero.

In NumPy versions <= 1.9.0 Nan is returned for slices that are all-NaN or
empty. In later versions zero is returned.

Parameters
----------
a : array_like
    Array containing numbers whose sum is desired. If `a` is not 

In [131]:
np.nanmin(vals2)

1.0

In [132]:
np.nanmin?

[1;31mSignature:[0m
[0mnp[0m[1;33m.[0m[0mnanmin[0m[1;33m([0m[1;33m
[0m    [0ma[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mout[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mkeepdims[0m[1;33m=[0m[1;33m<[0m[0mno[0m [0mvalue[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0minitial[0m[1;33m=[0m[1;33m<[0m[0mno[0m [0mvalue[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0mwhere[0m[1;33m=[0m[1;33m<[0m[0mno[0m [0mvalue[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return minimum of an array or minimum along an axis, ignoring any NaNs.
Nan is returned for that slice.

Parameters
----------
a : array_like
    Array containing numbers whose minimum is desired. If `a` is not an
    array, a conversion is attempted.
axis : {int, tuple of int, None}, optional
    Axis or axes along which the minimum is computed. The default is to compute
    

In [133]:
np.nanmax(vals2)

4.0

In [134]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [135]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int32

In [136]:
x[0] = None

In [137]:
x

0    NaN
1    1.0
dtype: float64

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

Todas estas operaciones se utilizan para el manejo de NaNs (Valores nulos). Introducen índices que no existen en un DF de pandas, y como habíamos visto se generan varios valores  NaNs.

Entonces:
isnull:
- Devuelve una matriz o lista de booleanos con la misma forma que el elemento dado señalando los valores nulos que este contiene.

notnull:
- Es lo contrario al anterior... devuelve de igual forma una matriz de booleanos pero marcando True donde no es nulo...

dropna:
- Este elimina las filas o columnas con valores nulos... Se estima usar si estos son menores al 10% de los datos. Quizás menos. Dependiendo de cada situación y de si los valores no pueden calcularse a partir de la combinación de otras filas o columnas, obtener por consecutividad o imputarse. Quizás existen otros escenarios.

fillna:
- Se utiliza para rellenar estos valores nulos, entre los ejemplos que habíamos mencionado, se puede sustituir por un valor específico o utilizarse métodos para la propagación hacia adelante o atrás.

---

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Consulta los sitios de datos abiertos de algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. El DataFrame resultante debe tener asociada a cada columna el tipo de dato adecuado para trabajar.


In [138]:
import pandas as pd
import numpy as np

In [139]:
# Vamos a importar un archivo de Datos Abiertos:
# https://datos.gob.mx/busca/dataset/cirugias-de-agosto-2015-a-la-fecha
# Cirugías del er Trimestre de 2023...
# http://himfg.com.mx/descargas/documentos/transparencia/Cirugias_Trimestre1_2023.xlsx

df = pd.read_excel("assets\Cirugias_Trimestre1_2023.xlsx")
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,2023
0,,PERIODO,,,%
1,CONCEPTO,PROG,REAL,,R/P
2,INTERVENCIONES QUIRURGICAS\nCIRUGIA MAYOR 1_ \...,,,714\n669\n45\n36\n102,


In [None]:
# El resultado fue muy interesante... Los datos abiertos en xlsx sucks...
# Otro entonces... Educación...
# https://datos.gob.mx/busca/dataset/presupuesto-de-egresos-2023
# https://www.poi.ipn.mx/assets/files/poi/PPTO-DE-EGRESOS-2023.csv

In [141]:
df = pd.read_csv("assets\PPTO-DE-EGRESOS-2023.csv")
df

Unnamed: 0,RAMO,UNIDAD,AÑO,FINALIDAD,FUNCION,SUBFUNCION,REASIGNACION,ACTIVIDAD\nINSTITUCIONAL,PROGRAMA PRESUPUESTARIO,PARTIDA DE GASTO,...,MARZO,ABRIL,MAYO,JUNIO,JULIO,AGOSTO,SEPTIEMBRE,OCTUBRE,NOVIEMBRE,DICIEMBRE
0,11,MGC,2023,2,5,2,0,4,E047,11301,...,1180735,1180735,1180735,1180735,1180735,1180735,1180735,1180735,1180735,1342198
1,11,MGC,2023,1,3,4,0,1,O001,11301,...,111685,111685,111685,111685,111685,111685,111685,111685,94925,0
2,11,MGC,2023,2,5,2,0,4,E047,13101,...,1618,1618,1618,1618,1618,1618,1618,1618,1618,1622
3,11,MGC,2023,2,5,2,0,4,E047,13102,...,0,0,0,0,0,0,0,0,0,0
4,11,MGC,2023,1,3,4,0,1,O001,13102,...,2593,2593,2593,2593,2593,2593,2593,2593,2593,2586
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
61,11,MGC,2023,2,5,3,0,5,E047,35901,...,0,0,75000,0,0,0,0,75000,0,0
62,11,MGC,2023,2,5,2,0,4,E047,37204,...,2000,2000,2000,2000,2000,2000,2000,2000,2810,0
63,11,MGC,2023,2,5,2,0,4,E047,39202,...,3000,65000,2200,65000,2300,3100,65000,3200,65094,0
64,11,MGC,2023,2,5,2,0,4,E047,39801,...,365000,148532,70000,365000,70000,375000,275000,70000,80000,80000


In [144]:
# Algo bien... Cero valores nulos... Dataset listo para trabajar... y con los tipos de datos correctos en cada columna... ejercicio resuelto...
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 66 entries, 0 to 65
Data columns (total 23 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   RAMO                     66 non-null     int64 
 1   UNIDAD                   66 non-null     object
 2   AÑO                      66 non-null     int64 
 3   FINALIDAD                66 non-null     int64 
 4   FUNCION                  66 non-null     int64 
 5   SUBFUNCION               66 non-null     int64 
 6   REASIGNACION             66 non-null     int64 
 7   ACTIVIDAD
INSTITUCIONAL  66 non-null     int64 
 8   PROGRAMA PRESUPUESTARIO  66 non-null     object
 9   PARTIDA DE GASTO         66 non-null     int64 
 10  ORIGINAL                 66 non-null     object
 11  ENERO                    66 non-null     int64 
 12  FEBRERO                  66 non-null     int64 
 13  MARZO                    66 non-null     int64 
 14  ABRIL                    66 non-null     int