# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas`.

In [72]:
import numpy as np
import pandas as pd

In [73]:
pd.__version__

'1.5.0'

## Series

El tipo `Series` representa arreglos unidimensionales de datos indexados. Puede ser creado a partir de una secuencia:

In [74]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Observemos que un objeto `Series` contempla tanto la secuencia de valores como la secuencia de índices. Los valores se almacenan internamente como un arreglo de NumPy:

In [75]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Los índices se almacenan internamente como un objeto parecido a arreglo de tipo `pd.Index`:

In [76]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos usar operaciones similares a los arreglos de NumPy, pero para objetos `Series`.

In [77]:
data[1]

0.5

In [78]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [79]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Al calcular un subarreglo, los índices siguen correspondiendo a los valores del arreglo original.

Podemos pensar en los objetos `Series` como arreglos de NumPy generalizados. La inclusión de los índices de forma explícita en la estructura de los objetos nos permite, por ejemplo, usar otros tipos de valores no numéricos.

---

In [80]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [81]:
data['b']

0.5

In [82]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

---

In [83]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [84]:
data[5]

0.5

---

Podemos utilizar `Series` como una forma de diccionario:

In [85]:
población = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Sinaloa': 3027000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
})
población

Sonora              2945000
Chihuahua           3742000
Sinaloa             3027000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

En este ejemplo constuimos un objeto `Series` a partir de un diccionario, el índice se obtiene se las llaves del diccionario y los valores... de los valores.

In [86]:
población['Sonora']

2945000

In [87]:
población['Chihuahua':'La Habana']

Chihuahua    3742000
Sinaloa      3027000
La Habana    3265832
dtype: int64

In [88]:
población['La Habana':'Chihuahua']

Series([], dtype: int64)

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [89]:
pd.Series?

[1;31mInit signature:[0m
[0mpd[0m[1;33m.[0m[0mSeries[0m[1;33m([0m[1;33m
[0m    [0mdata[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m:[0m [1;34m'Dtype | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mname[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mfastpath[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'None'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object
supports both integer- and label-based indexing and provides a host of
methods for performing operations involving the index. Statistical
methods from ndarray have been

In [90]:
# PROBLEMA 1
    # If data is dict-like
    # and index is None, then the keys in the data are used as the index. If the
    # index is not None, the resulting Series is reindexed with the index values.

edades = pd.Series({
    'osiris': 26,
    'grecia': 28,
    'kenia': 18,
}, index=['grecia', 'kenia', 'osiris', 'gres', 'keñoña', 'oswal'])
edades

# RESPUESTA
# Se reordena la serie considerando el parametro index (si no coinciden con alguna llave del diccionario, se agrega pero el valor aparece como NaN)


grecia    28.0
kenia     18.0
osiris    26.0
gres       NaN
keñoña     NaN
oswal      NaN
dtype: float64

In [91]:
# PROBLEMA 2
mi_edad = pd.Series(26, index=['osiris', 'grecia', 'kenia']);
mi_edad
# RESPUESTA
# Para cada index se agrega el mismo valor numérico generado.

osiris    26
grecia    26
kenia     26
dtype: int64

## DataFrame

Recordemos la serie de población:

In [92]:
población

Sonora              2945000
Chihuahua           3742000
Sinaloa             3027000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

Definamos ahora una serie similar, pero con la supericie de los territorios medida en kilómetros cuadrados:

In [93]:
superficie = pd.Series({
    'La Habana': 728,
    'Sinaloa': 58200,
    'Santiago de Cuba': 6243,
    'Sonora': 179355,
    'Chihuahua': 247455,
})
superficie

La Habana              728
Sinaloa              58200
Santiago de Cuba      6243
Sonora              179355
Chihuahua           247455
dtype: int64

Ahora vamos a crear una tabla (`DataFrame`) que contenga estas dos valiosas piezas de información:

In [94]:
territorios = pd.DataFrame({
    'población': población,
    'superficie': superficie,
})
territorios

Unnamed: 0,población,superficie
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sinaloa,3027000,58200
Sonora,2945000,179355


Los DataFrames, al igual que las Series, tienen un atributo `index` con el índice de la tabla:

In [95]:
pruebita = pd.Series([5, 10, 2, 4, 6])

In [96]:
pruebita

0     5
1    10
2     2
3     4
4     6
dtype: int64

In [97]:
pruebita.sort_values()

2     2
3     4
0     5
4     6
1    10
dtype: int64

In [98]:
territorios.index

Index(['Chihuahua', 'La Habana', 'Santiago de Cuba', 'Sinaloa', 'Sonora'], dtype='object')

Cuando escuchamos índice de una tabla, pensemos en sus renglones. En este caso, cada renglón representa un territorio.

También tenemos el atributo `columns` (columnas). En este caso, cada columna corresponde a cada medición asociada a los territorios.

In [99]:
territorios.columns

Index(['población', 'superficie'], dtype='object')

El tipo de objeto para las columnas también es `pd.Index`. Podemos pensar las tablas como arreglos bidimensionales de NumPy.

Observemos también que al construir la tabla, las serie población y la serie superficie tenían los mismos índices pero en orden distinto. Pandas se encarga de crear la tabla emparejando correctamente las mediciones de acuerdo al *valor* de su índice, no la *posición* de este.

---

In [100]:
territorios['superficie']

Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sinaloa              58200
Sonora              179355
Name: superficie, dtype: int64

In [101]:
territorios['población']

Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sinaloa             3027000
Sonora              2945000
Name: población, dtype: int64

---

Distinta formas de crear DataFrames:

In [102]:
# A partir de una Serie
pd.DataFrame(población, columns=['población'])

Unnamed: 0,población
Sonora,2945000
Chihuahua,3742000
Sinaloa,3027000
La Habana,3265832
Santiago de Cuba,2286360


In [103]:
# A partir de una lista de diccionarios
pd.DataFrame([{'a': i, 'b': 2 * i} for i in range(3)])

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [104]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4},
])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [105]:
# A partir de un diccionario con Series como valores
pd.DataFrame({
    'población': población,
    'superficie': superficie,
})

Unnamed: 0,población,superficie
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sinaloa,3027000,58200
Sonora,2945000,179355


In [106]:
# A partir de una arreglo bidimensional de NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

In [107]:
# Los Structured Arrays en numpy se pueden utilizar para definir el tipo de dato y tamaño que un campo puede tomar
# Tambien se puede sortear en base al tipo de dato especificado para el campo.

hermanos = np.array([('Grecia', 'M', 28.0), ('Osiris', 'H', 26.0), ('Kenia', 'M', 18.0)],
       dtype=[('name', (np.str_, 10)), ('sex', np.str_, 1), ('age', np.float64)])
np.sort(hermanos, order='age')

array([('Kenia', 'M', 18.), ('Osiris', 'H', 26.), ('Grecia', 'M', 28.)],
      dtype=[('name', '<U10'), ('sex', '<U1'), ('age', '<f8')])

## Index

Tanto los objetos DataFrame como Series contienen índices explícitos que nos permiten hacer referencia a la información que contienen.

La estructura de los índices podemos pensarla como un arreglo inmutable (no podemos modificar sus valores) o como un conjunto ordenado (o multiconjunto ya que un índice puede tener valores repetidos).

In [108]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [109]:
ind[1]

3

In [110]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [111]:
ind.size

5

In [112]:
ind.shape

(5,)

In [113]:
ind.ndim

1

In [114]:
ind.dtype

dtype('int64')

In [115]:
ind[1] = 0

TypeError: Index does not support mutable operations

In [116]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [117]:
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')

In [118]:
indA.union(indB)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [119]:
indA.symmetric_difference(indB)

Int64Index([1, 2, 9, 11], dtype='int64')

## Indexando y seleccionando datos

In [120]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [121]:
data['b']

0.5

In [122]:
'a' in data

True

In [123]:
list(data.keys())

['a', 'b', 'c', 'd']

In [124]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [125]:
data['e'] = 1.25

In [126]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [127]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [128]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [129]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [130]:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [131]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [132]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [133]:
data[1]

'a'

In [134]:
data[1:3]

  data[1:3]


3    b
5    c
dtype: object

In [135]:
data.loc[1]

'a'

In [136]:
data.loc[1:3]

1    a
3    b
dtype: object

In [137]:
data.iloc[1]

'b'

In [138]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [139]:
territorios

Unnamed: 0,población,superficie
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sinaloa,3027000,58200
Sonora,2945000,179355


In [140]:
territorios['población']

Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sinaloa             3027000
Sonora              2945000
Name: población, dtype: int64

In [141]:
territorios['superficie']

Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sinaloa              58200
Sonora              179355
Name: superficie, dtype: int64

In [142]:
territorios.superficie is territorios['superficie']

True

In [143]:
territorios.población is territorios['población']

True

In [144]:
territorios['densidad'] = territorios['población'] / territorios['superficie']

In [145]:
territorios

Unnamed: 0,población,superficie,densidad
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sinaloa,3027000,58200,52.010309
Sonora,2945000,179355,16.419949


In [146]:
territorios.values

array([[3.74200000e+06, 2.47455000e+05, 1.51219414e+01],
       [3.26583200e+06, 7.28000000e+02, 4.48603297e+03],
       [2.28636000e+06, 6.24300000e+03, 3.66227775e+02],
       [3.02700000e+06, 5.82000000e+04, 5.20103093e+01],
       [2.94500000e+06, 1.79355000e+05, 1.64199493e+01]])

In [147]:
territorios.T

Unnamed: 0,Chihuahua,La Habana,Santiago de Cuba,Sinaloa,Sonora
población,3742000.0,3265832.0,2286360.0,3027000.0,2945000.0
superficie,247455.0,728.0,6243.0,58200.0,179355.0
densidad,15.12194,4486.033,366.2278,52.01031,16.41995


In [148]:
territorios.values[0]

array([3.74200000e+06, 2.47455000e+05, 1.51219414e+01])

In [149]:
territorios['superficie']

Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sinaloa              58200
Sonora              179355
Name: superficie, dtype: int64

In [150]:
territorios.iloc[:3,:2]

Unnamed: 0,población,superficie
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243


In [151]:
territorios.loc[:'Santiago de Cuba', :'superficie']

Unnamed: 0,población,superficie
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243


In [152]:
territorios.loc[territorios.densidad > 100, ['población', 'densidad']]

Unnamed: 0,población,densidad
La Habana,3265832,4486.032967
Santiago de Cuba,2286360,366.227775


In [153]:
territorios

Unnamed: 0,población,superficie,densidad
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sinaloa,3027000,58200,52.010309
Sonora,2945000,179355,16.419949


In [154]:
territorios.iloc[0, 2]

15.121941363076115

In [155]:
territorios.iloc[0, 2] = 90

In [156]:
territorios

Unnamed: 0,población,superficie,densidad
Chihuahua,3742000,247455,90.0
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sinaloa,3027000,58200,52.010309
Sonora,2945000,179355,16.419949


In [157]:
territorios[territorios.densidad > 100]

Unnamed: 0,población,superficie,densidad
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


In [158]:
territorios.densidad > 100

Chihuahua           False
La Habana            True
Santiago de Cuba     True
Sinaloa             False
Sonora              False
Name: densidad, dtype: bool

## Operando sobre datos

In [159]:
ran = np.random.RandomState(42)
ser = pd.Series(ran.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [160]:
df = pd.DataFrame(ran.randint(0, 10, (3,4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [161]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [162]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [163]:
superficie = pd.Series({
    'Alaska': 1723337, 
    'Texas': 695662,
    'California': 423967
}, name='superficie')

población = pd.Series({
    'California': 38332521, 
    'Texas': 26448193,
    'New York': 19651127
}, name='población')

In [164]:
población / superficie

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [165]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [166]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [167]:
A = pd.DataFrame(ran.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [168]:
B = pd.DataFrame(ran.randint(0, 10, (3,3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [169]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [170]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [171]:
A.stack()

0  A     1
   B    11
1  A     5
   B     1
dtype: int32

In [172]:
A.stack().mean()

4.5

In [173]:
fill = A.stack().mean()

In [174]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


In [175]:
A = ran.randint(10, size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [176]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [177]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [178]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [179]:
df.subtract(df['R'], axis='rows')

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [180]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [181]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [182]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## Manejo de datos faltantes

In [183]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [184]:
for dtype in ['object', 'int']:
    print('dtype =', dtype)
    %timeit np.arange(1e6, dtype=dtype).sum()
    print()

dtype = object
29.6 ms ± 830 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
1.38 ms ± 11.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)



In [185]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [188]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

array([ 1., nan,  3.,  4.])

In [189]:
vals2.dtype

dtype('float64')

In [190]:
1 + np.nan

nan

In [191]:
0 * np.nan

nan

In [192]:
vals2.sum()

nan

In [193]:
vals2.min()

nan

In [194]:
vals2.max()

nan

In [195]:
np.nansum(vals2)

8.0

In [196]:
np.nanmin(vals2)

1.0

In [197]:
np.nanmax(vals2)

4.0

In [198]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [199]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int32

In [200]:
x[0] = None

In [201]:
x

0    NaN
1    1.0
dtype: float64

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

In [203]:
pd.isnull?
# Regresa un valor booleano o arreglo de booleanos mostrando si el valor de entrada es nulo ('NaN' en arreglos numericos, 'None' or 'NaN' en arreglos de objetos)
nulable=[ 7, 23, 5, None, 34] 
pd.isnull(nulable)

array([False, False, False,  True, False])

[1;31mSignature:[0m [0mpd[0m[1;33m.[0m[0misnull[0m[1;33m([0m[0mobj[0m[1;33m:[0m [1;34m'object'[0m[1;33m)[0m [1;33m->[0m [1;34m'bool | npt.NDArray[np.bool_] | NDFrame'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Detect missing values for an array-like object.

This function takes a scalar or array-like object and indicates
whether values are missing (``NaN`` in numeric arrays, ``None`` or ``NaN``
in object arrays, ``NaT`` in datetimelike).

Parameters
----------
obj : scalar or array-like
    Object to check for null or missing values.

Returns
-------
bool or array-like of bool
    For scalar input, returns a scalar boolean.
    For array input, returns an array of boolean indicating whether each
    corresponding element is missing.

See Also
--------
notna : Boolean inverse of pandas.isna.
Series.isna : Detect missing values in a Series.
DataFrame.isna : Detect missing values in a DataFrame.
Index.isna : Detect missing values in an Index.

Examples
------

In [223]:
pd.notnull?
# Regresa un valor booleano o arreglo de booleanos mostrando si el valor de entrada es valido 
# (no nulo != 'NaN' en numericos, 'None' or 'NaN' en objetos, o 'NaT' en DateTimes)

num=pd.DataFrame([1,2,3, float('NAN'), 0])
obj=pd.DataFrame(['osiris', None, 26])
DT=pd.date_range(start='1/1/2018', end='1/08/2018')

#pd.notnull(num)
pd.notnull(obj)
#pd.notnull(DT)

Unnamed: 0,0
0,True
1,False
2,True


[1;31mSignature:[0m [0mpd[0m[1;33m.[0m[0mnotnull[0m[1;33m([0m[0mobj[0m[1;33m:[0m [1;34m'object'[0m[1;33m)[0m [1;33m->[0m [1;34m'bool | npt.NDArray[np.bool_] | NDFrame'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Detect non-missing values for an array-like object.

This function takes a scalar or array-like object and indicates
whether values are valid (not missing, which is ``NaN`` in numeric
arrays, ``None`` or ``NaN`` in object arrays, ``NaT`` in datetimelike).

Parameters
----------
obj : array-like or object value
    Object to check for *not* null or *non*-missing values.

Returns
-------
bool or array-like of bool
    For scalar input, returns a scalar boolean.
    For array input, returns an array of boolean indicating whether each
    corresponding element is valid.

See Also
--------
isna : Boolean inverse of pandas.notna.
Series.notna : Detect valid values in a Series.
DataFrame.notna : Detect valid values in a DataFrame.
Index.notna : Detect vali

In [228]:
pd.DataFrame.dropna?
# Remueve la columna (axis=1) o renglon (axis=0) si how='any' -> cualquier valor tiene datos faltantes,
# o how='all' -> todos los datos son faltantes

edades=pd.DataFrame({'name':['osiris', 'grecia', 'keñoña'],
                    'age':[26, 28, None]})
edades.dropna(axis=0, how='any')

Unnamed: 0,name,age
0,osiris,26.0
1,grecia,28.0


[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mDataFrame[0m[1;33m.[0m[0mdropna[0m[1;33m([0m[1;33m
[0m    [0mself[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mhow[0m[1;33m:[0m [1;34m'str | NoDefault'[0m [1;33m=[0m [1;33m<[0m[0mno_default[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0mthresh[0m[1;33m:[0m [1;34m'int | NoDefault'[0m [1;33m=[0m [1;33m<[0m[0mno_default[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0msubset[0m[1;33m:[0m [1;34m'IndexLabel'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0minplace[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'DataFrame | None'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Remove missing values.

See the :ref:`User Guide <missing_data>` for more on which values are
considered missing, and how to work with missing data.

Parameters
--

In [229]:
pd.DataFrame.fillna?
# Llena con el valor 'value' todas las observaciónes con NA o NaN, 
# permite la utilización de un método usando 'method' como parametro

edades=pd.DataFrame({'name':['osiris', 'grecia', 'keñoña', 'Martha', 'Quirino'],
                    'age':[26, 28, pd.NA, float('NAN'), 50]})
edades.fillna(0)

Unnamed: 0,name,age
0,osiris,26
1,grecia,28
2,keñoña,0
3,Martha,0
4,Quirino,50


[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mDataFrame[0m[1;33m.[0m[0mfillna[0m[1;33m([0m[1;33m
[0m    [0mself[0m[1;33m,[0m[1;33m
[0m    [0mvalue[0m[1;33m:[0m [1;34m'Hashable | Mapping | Series | DataFrame'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mmethod[0m[1;33m:[0m [1;34m'FillnaOptions | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0minplace[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mlimit[0m[1;33m:[0m [1;34m'int | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdowncast[0m[1;33m:[0m [1;34m'dict | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'DataFrame | None'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Fill NA/NaN values using the specified method.

Parameters
--------

In [213]:
pd.NA?

# Son representación de valores faltantes que son interpretados como enteros en el tipo de datos Int64,
# permitiendo operaciones como suma y resta sin afectar o cambiar el tipo de datos de la columna.

[1;31mType:[0m        NAType
[1;31mString form:[0m <NA>
[1;31mFile:[0m        c:\users\oaiza\onedrive\documentos\pcd python\pcd\lib\site-packages\pandas\_libs\missing.cp310-win_amd64.pyd
[1;31mDocstring:[0m  
NA ("not available") missing value indicator.



.. versionadded:: 1.0.0

The NA singleton is a missing value indicator defined by pandas. It is
used in certain new extension dtypes (currently the "string" dtype).


---

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Consulta los sitios de datos abiertos de algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. El DataFrame resultante debe tener asociada a cada columna el tipo de dato adecuado para trabajar.

In [247]:
meses = [
    'Enero',
    'Febrero',
    'Marzo',
    'Abril',
    'Mayo',
    'Junio',
    'Julio',
    'Agosto',
    'Septiembre',
    'Octubre',
    'Noviembre',
    'Diciembre',
    'Año',
    'Clave_Ent',
    'Cve. Municipio',
]

cadenas = [
    'Entidad',
    'Municipio',
    'Bien jurídico afectado',
    'Tipo de delito',
    'Subtipo de delito',
    'Modalidad',
]

delitos_df = pd.read_csv(
    'delitos.csv',
    encoding='iso-8859-1',
    dtype=(
        { col: 'string' for col in cadenas } |
        { mes: 'Int64' for mes in meses }
    )
)

delitos_diccionario_df = pd.read_excel('delitos_diccionario.xlsx', sheet_name='IDM_NM', header=1)

delitos_diccionario_df['Campo'] = delitos_diccionario_df['Campo'].astype('string')
delitos_diccionario_df['Descripción'] = delitos_diccionario_df['Descripción'].astype('string')

In [249]:
delitos_diccionario_df.dtypes

Campo          string
Descripción    string
dtype: object