# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas` si usamos pip o `poetry add pandas` si usamos poetry.

In [43]:
import numpy as np
import pandas as pd

In [44]:
pd.__version__

'2.2.3'

## Series

El tipo `Series` representa arreglos unidimensionales de datos indexados. Puede ser creado a partir de una secuencia:

In [45]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Observemos que un objeto `Series` contempla tanto la secuencia de valores como la secuencia de índices. Los valores se almacenan internamente como un arreglo de NumPy:

In [46]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Los índices se almacenan internamente como un objeto parecido a arreglo de tipo `pd.Index`:

In [47]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos usar operaciones similares a los arreglos de NumPy, pero para objetos `Series`.

In [48]:
data[1]

np.float64(0.5)

In [49]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [50]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Al calcular un subarreglo, los índices siguen correspondiendo a los valores del arreglo original.

Podemos pensar en los objetos `Series` como arreglos de NumPy generalizados. La inclusión de los índices de forma explícita en la estructura de los objetos nos permite, por ejemplo, usar otros tipos de valores no numéricos.

---

In [51]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [52]:
data['b']

np.float64(0.5)

In [53]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

---

In [54]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [55]:
data[5]

np.float64(0.5)

In [56]:
data.index

Index([2, 5, 3, 7], dtype='int64')

---

Podemos utilizar `Series` como una forma de diccionario:

In [57]:
población = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Chiapas': 5544000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
})
población

Sonora              2945000
Chihuahua           3742000
Chiapas             5544000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

En este ejemplo constuimos un objeto `Series` a partir de un diccionario, el índice se obtiene se las llaves del diccionario y los valores... de los valores.

In [58]:
población['Sonora']

np.int64(2945000)

In [59]:
población['Chihuahua':'La Habana']

Chihuahua    3742000
Chiapas      5544000
La Habana    3265832
dtype: int64

In [60]:
población['La Habana':'Chihuahua']

Series([], dtype: int64)

---

Problema 1: Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [61]:
dic={'a':2,'b':2,'c':3}
ser = pd.Series(dic,index=[1, 'b', 'd'])
ser

1    NaN
b    2.0
d    NaN
dtype: float64

Parece ser que si especificamos ciertos indices, pd.Series trata de encontrar el valor correspondiente en el diccionario que ponemos, asi que en este caso trato de buscar que valor es correspondiente a las "llaves" o "indices" de 1 y "d", llaves que no existen en el diccionario que se usó de referencia, por lo que devuelve y asigna un valor NaN para dicho indice en la Serie 'data' definida, en cambio para el índice 'b', si se encuentra en el diccionario utilizado, por lo que se le asigna el valor correspondiente.

---

---

Problema 2: Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico,ro adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [62]:
num=2312.213
ser = pd.Series(num,index=[0, 'a', False])
ser

0        2312.213
a        2312.213
False    2312.213
dtype: float64

Se repite el numero para todos los indices

---

## DataFrame

Recordemos la serie de población:

In [63]:
población

Sonora              2945000
Chihuahua           3742000
Chiapas             5544000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

Definamos ahora una serie similar, pero con la supericie de los territorios medida en kilómetros cuadrados:

In [64]:
superficie = pd.Series({
    'La Habana': 728,
    'Chiapas': 73311,
    'Santiago de Cuba': 6243,
    'Sonora': 179355,
    'Chihuahua': 247455,
})
superficie

La Habana              728
Chiapas              73311
Santiago de Cuba      6243
Sonora              179355
Chihuahua           247455
dtype: int64

Ahora vamos a crear una tabla (`DataFrame`) que contenga estas dos valiosas piezas de información:

In [65]:
territorios = pd.DataFrame({
    'población': población,
    'superficie': superficie,
})
territorios

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


Los DataFrames, al igual que las Series, tienen un atributo `index` con el índice de la tabla:

In [66]:
pruebita = pd.Series([5, 10, 2, 4, 6])

In [67]:
pruebita

0     5
1    10
2     2
3     4
4     6
dtype: int64

In [68]:
pruebita.sort_values()

2     2
3     4
0     5
4     6
1    10
dtype: int64

In [69]:
territorios.index

Index(['Chiapas', 'Chihuahua', 'La Habana', 'Santiago de Cuba', 'Sonora'], dtype='object')

Cuando escuchamos o leemos “índice de una tabla”, podemos pensar en sus renglones. En este caso, cada renglón representa un territorio.

También tenemos el atributo `columns` (columnas). En este caso, cada columna corresponde a cada medición asociada a los territorios.

In [70]:
territorios.columns

Index(['población', 'superficie'], dtype='object')

El tipo de objeto para las columnas también es `pd.Index`. Podemos pensar las tablas como arreglos bidimensionales de NumPy.

Observemos también que al construir la tabla, las serie `población` y la serie `superficie` tenían los mismos índices pero en orden distinto. Pandas se encarga de crear la tabla `territorios` emparejando correctamente las mediciones de acuerdo al *valor* de su índice, no la *posición* de este.

---

In [71]:
territorios['superficie']

Chiapas              73311
Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sonora              179355
Name: superficie, dtype: int64

In [72]:
territorios['población']

Chiapas             5544000
Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sonora              2945000
Name: población, dtype: int64

In [73]:
territorios.loc['La Habana']

población     3265832
superficie        728
Name: La Habana, dtype: int64

In [74]:
territorios.iloc[2]

población     3265832
superficie        728
Name: La Habana, dtype: int64

---

Distinta formas de crear DataFrames:

In [75]:
# A partir de una Serie
pd.DataFrame(población, columns=['población'])

Unnamed: 0,población
Sonora,2945000
Chihuahua,3742000
Chiapas,5544000
La Habana,3265832
Santiago de Cuba,2286360


In [76]:
# A partir de una lista de diccionarios
pd.DataFrame([{'a': i, 'b': 2 * i} for i in range(3)])

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [77]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4},
])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [78]:
# A partir de un diccionario con Series como valores
pd.DataFrame({
    'población': población,
    'superficie': superficie,
})

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


In [79]:
# A partir de una arreglo bidimensional de NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


---

Problema 3: El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

Los arreglos estructurados de numpy son ndarrays que estan compuestos de tipos de datos organizados como una secuencia de "campos", como en el en el ejemplo mencionado que se especifica como en la columna 'A' se desea tipo integer, por lo que np.zeros toma el 0  para los enteros, asi como para la columna 'B' toma el valor de 0.0, que es el correspondiente a los tipos flotantes. 

Para consultar estos campos, podemos llamar al atribuo *dtype.names* 

In [80]:
A.dtype.names

('A', 'B')

Asi como tambien se puede consultar el tipo de dato de cierto campo seleccionandolo el atributo *dtype* de dicho campo

In [81]:
A['B'].dtype

dtype('float64')

A continuacion se encuentra un codigo ejemplo de como puede ser utilizado estos campos para organizar los datos

In [82]:
a = np.array([('Sebastian', 21, 78.0), ('Isaac', 22, 83.0)], 
	dtype=[('name', (np.str_, 10)), ('age', np.int32), ('weight', np.float64)]) 
			
# According to the name field
b = np.sort(a, order='name') 
print('Sorting according to the name', b) 

# According to the age field 
b = np.sort(a, order='age') 
print('\nSorting according to the age', b)


Sorting according to the name [('Isaac', 22, 83.) ('Sebastian', 21, 78.)]

Sorting according to the age [('Sebastian', 21, 78.) ('Isaac', 22, 83.)]


Asi como encontrar el valor minimo o maximo de cierto campo

In [83]:
a = np.array([('Sebastian', 21, 78.0), ('Isaac', 22, 83.0)], 
	dtype=[('name', (np.str_, 10)), ('age', np.int32), ('weight', np.float64)]) 
			
max_weight = np.max(a['weight']) 
min_weight = np.min(a['weight']) 
  
print("Max weight = ",max_weight) 
print("\nMin weight = ", min_weight) 

Max weight =  83.0

Min weight =  78.0


Y tambien siendo posiblme la concatenacion

In [84]:
a = np.array([('Sebastian', 21, 78.0), ('Isaac', 22, 83.0)], 
	dtype=[('name', (np.str_, 10)), ('age', np.int32), ('weight', np.float64)]) 
			
b = np.array([('Jesus', 28, 80.0)], dtype=a.dtype) 
c = np.concatenate((a, b)) 

print(c)

[('Sebastian', 21, 78.) ('Isaac', 22, 83.) ('Jesus', 28, 80.)]


---

In [85]:
np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [86]:
B=np.array([0,1],dtype=[('A', 'i8'), ('B', 'f8'),('C','bool')])
B

array([(0, 0., False), (1, 1.,  True)],
      dtype=[('A', '<i8'), ('B', '<f8'), ('C', '?')])

In [87]:
B[0]

np.void((0, 0.0, False), dtype=[('A', '<i8'), ('B', '<f8'), ('C', '?')])

In [88]:
B[1]

np.void((1, 1.0, True), dtype=[('A', '<i8'), ('B', '<f8'), ('C', '?')])

In [89]:
B[1][2]

np.True_

In [90]:
B[1]['C']

np.True_

## Index

Tanto los objetos DataFrame como Series contienen índices que nos permiten hacer referencia a la información que contienen.

La estructura de los índices podemos pensarla como un arreglo inmutable (no podemos modificar sus valores) o como un conjunto ordenado (o multiconjunto ya que un índice puede tener valores repetidos).

In [91]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [92]:
ind[1]

np.int64(3)

In [93]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [94]:
ind.size

5

In [95]:
ind.shape

(5,)

In [96]:
ind.ndim

1

In [97]:
ind.dtype

dtype('int64')

In [98]:
ind[1] = 0

TypeError: Index does not support mutable operations

In [99]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [100]:
indA.intersection(indB)

Index([3, 5, 7], dtype='int64')

In [101]:
indA.union(indB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [102]:
indA.symmetric_difference(indB)

Index([1, 2, 9, 11], dtype='int64')

## Indexando y seleccionando datos

In [103]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [104]:
data['b']

np.float64(0.5)

In [105]:
'a' in data

True

In [106]:
list(data.keys())

['a', 'b', 'c', 'd']

In [107]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [108]:
data['e'] = 1.25

In [109]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [110]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [111]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [112]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [113]:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [114]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [115]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [116]:
data[1]

'a'

In [117]:
data[1:3]

3    b
5    c
dtype: object

In [118]:
data

1    a
3    b
5    c
dtype: object

In [119]:
data.loc[1]

'a'

In [120]:
data.loc[1:3]

1    a
3    b
dtype: object

In [121]:
data.iloc[1]

'b'

In [122]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [123]:
territorios

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


In [124]:
territorios['población']

Chiapas             5544000
Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sonora              2945000
Name: población, dtype: int64

In [125]:
territorios['superficie']

Chiapas              73311
Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sonora              179355
Name: superficie, dtype: int64

In [126]:
territorios.superficie is territorios['superficie']

True

In [127]:
territorios.población is territorios['población']

True

In [128]:
territorios['densidad'] = territorios['población'] / territorios['superficie']

In [129]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [130]:
territorios.values

array([[5.54400000e+06, 7.33110000e+04, 7.56230307e+01],
       [3.74200000e+06, 2.47455000e+05, 1.51219414e+01],
       [3.26583200e+06, 7.28000000e+02, 4.48603297e+03],
       [2.28636000e+06, 6.24300000e+03, 3.66227775e+02],
       [2.94500000e+06, 1.79355000e+05, 1.64199493e+01]])

In [131]:
territorios.T

Unnamed: 0,Chiapas,Chihuahua,La Habana,Santiago de Cuba,Sonora
población,5544000.0,3742000.0,3265832.0,2286360.0,2945000.0
superficie,73311.0,247455.0,728.0,6243.0,179355.0
densidad,75.62303,15.12194,4486.033,366.2278,16.41995


In [132]:
territorios.values[0]

array([5.54400000e+06, 7.33110000e+04, 7.56230307e+01])

In [133]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [134]:
territorios.iloc[:3,:2]

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728


In [135]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [136]:
territorios.loc[:'Santiago de Cuba', :'superficie']

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243


In [137]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [138]:
territorios.loc[territorios.densidad > 100, ['población', 'densidad']]

Unnamed: 0,población,densidad
La Habana,3265832,4486.032967
Santiago de Cuba,2286360,366.227775


In [139]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [140]:
territorios.iloc[0, 2]

np.float64(75.62303065024348)

In [141]:
territorios.iloc[0, 2] = 76

In [142]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,76.0
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [143]:
territorios[territorios.densidad > 80]

Unnamed: 0,población,superficie,densidad
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


In [144]:
territorios.densidad > 100

Chiapas             False
Chihuahua           False
La Habana            True
Santiago de Cuba     True
Sonora              False
Name: densidad, dtype: bool

In [145]:
territorios[territorios['superficie'] < 100000]

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,76.0
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


## Operando sobre datos

In [146]:
ran = np.random.RandomState(42)
ser = pd.Series(ran.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [147]:
df = pd.DataFrame(ran.randint(0, 10, (3,4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [148]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [149]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [150]:
superficie = pd.Series({
    'Alaska': 1723337, 
    'Texas': 695662,
    'California': 423967
}, name='superficie')

población = pd.Series({
    'California': 38332521, 
    'Texas': 26448193,
    'New York': 19651127
}, name='población')

In [151]:
población / superficie

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [152]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [153]:
A.index.union(B.index)

Index([0, 1, 2, 3], dtype='int64')

In [154]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [155]:
A = pd.DataFrame(ran.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [156]:
B = pd.DataFrame(ran.randint(0, 10, (3,3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [157]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [158]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [159]:
A.stack().index

MultiIndex([(0, 'A'),
            (0, 'B'),
            (1, 'A'),
            (1, 'B')],
           )

In [160]:
A.stack().mean()

np.float64(4.5)

In [161]:
fill = A.stack().mean()

In [162]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


In [163]:
A = ran.randint(10, size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]], dtype=int32)

In [164]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [165]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [166]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [167]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [168]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [169]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [170]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [171]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## Manejo de datos faltantes

In [172]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [173]:
vals1.dtype

dtype('O')

In [174]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [175]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

array([ 1., nan,  3.,  4.])

In [176]:
vals2.dtype

dtype('float64')

In [177]:
vals2.sum()

np.float64(nan)

In [178]:
1 + np.nan

nan

In [179]:
0 * np.nan

nan

In [180]:
vals2.min()

np.float64(nan)

In [181]:
vals2.max()

np.float64(nan)

In [182]:
np.nansum(vals2)

np.float64(8.0)

In [183]:
np.nanmin(vals2)

np.float64(1.0)

In [184]:
np.nanmax(vals2)

np.float64(4.0)

---

Problema 4: Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

isnull es una funcion que detecta valores perdidos para un bojeto que tenga forma de arreglo, buscando asi por ejemplo 'NaN' para arreglos de objetos o numericos, y 'NaT' en objetos tipo datetime. 

In [185]:
array = np.array([[1, np.nan, 3], [4, 5, np.nan]])
array

array([[ 1., nan,  3.],
       [ 4.,  5., nan]])

In [186]:
pd.isnull(array)

array([[False,  True, False],
       [False, False,  True]])

In [187]:
index = pd.DatetimeIndex(["2017-07-05", "2017-07-06", None,"2017-07-08"])
index

DatetimeIndex(['2017-07-05', '2017-07-06', 'NaT', '2017-07-08'], dtype='datetime64[ns]', freq=None)

In [188]:
pd.isnull(index)

array([False, False,  True, False])

notnull detecta los valores no perdidos de un objeto con forma de arreglo, lo contrario a isnull

In [189]:
pd.notnull(array)

array([[ True, False,  True],
       [ True,  True, False]])

In [190]:
pd.notnull(index)

array([ True,  True, False,  True])

dropna sirve para eliminar ya sea filas (axis=0) o columnas (axis=1) en las que se encuentre valores vacios o nan de un dataframe, pudiendo especificar parametros como la cantidad de elementos vacios necesarios para eleminar la fila/columna que se especifiquen. Y tambien la especificacion de si se desea crear un dataframe nuevo o simplemente modificar el original(inplace).

In [191]:
df = pd.DataFrame({"nombre": ['Chico percebe', 'Sirenoman', 'Scooby-Doo'],
                    "juguete": [np.nan, 'Sirenomovil', 'La maquina del misterio'],
                    "fecha": [pd.NaT, pd.Timestamp("2002-04-25"),
                             pd.NaT]})
df

Unnamed: 0,nombre,juguete,fecha
0,Chico percebe,,NaT
1,Sirenoman,Sirenomovil,2002-04-25
2,Scooby-Doo,La maquina del misterio,NaT


In [192]:
df.dropna()

Unnamed: 0,nombre,juguete,fecha
1,Sirenoman,Sirenomovil,2002-04-25


In [193]:
df.dropna(how='all')

Unnamed: 0,nombre,juguete,fecha
0,Chico percebe,,NaT
1,Sirenoman,Sirenomovil,2002-04-25
2,Scooby-Doo,La maquina del misterio,NaT


In [194]:
df.dropna(thresh=2) # al menos 2 elementos vacios

Unnamed: 0,nombre,juguete,fecha
1,Sirenoman,Sirenomovil,2002-04-25
2,Scooby-Doo,La maquina del misterio,NaT


In [195]:
df.dropna(subset=['nombre', 'juguete'])

Unnamed: 0,nombre,juguete,fecha
1,Sirenoman,Sirenomovil,2002-04-25
2,Scooby-Doo,La maquina del misterio,NaT


fillna es utilizado para llenar los valores vacios que se encuentren en un dataframe, pudiendo especificar por cual valor/valores reemplazar aquellos vacios, asi como el metodo para hacerlo, asi como poder elegir entre fila/columna, limite de valores vacios a reemplazar dependendo del metodo(o su ausencia) 

In [196]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                    [3, 4, np.nan, 1],
                    [np.nan, np.nan, np.nan, np.nan],
                    [np.nan, 3, np.nan, 4]],
                    columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [197]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


In [198]:
values = {"A": 0, "B": 1, "C": 2, "D": 3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


In [199]:
df.fillna(value=values, limit=1)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,,3.0,,4.0


In [200]:
df2 = pd.DataFrame(np.zeros((4, 4)), columns=list("ABCE"))
df.fillna(df2)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,0.0,3.0,0.0,4.0


pandas utiliza diferentes tipos de 'pd.NA' o valores perdidos dependiendo del tipo de dato:

    numpy.nan -> numpy data types(en donde el tipo de dato se convierte obligatoriamente a np.float64 u objeto)

In [201]:
pd.Series([1, 2], dtype=np.int64).reindex([0, 1, 2])

0    1.0
1    2.0
2    NaN
dtype: float64

In [202]:
pd.Series([True, False], dtype=np.bool_).reindex([0, 1, 2])

0     True
1    False
2      NaN
dtype: object

    NaT       -> np.datetime64,np.timedelta64,Perioddtype


In [203]:
pd.Series([1, 2], dtype=np.dtype("timedelta64[ns]")).reindex([0, 1, 2])

0   0 days 00:00:00.000000001
1   0 days 00:00:00.000000002
2                         NaT
dtype: timedelta64[ns]

In [204]:
pd.Series([1, 2], dtype=np.dtype("datetime64[ns]")).reindex([0, 1, 2])

0   1970-01-01 00:00:00.000000001
1   1970-01-01 00:00:00.000000002
2                             NaT
dtype: datetime64[ns]

In [205]:
pd.Series(["2020", "2020"], dtype=pd.PeriodDtype("D")).reindex([0, 1, 2])

0    2020-01-01
1    2020-01-01
2           NaT
dtype: period[D]

    NA        -> StringDtype,Int64Dtype(bit widths),Float64Dtype(bin widths),ArrowDtype 
    (estos datos si mantienen el tipo de dato original)

In [206]:
pd.Series([1, 2], dtype="Int64").reindex([0, 1, 2])

0       1
1       2
2    <NA>
dtype: Int64

In [207]:
pd.Series([True, False], dtype="boolean[pyarrow]").reindex([0, 1, 2])

0     True
1    False
2     <NA>
dtype: bool[pyarrow]

---

---

Problema 5: Pandas incluye funciones para la lectura de archivos CSV o Excel. 
Si participaste en el datatón carga los conjuntos de datos de tu trabajo en DataFrames 
de Pandas. Si no participaste en el datatón consulta los sitios de datos abiertos de 
algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro 
en Excel y carga los datos en un DataFrame de Pandas. En ambos casos los DataFrames 
resultantes debe tener asociada a cada columna el tipo de dato adecuado para trabajar con los datos.

    csv

datos del censo de mexico para la primera entidad

In [208]:
import requests
import zipfile
import io

In [209]:
ent=1 #
df_pais = pd.DataFrame()
url='https://www.inegi.org.mx/contenidos/programas/ccpv/iter/zip/resageburb20/resageburb_01csv20.zip'
response = requests.get(url)
with zipfile.ZipFile(io.BytesIO(response.content)) as z:
    for file_name in z.namelist():
        if file_name.endswith('.csv'):
            with z.open(file_name) as csv_file:
                df_ac = pd.read_csv(csv_file,encoding='latin-1',dtype={6:str}) 
                df_ac.columns = ['ENTIDAD' if col == 'ï»¿ENTIDAD' else col for col in df_ac.columns]

In [210]:
df_ac

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,AGEB,MZA,POBTOT,POBFEM,...,VPH_TELEF,VPH_CEL,VPH_INTER,VPH_STVP,VPH_SPMVPI,VPH_CVJ,VPH_SINRTV,VPH_SINLTC,VPH_SINCINT,VPH_SINTIC
0,1,Aguascalientes,0,Total de la entidad Aguascalientes,0,Total de la entidad,0000,0,1425607,728924,...,147818,359895,236003,174089,98724,70126,6021,15323,128996,1711
1,1,Aguascalientes,1,Aguascalientes,0,Total del municipio,0000,0,948990,486917,...,116647,251719,178619,130290,80951,56131,3299,7293,74227,731
2,1,Aguascalientes,1,Aguascalientes,1,Total de la localidad urbana,0000,0,863893,444725,...,112002,232793,169675,123670,77719,53589,2995,5984,63661,595
3,1,Aguascalientes,1,Aguascalientes,1,Total AGEB urbana,0017,0,2237,1137,...,11,625,189,352,46,74,15,23,391,*
4,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,0017,1,170,87,...,*,53,13,33,5,5,0,*,36,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16371,1,Aguascalientes,11,San Francisco de los Romo,138,La Ribera [Fraccionamiento],023A,40,152,82,...,0,37,5,3,0,*,0,10,40,0
16372,1,Aguascalientes,11,San Francisco de los Romo,138,La Ribera [Fraccionamiento],023A,41,148,70,...,*,33,6,4,0,0,*,5,31,*
16373,1,Aguascalientes,11,San Francisco de los Romo,138,La Ribera [Fraccionamiento],023A,42,162,89,...,5,44,16,19,*,4,*,*,28,0
16374,1,Aguascalientes,11,San Francisco de los Romo,138,La Ribera [Fraccionamiento],023A,43,195,98,...,0,50,21,23,*,6,3,5,32,*


    excel

calidad del agua superciial del gobierno de México

In [211]:
import pandas as pd

In [212]:
df_agua=pd.read_excel('https://www.gob.mx/cms/uploads/attachment/file/936143/Calidad_del_Agua_Superficial_a.xlsx')

In [213]:
df_agua

Unnamed: 0,CLAVE,SITIO,ORGANISMO_DE_CUENCA,ESTADO,MUNICIPIO,CUENCA,CUERPO DE AGUA,TIPO,SUBTIPO,LONGITUD,...,TOX_D_48_SUP_UT,CALIDAD TOX_D_48_SUP,TOX_D_48_FON_UT,CALIDAD_TOX_D_48_FON,TOX_FIS_SUP_15_UT,CALIDAD_TOX_FIS_SUP_15,TOX_FIS_FON_15_UT,CALIDAD_TOX_FIS_FON_15,SEMAFORO,CONTAMINANTES
0,DLAGU11,PRESA JOCOQUI 100M AGUAS ARRIBA DE LA CORTINA,LERMA SANTIAGO PACIFICO,AGUASCALIENTES,SAN JOSÉ DE GRACIA,RÍO SAN PEDRO,PRESA EL JOCOQUI,LÉNTICO,PRESA,-102.357940,...,,,,,,,,,Rojo,"DQO,"
1,DLAGU14,PRESA PRESIDENTE CALLES EMBARCADERO,LERMA SANTIAGO PACIFICO,AGUASCALIENTES,SAN JOSÉ DE GRACIA,PRESA CALLES,PRESA PRESIDENTE CALLES,LÉNTICO (HUMEDAL),PRESA,-102.426300,...,,,,,,,,,Rojo,"DQO,"
2,DLAGU18,PRESA 50 ANIVERSARIO CORTINA,LERMA SANTIAGO PACIFICO,AGUASCALIENTES,SAN JOSÉ DE GRACIA,PRESA CALLES,PRESA 50 ANIVERSARIO,LÉNTICO,PRESA,-102.465300,...,,,,,,,,,Rojo,"DQO,"
3,DLAGU31,PRESA EL NIAGARA CANAL DE RIEGO,LERMA SANTIAGO PACIFICO,AGUASCALIENTES,AGUASCALIENTES,PRESA AJOJUCAR,PRESA EL NIAGARA,LÓTICO,CANAL,-102.373810,...,,,,,,,,,Rojo,"DQO,"
4,DLAGU32,PRESA EL NIAGARA 100M AGUAS ARRIBA DE LA CORTINA,LERMA SANTIAGO PACIFICO,AGUASCALIENTES,AGUASCALIENTES,PRESA EL NIÁGARA,PRESA EL NIAGARA,LÉNTICO (HUMEDAL),PRESA,-102.370800,...,,,,,,,,,Rojo,"DQO,"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
445,OCRBR5018M1,ESCOBEDO,RIO BRAVO,NUEVO LEON,GENERAL ESCOBEDO,RÍO PESQUERÍA,RIO PESQUERIA,LÓTICO,RÍO,-100.277260,...,,,,,,,,,Rojo,"DQO,SST,"
446,OCRBR5021M1,TOPO CHICO,RIO BRAVO,NUEVO LEON,SAN NICOLÁS DE LOS GARZA,RÍO PESQUERÍA,ARROYO TOPO CHICO,LÓTICO,ARROYO,-100.255980,...,,,,,,,,,Rojo,"DQO,SST,"
447,OCRBR5044M1,LA ARENA,RIO BRAVO,NUEVO LEON,PESQUERÍA,RÍO PESQUERÍA,RIO PESQUERIA,LÓTICO,RÍO,-100.008650,...,,,,,,,,,Verde,
448,SITIO NUEVO 1,RÍO ESLAVA 2,AGUAS DEL VALLE DE MEXICO,CIUDAD DE MEXICO,LA MAGDALENA CONTRERAS,CIUDAD DE MÉXICO,RÍO ESLAVA,LÓTICO,RÍO,-99.237068,...,,,,,,,,,Amarillo,"CF,E_COLI,"


---