# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas` si usamos pip o `poetry add pandas` si usamos poetry.

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.__version__

'2.2.3'

## Series

El tipo `Series` representa arreglos unidimensionales de datos indexados. Puede ser creado a partir de una secuencia:

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Observemos que un objeto `Series` contempla tanto la secuencia de valores como la secuencia de índices. Los valores se almacenan internamente como un arreglo de NumPy:

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Los índices se almacenan internamente como un objeto parecido a arreglo de tipo `pd.Index`:

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos usar operaciones similares a los arreglos de NumPy, pero para objetos `Series`.

In [6]:
data[1]

np.float64(0.5)

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [8]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Al calcular un subarreglo, los índices siguen correspondiendo a los valores del arreglo original.

Podemos pensar en los objetos `Series` como arreglos de NumPy generalizados. La inclusión de los índices de forma explícita en la estructura de los objetos nos permite, por ejemplo, usar otros tipos de valores no numéricos.

---

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
data['b']

np.float64(0.5)

In [11]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

---

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [13]:
data[5]

np.float64(0.5)

In [14]:
data.index

Index([2, 5, 3, 7], dtype='int64')

---

Podemos utilizar `Series` como una forma de diccionario:

In [15]:
población = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Chiapas': 5544000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
})
población

Sonora              2945000
Chihuahua           3742000
Chiapas             5544000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

En este ejemplo constuimos un objeto `Series` a partir de un diccionario, el índice se obtiene se las llaves del diccionario y los valores... de los valores.

In [16]:
población['Sonora']

np.int64(2945000)

In [17]:
población['Chihuahua':'La Habana']

Chihuahua    3742000
Chiapas      5544000
La Habana    3265832
dtype: int64

In [18]:
población['La Habana':'Chihuahua']

Series([], dtype: int64)

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [19]:
población_index = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Chiapas': 5544000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
}, index=[1,2,3,5,'Chihuahua'])
población_index

1                  NaN
2                  NaN
3                  NaN
5                  NaN
Chihuahua    3742000.0
dtype: float64

Cuando creamos un DataFrame o una Serie a partir de un diccionario, las claves del diccionario se toman como los índices de manera predeterminada. Si agregamos el parámetro `index`, los índices serán los que se especifican en dicho parámetro.

Sin embargo, los valores serán `NaN` en los índices que no coincidan con las claves del diccionario, mientras que los valores correspondientes a las claves coincidentes se mantendrán.

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [20]:
serie = pd.Series(10, index=['a', 'b', 'c'])
serie


a    10
b    10
c    10
dtype: int64

Como podemos observar, cuando se crea una `Series` a partir de un valor numérico y se proporciona un `index`, todos los índices especificados tomarán el mismo valor numérico.

## DataFrame

Recordemos la serie de población:

In [21]:
población

Sonora              2945000
Chihuahua           3742000
Chiapas             5544000
La Habana           3265832
Santiago de Cuba    2286360
dtype: int64

Definamos ahora una serie similar, pero con la supericie de los territorios medida en kilómetros cuadrados:

In [22]:
superficie = pd.Series({
    'La Habana': 728,
    'Chiapas': 73311,
    'Santiago de Cuba': 6243,
    'Sonora': 179355,
    'Chihuahua': 247455,
})
superficie

La Habana              728
Chiapas              73311
Santiago de Cuba      6243
Sonora              179355
Chihuahua           247455
dtype: int64

Ahora vamos a crear una tabla (`DataFrame`) que contenga estas dos valiosas piezas de información:

In [23]:
territorios = pd.DataFrame({
    'población': población,
    'superficie': superficie,
})
territorios

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


Los DataFrames, al igual que las Series, tienen un atributo `index` con el índice de la tabla:

In [24]:
pruebita = pd.Series([5, 10, 2, 4, 6])

In [25]:
pruebita

0     5
1    10
2     2
3     4
4     6
dtype: int64

In [26]:
pruebita.sort_values()

2     2
3     4
0     5
4     6
1    10
dtype: int64

In [27]:
territorios.index

Index(['Chiapas', 'Chihuahua', 'La Habana', 'Santiago de Cuba', 'Sonora'], dtype='object')

Cuando escuchamos o leemos “índice de una tabla”, podemos pensar en sus renglones. En este caso, cada renglón representa un territorio.

También tenemos el atributo `columns` (columnas). En este caso, cada columna corresponde a cada medición asociada a los territorios.

In [28]:
territorios.columns

Index(['población', 'superficie'], dtype='object')

El tipo de objeto para las columnas también es `pd.Index`. Podemos pensar las tablas como arreglos bidimensionales de NumPy.

Observemos también que al construir la tabla, las serie `población` y la serie `superficie` tenían los mismos índices pero en orden distinto. Pandas se encarga de crear la tabla `territorios` emparejando correctamente las mediciones de acuerdo al *valor* de su índice, no la *posición* de este.

---

In [29]:
territorios['superficie']

Chiapas              73311
Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sonora              179355
Name: superficie, dtype: int64

In [30]:
territorios['población']

Chiapas             5544000
Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sonora              2945000
Name: población, dtype: int64

In [31]:
territorios.loc['La Habana']

población     3265832
superficie        728
Name: La Habana, dtype: int64

In [32]:
territorios.iloc[2]

población     3265832
superficie        728
Name: La Habana, dtype: int64

---

Distinta formas de crear DataFrames:

In [33]:
# A partir de una Serie
pd.DataFrame(población, columns=['población'])

Unnamed: 0,población
Sonora,2945000
Chihuahua,3742000
Chiapas,5544000
La Habana,3265832
Santiago de Cuba,2286360


In [34]:
# A partir de una lista de diccionarios
pd.DataFrame([{'a': i, 'b': 2 * i} for i in range(3)])

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [35]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4},
])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [36]:
# A partir de un diccionario con Series como valores
pd.DataFrame({
    'población': población,
    'superficie': superficie,
})

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


In [37]:
# A partir de una arreglo bidimensional de NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

En NumPy, podemos definir un nuevo tipo de dato para un arreglo en el que cada elemento tenga múltiples campos, y cada uno de estos campos puede tener un tipo de dato diferente. Esto se logra mediante el parámetro `dtype`. Por ejemplo, si deseamos crear un arreglo que almacene el Nombre, la Edad, y el Peso, podemos definir el `dtype` de la siguiente manera:

```python
dtype = [('Nombre', 'U10'), ('Edad', 'i4'), ('Peso', 'f4')]

Aquí:
1. El campo Nombre es una cadena de texto de hasta 10 caracteres ('U10').
2. El campo Edad es un entero de 4 bytes ('i4').
3. El campo Peso es un número de punto flotante de 4 bytes ('f4').

## Index

Tanto los objetos DataFrame como Series contienen índices que nos permiten hacer referencia a la información que contienen.

La estructura de los índices podemos pensarla como un arreglo inmutable (no podemos modificar sus valores) o como un conjunto ordenado (o multiconjunto ya que un índice puede tener valores repetidos).

In [39]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [40]:
ind[1]

np.int64(3)

In [41]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [42]:
ind.size

5

In [43]:
ind.shape

(5,)

In [44]:
ind.ndim

1

In [45]:
ind.dtype

dtype('int64')

In [46]:
ind[1] = 0

TypeError: Index does not support mutable operations

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA.intersection(indB)

In [47]:
indA.union(indB)

NameError: name 'indA' is not defined

In [48]:
indA.symmetric_difference(indB)

NameError: name 'indA' is not defined

## Indexando y seleccionando datos

In [49]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [50]:
data['b']

np.float64(0.5)

In [51]:
'a' in data

True

In [52]:
list(data.keys())

['a', 'b', 'c', 'd']

In [53]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [54]:
data['e'] = 1.25

In [55]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [56]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [57]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [58]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [59]:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [60]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [61]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [62]:
data[1]

'a'

In [63]:
data[1:3]

3    b
5    c
dtype: object

In [64]:
data

1    a
3    b
5    c
dtype: object

In [65]:
data.loc[1]

'a'

In [66]:
data.loc[1:3]

1    a
3    b
dtype: object

In [67]:
data.iloc[1]

'b'

In [68]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [69]:
territorios

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243
Sonora,2945000,179355


In [70]:
territorios['población']

Chiapas             5544000
Chihuahua           3742000
La Habana           3265832
Santiago de Cuba    2286360
Sonora              2945000
Name: población, dtype: int64

In [71]:
territorios['superficie']

Chiapas              73311
Chihuahua           247455
La Habana              728
Santiago de Cuba      6243
Sonora              179355
Name: superficie, dtype: int64

In [72]:
territorios.superficie is territorios['superficie']

True

In [73]:
territorios.población is territorios['población']

True

In [74]:
territorios['densidad'] = territorios['población'] / territorios['superficie']

In [75]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [76]:
territorios.values

array([[5.54400000e+06, 7.33110000e+04, 7.56230307e+01],
       [3.74200000e+06, 2.47455000e+05, 1.51219414e+01],
       [3.26583200e+06, 7.28000000e+02, 4.48603297e+03],
       [2.28636000e+06, 6.24300000e+03, 3.66227775e+02],
       [2.94500000e+06, 1.79355000e+05, 1.64199493e+01]])

In [77]:
territorios.T

Unnamed: 0,Chiapas,Chihuahua,La Habana,Santiago de Cuba,Sonora
población,5544000.0,3742000.0,3265832.0,2286360.0,2945000.0
superficie,73311.0,247455.0,728.0,6243.0,179355.0
densidad,75.62303,15.12194,4486.033,366.2278,16.41995


In [78]:
territorios.values[0]

array([5.54400000e+06, 7.33110000e+04, 7.56230307e+01])

In [79]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [80]:
territorios.iloc[:3,:2]

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728


In [81]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [82]:
territorios.loc[:'Santiago de Cuba', :'superficie']

Unnamed: 0,población,superficie
Chiapas,5544000,73311
Chihuahua,3742000,247455
La Habana,3265832,728
Santiago de Cuba,2286360,6243


In [83]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [84]:
territorios.loc[territorios.densidad > 100, ['población', 'densidad']]

Unnamed: 0,población,densidad
La Habana,3265832,4486.032967
Santiago de Cuba,2286360,366.227775


In [85]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,75.623031
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [86]:
territorios.iloc[0, 2]

np.float64(75.62303065024348)

In [87]:
territorios.iloc[0, 2] = 76

In [88]:
territorios

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,76.0
Chihuahua,3742000,247455,15.121941
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775
Sonora,2945000,179355,16.419949


In [89]:
territorios[territorios.densidad > 80]

Unnamed: 0,población,superficie,densidad
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


In [90]:
territorios.densidad > 100

Chiapas             False
Chihuahua           False
La Habana            True
Santiago de Cuba     True
Sonora              False
Name: densidad, dtype: bool

In [91]:
territorios[territorios['superficie'] < 100000]

Unnamed: 0,población,superficie,densidad
Chiapas,5544000,73311,76.0
La Habana,3265832,728,4486.032967
Santiago de Cuba,2286360,6243,366.227775


## Operando sobre datos

In [92]:
ran = np.random.RandomState(42)
ser = pd.Series(ran.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [93]:
df = pd.DataFrame(ran.randint(0, 10, (3,4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [94]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [95]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [96]:
superficie = pd.Series({
    'Alaska': 1723337, 
    'Texas': 695662,
    'California': 423967
}, name='superficie')

población = pd.Series({
    'California': 38332521, 
    'Texas': 26448193,
    'New York': 19651127
}, name='población')

In [97]:
población / superficie

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [98]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [99]:
A.index.union(B.index)

Index([0, 1, 2, 3], dtype='int64')

In [100]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [101]:
A = pd.DataFrame(ran.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [102]:
B = pd.DataFrame(ran.randint(0, 10, (3,3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [103]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [104]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [105]:
A.stack().index

MultiIndex([(0, 'A'),
            (0, 'B'),
            (1, 'A'),
            (1, 'B')],
           )

In [106]:
A.stack().mean()

np.float64(4.5)

In [107]:
fill = A.stack().mean()

In [108]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


In [109]:
A = ran.randint(10, size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [110]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [111]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [112]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [113]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [114]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [115]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [116]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int64

In [117]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## Manejo de datos faltantes

In [118]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [119]:
vals1.dtype

dtype('O')

In [120]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [121]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

array([ 1., nan,  3.,  4.])

In [122]:
vals2.dtype

dtype('float64')

In [123]:
vals2.sum()

np.float64(nan)

In [124]:
1 + np.nan

nan

In [125]:
0 * np.nan

nan

In [126]:
vals2.min()

np.float64(nan)

In [127]:
vals2.max()

np.float64(nan)

In [128]:
np.nansum(vals2)

np.float64(8.0)

In [129]:
np.nanmin(vals2)

np.float64(1.0)

In [130]:
np.nanmax(vals2)

np.float64(4.0)

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

El método `isnull` de Pandas se aplica a un `DataFrame` o una `Series` y devuelve un nuevo objeto del mismo tipo (ya sea un `DataFrame` o una `Series`) con valores booleanos. En este nuevo objeto, el valor será `True` si el elemento correspondiente es `None` o `NaN`, y `False` si el valor no es nulo. Existe un metodo similar llamado `isna` que hace exactamento lo mismo.

El método `notnull` es similar a `isnull`, pero en este caso, para los valores que son `None` o `NaN`, devuelve `False`, y para los valores no nulos devuelve `True`.

El método `dropna` permite eliminar filas o columnas que contengan al menos un valor nulo (como `None` o `NaN`). Podemos ajustar los parámetros del método para especificar que se eliminen solo aquellas filas o columnas que tengan al menos un número específico de valores nulos.

El método `fillna` se utiliza para reemplazar los valores nulos (como `None` o `NaN`) con un valor específico. Este método ofrece diferentes opciones de llenado, pero también te permite indicar el valor que deseas utilizar para reemplazar los datos faltantes.

---

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Si participaste en el datatón carga los conjuntos de datos de tu trabajo en DataFrames de Pandas. Si no participaste en el datatón consulta los sitios de datos abiertos de algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. En ambos casos los DataFrames resultantes debe tener asociada a cada columna el tipo de dato adecuado para trabajar con los datos.

In [132]:
import requests

In [135]:
url = 'https://datos.sonora.gob.mx/dataset/c6140d53-1f16-4dd8-8ab3-d2b47f03a921/resource/63940761-d099-4a39-bb92-e81e4a6d31e1/download/divorcios_2022.csv'

r = requests.get(url)

with open('divorcios.csv', 'wb') as f:
    f.write(r.content)

In [169]:
df = pd.read_csv('divorcios.csv', dtype={'municipio':'category', 'sexo_div1':'category', 'sexo_div2':'category'})
df['fecha_matrimonio'] = pd.to_datetime(df['fecha_matrimonio'], format='%d/%m/%Y', errors='coerce')
df = df.dropna()
df[['edad_div1','edad_div2']] = df[['edad_div1','edad_div2']].astype('int')
df = df.reset_index(drop=True)

In [170]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5946 entries, 0 to 5945
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   municipio         5946 non-null   category      
 1   fecha_matrimonio  5946 non-null   datetime64[ns]
 2   año_registro      5946 non-null   int64         
 3   mes_registro      5946 non-null   int64         
 4   edad_div1         5946 non-null   int64         
 5   edad_div2         5946 non-null   int64         
 6   sexo_div1         5946 non-null   category      
 7   sexo_div2         5946 non-null   category      
 8   dia_registro      5946 non-null   int64         
dtypes: category(3), datetime64[ns](1), int64(5)
memory usage: 298.9 KB


In [171]:
df.head()

Unnamed: 0,municipio,fecha_matrimonio,año_registro,mes_registro,edad_div1,edad_div2,sexo_div1,sexo_div2,dia_registro
0,72,1987-06-28,2022,1,55,51,M,F,11
1,42,2018-10-29,2022,1,27,33,M,F,3
2,18,2017-12-30,2022,1,65,63,M,F,3
3,30,2019-02-28,2022,1,35,32,M,F,3
4,40,1992-04-18,2022,1,52,48,M,F,3


In [172]:
url='https://datos.sonora.gob.mx/dataset/e68332eb-2bac-460a-a9cf-c9945230de81/resource/4af3e212-7253-4fc3-908d-1aec14dddb40/download/matriculas-ciclo-2021-2022.xlsx'

r = requests.get(url)

with open('matriculas.xlsx', 'wb') as f:
    f.write(r.content)

In [178]:
df2= pd.read_excel('matriculas.xlsx', dtype={'Programa academico':'category', 'Sexo':'category', \
                                            'Inscrito en Residencias':'category',\
                                            'Seguro Escolar':'category', 'Discapacidad':'category'})

In [179]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2410 entries, 0 to 2409
Data columns (total 9 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   Programa academico       2410 non-null   category
 1   Semestre que cursa       2410 non-null   int64   
 2   Sexo                     2410 non-null   category
 3   Promedio Actual          2410 non-null   float64 
 4   Promedio General         2410 non-null   float64 
 5   Créditos Acumulados      2410 non-null   int64   
 6   Inscrito en Residencias  2410 non-null   category
 7   Seguro Escolar           2410 non-null   category
 8   Discapacidad             2410 non-null   category
dtypes: category(5), float64(2), int64(2)
memory usage: 87.7 KB


In [180]:
df2.head()

Unnamed: 0,Programa academico,Semestre que cursa,Sexo,Promedio Actual,Promedio General,Créditos Acumulados,Inscrito en Residencias,Seguro Escolar,Discapacidad
0,Arquitectura,9,M,7.9,7.8,240,N,N,N
1,Arquitectura,6,M,7.8,7.8,171,N,S,N
2,Arquitectura,4,F,9.4,9.4,114,N,S,N
3,Arquitectura,3,F,9.2,9.1,55,N,S,N
4,Arquitectura,5,F,9.8,9.7,118,N,S,N
