# Ayudantía 01 - Pandas

En esta primera ayudantía aprenderemos técnicas para limpiar, modificar y presentar datasets de mejor manera con pandas.

## Datos comunales: limpieza del _dataset_ de presupuesto

El _dataset_ de presupuesto tiene valores "no recepcionados". Veamos estas filas:

In [1]:
import pandas as pd

df_presupuesto = pd.read_csv("presupuesto_2019.csv", delimiter=';')
df_presupuesto

Unnamed: 0,CODIGO,MUNICIPIO,PRESUPUESTO
0,1101,IQUIQUE,59072234
1,1107,ALTO HOSPICIO,13984411
2,1401,POZO ALMONTE,7613962
3,1402,CAMIÑA,1584008
4,1403,COLCHANE,2500000
...,...,...,...
340,16301,SAN CARLOS,10459691
341,16302,COIHUECO,5001190
342,16303,ÑIQUÉN,3386698
343,16304,SAN FABIÁN,1798500


In [2]:
df_presupuesto[df_presupuesto['PRESUPUESTO'] == 'No Recepcionado']

Unnamed: 0,CODIGO,MUNICIPIO,PRESUPUESTO
63,5602,ALGARROBO,No Recepcionado
87,6110,MOSTAZAL,No Recepcionado


¿Cómo sabemos que esta columna tiene un problema? El primer indicio en general es que al pedir el tipo de la columna, obtenemos `object` en vez de un tipo numérico.

In [3]:
df_presupuesto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   CODIGO       345 non-null    int64 
 1   MUNICIPIO    345 non-null    object
 2   PRESUPUESTO  345 non-null    object
dtypes: int64(1), object(2)
memory usage: 8.2+ KB


Para limpiar esto usamos la función replace.

In [4]:
# Reemplazamos todos los "No Recepcionado" por un 0
df_presupuesto = df_presupuesto.replace('No Recepcionado', 0)

Sin embargo, veremos que Pandas sigue tratando la columna como `object`. Esto nos impide hacer operaciones numéricas.

In [5]:
df_presupuesto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   CODIGO       345 non-null    int64 
 1   MUNICIPIO    345 non-null    object
 2   PRESUPUESTO  345 non-null    object
dtypes: int64(1), object(2)
memory usage: 8.2+ KB


Así que le señalamos a Pandas que queremos que trate a la columna como valores de tipo entero.

In [6]:
# Estamos sobreescribiendo la columna, diciendo que trate el tipo como entero
df_presupuesto['PRESUPUESTO'] = df_presupuesto['PRESUPUESTO'].astype(int)
df_presupuesto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   CODIGO       345 non-null    int64 
 1   MUNICIPIO    345 non-null    object
 2   PRESUPUESTO  345 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 8.2+ KB


## Datos comunales: orden y límite de resultados

Podemos ordenar las comunas según su presupuesto, de menor a mayor.

In [7]:
df_presupuesto.sort_values(['PRESUPUESTO'])

Unnamed: 0,CODIGO,MUNICIPIO,PRESUPUESTO
63,5602,ALGARROBO,0
87,6110,MOSTAZAL,0
253,12303,TIMAUKEL,1323606
323,15202,GENERAL LAGOS,1438262
243,11303,TORTEL,1462180
...,...,...,...
7,2101,ANTOFAGASTA,100635302
274,13119,MAIPÚ,119318265
278,13123,PROVIDENCIA,125041538
256,13101,SANTIAGO,163383547


In [8]:
# Orden inverso
df_presupuesto.sort_values(['PRESUPUESTO'], ascending=False)


Unnamed: 0,CODIGO,MUNICIPIO,PRESUPUESTO
269,13114,LAS CONDES,339980450
256,13101,SANTIAGO,163383547
278,13123,PROVIDENCIA,125041538
274,13119,MAIPÚ,119318265
7,2101,ANTOFAGASTA,100635302
...,...,...,...
243,11303,TORTEL,1462180
323,15202,GENERAL LAGOS,1438262
253,12303,TIMAUKEL,1323606
87,6110,MOSTAZAL,0


Ahora si queremos un número determinado de resultados.

In [9]:
df_presupuesto.sort_values(['PRESUPUESTO'], ascending=False).head(10)

Unnamed: 0,CODIGO,MUNICIPIO,PRESUPUESTO
269,13114,LAS CONDES,339980450
256,13101,SANTIAGO,163383547
278,13123,PROVIDENCIA,125041538
274,13119,MAIPÚ,119318265
7,2101,ANTOFAGASTA,100635302
46,5109,VIÑA DEL MAR,100482380
287,13132,VITACURA,97000000
265,13110,LA FLORIDA,95609849
270,13115,LO BARNECHEA,92819385
279,13124,PUDAHUEL,87884438


## Datos comunales: merge de tres dataframes

En este ejemplo vamos a cargar el DataFrame de códigos y haremos un _merge_ con el DataFrame de población.

In [10]:
import pandas as pd

df_codigos = pd.read_csv("codigos.csv", delimiter=';')
df_codigos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Código Región       346 non-null    int64 
 1   Nombre Región       346 non-null    object
 2   Abreviatura Región  346 non-null    object
 3   Código Provincia    346 non-null    int64 
 4   Nombre Provincia    346 non-null    object
 5   Código Comuna 2018  346 non-null    int64 
 6   Nombre Comuna       346 non-null    object
dtypes: int64(3), object(4)
memory usage: 19.0+ KB


In [11]:
df_codigos

Unnamed: 0,Código Región,Nombre Región,Abreviatura Región,Código Provincia,Nombre Provincia,Código Comuna 2018,Nombre Comuna
0,1,Tarapacá,TPCA,11,Iquique,1101,Iquique
1,1,Tarapacá,TPCA,11,Iquique,1107,Alto Hospicio
2,1,Tarapacá,TPCA,14,Tamarugal,1401,Pozo Almonte
3,1,Tarapacá,TPCA,14,Tamarugal,1402,Camiña
4,1,Tarapacá,TPCA,14,Tamarugal,1403,Colchane
...,...,...,...,...,...,...,...
341,16,Ñuble,NUBLE,163,Punilla,16301,San Carlos
342,16,Ñuble,NUBLE,163,Punilla,16302,Coihueco
343,16,Ñuble,NUBLE,163,Punilla,16303,Ñiquén
344,16,Ñuble,NUBLE,163,Punilla,16304,San Fabián


In [12]:
df_poblacion = pd.read_csv("poblacion.csv", delimiter=';')
df_poblacion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   CODIGO     345 non-null    int64 
 1   MUNICIPIO  345 non-null    object
 2   POBLACIÓN  345 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 8.2+ KB


In [13]:
df_poblacion

Unnamed: 0,CODIGO,MUNICIPIO,POBLACIÓN
0,1101,IQUIQUE,216514
1,1107,ALTO HOSPICIO,124150
2,1401,POZO ALMONTE,16683
3,1402,CAMIÑA,1345
4,1403,COLCHANE,1556
...,...,...,...
340,16301,SAN CARLOS,55935
341,16302,COIHUECO,28147
342,16303,ÑIQUÉN,11556
343,16304,SAN FABIÁN,4607


In [14]:
df_extended = df_codigos.merge(df_poblacion, left_on='Código Comuna 2018', right_on='CODIGO')
df_extended.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 345 entries, 0 to 344
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Código Región       345 non-null    int64 
 1   Nombre Región       345 non-null    object
 2   Abreviatura Región  345 non-null    object
 3   Código Provincia    345 non-null    int64 
 4   Nombre Provincia    345 non-null    object
 5   Código Comuna 2018  345 non-null    int64 
 6   Nombre Comuna       345 non-null    object
 7   CODIGO              345 non-null    int64 
 8   MUNICIPIO           345 non-null    object
 9   POBLACIÓN           345 non-null    int64 
dtypes: int64(5), object(5)
memory usage: 29.6+ KB


In [15]:
df_extended

Unnamed: 0,Código Región,Nombre Región,Abreviatura Región,Código Provincia,Nombre Provincia,Código Comuna 2018,Nombre Comuna,CODIGO,MUNICIPIO,POBLACIÓN
0,1,Tarapacá,TPCA,11,Iquique,1101,Iquique,1101,IQUIQUE,216514
1,1,Tarapacá,TPCA,11,Iquique,1107,Alto Hospicio,1107,ALTO HOSPICIO,124150
2,1,Tarapacá,TPCA,14,Tamarugal,1401,Pozo Almonte,1401,POZO ALMONTE,16683
3,1,Tarapacá,TPCA,14,Tamarugal,1402,Camiña,1402,CAMIÑA,1345
4,1,Tarapacá,TPCA,14,Tamarugal,1403,Colchane,1403,COLCHANE,1556
...,...,...,...,...,...,...,...,...,...,...
340,16,Ñuble,NUBLE,163,Punilla,16301,San Carlos,16301,SAN CARLOS,55935
341,16,Ñuble,NUBLE,163,Punilla,16302,Coihueco,16302,COIHUECO,28147
342,16,Ñuble,NUBLE,163,Punilla,16303,Ñiquén,16303,ÑIQUÉN,11556
343,16,Ñuble,NUBLE,163,Punilla,16304,San Fabián,16304,SAN FABIÁN,4607


Ahora haremos _merge_ de `df_extended` con la versión limpia del DataFrame de presupuestos.

In [16]:
df_extended = df_extended.merge(df_presupuesto, left_on='CODIGO', right_on='CODIGO')
df_extended.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 345 entries, 0 to 344
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Código Región       345 non-null    int64 
 1   Nombre Región       345 non-null    object
 2   Abreviatura Región  345 non-null    object
 3   Código Provincia    345 non-null    int64 
 4   Nombre Provincia    345 non-null    object
 5   Código Comuna 2018  345 non-null    int64 
 6   Nombre Comuna       345 non-null    object
 7   CODIGO              345 non-null    int64 
 8   MUNICIPIO_x         345 non-null    object
 9   POBLACIÓN           345 non-null    int64 
 10  MUNICIPIO_y         345 non-null    object
 11  PRESUPUESTO         345 non-null    int64 
dtypes: int64(6), object(6)
memory usage: 35.0+ KB


In [17]:
df_extended

Unnamed: 0,Código Región,Nombre Región,Abreviatura Región,Código Provincia,Nombre Provincia,Código Comuna 2018,Nombre Comuna,CODIGO,MUNICIPIO_x,POBLACIÓN,MUNICIPIO_y,PRESUPUESTO
0,1,Tarapacá,TPCA,11,Iquique,1101,Iquique,1101,IQUIQUE,216514,IQUIQUE,59072234
1,1,Tarapacá,TPCA,11,Iquique,1107,Alto Hospicio,1107,ALTO HOSPICIO,124150,ALTO HOSPICIO,13984411
2,1,Tarapacá,TPCA,14,Tamarugal,1401,Pozo Almonte,1401,POZO ALMONTE,16683,POZO ALMONTE,7613962
3,1,Tarapacá,TPCA,14,Tamarugal,1402,Camiña,1402,CAMIÑA,1345,CAMIÑA,1584008
4,1,Tarapacá,TPCA,14,Tamarugal,1403,Colchane,1403,COLCHANE,1556,COLCHANE,2500000
...,...,...,...,...,...,...,...,...,...,...,...,...
340,16,Ñuble,NUBLE,163,Punilla,16301,San Carlos,16301,SAN CARLOS,55935,SAN CARLOS,10459691
341,16,Ñuble,NUBLE,163,Punilla,16302,Coihueco,16302,COIHUECO,28147,COIHUECO,5001190
342,16,Ñuble,NUBLE,163,Punilla,16303,Ñiquén,16303,ÑIQUÉN,11556,ÑIQUÉN,3386698
343,16,Ñuble,NUBLE,163,Punilla,16304,San Fabián,16304,SAN FABIÁN,4607,SAN FABIÁN,1798500


Recordemos que podemos dejar solamente las columnas que necesitamos.

In [18]:
df_extended = df_extended[['Nombre Comuna', 'POBLACIÓN', 'PRESUPUESTO', 'Nombre Región']]
df_extended

Unnamed: 0,Nombre Comuna,POBLACIÓN,PRESUPUESTO,Nombre Región
0,Iquique,216514,59072234,Tarapacá
1,Alto Hospicio,124150,13984411,Tarapacá
2,Pozo Almonte,16683,7613962,Tarapacá
3,Camiña,1345,1584008,Tarapacá
4,Colchane,1556,2500000,Tarapacá
...,...,...,...,...
340,San Carlos,55935,10459691,Ñuble
341,Coihueco,28147,5001190,Ñuble
342,Ñiquén,11556,3386698,Ñuble
343,San Fabián,4607,1798500,Ñuble


## Datos de compras: operación entre columnas

En este ejemplo vamos a crear dos DataFrame con datos de clientes y sus respectivas compras. Tendremos un DataFrame llamado `usuarios` que contiene:

* El id del usuario
* El nombre del usuario

Por otro lado, tenemos el DataFrame llamado `productos` que contiene:

* El id del producto
* El nombre del producto
* El precio unitario

Finalmente, tenemos el DataFrame `compras` que contiene:

* El id de un usuario
* El id de un producto
* La cantidad de unidades que ese usuario compró de ese producto

In [19]:
usuarios = pd.DataFrame(
    {
        'uid': [1, 2, 3],
        'unombre': ["Alice", "Bob", "Charles"],
    }
)

usuarios

Unnamed: 0,uid,unombre
0,1,Alice
1,2,Bob
2,3,Charles


In [20]:
productos = pd.DataFrame(
    {
        'pid': [1, 2, 3],
        'pnombre': ["Hamburguesa", "Garbanzos", "Agua"],
        'precio_unitario': [200, 300, 150]
    }
)

productos

Unnamed: 0,pid,pnombre,precio_unitario
0,1,Hamburguesa,200
1,2,Garbanzos,300
2,3,Agua,150


In [21]:
compras = pd.DataFrame(
    {
        'uid': [1, 1, 3],
        'pid': [1, 2, 1],
        'cantidad': [5, 2, 3]
    }
)

compras

Unnamed: 0,uid,pid,cantidad
0,1,1,5
1,1,2,2
2,3,1,3


Si queremos ver que persona, compró qué producto y en qué cantidad podemos hacer un _merge_.

In [22]:
df_extended = usuarios.merge(compras, left_on="uid", right_on="uid")
df_extended

Unnamed: 0,uid,unombre,pid,cantidad
0,1,Alice,1,5
1,1,Alice,2,2
2,3,Charles,1,3


Ahora anexamos la información de productos.

In [23]:
df_extended = df_extended.merge(productos, left_on="pid", right_on="pid")
df_extended.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   uid              3 non-null      int64 
 1   unombre          3 non-null      object
 2   pid              3 non-null      int64 
 3   cantidad         3 non-null      int64 
 4   pnombre          3 non-null      object
 5   precio_unitario  3 non-null      int64 
dtypes: int64(4), object(2)
memory usage: 168.0+ bytes


Si queremos el total gastado por producto, por persona, tenemos que multiplicar la cantidad por el precio unitario

In [24]:
df_extended

Unnamed: 0,uid,unombre,pid,cantidad,pnombre,precio_unitario
0,1,Alice,1,5,Hamburguesa,200
1,3,Charles,1,3,Hamburguesa,200
2,1,Alice,2,2,Garbanzos,300


In [26]:
df_extended['cantidad'] * df_extended['precio_unitario']

0    1000
1     600
2     600
dtype: int64

Podemos asignar esto a una nueva columna.

In [26]:
df_extended['total_por_producto'] = df_extended['cantidad'] * df_extended['precio_unitario']
df_extended

Unnamed: 0,uid,unombre,pid,cantidad,pnombre,precio_unitario,total_por_producto
0,1,Alice,1,5,Hamburguesa,200,1000
1,3,Charles,1,3,Hamburguesa,200,600
2,1,Alice,2,2,Garbanzos,300,600


Podemos dejar solamente las columnas de interes.

In [27]:
df_extended = df_extended[['unombre', 'pnombre','total_por_producto']]
df_extended

Unnamed: 0,unombre,pnombre,total_por_producto
0,Alice,Hamburguesa,1000
1,Charles,Hamburguesa,600
2,Alice,Garbanzos,600


Y el total gastado por usuario.

In [28]:
df_extended[['total_por_producto']].groupby(df_extended['unombre']).sum()

Unnamed: 0_level_0,total_por_producto
unombre,Unnamed: 1_level_1
Alice,1600
Charles,600
