# Introducción a la manipulación de datos con Pandas

Para comenzar:

In [1]:
import pandas as pd

# Crear, leer y guardar

## Crear datos

En Pandas, existen dos tipos de objeto: __Series__ y __DataFrame__.

### Pandas Series
__Series__ es una columna con datos, como en este ejemplo:

In [2]:
serie = pd.Series([1,2,3,4,5], name = 'Numeros')
serie

0    1
1    2
2    3
3    4
4    5
Name: Numeros, dtype: int64

### Pandas DataFrame
__DataFrame__ es una tabla. Puede contener varios tipos de datos, como en el siguiente ejemplo:

In [3]:
df = pd.DataFrame({
    'String': ['A','B','C'],
    'Number': [1, 2, 3],
    'Bool': [True, False, True],
})

df

Unnamed: 0,String,Number,Bool
0,A,1,True
1,B,2,False
2,C,3,True


## Leer datos

Crear nuestros propios datos puede ser util, pero la mayor parte del tiempo vamos a trabajar con datos ya existentes. Con Pandas se pueden leer datos de muchos tipos, siempre que la información sea tabular.

Para los próximos ejercicios trabajaremos con las siguientes bases de datos:

 - Community Mobility Reports de Google: https://www.google.com/covid19/mobility/
 - Lista de empresas beneficiadas por Reactiva Perú: https://www.gob.pe/institucion/mef/informes-publicaciones/675811-lista-de-empresas-que-han-accedido-al-programa-reactiva-peru-al-29-de-mayo-del-2020
 - Casos positivos por Covid 19: https://www.datosabiertos.gob.pe/dataset/casos-positivos-por-covid-19-ministerio-de-salud-minsa
 

Nuestro primer ejemplo será leer el reporte de movilidad de Google, porque tiene el formato más amigable.

In [4]:
mobility_report_df = pd.read_csv('../data/Global_Mobility_Report.csv')

  interactivity=interactivity, compiler=compiler, result=result)


In [5]:
mobility_report_df.head()

Unnamed: 0,country_region_code,country_region,sub_region_1,sub_region_2,iso_3166_2_code,census_fips_code,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
0,AE,United Arab Emirates,,,,,2020-02-15,0.0,4.0,5.0,0.0,2.0,1.0
1,AE,United Arab Emirates,,,,,2020-02-16,1.0,4.0,4.0,1.0,2.0,1.0
2,AE,United Arab Emirates,,,,,2020-02-17,-1.0,1.0,5.0,1.0,2.0,1.0
3,AE,United Arab Emirates,,,,,2020-02-18,-2.0,1.0,5.0,0.0,2.0,1.0
4,AE,United Arab Emirates,,,,,2020-02-19,-2.0,0.0,4.0,-1.0,2.0,1.0


## Guardar datos

Para guardar tablas se pueden utilizar los métodos __.to_csv()__ o __.to_excel()__ según convenga. En este caso usaremos __.to_excel()__.

Advertencia: Ejecutar el siguiente comando puede tomar un tiempo.

In [6]:
mobility_report_df.to_excel('../data/reporte_movilidad.xlsx', index = None)

## Ejercicio 1
Leer la lista de empresas beneficiadas por Reactiva Perú.

In [7]:
# Aquí va el código




# Seleccionar y asignar datos

En esta sección, vamos a trabajar con el reporte de movilidad de Google. El archivo ya está cargado en la variable __mobility_report_df__.

In [8]:
mobility_report_df.head()

Unnamed: 0,country_region_code,country_region,sub_region_1,sub_region_2,iso_3166_2_code,census_fips_code,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
0,AE,United Arab Emirates,,,,,2020-02-15,0.0,4.0,5.0,0.0,2.0,1.0
1,AE,United Arab Emirates,,,,,2020-02-16,1.0,4.0,4.0,1.0,2.0,1.0
2,AE,United Arab Emirates,,,,,2020-02-17,-1.0,1.0,5.0,1.0,2.0,1.0
3,AE,United Arab Emirates,,,,,2020-02-18,-2.0,1.0,5.0,0.0,2.0,1.0
4,AE,United Arab Emirates,,,,,2020-02-19,-2.0,0.0,4.0,-1.0,2.0,1.0


## Forma simple

Para llamar una sola columna se puede usar una de las siguientes formas:

In [9]:
mobility_report_df.country_region_code

0         AE
1         AE
2         AE
3         AE
4         AE
          ..
606462    ZW
606463    ZW
606464    ZW
606465    ZW
606466    ZW
Name: country_region_code, Length: 606467, dtype: object

In [10]:
mobility_report_df['country_region_code']

0         AE
1         AE
2         AE
3         AE
4         AE
          ..
606462    ZW
606463    ZW
606464    ZW
606465    ZW
606466    ZW
Name: country_region_code, Length: 606467, dtype: object

Ámbas formas son válidas, pero la segunda permite llamar columnas con nombres que contengan espacios o algunos caracteres especiaes, o múltiples columnas.

Si lo que se quiere es seleccionar un solo valor en específico, se puede hacer lo siguiente:

In [11]:
mobility_report_df['country_region_code'][2000]

'AO'

## Indexado en Pandas

La forma más útil de seleccionar datos en Pandas es con uno de los métodos para indexación que existen: __.loc[ ]__ y __.iloc[ ]__. Ámbos métodos siguen el orden columna primero, fila después.

Vamos a ver ejemplos: Para seleccionar algunas columnas de las últimas 20 filas de la base de datos se puede intentar esto:

In [12]:
mobility_report_df.iloc[-20:,[0,1,6,11]]

Unnamed: 0,country_region_code,country_region,date,workplaces_percent_change_from_baseline
606447,ZW,Zimbabwe,2020-06-08,-8.0
606448,ZW,Zimbabwe,2020-06-09,-6.0
606449,ZW,Zimbabwe,2020-06-10,-5.0
606450,ZW,Zimbabwe,2020-06-11,-4.0
606451,ZW,Zimbabwe,2020-06-12,-4.0
606452,ZW,Zimbabwe,2020-06-13,24.0
606453,ZW,Zimbabwe,2020-06-14,18.0
606454,ZW,Zimbabwe,2020-06-15,-5.0
606455,ZW,Zimbabwe,2020-06-16,-2.0
606456,ZW,Zimbabwe,2020-06-17,-15.0


Nota: Se pudo obtener un resultado igual usando el método .tail()

Nota 2: La notación ":" proviene de Python nativo y significa "todo". Se puede utilizar en conjunto con otros operadores para hacer selecciones más complejas.

Ahora, vamos a repetir la misma selección usando .loc[ ]

In [13]:
mobility_report_df.loc[606447:,[
    'country_region_code',
    'country_region',
    'date',
    'workplaces_percent_change_from_baseline',
]]

Unnamed: 0,country_region_code,country_region,date,workplaces_percent_change_from_baseline
606447,ZW,Zimbabwe,2020-06-08,-8.0
606448,ZW,Zimbabwe,2020-06-09,-6.0
606449,ZW,Zimbabwe,2020-06-10,-5.0
606450,ZW,Zimbabwe,2020-06-11,-4.0
606451,ZW,Zimbabwe,2020-06-12,-4.0
606452,ZW,Zimbabwe,2020-06-13,24.0
606453,ZW,Zimbabwe,2020-06-14,18.0
606454,ZW,Zimbabwe,2020-06-15,-5.0
606455,ZW,Zimbabwe,2020-06-16,-2.0
606456,ZW,Zimbabwe,2020-06-17,-15.0


Cuál es la diferencia? __iloc__ es un selector que utiliza los índices de las filas y columnas, mientras que __loc__ utiliza las etiquetas (valor del índice, nombre de la columna).

## Selección condicional

¿Qué ocurre si se quiere seleccionar solo los registros que cumplan con cierta condición?

Esto se llama selección condicional y la sintaxis tiene la siguiente forma:

In [14]:
mobility_report_df[ mobility_report_df["country_region_code"] == "PE" ]

Unnamed: 0,country_region_code,country_region,sub_region_1,sub_region_2,iso_3166_2_code,census_fips_code,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
171587,PE,Peru,,,,,2020-02-15,4.0,1.0,3.0,3.0,0.0,-1.0
171588,PE,Peru,,,,,2020-02-16,1.0,0.0,-2.0,2.0,0.0,0.0
171589,PE,Peru,,,,,2020-02-17,0.0,1.0,1.0,2.0,1.0,0.0
171590,PE,Peru,,,,,2020-02-18,0.0,0.0,0.0,1.0,1.0,0.0
171591,PE,Peru,,,,,2020-02-19,0.0,-1.0,0.0,0.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
175200,PE,Peru,Ucayali,,PE-UCA,,2020-06-23,-53.0,-10.0,-29.0,-62.0,-35.0,16.0
175201,PE,Peru,Ucayali,,PE-UCA,,2020-06-24,-73.0,-52.0,-51.0,-70.0,-54.0,23.0
175202,PE,Peru,Ucayali,,PE-UCA,,2020-06-25,-54.0,-20.0,-33.0,-65.0,-36.0,18.0
175203,PE,Peru,Ucayali,,PE-UCA,,2020-06-26,-56.0,-22.0,-32.0,-64.0,-34.0,19.0


Si se quieren añadir más condiciones, se pueden agregar consecutivamente colocando el operador & entre cada una.

In [15]:
mobility_pe = mobility_report_df[ (mobility_report_df["country_region_code"] == "PE") &\
                                  (mobility_report_df["date"].between("2020-05-01","2020-06-01"))]
mobility_pe

Unnamed: 0,country_region_code,country_region,sub_region_1,sub_region_2,iso_3166_2_code,census_fips_code,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
171663,PE,Peru,,,,,2020-05-01,-83.0,-63.0,-75.0,-84.0,-78.0,42.0
171664,PE,Peru,,,,,2020-05-02,-80.0,-57.0,-70.0,-78.0,-64.0,33.0
171665,PE,Peru,,,,,2020-05-03,-95.0,-96.0,-90.0,-93.0,-74.0,34.0
171666,PE,Peru,,,,,2020-05-04,-76.0,-54.0,-66.0,-76.0,-68.0,36.0
171667,PE,Peru,,,,,2020-05-05,-77.0,-56.0,-68.0,-78.0,-70.0,36.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
175174,PE,Peru,Ucayali,,PE-UCA,,2020-05-28,-71.0,-38.0,-46.0,-56.0,-47.0,29.0
175175,PE,Peru,Ucayali,,PE-UCA,,2020-05-29,-71.0,-38.0,-44.0,-55.0,-45.0,30.0
175176,PE,Peru,Ucayali,,PE-UCA,,2020-05-30,-71.0,-40.0,-45.0,-54.0,-40.0,25.0
175177,PE,Peru,Ucayali,,PE-UCA,,2020-05-31,-95.0,-87.0,-75.0,-80.0,-48.0,


Algunos operadores que se pueden utilizar:
 - Comparaciones: == (igualdad), > (mayor que), < (menor que), >= (mayor o igual que), <= (menor o igual que).
 - Valores en un intervalo: .between(valor_min, valor_max).
 - Valores en una lista: .isin([ valor_1, valor_2, valor_3, ...etc ].
 - En general cualquier operador o combinación que devuelva una lista con valores booleanos (True o False).

## Ejercicio 2

Seleccionar las empresas de un departamento a elegir, que hayan recibido préstamos de un banco, también a elegir.

In [16]:
# Aquí va el código




## Ejercicio 2.1

Eliminar la primera fila de la tabla de Reactiva Perú

In [17]:
# Aquí va el código




# Tipos de datos y valores faltantes

## Dtypes

Pandas permite trabajar con varios tipos de valores: Texto, números enteros, decimales, fechas, valores booleanos (True o False). Para poder ver el tipo de los datos en una columna en específico se puede hacer esto:

In [20]:
reactiva_peru['SECTOR'].dtype

dtype('O')

El __dtype('O')__ quiere decir que la columna SECTOR es tratada como un __*Object*__. Pandas llama así al texto.

Para ver los tipos de datos por cada columna, se puede usar el método __.info()__

In [21]:
reactiva_peru.info()

<class 'pandas.core.frame.DataFrame'>
Float64Index: 71554 entries, nan to 71553.0
Data columns (total 8 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   NOMBRE EMPRESA                         71553 non-null  object 
 1   RUC                                    71553 non-null  float64
 2   SECTOR                                 71553 non-null  object 
 3   TIPO DE ENTIDAD OTORGANTE DEL CRÉDITO  71553 non-null  object 
 4   NOMBRE ENTIDAD OTORGANTE DEL CRÉDITO   71553 non-null  object 
 5   MONTO PRÉSTAMO                         71554 non-null  object 
 6   MONTO COBERTURA                        71554 non-null  object 
 7   DEPARTAMENTO                           71553 non-null  object 
dtypes: float64(1), object(7)
memory usage: 4.9+ MB


Vemos que las columnas "MONTO PRÉSTAMO" y "MONTO COBERTURA" están siendo reconocidas como texto, pero deberían ser números con decimales. Para cambiar el tipo de dato de una columna se hace lo siguiente:

In [24]:
reactiva_peru["MONTO PRÉSTAMO"] = reactiva_peru["MONTO PRÉSTAMO"].astype(float)

## Valores faltantes

El comando info también muestra el número de valores "Non-Null" que existen en cada columna. ¿Qué ocurre si intentamos hacer lo mismo con la base de movilidad de Google?

In [25]:
mobility_pe.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 864 entries, 171663 to 175178
Data columns (total 13 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   country_region_code                                 864 non-null    object 
 1   country_region                                      864 non-null    object 
 2   sub_region_1                                        832 non-null    object 
 3   sub_region_2                                        0 non-null      object 
 4   iso_3166_2_code                                     832 non-null    object 
 5   census_fips_code                                    0 non-null      float64
 6   date                                                864 non-null    object 
 7   retail_and_recreation_percent_change_from_baseline  800 non-null    float64
 8   grocery_and_pharmacy_percent_change_from_baseline   768 non-null    floa

A diferencia del caso anterior, ahora vemos números diferentes, eso quiere decir que se tienen valores faltantes. Estos valores pueden reemplazarse con el método __fillna__.

Por ejemplo, vamos a reemplazar los valores de la columna "sub_region_1"

In [26]:
mobility_pe['sub_region_1'] = mobility_pe['sub_region_1'].fillna("Full")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Elegimos este valor porque los datos faltantes se deben a las filas que muestran las cifras de movilidad agrupadas a nivel país.

## Ejercicio 3

Arreglar los tipos de datos en la base de reactiva_peru

In [None]:
# Aquí va el código




# Funciones de resumen

A veces se quiere obtener agregaciones sobre datos seleccionados. Funciones como la media, desviación estandar, suma de valores, valores extremos o tamaño de la muestra pueden ser extraídos mediante métodos agregados como los que veremos a continuación:

## Funciones de resumen

Una forma rápida de obtener información rápida sobre un conjunto de datos consiste en utilizar el método __.describe()__, que muestra una descripción superficial.

In [27]:
mobility_pe.describe()

Unnamed: 0,census_fips_code,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
count,0.0,800.0,768.0,864.0,828.0,864.0,647.0
mean,,-80.19625,-57.08724,-59.777778,-76.745169,-51.851852,30.684699
std,,7.995163,17.457385,12.973426,9.918972,11.947987,4.007284
min,,-98.0,-97.0,-94.0,-100.0,-84.0,20.0
25%,,-84.0,-62.0,-65.0,-83.0,-60.0,28.0
50%,,-79.0,-53.0,-58.0,-77.0,-52.0,31.0
75%,,-75.0,-46.0,-51.0,-71.0,-44.0,33.0
max,,-58.0,-26.0,-27.0,-29.0,-5.0,47.0


También funciona en columnas individuales

In [28]:
mobility_pe.retail_and_recreation_percent_change_from_baseline.describe()

count    800.000000
mean     -80.196250
std        7.995163
min      -98.000000
25%      -84.000000
50%      -79.000000
75%      -75.000000
max      -58.000000
Name: retail_and_recreation_percent_change_from_baseline, dtype: float64

Algunos ejemplos adicionales:

In [29]:
mobility_pe['sub_region_1'].unique()

array(['Full', 'Amazonas', 'Ancash', 'Apurimac', 'Arequipa', 'Ayacucho',
       'Cajamarca', 'Callao Region', 'Cusco', 'Huancavelica', 'Huanuco',
       'Ica', 'Junin', 'La Libertad', 'Lambayeque', 'Lima Region',
       'Loreto', 'Madre de Dios', 'Metropolitan Municipality of Lima',
       'Moquegua', 'Pasco', 'Piura', 'Puno', 'San Martin', 'Tacna',
       'Tumbes', 'Ucayali'], dtype=object)

In [30]:
mobility_pe['sub_region_1'].value_counts()

San Martin                           32
Amazonas                             32
Lima Region                          32
Junin                                32
Ica                                  32
Moquegua                             32
Tacna                                32
Ancash                               32
Arequipa                             32
Metropolitan Municipality of Lima    32
Loreto                               32
Pasco                                32
Full                                 32
Callao Region                        32
Ucayali                              32
Tumbes                               32
Lambayeque                           32
Cajamarca                            32
Madre de Dios                        32
Apurimac                             32
Huancavelica                         32
Cusco                                32
Huanuco                              32
Puno                                 32
La Libertad                          32


In [31]:
mobility_pe['retail_and_recreation_percent_change_from_baseline'].min()

-98.0

## Ejercicio 4

Según los datos abiertos: ¿Cuántos casos confirmados de Covid-19 hay en el país, por departamento?

In [None]:
# Aquí va el código




# Agrupaciones y orden

## Análisis por grupos

In [32]:
reactiva_peru.groupby(['DEPARTAMENTO']).agg({'MONTO PRÉSTAMO':['count','sum']})

Unnamed: 0_level_0,MONTO PRÉSTAMO,MONTO PRÉSTAMO
Unnamed: 0_level_1,count,sum
DEPARTAMENTO,Unnamed: 1_level_2,Unnamed: 2_level_2
AMAZONAS,588,51511020.0
ANCASH,1813,242905700.0
APURÍMAC,746,79046070.0
AREQUIPA,4407,1031299000.0
AYACUCHO,708,109786500.0
CAJAMARCA,1885,340766900.0
CALLAO,1675,933634100.0
CUSCO,2960,407070100.0
HUANCAVELICA,116,13443850.0
HUÁNUCO,889,112358700.0


Guardamos los resultados en una variable:

In [33]:
reactiva_por_departamento = reactiva_peru.groupby(['DEPARTAMENTO']).agg({'MONTO PRÉSTAMO':['count','sum']})

## Ordenamiento de datos

Por defecto, un groupby genera la nueva tabla y la ordena ascendentemente (si el índice es texto, alfabéticamente) según el índice. Para cambiar el orden de un DataFrame, se puede usar el siguiente comando:

In [34]:
reactiva_por_departamento.sort_values( by = ("MONTO PRÉSTAMO","count"), ascending = False )

Unnamed: 0_level_0,MONTO PRÉSTAMO,MONTO PRÉSTAMO
Unnamed: 0_level_1,count,sum
DEPARTAMENTO,Unnamed: 1_level_2,Unnamed: 2_level_2
LIMA,35451,17169280000.0
AREQUIPA,4407,1031299000.0
LA LIBERTAD,3962,1006228000.0
CUSCO,2960,407070100.0
JUNÍN,2473,363460300.0
PIURA,2118,619922200.0
LAMBAYEQUE,2101,494718100.0
CAJAMARCA,1885,340766900.0
ANCASH,1813,242905700.0
CALLAO,1675,933634100.0


## Ejercicio 5

Como ejercicio final, vamos a usar los datos abiertos de casos de Covid-19. Lo que se busca es lo siguiente:

- Leer el archivo (si es que no se ha hecho ya).
- Calcular el número de casos y la edad media por distrito. Para eso se recomienda el uso de __groupby__.
- Mostrar los 20 distritos con mayor número de casos confirmados. Se recomienda el uso de __sort_values__.

In [None]:
# Aquí va el código

